UCV

UCV
UCV

lunes, 1 de abril de 2019

Software de Data Science utilizado en revistas: paquetes de estadísticas en declive (incluida R), AI / ML Software Growing

En mi interminable búsqueda para rastrear artículos de estadística me encontré con el siguiente: la popularidad del software Data Science . El rápido crecimiento de R no podría durar para siempre y, como se verá más adelante, su uso disminuyó en el último año.

Articulos escolares

Los artículos académicos proporcionan una fuente rica de información sobre herramientas de ciencia de datos. Debido a que la publicación requiere una gran cantidad de esfuerzo, el análisis del tipo de herramientas de ciencia de datos que se usa en los artículos académicos brinda una mejor imagen de su popularidad que una simple encuesta sobre el uso de herramientas. Cuanto más popular es un paquete de software, más probable es que aparezca en publicaciones académicas como una herramienta de análisis, o incluso como un objeto de estudio.
Dado que los artículos académicos tienden a utilizar métodos de vanguardia, el software que se utiliza en ellos puede ser un indicador importante de hacia dónde se dirige el mercado general del software de ciencia de datos. Google Scholar ofrece una manera de medir dicha actividad. Sin embargo, ninguna búsqueda de esta magnitud es perfecta; Cada uno incluirá algunos artículos irrelevantes y rechazará algunos relevantes. Los detalles de los términos de búsqueda que utilicé son lo suficientemente complejos como para pasar a un artículo complementario,  Cómo buscar artículos de Data Science . Dado que Google mejora regularmente su algoritmo de búsqueda, cada año recopilo datos nuevamente durante los años anteriores (con una excepción que se detalla a continuación).
La Figura 2a muestra la cantidad de artículos encontrados para los paquetes de software e idiomas más populares (aquellos con al menos 1,700 artículos) en el año completo más reciente, 2018. Para permitir un tiempo suficiente para la publicación, inserción en bases de datos en línea e indización, Datos recogidos el 28/03/2019.



Figura 2a. La cantidad de artículos académicos encontrados en Google Scholar, para software de ciencia de datos. Solo se muestran aquellos con más de 1,700 citas.

SPSS es, con mucho, el paquete más dominante, como lo ha sido durante más de 20 años. Esto puede deberse a su equilibrio entre potencia y facilidad de uso. R está en segundo lugar con alrededor de la mitad de artículos. Ofrece potencia extrema, aunque con menos facilidad de uso . SAS ocupa el tercer lugar, con una ligera ventaja sobre Stata, MATLAB y GraphPad Prism, que están casi empatados.
Tenga en cuenta que los lenguajes de propósito general: C, C ++, C #, FORTRAN, Java, MATLAB y Python se incluyen solo cuando se encuentran en combinación con los términos de ciencia de datos, por lo tanto, considere esos recuentos como más aproximados que el resto.
El siguiente grupo de paquetes va de Python a C, y el uso disminuye lentamente. El siguiente conjunto comienza en Caffe, bajando casi el 50% y continuando a IBM Watson con un lento declive.
Los dos últimos paquetes en la Fig. 2a son Weka y Theano, que son una gota de IBM Watson, aunque cada vez es más difícil ver que las líneas se encogen.
Para continuar en esta escala, todos los paquetes restantes aparecerían demasiado cerca del eje y para leer, por lo que la Figura 2b muestra el software restante en una escala mucho más pequeña, y el eje y va a solo 1,700 en lugar de los 80,000 utilizados en Figura 2a.



Figura 2b. Númerode artículos académicos que usan cada software de ciencia de datos encontrado usando Google Scholar. Solo se muestran aquellos con menos de 1,700 citas.

Elegí comenzar la Figura 2b con un software que tiene menos de 1,700 artículos porque nos permite ver RapidMiner y KNIME en la misma escala. Ambas son herramientas impulsadas por el flujo de trabajo con capacidades muy similares. Esta gráfica muestra RapidMiner con un 49% más de uso que KNIME. RapidMiner utiliza más marketing, mientras que KNIME depende más de recomendaciones de boca en boca y de un modelo de código más abierto. Las firmas consultoras de TI Gartner y Forrester las calificancomo herramientas capaces de defenderse de los titanes comerciales, SPSS y SAS de IBM. Dado que SPSS tiene aproximadamente 50 veces el uso en el mundo académico, eso parece bastante difícil. Sin embargo, como veremos pronto, el uso de estos paquetes más nuevos está creciendo, mientras que el uso de los más antiguos se está reduciendo bastante rápidamente.
La Figura 2b también nos permite ver SPSS Modeler, SAS Enterprise Miner y Alteryx de IBM en la misma gráfica. Estos tres también son herramientas impulsadas por el flujo de trabajo que son bastante caras. Ninguno lo está haciendo tan bien aquí como RapidMiner o KNIME, herramientas mucho menos costosas, o gratuitas, dependiendo de cómo las use (el escritorio de KNIME es gratuito, pero servidorno es; RapidMiner es gratuito para analizar menos de 10,000 casos).
Otra comparación interesante enLa figura 2b es JASP y jamovi . Ambas son herramientas de código abierto que se centran en estadísticas en lugar de aprendizaje automático o inteligencia artificial. Ambos utilizan interfaces gráficas de usuario (GUI) en un estilo que es similar a SPSS. Ambos también usan R detrás de escena para hacer sus cálculos. JASP enfatiza el análisis bayesiano y oculta su código R; jamovi tiene una orientación más frecuente, le permite ver su código R y le permite ejecutar su propio código R directamente desde él. JASP actualmente tiene nueve veces más citas aquí, aunque el uso de jamovis está creciendo mucho más rápidamente.
Incluso más reciente en la GUI para la escena R es BlueSky Statistics , que no aparece en la trama, ya que hasta el momento no tiene artículos académicos. Fue creado por una nueva empresa y solo adoptó un modelo de código abierto hace unos meses.
Si bien las Figuras 2a y 2b son útiles para estudiar la cuota de mercado tal como está ahora, no muestran cómo están cambiando las cosas. Sería ideal contar con gráficos de tendencias de crecimiento a largo plazo para cada uno de los paquetes de análisis, pero la recopilación de esa cantidad de datos anualmente requiere mucho tiempo. En su lugar, lo que he hecho es recopilar datos solo de los últimos dos años completos, 2017 y 2018. Esto proporciona los datos necesarios para estudiar los cambios interanuales.
La Figura 2c muestra el porcentaje de cambio a lo largo de esos años, con los crecientes paquetes "calientes" mostrados en rojo (lado derecho); la disminución o el "enfriamiento" se muestran en azul (lado izquierdo). Dado que la cantidad de artículos tiende a ser de miles o decenas de miles, eliminé cualquier software que tuviera menos de 1,000 artículos en 2015. Un paquete que crece de 1 artículo a 5 puede mostrar un crecimiento del 500%, pero todavía es de poco interés. .



Figura 2c. Cambio en la tasa de citas de Google Scholar en los últimos dos años completos, 2017 y 2018.

Los cambios recientes en el software de ciencia de datos pueden resumirse sucintamente: AI / ML up; estadísticas abajo El software que está creciendo no contiene ninguno de los paquetes que están asociados más con el análisis estadístico. El software en declive está dominado por los paquetes clásicos de estadísticas: SPSS Statistics, SAS, GraphPad Prism, Stata, Statgraphics, R, Statistica, Systat y Minitab. JMP es el único paquete de estadísticas tradicional cuyo uso académico está creciendo. Del software de aprendizaje automático que está disminuyendo en el uso, hay equivalentes aproximados que están creciendo (por ejemplo, Mahout down, Spark up).
De cursootro resumen es: barato (o gratis) arriba; caro hacia abajo. De los paquetes en crecimiento, 13 de los 17 están disponibles en código abierto. De los que están en declive, solo 5 de los 13 son de código abierto.
El software de estadísticas ha existido durante mucho más tiempo que el software AI / ML, se inició en los días anteriores al código abierto. Los proveedores de estadísticas han estado agregando métodos AI / ML a su software, lo que los convierte en las soluciones más completas. A los proveedores o proyectos de AI / ML les está perdiendo la oportunidad de agregar capacidades de estadísticas más completas. Algunos, como RapidMiner y KNIME, se están expandiendo en esta dirección, pero muy lentamente.
En la parte superior de la Figura 2c, vemos que los paquetes de aprendizaje profundo Keras y TensorFlow son los de mayor crecimiento con casi un 150%. PyTorch no se muestra aquí porque no tuvo suficiente uso en el año anterior. Sin embargo, su tasa de citas pasó de 616 a 4,670, ¡una tasa de crecimiento sustancial del 658%! Hay otros paquetes que no se muestran aquí, incluyendo JASP con un crecimiento del 223% y jamovi con un crecimiento del 720%. A pesar de un crecimiento tan alto, este último solo tiene 108 citas en 2018. El rápido crecimiento de JASP y jamovi da credibilidad a la perspectiva de que el patrón general de cambio que se muestra en la Figura 2c puede ser más un resultado del software libre en comparación con el costoso. Ninguno de ellos ofrece ninguna característica de AI / ML.
Scikit Learn, la biblioteca de aprendizaje automático de Python, creció rápidamente con un aumento del 60%.
Me sorprendió ver que IBM Watson creció un 34% de forma saludable, ya que muchas de las noticias no han sido buenas . ¡Aunque es increíble en Jeopardy !
En el concurso RapidMiner vs. KNIME, vimos anteriormente que RapidMiner estaba por delante. A partir de este gráfico, hemos dicho que KNIME está creciendo ligeramente (5.7%), mientras que RapidMiner está disminuyendo ligeramente (1.8%).
Los mayores perdedores en la Figura 2c son SPSS, un 39% menos, y SAS, Prism y Mahout, todos un 24% menos. Incluso R ha bajado un 13%. Recuerde que la Figura 2a muestra que a pesar de los últimos años de declive, SPSS sigue siendo extremadamente dominante para el uso académico, y R y SAS siguen siendo los paquetes más utilizados # 2 y # 3 en esta área.
Estoy particularmente interesado en las tendencias a largo plazo de los paquetes de estadísticas clásicas. Así que en la Figura 2d he trazado los mismos datos de uso académico para 1995 hasta 2016.



Figura 2d. La cantidad de citas de Google Scholar para cada paquete de estadísticas clásicas por año desde 1995 hasta 2016.

SPSS tiene una clara ventaja en general, pero ahora puede ver que su dominio alcanzó su punto máximo en 2009 y su uso está en un fuerte descenso. SAS nunca se acercó al nivel de dominio de SPSS, y su uso alcanzó su punto máximo alrededor de 2010.GraphPADPrism siguió un patrón similar, aunque llegó un poco más tarde, alrededor de 2013.
En la Figura 2d, el dominio extremo de SPSS hace que sea difícil ver las tendencias a largo plazo en el otro software. Para solucionar este problema, he eliminado SPSS y todos los datos de SAS excepto para 2014 y 1015. El resultado se muestra en la Figura 2e.



Figura 2e. La cantidad de citas de Google Scholar para cada paquete de estadísticas clásico desde 1995 hasta 2016, esta vez con SPSS eliminado y SAS incluido solo en 2014 y 2015. La eliminación de SPSS y SASexpandido La escala hace que sea más fácil ver el rápido crecimiento de los paquetes menos populares.

La Figura 2e hace que sea fácil ver que la mayoría de los paquetes restantes crecieron constantemente a lo largo del período de tiempo mostrado. R y Stata crecieron especialmente rápido, al igual que Prism hasta 2012. Tenga en cuenta que la disminución en el número de artículos que usaron SPSS, SAS o Prism no se ve compensada por el aumento en el otro software que se muestra en este gráfico en particular. Incluso sumar todo el otro software que se muestra en las Figuras 2a y 2b no tiene en cuenta la disminución general. Sin embargo, estoy viendo solo 58 de más de 100 herramientas de ciencia de datos.
Mientras que las Figuras 2d y 2e muestran la tendencia histórica que terminó en 2016, la Figura 2f muestra un nuevo conjunto de datos recopilados en Marzo,2019. Dado que el algoritmo de Google cambia, lo que evita que los nuevos datos coincidan exactamente con los antiguos, estos nuevos datos comienzan en 2015, por lo que los dos conjuntos se superponen. SPSS no se muestra en este gráfico porque su predominio comprimiría el eje y, haciendo que las tendencias en los demás sean más difíciles de ver. Sin embargo, tenga en cuenta que a pesar de la caída del 39% de SPSS de 2017 a 2018, ¡su uso sigue siendo un 66% más alto que los R en 2018!Aparentemente La gente está dispuesta a pagar por la facilidad de uso.



Figura 2f. El número de citas de Google Académico para cada paquete de estadísticas clásico por año desde 2015 hasta 2018.

En la Figura 2f podemos ver que las tendencias a la baja de SAS, Prism y Statistica continúan. También vemos que el largo y rápido crecimiento de R y Stata ha llegado a su fin. El crecimiento tan rápido no puede durar para siempre. Será interesante ver el próximo año para ver si esto es simplemente un aplanamiento del uso o el comienzo de una tendencia a la baja. Como señalé en mi libro, R para usuarios de Stata , hay muchos puntos en común entre R y Stata. Como resultado de esto, y el hecho de que R es de código abierto, esperoUso R para estabilizar a este nivel mientras utilizar De Stata sigue disminuyendo lentamente.
El rápido declive a largo plazo de SPSS tiene que nivelarse en algún momento. Han sido destrozados por muchos competidores. Sin embargo, hasta hace poco, estos competidores han sido gratuitos y basados ​​en código, como R, o basados ​​en menús y propietarios, como Prism. Con la reciente llegada de JASP, jamovi y BlueSky Statistics , SPSS ahora enfrenta un software gratuito y basado en menús. Los proyectos anteriores para agregar menús a R, como R Commander y Deducer , también eran gratuitos y de código abierto, pero requerían instalar R por separado y luego usar el código R para activar los menús.
Estos resultados se aplican a artículos académicos en general. Es muy probable que los resultados en campos específicos o revistas sean diferentes.
Para ver muchas otras formas de estimar la participación de mercado de este tipo de software, vea mi artículo en curso,  La popularidad del software Data Science . Mi próxima publicación actualizará los anuncios de trabajo que listan software científico. Usted también podría estar interesado en mis exámenes a fondo de apuntar y hacer clic  interfaces de usuario a R . Te invito a que te suscribas a  mi blog  o me sigas en  Twitter  donde anuncie nuevas publicaciones. ¡Feliz computación!

AUTOR: BOB MUENCHEN

No hay comentarios.:

Publicar un comentario