El software estadístico gratuito es una alternativa práctica a los paquetes comerciales. Muchos de los programas de uso gratuito pretenden tener una función similar a los paquetes comerciales, en el sentido de que son paquetes estadísticos generales que realizan una variedad de análisis estadísticos. Muchos otros programas de uso gratuito fueron diseñados específicamente para funciones particulares, como análisis factorial, análisis de potencia en cálculos de tamaño de muestra, árboles de clasificación y regresión, o análisis de datos faltantes.
Muchos de los paquetes de uso gratuito son bastante fáciles de aprender mediante sistemas de menús. Muchos otros están controlados por órdenes. Otros son metapaquetes o entornos informáticos estadísticos, que permiten al usuario codificar procedimientos estadísticos completamente nuevos. Estos paquetes provienen de una variedad de fuentes, incluidos gobiernos , universidades y particulares.
Este artículo es principalmente una revisión de los paquetes estadísticos generales.
SAS (software) estuvo entre los primeros paquetes estadísticos comerciales, lanzado para mainframes en 1968. [1] Desde entonces, SAS ha lanzado versiones de uso gratuito, la más reciente de las cuales es SAS Studio. [2] Epi Info, un programa de uso gratuito de los Centros para el Control y la Prevención de Enfermedades, fue desarrollado en la década de 1980. [3] Uno de los primeros programas estadísticos de código abierto y de uso completamente gratuito fue R , lanzado por primera vez en 2000. [1]
Algunos de los paquetes de software gratuitos son de gobiernos, por ejemplo Epi Info , que es de CDC [4] (Centros para el Control y la Prevención de Enfermedades). Algunos otros paquetes de software provienen de organizaciones o universidades más pequeñas o independientes. JASP cuenta con el apoyo de la Universidad de Amsterdam . [5] Otros dos paquetes, R , [6] y PSPP están siendo desarrollados como parte del Proyecto GNU por un gran grupo de personas, muchas de ellas voluntarias, en todo el mundo. Estos paquetes se destacan porque no son sólo código abierto sino también software libre en el mismo sentido que el material escrito en Wikipedia es gratuito: otros pueden editarlo, usarlo y redistribuirlo a voluntad.
OpenStat fue desarrollado como una ayuda didáctica. [7] Otros paquetes se desarrollaron para fines específicos, pero pueden usarse de manera más general. Un ejemplo es Epi Info, desarrollado para la salud pública. Varios de los paquetes, PSPP, R y Osiris, no parecen dar ninguna declaración sobre por qué fueron desarrollados, aparte del uso general para análisis estadístico.
Estos paquetes de software gratuitos se han utilizado en varias publicaciones académicas. Por ejemplo, OpenStat se utilizó en una carta de investigación enviada a JAMA [8] y en varios estudios publicados. [9] [10] [11] Irristat se utiliza en un informe agrícola, [12] EasyReg figura o se utiliza en varios artículos, [13] [14] [15] EpiInfo también se utilizó en varios artículos, [16] [ 17] [18] R se utilizó en varios artículos [19] [20] [21] y WinIdams se utilizó en otros artículos. [22] [23]
Si bien Microsiris no parece usarse en investigaciones académicas, el autor del programa fue uno de los autores originales de OSIRIS, [24] que fue el programa inicial a partir del cual se desarrolló WinIdams. [25] El autor de Microsiris también ha contribuido o co-contribuido con varios componentes de WinIdams. [25]
Hay algunas reseñas de software estadístico gratuito. Hubo dos revisiones en revistas (pero no revisadas por pares), una de Zhu y Kuljaca [26] y otro artículo de Grant que incluía principalmente una breve revisión de R. [27] Zhu y Kuljaca describieron algunas características útiles del software, como facilidad de uso, disponer de una serie de procedimientos estadísticos y capacidad para desarrollar nuevos procedimientos. Revisaron varios programas e identificaron cuáles, en ese momento, tenían más funcionalidad. En ese momento, es posible que varios de los programas no tuvieran toda la capacidad deseada para realizar estadísticas avanzadas. Grant revisó algunas de las características de programación de R y mencionó brevemente la disponibilidad de otros programas. Otro artículo revisó paquetes estadísticos, principalmente comerciales, pero incluye R. [28] Un artículo revisó EasyReg e incluyó una discusión sobre su precisión. [29]
Sólo dos revisiones han comparado el rendimiento de varios paquetes. [30] [31] En la revisión de 2006, todos los paquetes leen archivos CSV o formato Microsoft Excel . Todos los paquetes dieron exactamente los mismos resultados de correlación y regresión . Los paquetes de software libre también dieron los mismos resultados de regresión que Excel. Una de las principales diferencias entre los paquetes fue cómo manejaban los datos faltantes . Con los conjuntos de datos de ejemplo utilizados en la revisión, y para las versiones de paquetes disponibles en noviembre de 2006 cuando se realizó esta revisión, dos paquetes, MicrOsiris y Epi Info, podían leer archivos con espacios en blanco por faltar. Otros dos programas, Stat4U y WinIdams, necesitan algo para los que faltan, como -9 o -9,99. Los otros paquetes sólo podían manejar conjuntos de datos sin valores faltantes. La revisión más reciente, de 2022, comparó los resultados de varios paquetes estadísticos de uso gratuito y descubrió que todos daban prácticamente los mismos resultados.
Por el contrario, existen varias revisiones de software estadístico comercial, como una comparación entre varios paquetes importantes [32] y una breve revisión de varios paquetes. [33]
Antes de utilizar cualquier paquete estadístico, generalmente es una buena idea tener una sólida formación en estadística . Luego, los paquetes se pueden utilizar de la mejor manera, por ejemplo, para elegir la prueba más adecuada, para asegurarse de que se cumplan todas las suposiciones necesarias, de modo que se puedan extraer las conclusiones adecuadas.
Una vez que se comprenden las cuestiones estadísticas, el siguiente paso es decidir qué paquete utilizar. La mayoría de estos paquetes están controlados por menús y se pueden aprender en un par de horas como máximo, excepto R, que generalmente está controlado por código y requiere mucho más tiempo para aprenderse, y hasta cierto punto Epi Info de CDC, que también lleva algo de tiempo. para aprender.
Varios de los paquetes también tienen tutoriales. Estos tutoriales ayudan con una introducción básica y el aprendizaje de los conceptos básicos de los programas. Por ejemplo, los CDC tienen tutoriales sobre Epi Info . [34] [35] La página de los CDC también incluye una presentación de diapositivas en video tutorial de la Universidad de Nebraska, [36] y otro sitio tiene clases de capacitación en línea. [37] R tiene una gran cantidad de tutoriales y manuales, en inglés y otros idiomas [38] [39] [40] y un sitio de preguntas frecuentes. [41] PSPP tiene un tutorial particularmente fácil de seguir y un rico conjunto de análisis estadísticos, que incluyen prueba T, Anova unidireccional y factorial, regresión lineal y logística y análisis de componentes principales. También prevé que sea muy fácil importar datos desde muchos otros formatos de archivos diferentes. Algunos de los paquetes tienen listas de discusión por correo electrónico, incluidos R [42] y PSPP. [43]
La mayoría de los paquetes tienen manuales, guías o páginas de ayuda en línea. Son útiles cuando hay preguntas sobre procedimientos específicos o pruebas estadísticas. Algunos manuales o guías son para R , [44] PSPP , [45] y Zelig . [46] El sitio CDC EpiInfo en sí no tiene un manual, pero un miembro del cuerpo docente de la Escuela de Salud Pública de Emory tiene un manual introductorio. [47]
Finalmente, existen una serie de paquetes comerciales como SAS , [48] SPSS [49] y muchos otros. [50] La mayoría de los principales paquetes comerciales y gratuitos tienen muchos procedimientos estadísticos en común. La razón principal para utilizar paquetes gratuitos es probablemente el coste.
Muchos de los paquetes tienen algún tipo de menú de apertura que se utiliza para obtener o ingresar datos, manipularlos y seleccionar el análisis estadístico. Luego, después de iniciar el programa, generalmente se pueden obtener datos, ya sea de conjuntos de datos previamente guardados o importándolos desde algún otro formato. Desde este menú se pueden importar archivos de datos en varios formatos. Por ejemplo, si los datos están en formato CSV (texto con comas entre valores), el programa reconoce el formato y crea un conjunto de datos a partir del archivo CSV. Finalmente, el programa se puede utilizar para hacer algunos análisis. En este menú de análisis se pueden seleccionar las variables de interés, junto con otras opciones. Luego se ejecuta el análisis y se obtienen los resultados.
R se puede utilizar tanto de forma basada en menús como como lenguaje de programación y como intérprete.
La mayoría de los paquetes pueden importar datos desde Excel o CSV (texto con comas que separan los valores).
Una consideración es si faltan datos. Algunos paquetes, como PSPP y MicrOsiris, pueden gestionar automáticamente los datos faltantes. Entonces, por ejemplo, digamos que un conjunto de datos se ve así:
En este conjunto de datos, a Sam le falta su edad y a Sally le falta si nació en los EE. UU. Cuando algunos paquetes, como PSPP o MicrOsiris, leen o importan el conjunto de datos original, los paquetes reconocerán que faltan esos valores y realizarán sus cálculos en consecuencia. MicrOsiris asigna automáticamente 1,5 o 1,6 mil millones a los espacios en blanco que faltan, y estos valores se excluyen del análisis. [51]
Otros paquetes necesitan un 'marcador de posición', como '-9' donde faltan datos. [52] Antes de utilizar el paquete para leer los datos, el conjunto de datos debe editarse para colocarlo en un marcador de posición donde faltan datos. Así por ejemplo:
Si el conjunto de datos realmente incluye '-9', cuando los datos se lean en el programa se deberá indicar cuándo -9 significa datos faltantes.
La mayoría de los paquetes tienen limitaciones de algún tipo.
Varios de los programas, incluidos Easyreg, Epidata e Instat, no parecen manejar los datos faltantes o no los manejan bien. [30] Si bien EpiInfo tiene muchos procedimientos estadísticos, la correlación no es uno de ellos. Más bien, la correlación se encuentra mediante regresión. [53] Esto significa que EpiInfo no producirá una sola tabla que muestre correlaciones entre múltiples variables. Según el manual de instalación de Zelig, el uso de Zelig requiere que R y varias de sus bibliotecas ya estén instalados, y la instalación también requiere cierto grado de experiencia en R. [46] Un límite de MicrOsiris es el manejo de la salida. Cuando se completan los cálculos, la salida recorre los resultados, pero también aparecen varios cuadros de menú sobre los resultados, por lo que no se puede acceder a los resultados. Sin embargo, el resultado se puede guardar como un archivo de texto y luego utilizarlo.
Una limitación es específica de los programas desarrollados por individuos. El soporte para estos programas está limitado al tiempo que el autor tenga disponible. Si bien los autores pueden responder, y a menudo lo hacen, con bastante rapidez cuando hay pocas personas haciendo preguntas, si demasiadas personas hacen preguntas o el autor está ocupado, el soporte sería correspondientemente más lento.
R está escrito y utilizado por un gran número de personas en todo el mundo, y se pueden utilizar muchos foros y otras instalaciones de Internet para obtener ayuda de otros usuarios. Si bien R es poderoso, la curva de aprendizaje puede ser bastante pronunciada para quienes aún no están familiarizados con otros tipos de programación científica. [54]
{{cite web}}
: CS1 maint: multiple names: authors list (link)Este artículo incorpora material del artículo de Citizendium "Software estadístico gratuito", que tiene la licencia Creative Commons Attribution-ShareAlike 3.0 Unported pero no la GFDL .