El software estadístico gratuito es una alternativa práctica a los paquetes comerciales. Muchos de los programas gratuitos tienen como objetivo ser similares en cuanto a funciones a los paquetes comerciales, en el sentido de que son paquetes estadísticos generales que realizan una variedad de análisis estadísticos. Muchos otros programas gratuitos fueron diseñados específicamente para funciones específicas, como análisis factorial, análisis de potencia en cálculos de tamaño de muestra, árboles de clasificación y regresión o análisis de datos faltantes.
Muchos de los paquetes de uso gratuito son bastante fáciles de aprender mediante sistemas de menú. Muchos otros se basan en comandos. Y otros son metapaquetes o entornos de computación estadística que permiten al usuario codificar procedimientos estadísticos completamente nuevos. Estos paquetes proceden de diversas fuentes, entre las que se incluyen gobiernos , universidades y particulares.
Este artículo es principalmente una revisión de los paquetes estadísticos generales.
SAS (software) fue uno de los primeros paquetes estadísticos comerciales, lanzado para mainframes en 1968. [1] Desde entonces, SAS ha lanzado versiones de uso gratuito, la más reciente de las cuales es SAS Studio. [2] Epi Info, un programa de uso gratuito de los Centros para el Control y la Prevención de Enfermedades , se desarrolló en la década de 1980. [3] Uno de los primeros programas estadísticos completamente gratuitos y de código abierto fue R , lanzado por primera vez en 2000. [1]
Algunos de los paquetes de software libre son de gobiernos, por ejemplo Epi Info , que es de CDC [4] (Centros para el Control y la Prevención de Enfermedades). Algunos otros paquetes de software son de organizaciones o universidades más pequeñas o independientes. JASP cuenta con el apoyo de la Universidad de Ámsterdam . [5] Otros dos paquetes, R , [6] y PSPP están siendo desarrollados como parte del Proyecto GNU por un gran grupo de individuos, muchos de ellos voluntarios, en todo el mundo. Estos paquetes son notables porque no solo son de código abierto sino también software libre en el mismo sentido que el material escrito en Wikipedia es libre: otros pueden editarlo, usarlo y redistribuirlo a voluntad.
OpenStat se desarrolló como una herramienta de apoyo a la enseñanza. [7] Otros paquetes se desarrollaron para fines específicos, pero pueden utilizarse de forma más general. Un ejemplo es Epi Info, desarrollado para la salud pública. Varios de los paquetes, PSPP, R y Osiris, no parecen dar ninguna explicación sobre por qué se desarrollaron, más allá de su uso general para el análisis estadístico.
Estos paquetes de software libre se han utilizado en varias publicaciones académicas. Por ejemplo, OpenStat se utilizó en una carta de investigación a JAMA [8] y en varios estudios publicados. [9] [10] [11] Irristat se utiliza en un informe agrícola, [12] EasyReg se menciona o se utiliza en varios artículos, [13] [14] [15] EpiInfo también se utilizó en varios artículos, [16] [17] [18] R se utilizó en varios artículos [19] [20] [21] y WinIdams se utilizó en otros artículos. [22] [23]
Aunque Microsiris no parece ser utilizado en investigaciones académicas, el autor del programa fue uno de los autores originales de OSIRIS, [24] que fue el programa inicial a partir del cual se desarrolló WinIdams. [25] El autor de Microsiris también ha contribuido o co-contribuido con varios componentes para WinIdams. [25]
Existen algunas revisiones de software estadístico gratuito. Hubo dos revisiones en revistas (pero no revisadas por pares), una de Zhu y Kuljaca [26] y otro artículo de Grant que incluía principalmente una breve revisión de R. [27] Zhu y Kuljaca describieron algunas características útiles del software, como la facilidad de uso, tener una serie de procedimientos estadísticos y la capacidad de desarrollar nuevos procedimientos. Revisaron varios programas e identificaron cuáles, en ese momento, tenían la mayor funcionalidad. En ese momento, es posible que varios de los programas no tuvieran toda la capacidad deseada para las estadísticas avanzadas. Grant revisó algunas de las características de programación de R y mencionó brevemente la disponibilidad de otros programas. Otro artículo revisó paquetes estadísticos, principalmente comerciales, pero incluye R. [28] Un artículo revisó EasyReg e incluyó una discusión sobre su precisión. [29]
Solo dos revisiones han comparado la salida de varios paquetes. [30] [31] En la revisión de 2006, todos los paquetes leían archivos CSV o formato Microsoft Excel . Todos los paquetes dieron exactamente los mismos resultados para correlación y regresión . Los paquetes de software libre también dieron los mismos resultados de regresión que Excel. Una de las principales diferencias entre los paquetes fue cómo manejaban los datos faltantes . Con los conjuntos de datos de ejemplo utilizados en la revisión, y para las versiones de paquete disponibles en noviembre de 2006 cuando se realizó esta revisión, dos paquetes, MicrOsiris y Epi Info, podían leer archivos con espacios en blanco para los faltantes. Otros dos programas, Stat4U y WinIdams necesitan algo para los faltantes, como -9 o -9.99. Los otros paquetes solo podían manejar conjuntos de datos sin valores faltantes. La revisión más reciente, de 2022, comparó la salida de varios paquetes estadísticos de uso gratuito y descubrió que todos daban prácticamente los mismos resultados.
Por el contrario, existen diversas revisiones de software estadístico comercial, como una comparación entre varios paquetes principales [32] y una breve revisión de varios paquetes. [33]
Antes de utilizar cualquier paquete estadístico, generalmente es una buena idea tener una sólida formación en estadística . De este modo, se pueden utilizar los paquetes de la mejor manera posible, por ejemplo, para elegir la prueba más adecuada, para asegurarse de que se cumplan todos los supuestos necesarios y poder extraer las conclusiones adecuadas.
Una vez que se comprenden los problemas estadísticos, el siguiente paso es decidir qué paquete utilizar. La mayoría de estos paquetes se basan en menús y se pueden aprender a usar en un par de horas como máximo, excepto R, que generalmente se basa en código y requiere mucho más tiempo para aprenderlo, y hasta cierto punto Epi Info de CDC, que también lleva algo de tiempo aprenderlo.
Varios de los paquetes también tienen tutoriales. Estos tutoriales ayudan con una introducción básica y el aprendizaje de los conceptos básicos de los programas. Por ejemplo, CDC tiene tutoriales sobre Epi Info . [34] [35] La página de CDC también incluye un tutorial de presentación de diapositivas en video de la Universidad de Nebraska, [36] y otro sitio tiene clases de capacitación en línea. [37] R tiene una gran cantidad de tutoriales y manuales, en inglés y otros idiomas [38] [39] [40] y un sitio de preguntas frecuentes. [41] PSPP tiene un tutorial particularmente fácil de seguir y un rico conjunto de análisis estadísticos, que incluyen prueba T, Anova unidireccional y factorial, regresión lineal y logística y análisis de componentes principales. También tiene la posibilidad de importar datos de muchos otros formatos de archivo diferentes con mucha facilidad. Algunos de los paquetes tienen listas de discusión por correo electrónico, incluidos R [42] y PSPP. [43]
La mayoría de los paquetes tienen manuales, guías o páginas de ayuda en línea. Estos son útiles cuando hay preguntas sobre procedimientos específicos o pruebas estadísticas. Algunos manuales o guías son para R , [44] PSPP , [45] y Zelig . [46] El sitio EpiInfo de los CDC en sí no tiene un manual, pero un miembro de la facultad de la Escuela de Salud Pública de Emory tiene un manual introductorio. [47]
Por último, existen varios paquetes comerciales como SAS , [48] SPSS [49] y muchos otros. [50] La mayoría de los principales paquetes comerciales y gratuitos tienen muchos procedimientos estadísticos en común. La razón principal para utilizar paquetes gratuitos es probablemente el costo.
Muchos de los paquetes tienen algún tipo de menú de apertura que se utiliza para obtener o introducir los datos, manipularlos y seleccionar el análisis estadístico. Luego, tras iniciar el programa, generalmente se pueden obtener los datos, ya sea de conjuntos de datos previamente guardados o importándolos desde algún otro formato. Desde este menú se pueden importar archivos de datos en varios formatos. Por ejemplo, si los datos están en formato CSV (texto con comas entre valores), el programa reconoce el formato y crea un conjunto de datos a partir del archivo CSV. Finalmente, el programa se puede utilizar para realizar algún análisis. En este menú de análisis se pueden seleccionar las variables de interés, junto con otras opciones. A continuación, se ejecuta el análisis y se obtienen los resultados.
Calculadoras gratuitas de statskingdom [51]
R se puede utilizar tanto en modo controlado por menús como lenguaje de programación y como intérprete.
La mayoría de los paquetes pueden importar datos desde Excel o CSV (texto con comas que separan los valores).
Una consideración a tener en cuenta es si faltan datos. Algunos paquetes, como PSPP y MicrOsiris, pueden ocuparse automáticamente de los datos faltantes. Por ejemplo, supongamos que un conjunto de datos tiene este aspecto:
En este conjunto de datos, a Sam le falta su edad y a Sally le falta si nació en los EE. UU. Cuando algunos paquetes, como PSPP o MicrOsiris, leen o importan el conjunto de datos original, los paquetes reconocerán que faltan esos valores y realizarán sus cálculos en consecuencia. MicrOsiris asigna automáticamente 1.500 o 1.600 millones a los espacios en blanco como valores faltantes y estos valores se excluyen del análisis. [52]
Otros paquetes necesitan un 'marcador de posición', como '-9', donde faltan datos. [53] Antes de que el paquete se use para leer los datos, el conjunto de datos debe editarse para colocar un marcador de posición donde faltan datos. Por ejemplo:
Si el conjunto de datos realmente incluye '-9', entonces cuando se lean los datos en el programa será necesario indicar cuándo el -9 significa que faltan datos.
La mayoría de los paquetes tienen limitaciones de algún tipo.
Varios de los programas, incluidos Easyreg, Epidata e Instat, no parecen manejar los datos faltantes o no los manejan bien. [30] Si bien EpiInfo tiene muchos procedimientos estadísticos, la correlación no es uno de ellos. Más bien, la correlación se encuentra por regresión. [54] Esto significa que EpiInfo no producirá una sola tabla que muestre correlaciones entre múltiples variables. Según el manual de instalación de Zelig, el uso de Zelig requiere que R y varias de sus bibliotecas ya estén instalados, y la instalación también requiere cierto grado de experiencia en R. [46] Una limitación de MicrOsiris es el manejo de la salida. Cuando se completan los cálculos, la salida recorre las páginas de los resultados, pero también aparecen varios cuadros de menú sobre los resultados, por lo que no se puede acceder a los resultados. Sin embargo, la salida se puede guardar como un archivo de texto y luego usar.
Una limitación es específica de los programas desarrollados por personas individuales. El soporte para estos programas está limitado al tiempo del que dispone el autor. Si bien los autores pueden responder con bastante rapidez cuando hay pocas personas que hacen preguntas, y lo hacen a menudo, si demasiadas personas hacen preguntas o el autor está ocupado por alguna otra razón, el soporte será correspondientemente más lento.
R es un lenguaje escrito y utilizado por una gran cantidad de personas en todo el mundo, y se pueden utilizar muchos foros y otros recursos de Internet para obtener ayuda de otros usuarios. Si bien R es potente, la curva de aprendizaje puede ser bastante pronunciada para quienes no estén familiarizados con otros tipos de programación científica. [55]
{{cite web}}
: CS1 maint: multiple names: authors list (link)Este artículo incorpora material del artículo de Citizendium "Software estadístico libre", que está licenciado bajo la Licencia Creative Commons Atribución-CompartirIgual 3.0 Unported pero no bajo la Licencia GFDL .