Software estadístico gratuito

El software estadístico gratuito es una alternativa práctica a los paquetes comerciales. Muchos de los programas de uso gratuito pretenden tener una función similar a los paquetes comerciales, en el sentido de que son paquetes estadísticos generales que realizan una variedad de análisis estadísticos. Muchos otros programas de uso gratuito fueron diseñados específicamente para funciones particulares, como análisis factorial, análisis de potencia en cálculos de tamaño de muestra, árboles de clasificación y regresión, o análisis de datos faltantes.

Muchos de los paquetes de uso gratuito son bastante fáciles de aprender mediante sistemas de menús. Muchos otros están controlados por órdenes. Otros son metapaquetes o entornos informáticos estadísticos, que permiten al usuario codificar procedimientos estadísticos completamente nuevos. Estos paquetes provienen de una variedad de fuentes, incluidos gobiernos , universidades y particulares.

Este artículo es principalmente una revisión de los paquetes estadísticos generales.

Breve historia del software estadístico gratuito

SAS (software) estuvo entre los primeros paquetes estadísticos comerciales, lanzado para mainframes en 1968. ^[1] Desde entonces, SAS ha lanzado versiones de uso gratuito, la más reciente de las cuales es SAS Studio. ^[2] Epi Info, un programa de uso gratuito de los Centros para el Control y la Prevención de Enfermedades, fue desarrollado en la década de 1980. ^[3] Uno de los primeros programas estadísticos de código abierto y de uso completamente gratuito fue R , lanzado por primera vez en 2000. ^[1]

Algunos de los paquetes de software gratuitos son de gobiernos, por ejemplo Epi Info , que es de CDC ^[4] (Centros para el Control y la Prevención de Enfermedades). Algunos otros paquetes de software provienen de organizaciones o universidades más pequeñas o independientes. JASP cuenta con el apoyo de la Universidad de Amsterdam . ^[5] Otros dos paquetes, R , ^[6] y PSPP están siendo desarrollados como parte del Proyecto GNU por un gran grupo de personas, muchas de ellas voluntarias, en todo el mundo. Estos paquetes se destacan porque no son sólo código abierto sino también software libre en el mismo sentido que el material escrito en Wikipedia es gratuito: otros pueden editarlo, usarlo y redistribuirlo a voluntad.

OpenStat fue desarrollado como una ayuda didáctica. ^[7] Otros paquetes se desarrollaron para fines específicos, pero pueden usarse de manera más general. Un ejemplo es Epi Info, desarrollado para la salud pública. Varios de los paquetes, PSPP, R y Osiris, no parecen dar ninguna declaración sobre por qué fueron desarrollados, aparte del uso general para análisis estadístico.

Estos paquetes de software gratuitos se han utilizado en varias publicaciones académicas. Por ejemplo, OpenStat se utilizó en una carta de investigación enviada a JAMA ^[8] y en varios estudios publicados. ^[9]^[10]^[11] Irristat se utiliza en un informe agrícola, ^[12] EasyReg figura o se utiliza en varios artículos, ^[13]^[14]^[15] EpiInfo también se utilizó en varios artículos, ^[16]^{[ 17]}^[18] R se utilizó en varios artículos ^[19]^[20]^[21] y WinIdams se utilizó en otros artículos. ^[22]^[23]

Si bien Microsiris no parece usarse en investigaciones académicas, el autor del programa fue uno de los autores originales de OSIRIS, ^[24] que fue el programa inicial a partir del cual se desarrolló WinIdams. ^[25] El autor de Microsiris también ha contribuido o co-contribuido con varios componentes de WinIdams. ^[25]

Reseñas de software estadístico gratuito

Hay algunas reseñas de software estadístico gratuito. Hubo dos revisiones en revistas (pero no revisadas por pares), una de Zhu y Kuljaca ^[26] y otro artículo de Grant que incluía principalmente una breve revisión de R. ^[27] Zhu y Kuljaca describieron algunas características útiles del software, como facilidad de uso, disponer de una serie de procedimientos estadísticos y capacidad para desarrollar nuevos procedimientos. Revisaron varios programas e identificaron cuáles, en ese momento, tenían más funcionalidad. En ese momento, es posible que varios de los programas no tuvieran toda la capacidad deseada para realizar estadísticas avanzadas. Grant revisó algunas de las características de programación de R y mencionó brevemente la disponibilidad de otros programas. Otro artículo revisó paquetes estadísticos, principalmente comerciales, pero incluye R. ^[28] Un artículo revisó EasyReg e incluyó una discusión sobre su precisión. ^[29]

Sólo dos revisiones han comparado el rendimiento de varios paquetes. ^[30]^[31] En la revisión de 2006, todos los paquetes leen archivos CSV o formato Microsoft Excel . Todos los paquetes dieron exactamente los mismos resultados de correlación y regresión . Los paquetes de software libre también dieron los mismos resultados de regresión que Excel. Una de las principales diferencias entre los paquetes fue cómo manejaban los datos faltantes . Con los conjuntos de datos de ejemplo utilizados en la revisión, y para las versiones de paquetes disponibles en noviembre de 2006 cuando se realizó esta revisión, dos paquetes, MicrOsiris y Epi Info, podían leer archivos con espacios en blanco por faltar. Otros dos programas, Stat4U y WinIdams, necesitan algo para los que faltan, como -9 o -9,99. Los otros paquetes sólo podían manejar conjuntos de datos sin valores faltantes. La revisión más reciente, de 2022, comparó los resultados de varios paquetes estadísticos de uso gratuito y descubrió que todos daban prácticamente los mismos resultados.

Por el contrario, existen varias revisiones de software estadístico comercial, como una comparación entre varios paquetes importantes ^[32] y una breve revisión de varios paquetes. ^[33]

Usando software estadístico gratuito

Antes de utilizar cualquier paquete estadístico, generalmente es una buena idea tener una sólida formación en estadística . Luego, los paquetes se pueden utilizar de la mejor manera, por ejemplo, para elegir la prueba más adecuada, para asegurarse de que se cumplan todas las suposiciones necesarias, de modo que se puedan extraer las conclusiones adecuadas.

Una vez que se comprenden las cuestiones estadísticas, el siguiente paso es decidir qué paquete utilizar. La mayoría de estos paquetes están controlados por menús y se pueden aprender en un par de horas como máximo, excepto R, que generalmente está controlado por código y requiere mucho más tiempo para aprenderse, y hasta cierto punto Epi Info de CDC, que también lleva algo de tiempo. para aprender.

Varios de los paquetes también tienen tutoriales. Estos tutoriales ayudan con una introducción básica y el aprendizaje de los conceptos básicos de los programas. Por ejemplo, los CDC tienen tutoriales sobre Epi Info . ^[34]^[35] La página de los CDC también incluye una presentación de diapositivas en video tutorial de la Universidad de Nebraska, ^[36] y otro sitio tiene clases de capacitación en línea. ^[37] R tiene una gran cantidad de tutoriales y manuales, en inglés y otros idiomas ^[38]^[39]^[40] y un sitio de preguntas frecuentes. ^[41] PSPP tiene un tutorial particularmente fácil de seguir y un rico conjunto de análisis estadísticos, que incluyen prueba T, Anova unidireccional y factorial, regresión lineal y logística y análisis de componentes principales. También prevé que sea muy fácil importar datos desde muchos otros formatos de archivos diferentes. Algunos de los paquetes tienen listas de discusión por correo electrónico, incluidos R ^[42] y PSPP. ^[43]

La mayoría de los paquetes tienen manuales, guías o páginas de ayuda en línea. Son útiles cuando hay preguntas sobre procedimientos específicos o pruebas estadísticas. Algunos manuales o guías son para R , ^[44] PSPP , ^[45] y Zelig . ^[46] El sitio CDC EpiInfo en sí no tiene un manual, pero un miembro del cuerpo docente de la Escuela de Salud Pública de Emory tiene un manual introductorio. ^[47]

Finalmente, existen una serie de paquetes comerciales como SAS , ^[48] SPSS ^[49] y muchos otros. ^[50] La mayoría de los principales paquetes comerciales y gratuitos tienen muchos procedimientos estadísticos en común. La razón principal para utilizar paquetes gratuitos es probablemente el coste.

Paquetes basados en menús

Muchos de los paquetes tienen algún tipo de menú de apertura que se utiliza para obtener o ingresar datos, manipularlos y seleccionar el análisis estadístico. Luego, después de iniciar el programa, generalmente se pueden obtener datos, ya sea de conjuntos de datos previamente guardados o importándolos desde algún otro formato. Desde este menú se pueden importar archivos de datos en varios formatos. Por ejemplo, si los datos están en formato CSV (texto con comas entre valores), el programa reconoce el formato y crea un conjunto de datos a partir del archivo CSV. Finalmente, el programa se puede utilizar para hacer algunos análisis. En este menú de análisis se pueden seleccionar las variables de interés, junto con otras opciones. Luego se ejecuta el análisis y se obtienen los resultados.

Paquetes controlados por comandos

R se puede utilizar tanto de forma basada en menús como como lenguaje de programación y como intérprete.

Obteniendo datos

La mayoría de los paquetes pueden importar datos desde Excel o CSV (texto con comas que separan los valores).

Una consideración es si faltan datos. Algunos paquetes, como PSPP y MicrOsiris, pueden gestionar automáticamente los datos faltantes. Entonces, por ejemplo, digamos que un conjunto de datos se ve así:

En este conjunto de datos, a Sam le falta su edad y a Sally le falta si nació en los EE. UU. Cuando algunos paquetes, como PSPP o MicrOsiris, leen o importan el conjunto de datos original, los paquetes reconocerán que faltan esos valores y realizarán sus cálculos en consecuencia. MicrOsiris asigna automáticamente 1,5 o 1,6 mil millones a los espacios en blanco que faltan, y estos valores se excluyen del análisis. ^[51]

Otros paquetes necesitan un 'marcador de posición', como '-9' donde faltan datos. ^[52] Antes de utilizar el paquete para leer los datos, el conjunto de datos debe editarse para colocarlo en un marcador de posición donde faltan datos. Así por ejemplo:

Si el conjunto de datos realmente incluye '-9', cuando los datos se lean en el programa se deberá indicar cuándo -9 significa datos faltantes.

Limitaciones de paquetes

La mayoría de los paquetes tienen limitaciones de algún tipo.

Varios de los programas, incluidos Easyreg, Epidata e Instat, no parecen manejar los datos faltantes o no los manejan bien. ^[30] Si bien EpiInfo tiene muchos procedimientos estadísticos, la correlación no es uno de ellos. Más bien, la correlación se encuentra mediante regresión. ^[53] Esto significa que EpiInfo no producirá una sola tabla que muestre correlaciones entre múltiples variables. Según el manual de instalación de Zelig, el uso de Zelig requiere que R y varias de sus bibliotecas ya estén instalados, y la instalación también requiere cierto grado de experiencia en R. ^[46] Un límite de MicrOsiris es el manejo de la salida. Cuando se completan los cálculos, la salida recorre los resultados, pero también aparecen varios cuadros de menú sobre los resultados, por lo que no se puede acceder a los resultados. Sin embargo, el resultado se puede guardar como un archivo de texto y luego utilizarlo.

Una limitación es específica de los programas desarrollados por individuos. El soporte para estos programas está limitado al tiempo que el autor tenga disponible. Si bien los autores pueden responder, y a menudo lo hacen, con bastante rapidez cuando hay pocas personas haciendo preguntas, si demasiadas personas hacen preguntas o el autor está ocupado, el soporte sería correspondientemente más lento.

R está escrito y utilizado por un gran número de personas en todo el mundo, y se pueden utilizar muchos foros y otras instalaciones de Internet para obtener ayuda de otros usuarios. Si bien R es poderoso, la curva de aprendizaje puede ser bastante pronunciada para quienes aún no están familiarizados con otros tipos de programación científica. ^[54]

Ver también

Referencias

^ ab El equipo VSNi. "Evolución de la informática estadística". VNSi . Consultado el 12 de junio de 2022 .
^ "SAS a pedido para académicos". SAS . Consultado el 12 de junio de 2022 .
^ "La historia de Epi Info ™". Centros para el Control y la Prevención de Enfermedades. 16 de septiembre de 2021 . Consultado el 12 de junio de 2022 .
^ "Información Epi". CENTROS PARA EL CONTROL Y LA PREVENCIÓN DE ENFERMEDADES . Consultado el 13 de junio de 2022 .
^ "JASP".
^ "El Proyecto R".
^ Bill Miller (2009). "Estadística abierta". Archivado desde el original el 19 de marzo de 2011 . Consultado el 14 de marzo de 2011 .
^ Ebell, Mark (10 de septiembre de 2008). "Revisión de la tasa de cobertura de salarios futuros y residencia en EE. UU.". JAMA . 300 (10): 1131-1132. doi :10.1001/jama.300.10.1131. PMID 18780840.
^ Toscano, Christopher D; Prabhu, Vinaykumar V; Langenbach, Robert; Becker, Kevin G; Bosetti, Francesca (2007). "Patrones de expresión genética diferencial en cerebro de ratón con deficiencia de ciclooxigenasa-1 y ciclooxigenasa-2". Genoma Biol . 8 (1): R14. doi : 10.1186/gb-2007-8-1-r14 . PMC 1839133 . PMID 17266762.
^ Bielaszewska, M; Sinha, B; Kuczius, T; Karch, H (2005). "La toxina distendida citoletal de Escherichia coli O157 productora de toxina Shiga provoca una detención irreversible de G2 / M, inhibición de la proliferación y muerte de células endoteliales humanas". Infección e inmunidad . 73 (1): 552–562. doi :10.1128/iai.73.1.552-562.2005. PMC 538959 . PMID 15618195.
^ Toscana, CD; Kingsley, PJ; Marnett, LJ; Bosetti, F. (2008). "La intensidad de las convulsiones inducidas por NMDA aumenta en ratones con deficiencia de COX-2". Neurotoxicología . 29 (6): 1114-1120. doi :10.1016/j.neuro.2008.08.008. PMC 2587528 . PMID 18834901.
^ Documento de la FAO sobre producción y protección vegetal No. 174, Roma, 2003, Interacciones genotipo x medio ambiente. Desafíos y oportunidades para el fitomejoramiento y las recomendaciones de cultivares, http://www.fao.org/DOCREP/005/Y4391E/y4391e00.htm
^ Gambardella, A; Salón, Bronwyn H. (2006). "Licencias de software y productos de investigación de propiedad versus dominio público" (2006)". Política de investigación . 35 (6): 875–892. doi :10.1016/j.respol.2006.04.004. S2CID 14299896. Archivado desde el original en 2007 -06-09.
^ Liu, Wen-Chi; Chang, Tsangyao (2008). "¿Burbujas racionales en el mercado de valores de Corea? Evidencia adicional basada en pruebas de cointegración no lineales y no paramétricas" (PDF) . Boletín de Economía . 3 (34): 1–12.^{[ enlace muerto permanente ]}
^ Harumi Itoa y Darin Lee, Journal of Economics and Business, volumen 57, número 1, enero-febrero de 2005, páginas 75-95. Evaluación del impacto de los ataques terroristas del 11 de septiembre en la demanda de las aerolíneas estadounidenses. doi 10.1016/j.jeconbus.2004.06.003. También disponible aquí http://www.brown.edu/Departments/Economics/Papers/Papers/2003/2003-16_paper.pdf
^ Rahav G, Gabbay R, Ornoy A, Shechtman S, Arnon J, Diav-Citrini O. Infección por citomegalovirus primaria versus no primaria durante el embarazo, Israel. Emerg Infect Dis [serie en Internet]. Noviembre de 2007 [15 de mayo de 2009]. Disponible en https://www.cdc.gov/EID/content/13/11/1791.htm
^ Chan PC, Huang LM, Wu YC, Yang HL, Chang IS, Lu CY, et al. Tuberculosis en niños y adolescentes, Taiwán, 1996–2003. Emerg Infect Dis [serie en Internet]. Septiembre de 2007. Disponible en https://www.cdc.gov/EID/content/13/9/1361.htm
^ Gyasi, YO; Amoaku, WMK; Adjuik, MA (diciembre de 2007). "Epidemiología de las lesiones oculares hospitalizadas en la región del Alto Oriente de Ghana". Ghana Med J. 41 (4): 171-175. PMC 2350113 . PMID 18464900.
^ Handcock, Mark S.; Cazador, David R.; Colillas, Carter T.; Goodreau, Steven M.; Morris, Martina (2008). "statnet: Herramientas de software para la representación, visualización, análisis y simulación de datos de red". J Software de estadísticas . 24 (1): 1548–7660. doi : 10.18637/jss.v024.i01. PMC 2447931 . PMID 18618019.
^ Hume, Michael E.; Scanlan, Charles M.; Harvey, Roger B.; Andrés, Kathleen; Snodgrass, James D.; Nalian, Armen G.; Martynova-Van Kley, Alexandra; Nisbet, David J. (2008). "Electroforesis en gel de gradiente desnaturalizante como herramienta para determinar la similitud de lotes de cultivos probióticos de bacterias cecales porcinas". Microbiología Aplicada y Ambiental . 74 (16): 5241–5243. Código Bib : 2008ApEnM..74.5241H. doi :10.1128/aem.02580-07. PMC 2519268 . PMID 18586972.
^ Bylesjö, Max; Nicholson, Jeremy K; Holmes, Elaine; Trygg, Johan (2008). "Paquete K-OPLS: proyecciones ortogonales basadas en kernel a estructuras latentes para predicción e interpretación en el espacio de características". Bioinformática BMC . 9 : 106. doi : 10.1186/1471-2105-9-106 . PMC 2323673 . PMID 18284666.
^ Sapre, NS; Pancholi, N.; Gupta, S. (2008). "Modelado computacional del efecto de sustitución en inhibidores de la transcriptasa inversa no nucleósidos del VIH-1 con índices de estado electrotopológico de Kier-Hall (estado E), Internet Electron". Revista Electrónica de Internet de Diseño Molecular . 7 : 55–67.
^ Chawla, Anju (2007). "Explorando el comportamiento de selección de proyectos de los científicos académicos en la India". Evaluación de la investigación . 16 (1): 35–45. doi :10.3152/095820207x196768.
^ Base de conocimientos sobre intercambio de datos para investigación demográfica, pregunta sobre OSIRIS, Universidad de Michigan, http://dsdr-kb.psc.isr.umich.edu/answer.html?i=1076 Archivado el 20 de julio de 2011 en Wayback Machine.
^ ab IDAMS, paquete de software de gestión y análisis de datos desarrollado internacionalmente. Manual de referencia de WinIDAMS (versión 1.3) UNESCO, 2008. Prefacio. http://portal.unesco.org/ci/en/ev.php-URL_ID=25081&URL_DO=DO_TOPIC&URL_SECTION=-465.html
^ "Una breve vista previa de paquetes de software estadístico gratuitos para la enseñanza de estadística a estudiantes de tecnología industrial" Journal of Industrial Technology (volumen 21-2, abril de 2005), Sra. Xiaoping Zhu y Dr. Ognjen Kuljaca. http://www.nait.org/jit/current.html
^ Felix Grant, "Software de estadística gratuito, suyo, gratuito para conservar...", Scientific Computing World, septiembre/octubre de 2004, http://www.scientific-computing.com/scwsepoct04free_statistics.html
^ Edward J. Wegman y Jeffrey L. Solka. 2005. Software estadístico para hoy y mañana. http://www.galaxy.gmu.edu/ (catalogado como "Una guía para el software estadístico".
^ Hwan-sik, Choia; Kiefer, Nicolás M. (2005). "Evaluación de software: EasyReg International". Revista internacional de previsión . 21 (3): 609–616. doi : 10.1016/j.ijforecast.2005.02.003.
^ ab Shackman, Gene. 2006. "Comparación de software estadístico gratuito para conjuntos de datos sin valores faltantes" y "Comparación de software estadístico gratuito, manejo de datos faltantes". Ambos disponibles aquí "Software Libre" http://gsociology.icaap.org/methods/soft.html
^ Shackman, Gene (10 de mayo de 2022). "Software estadístico de uso gratuito: comparación de análisis estadísticos". SSRN. SSRN 4105959 . Consultado el 12 de junio de 2022 .
^ Acock, Alan C (2005). "SAS, Stata, SPSS: una comparación". Revista de Matrimonio y Familia . 67 (4): 1093–1095. doi :10.1111/j.1741-3737.2005.00196.x.Resumido en Hom, Willard. 2006. Elegir entre SAS, Stata y SPSS. http://www.cccco.edu/SystemOffice/Divisions/TechResearchInfo/ResearchandPlanning/AbstractsofResearch/ResearchMethods/tabid/302/Default.aspx Archivado el 26 de mayo de 2009 en Wayback Machine.
^ Wass, John. Sin fecha. Revisión comparativa de software estadístico. Tabulaciones y reflexiones desde la perspectiva sesgada de su editor. Computación científica. http://www.scientificcomputing.com/comparative-statistical-software.aspx
^ Tutorial de evaluación de la salud comunitaria de Epi Info ™. El Tutorial de Evaluación de la Salud Comunitaria de Epi Info™ fue producido gracias a los esfuerzos colaborativos de los Centros para el Control y la Prevención de Enfermedades (CDC), la Iniciativa de Evaluación (AI) y el Departamento de Salud del Estado de Nueva York (NYSDOH). https://www.cdc.gov/epiinfo/communityhealth.htm
^ Brote de cólera en Rwenshama: uso de Epi Info para Windows en una investigación de brote. Oficina de Coordinación para la Salud Global - DGPHCD, https://www.cdc.gov/cogh/dgphcd/training/softwaretraining.htm
^ Introducción a EPI2000. Centro educativo veterinario GPVEC Great Plains. Universidad de Nebraska-Lincoln. http://gpvec.unl.edu/videos/epi-stats.asp
^ Sitio web de capacitación en preparación para la salud pública del Centro de Carolina del Norte http://nccphp.sph.unc.edu/training/index.html Archivado el 16 de junio de 2010 en Wayback Machine.
^ Documentación aportada. https://cran.r-project.org/other-docs.html.
^ William Revelle, Uso de R para investigaciones psicológicas: una guía sencilla para un paquete elegante, 2008, http://personality-project.org/r/
^ Dong-Yun Kim, Tutorial de MAT 356 R, primavera de 2004. http://www.math.ilstu.edu/dhkim/Rstuff/Rtutor.html
^ R Preguntas frecuentes. Preguntas frecuentes sobre R. Versión 2.8.2009-03-18. ISBN 3-900051-08-9 http://lib.stat.cmu.edu/R/CRAN/doc/FAQ/R-FAQ.html
^ R-help - Lista de correo principal de R: ayuda principal. https://stat.ethz.ch/mailman/listinfo/r-help
^ Pspp-users - Discusión de usuarios de PSPP, http://lists.gnu.org/mailman/listinfo/pspp-users
^ Equipo central de desarrollo de R. Introducción a R. Versión 2.8.1 (22 de diciembre de 2008). ISBN 3-900051-12-7 . https://cran.r-project.org/doc/manuals/R-intro.html
^ Documentación, sin fecha indicada. PSPP. https://www.gnu.org/software/pspp/documentation.html
^ ab Imai, Kosuke, Gary King y Olivia Lau (2006). "Zelig: el software estadístico de todos".{{cite web}}: CS1 maint: multiple names: authors list (link)
^ Kevin M. Sullivan. 3 de marzo de 2008. Introducción al módulo de análisis de datos de Epi Info (versión 3.4.1). http://www.sph.emory.edu/~cdckms/ Archivado el 19 de julio de 2011 en Wayback Machine.
^ "Análisis, Inteligencia Empresarial y Gestión de Datos".
^ "Estadísticas de IBM SPSS: descripción general".
^ Lista de software comercial de Statistics.com http://www.statistics.com/resources/software/commercial/fulllist.php3 Archivado el 4 de marzo de 2011 en Wayback Machine.
^ Van Eck, Richard, Microsiris, sistema de software de gestión de datos y estadísticas. Versión 9.1, 2006. Van Eck Computer Consulting. http://www.microsiris.com/MicrOsiris.htm
^ Unesco, Cómo trabajar con WinIDAMS. Sección sobre valores de datos faltantes. http://www.unesco.org/webworld/idams/selfteaching/eng/emissing-data.htm
^ CDC. Sesión de Capacitación Epi Info. Uso de Epi Info en una investigación de brote. Análisis y mapeo avanzado. https://www.cdc.gov/cogh/dgphcd/training/softwaretraining.htm
^ Gillian Raab, Susan Purdon, Kathy Buckner e Iona Waterston. El paquete R. Universidad Napier (Edimburgo) y el Centro Nacional de Investigación Social (Londres). http://www2.napier.ac.uk/depts/fhls/peas/rpackage.asp

Este artículo incorpora material del artículo de Citizendium "Software estadístico gratuito", que tiene la licencia Creative Commons Attribution-ShareAlike 3.0 Unported pero no la GFDL .