Stata ( / ˈsteɪtə / , [2] STAY -ta , alternativamente / ˈstætə / , ocasionalmente estilizado como STATA [3] [4] ) es un paquete de software estadístico de propósito general desarrollado por StataCorp para manipulación de datos , visualización , estadísticas e informes automatizados. Lo utilizan investigadores en muchos campos, incluidos la biomedicina , la economía , la epidemiología y la sociología . [5]
Stata fue desarrollado inicialmente por Computing Resource Center en California y la primera versión fue lanzada en 1985. [6] En 1993, la empresa se mudó a College Station, Texas y pasó a llamarse Stata Corporation, ahora conocida como StataCorp. [1] Una versión importante en 2003 incluyó un nuevo sistema de gráficos y cuadros de diálogo para todos los comandos. [6] Desde entonces, se ha lanzado una nueva versión cada dos años. [7] La versión actual es Stata 18, lanzada en abril de 2023. [8]
Desde su creación, Stata siempre ha empleado una interfaz de línea de comandos integrada. A partir de la versión 8.0, Stata ha incluido una interfaz gráfica de usuario que utiliza menús y cuadros de diálogo para dar acceso a muchos comandos integrados. El conjunto de datos se puede ver o editar en formato de hoja de cálculo. A partir de la versión 11, se pueden ejecutar otros comandos mientras el explorador o editor de datos está abierto.
Hasta el lanzamiento de la versión 16, [9] Stata solo podía abrir un único conjunto de datos a la vez. Stata permite flexibilidad a la hora de asignar tipos de datos a los datos. Su compress
comando reasigna automáticamente los datos a tipos de datos que ocupan menos memoria sin pérdida de información. Stata utiliza tipos de almacenamiento de números enteros que ocupan solo uno o dos bytes en lugar de cuatro, y la precisión simple (4 bytes) en lugar de la precisión doble (8 bytes) es la opción predeterminada para los números de punto flotante .
El formato de datos de Stata siempre es tabular . Stata se refiere a las columnas de datos tabulares como variables.
Stata puede importar datos en distintos formatos, incluidos formatos de datos ASCII (como CSV o formatos de banco de datos ) y formatos de hojas de cálculo (incluidos varios formatos de Excel ).
Los formatos de archivo propietarios de Stata han cambiado con el tiempo, aunque no todas las versiones de Stata incluyen un nuevo formato de conjunto de datos. Todas las versiones de Stata pueden leer todos los formatos de conjuntos de datos anteriores y pueden escribir tanto el formato de conjunto de datos actual como el anterior más reciente mediante el saveold
comando. [10] Por lo tanto, la versión actual de Stata siempre puede abrir conjuntos de datos que se crearon con versiones anteriores, pero las versiones anteriores no pueden leer conjuntos de datos con formatos más nuevos.
Stata puede leer y escribir conjuntos de datos en formato SAS XPORT de forma nativa, utilizando los comandos fdause y fdasave .
Algunas otras aplicaciones econométricas , incluida gretl , pueden importar directamente formatos de archivos Stata.
El desarrollo de Stata comenzó en 1984, inicialmente por William (Bill) Gould y más tarde por Sean Becketti. El software fue pensado originalmente para competir con programas estadísticos para computadoras personales como SYSTAT y MicroTSP . [6] Stata fue escrito, entonces como ahora, en el lenguaje de programación C , inicialmente para PCs que ejecutaban el sistema operativo DOS . La primera versión fue lanzada en 1985 con 44 comandos. [6]
Ha habido 18 versiones principales de Stata entre 1985 y 2024, y actualizaciones adicionales de código y documentación entre versiones principales. [7] En sus primeros años, a veces se vendían conjuntos adicionales de programas Stata como "kits" o se distribuían como discos de soporte. Con el lanzamiento de Stata 6 en 1999, update
los s comenzaron a entregarse a los usuarios a través de la web. [6] La versión inicial de Stata fue para el sistema operativo DOS . Desde entonces, se han lanzado versiones de Stata para sistemas que ejecutan variantes de Unix como distribuciones Linux , Windows y MacOS . [6] Todos los archivos de Stata son independientes de la plataforma.
Se han agregado cientos de comandos a Stata en sus 37 años de historia. [11] [12] Ciertos desarrollos han demostrado ser particularmente importantes y continúan dando forma a la experiencia del usuario actual, incluida la extensibilidad , la independencia de la plataforma y la comunidad de usuarios activa . [6]
El program
comando se implementó en Stata 1.2, lo que les da a los usuarios la capacidad de agregar sus propios comandos. [6] [13] Los archivos ado se agregaron en Stata 2.1, lo que permite que un programa escrito por el usuario se cargue automáticamente en la memoria. Muchos archivos ado escritos por el usuario se envían al Archivo de componentes de software estadístico alojado por Boston College. StataCorp agregó un ssc
comando para permitir que los programas contribuidos por la comunidad se agreguen directamente dentro de Stata. [14] Las ediciones más recientes de Stata permiten a los usuarios llamar scripts de Python mediante comandos, así como permitir que los IDE de Python como Jupyter Notebooks importen comandos de Stata. [15] Aunque Stata no admite R de forma nativa, existen extensiones escritas por el usuario para usar scripts de R en Stata. [16]
Una serie de desarrollos importantes fueron iniciados por la activa comunidad de usuarios de Stata. [6] El Boletín Técnico de Stata , que a menudo contiene comandos creados por los usuarios, se introdujo en 1991 y se publicó seis veces al año. Fue relanzado en 2001 como el Stata Journal revisado por pares , una publicación trimestral que contiene descripciones de comandos aportados por la comunidad y consejos para el uso eficaz de Stata. En 1994, un servidor de listas comenzó como un centro para que los usuarios resolvieran de forma colaborativa problemas técnicos y de codificación; en 2014, se convirtió en un foro web. En 1995, Statacorp comenzó a organizar conferencias de usuarios y desarrolladores que se reúnen anualmente. Solo la Conferencia anual de Stata celebrada en los Estados Unidos es organizada por StataCorp. Otras reuniones de grupos de usuarios se celebran anualmente en los Estados Unidos (la Conferencia de Stata), el Reino Unido, Alemania e Italia, y con menor frecuencia en varios otros países. Los distribuidores locales de Stata organizan reuniones de grupos de usuarios en sus propios países.
Hay cuatro versiones de Stata: Stata/MP, Stata/SE, Stata/BE y Numerics by Stata. [17] Mientras que Stata/MP permite el procesamiento paralelo integrado de ciertos comandos, Stata/SE y Stata/BE tienen cuellos de botella y limitan el uso a un solo núcleo. [18] Stata/MP ejecuta ciertos comandos aproximadamente 2,4 veces más rápido, aproximadamente el 60 % de la eficiencia máxima teórica, cuando se ejecutan procesos paralelos en cuatro núcleos de CPU en comparación con las versiones SE o BE. [18] Numerics by Stata permite la integración web de los comandos de Stata.
Las versiones de SE y BE difieren en la cantidad de memoria que pueden utilizar los conjuntos de datos. Si bien Stata/MP puede almacenar entre 10 y 20 mil millones de observaciones y hasta 120 000 variables, Stata/SE y Stata/BE almacenan hasta 2140 millones de observaciones y manejan 32 767 variables y 2048 variables respectivamente. El número máximo de variables independientes en un modelo es de 65 532 variables en Stata/MP, 10 998 variables en Stata/SE y 798 variables en Stata/BE. [17]
El precio y la concesión de licencias de Stata dependen del uso previsto: empresarial, gubernamental/sin ánimo de lucro, educativo o estudiantil. Las licencias de usuario único se pueden renovar anualmente o son perpetuas. Otros tipos de licencias incluyen una licencia única para uso por parte de usuarios simultáneos, una licencia de sitio, una licencia de usuario único por volumen para precios al por mayor o una licencia de laboratorio para estudiantes. [19]
El siguiente conjunto de comandos gira en torno a la gestión de datos simples. [20]
sysuse auto // Abre el conjunto de datos automático incluido browse // Explora el conjunto de datos (abre la ventana del Editor de datos)describe // Describe el conjunto de datos y las variables asociadas resume // Información resumida sobre las variables numéricaslibro de códigos make foreign // Información resumida sobre las variables make (cadena) y foreign (numéricas)browse if missing (rep78) // Examinar solo las observaciones con datos faltantes para la variable rep78 list make if missing (rep78) // Lista las marcas de los autos con datos faltantes para la variable rep78
El siguiente conjunto de comandos pasa a las estadísticas descriptivas.
resumir precio, detalle // Estadísticas resumidas detalladas para precio variabletabulate foreign // Tabla de frecuencia unidireccional para la variable foreign tabulate rep78 foreign, row // Tabla de frecuencia bidireccional para las variables rep78 y foreignresumir mpg si extranjero == 1 // Información resumida sobre mpg si el automóvil es extranjero (el signo "==" prueba la igualdad) por extranjero, ordenar : resumir mpg // Como arriba, pero usando el prefijo "por". tabular extranjero, resumir (mpg) // Como arriba, pero usando el comando tabular.
Una prueba de hipótesis simple:
mpg de prueba t , por (extranjero) // Prueba t para diferencia de medias entre autos nacionales y extranjeros
Graficar datos:
twoway (dispersión de mpg de peso) // Diagrama de dispersión que muestra la relación entre mpg y peso twoway (dispersión de mpg de peso), por (extranjero, total ) // Tres gráficos para autos nacionales, extranjeros y todos los autos
Regresión lineal:
generar wtsq = peso ^ 2 // Crear una nueva variable para el peso al cuadrado de la regresión mpg weight wtsq foreign, vce (robusto) // Regresión lineal de mpg en weight, wtsq y foreign predict mpghat // Crear una nueva variable que contenga los valores predichos de mpg twoway (dispersión de mpg weight) (línea mpghat weight, sort ), by (foreign) // Graficar datos y línea ajustada