Stata ( / ˈ s t eɪ t ə / , [2] STAY -ta , alternativamente / ˈ s t æ t ə / , ocasionalmente estilizado como STATA [3] [4] ) es un paquete de software estadístico de propósito general desarrollado por StataCorp para manipulación de datos, visualización, estadísticas e informes automatizados. Lo utilizan investigadores de muchos campos, incluidos la biomedicina , la economía , la epidemiología y la sociología . [5]
Stata fue desarrollada inicialmente por Computing Resource Center en California y la primera versión se lanzó en 1985. [6] En 1993, la empresa se mudó a College Station, TX y pasó a llamarse Stata Corporation, ahora conocida como StataCorp. [1] Una versión importante en 2003 incluyó un nuevo sistema de gráficos y cuadros de diálogo para todos los comandos. [6] Desde entonces, se ha publicado una nueva versión cada dos años. [7] La versión actual es Stata 18, lanzada en abril de 2023. [8]
Desde su creación, Stata siempre ha empleado una interfaz de línea de comandos integrada. A partir de la versión 8.0, Stata ha incluido una interfaz gráfica de usuario basada en el marco Qt que utiliza menús y cuadros de diálogo para dar acceso a muchos comandos integrados. El conjunto de datos se puede ver o editar en formato de hoja de cálculo. A partir de la versión 11, se pueden ejecutar otros comandos mientras se abre el navegador o editor de datos.
Hasta el lanzamiento de la versión 16, [9] Stata solo podía abrir un único conjunto de datos a la vez. Stata permite flexibilidad al asignar tipos de datos a los datos. Su compress
comando reasigna automáticamente datos a tipos de datos que ocupan menos memoria sin pérdida de información. Stata utiliza tipos de almacenamiento de números enteros que ocupan sólo uno o dos bytes en lugar de cuatro, y la precisión simple (4 bytes) en lugar de la precisión doble (8 bytes) es la opción predeterminada para los números de punto flotante .
El formato de datos de Stata siempre es tabular . Stata se refiere a las columnas de datos tabulares como variables.
Stata puede importar datos en una variedad de formatos. Esto incluye formatos de datos ASCII (como CSV o formatos de banco de datos ) y formatos de hojas de cálculo (incluidos varios formatos de Excel ).
Los formatos de archivo propietarios de Stata han cambiado con el tiempo, aunque no todas las versiones de Stata incluyen un nuevo formato de conjunto de datos. Cada versión de Stata puede leer todos los formatos de conjuntos de datos más antiguos y puede escribir tanto el formato de conjunto de datos actual como el anterior más reciente, utilizando el saveold
comando. [10] Por lo tanto, la versión actual de Stata siempre puede abrir conjuntos de datos que se crearon con versiones anteriores, pero las versiones anteriores no pueden leer conjuntos de datos con formatos más nuevos.
Stata puede leer y escribir conjuntos de datos en formato SAS XPORT de forma nativa, utilizando los comandos fdause y fdasave .
Algunas otras aplicaciones econométricas , incluida gretl , pueden importar directamente formatos de archivos Stata.
El desarrollo de Stata comenzó en 1984, inicialmente por William (Bill) Gould y posteriormente por Sean Becketti. Originalmente, el software estaba destinado a competir con programas estadísticos para ordenadores personales como SYSTAT y MicroTSP . [6] Stata fue escrito, entonces como ahora, en el lenguaje de programación C , inicialmente para PC con el sistema operativo DOS . La primera versión fue lanzada en 1985 con 44 comandos. [6]
Ha habido 17 versiones importantes de Stata entre 1985 y 2021, y actualizaciones adicionales de código y documentación entre versiones principales. [7] En sus primeros años, a veces se vendían conjuntos adicionales de programas Stata como "kits" o se distribuían como discos de soporte. Con el lanzamiento de Stata 6 en 1999, update
los anuncios comenzaron a entregarse a los usuarios a través de la web. [6] La versión inicial de Stata fue para el sistema operativo DOS . Desde entonces, se han lanzado versiones de Stata para sistemas que ejecutan variantes de Unix como distribuciones de Linux , Windows y MacOS . [6] Todos los archivos Stata son independientes de la plataforma.
Se han agregado cientos de comandos a Stata en sus 37 años de historia. [11] [12] Ciertos desarrollos han demostrado ser particularmente importantes y continúan dando forma a la experiencia del usuario hoy en día, incluida la extensibilidad , la independencia de la plataforma y la comunidad de usuarios activa . [6]
El program
comando se implementó en Stata 1.2, brindando a los usuarios la posibilidad de agregar sus propios comandos. [6] [13] Los archivos ado siguieron en Stata 2.1, lo que permite que un programa escrito por el usuario se cargue automáticamente en la memoria. Muchos archivos ado escritos por usuarios se envían al [Archivo de componentes de software estadístico] alojado en Boston College. StataCorp agregó un ssc
comando para permitir que los programas aportados por la comunidad se agreguen directamente dentro de Stata. [14] Las ediciones más recientes de Stata permiten a los usuarios llamar scripts de Python mediante comandos, además de permitir que los IDE de Python como Jupyter Notebooks importen comandos de Stata. [15] Aunque Stata no es compatible con R de forma nativa, existen extensiones escritas por el usuario para usar scripts de R en Stata. [dieciséis]
La activa comunidad de usuarios de Stata inició una serie de desarrollos importantes. [6] El Boletín Técnico de Stata , que a menudo contiene comandos creados por el usuario, se introdujo en 1991 y se publica seis veces al año. Fue relanzado en 2001 como Stata Journal revisado por pares , una publicación trimestral que contiene descripciones de comandos aportados por la comunidad y consejos para el uso eficaz de Stata. En 1994, comenzó un servidor de listas como un centro para que los usuarios resolvieran de forma colaborativa problemas técnicos y de codificación; en 2014, se convirtió en un foro web. En 1995, Statacorp comenzó a organizar conferencias de usuarios y desarrolladores que se reúnen anualmente. StataCorp solo organiza la Conferencia anual de Stata que se celebra en los Estados Unidos. Anualmente se celebran otras reuniones de grupos de usuarios en los Estados Unidos (la Conferencia Stata), el Reino Unido, Alemania e Italia, y con menos frecuencia en varios otros países. Los distribuidores locales de Stata organizan reuniones de grupos de usuarios en sus propios países.
Hay cuatro versiones de Stata: Stata/MP, Stata/SE, Stata/BE y Numerics by Stata. [17] Mientras que Stata/MP permite el procesamiento paralelo integrado de ciertos comandos, Stata/SE y Stata/BE tienen cuellos de botella y limitan el uso a un solo núcleo. [18] Stata/MP ejecuta ciertos comandos aproximadamente 2,4 veces más rápido, aproximadamente el 60% de la eficiencia máxima teórica, cuando ejecuta procesos paralelos en cuatro núcleos de CPU en comparación con las versiones SE o BE. [18] Numerics by Stata permite la integración web de comandos de Stata.
Las versiones SE y BE difieren en la cantidad de memoria que pueden utilizar los conjuntos de datos. Aunque Stata/MP puede almacenar de 10 a 20 mil millones de observaciones y hasta 120 000 variables, Stata/SE y Stata/BE almacenan hasta 2,14 mil millones de observaciones y manejan 32,767 variables y 2,048 variables respectivamente. El número máximo de variables independientes en un modelo es 65.532 variables en Stata/MP, 10.998 variables en Stata/SE y 798 variables en Stata/BE. [17]
El precio y la licencia de Stata dependen de su uso previsto: negocios, gobierno/organización sin fines de lucro, educación o estudiantes. Las licencias de usuario único son renovables anualmente o perpetuas. Otros tipos de licencia incluyen una licencia única para uso simultáneo de usuarios, una licencia de sitio, un usuario único por volumen para precios al por mayor o un laboratorio para estudiantes. [19]
El siguiente conjunto de comandos gira en torno a una gestión de datos sencilla. [20]
sysuse auto // Abre la exploración automática del conjunto de datos incluida // Explora el conjunto de datos (abre la ventana del Editor de datos)describir // Describe el conjunto de datos y las variables asociadas resumir // Información resumida sobre variables numéricaslibro de códigos make Foreign // Información resumida sobre las variables make (cadena) y Foreign (numéricas)buscar si falta (rep78) // Examinar solo las observaciones con datos faltantes para la variable rep78 lista hacer si falta (rep78) // Listar las marcas de los autos con datos faltantes para la variable rep78
El siguiente conjunto de comandos pasa a las estadísticas descriptivas.
resumir precio, detalle // Estadísticas resumidas detalladas para precio variabletabular extranjera // Tabla de frecuencia unidireccional para variable extranjera tabular rep78 extranjera, fila // Tabla de frecuencia bidireccional para variables rep78 y extranjeraresumir mpg si es extranjero == 1 // Información resumida sobre mpg si el automóvil es extranjero (el signo "==" prueba la igualdad) por extranjero, ordenar : resumir mpg // Como arriba, pero usando el prefijo "por". tabular extranjero, resumir (mpg) // Como arriba, pero usando el comando tabular.
Una prueba de hipótesis simple:
ttest mpg, por (extranjero) // Prueba T para la diferencia de medias entre automóviles nacionales y extranjeros
Datos gráficos:
twoway (peso de mpg disperso) // Gráfico de dispersión que muestra la relación entre mpg y peso twoway (peso de mpg disperso), por (extranjero, total ) // Tres gráficos para automóviles nacionales, extranjeros y todos los automóviles
Regresión lineal:
generar wtsq = peso ^ 2 // Crear una nueva variable para la regresión de peso al cuadrado mpg peso wtsq Foreign, vce (robusto) // Regresión lineal de mpg en peso, wtsq y predicción extranjera mpghat // Crear una nueva variable que contenga los valores predichos de mpg bidireccional (peso de mpg disperso) (peso de mpg de línea, ordenar ), por (extranjero) // Datos gráficos y línea ajustada