stringtranslate.com

Estadísticas computacionales

Estudiantes trabajando en la Sala de Máquinas de Estadística de la London School of Economics en 1964

La estadística computacional , o computación estadística , es el estudio que es la intersección de la estadística y la informática , y se refiere a los métodos estadísticos que se hacen posibles mediante el uso de métodos computacionales. Es el área de la ciencia computacional (o computación científica) específica de la ciencia matemática de la estadística . Esta área se está desarrollando rápidamente. La visión de que el concepto más amplio de computación debe enseñarse como parte de la educación estadística general está ganando impulso. [1]

Al igual que en las estadísticas tradicionales, el objetivo es transformar los datos brutos en conocimiento , [2] pero el foco se centra en métodos estadísticos intensivos en computación , como casos con tamaños de muestra muy grandes y conjuntos de datos no homogéneos . [2]

Los términos "estadística computacional" y "computación estadística" se usan a menudo indistintamente, aunque Carlo Lauro (ex presidente de la Asociación Internacional de Computación Estadística ) propuso hacer una distinción, definiendo "computación estadística" como "la aplicación de la ciencia informática a la estadística", y "estadística computacional" como "apuntando al diseño de algoritmos para implementar métodos estadísticos en computadoras, incluyendo aquellos impensables antes de la era de la computadora (por ejemplo, bootstrap , simulación ), así como para lidiar con problemas analíticamente intratables" [ sic ]. [3]

El término "estadística computacional" también puede usarse para referirse a métodos estadísticos computacionalmente intensivos , incluidos métodos de remuestreo , métodos de Monte Carlo de cadena de Markov , regresión local , estimación de densidad de kernel , redes neuronales artificiales y modelos aditivos generalizados .

Historia

Aunque la estadística computacional se utiliza ampliamente en la actualidad, en realidad tiene una historia relativamente corta de aceptación en la comunidad estadística . En su mayor parte, los fundadores del campo de la estadística se basaron en las matemáticas y las aproximaciones asintóticas en el desarrollo de la metodología estadística computacional. [4]

En 1908, William Sealy Gosset realizó su ahora famosa simulación por el método de Monte Carlo , que condujo al descubrimiento de la distribución t de Student . [5] Con la ayuda de métodos computacionales, también logró superponer gráficos de las distribuciones empíricas a las distribuciones teóricas correspondientes. La computadora ha revolucionado la simulación y ha hecho que la réplica del experimento de Gosset sea poco más que un ejercicio. [6] [7]

Más tarde, los científicos propusieron formas computacionales de generar desviaciones pseudoaleatorias , realizaron métodos para convertir desviaciones uniformes en otras formas de distribución utilizando la función de distribución acumulativa inversa o métodos de aceptación-rechazo, y desarrollaron una metodología de espacio de estados para el método Monte Carlo de cadena de Markov . [8] Uno de los primeros esfuerzos para generar dígitos aleatorios de forma totalmente automatizada fue realizado por la Corporación RAND en 1947. Las tablas producidas se publicaron como un libro en 1955 , y también como una serie de tarjetas perforadas.

A mediados de la década de 1950, se habían propuesto varios artículos y patentes para dispositivos generadores de números aleatorios . [9] El desarrollo de estos dispositivos estuvo motivado por la necesidad de utilizar dígitos aleatorios para realizar simulaciones y otros componentes fundamentales en el análisis estadístico. Uno de los dispositivos más conocidos es ERNIE, que produce números aleatorios que determinan los ganadores del Bono Premium , un bono de lotería emitido en el Reino Unido. En 1958, se desarrolló el jackknife de John Tukey . Es un método para reducir el sesgo de las estimaciones de parámetros en muestras en condiciones no estándar. [10] Esto requiere computadoras para implementaciones prácticas. Hasta este punto, las computadoras han hecho factibles muchos estudios estadísticos tediosos. [11]

Métodos

Estimación de máxima verosimilitud

La estimación de máxima verosimilitud se utiliza para estimar los parámetros de una distribución de probabilidad supuesta , dados algunos datos observados. Se logra maximizando una función de verosimilitud de modo que los datos observados sean los más probables según el modelo estadístico supuesto .

Método de Monte Carlo

Monte Carlo es un método estadístico que se basa en un muestreo aleatorio repetido para obtener resultados numéricos. El concepto es utilizar la aleatoriedad para resolver problemas que podrían ser deterministas en principio. Se utilizan a menudo en problemas físicos y matemáticos y son más útiles cuando es difícil utilizar otros enfoques. Los métodos de Monte Carlo se utilizan principalmente en tres clases de problemas: optimización , integración numérica y generación de extracciones a partir de una distribución de probabilidad .

Cadena de Markov Monte Carlo

El método Monte Carlo de cadena de Markov crea muestras de una variable aleatoria continua , con una densidad de probabilidad proporcional a una función conocida. Estas muestras se pueden utilizar para evaluar una integral sobre esa variable, como su valor esperado o varianza . Cuantos más pasos se incluyan, más se ajustará la distribución de la muestra a la distribución deseada real.

Arranque

El bootstrap es una técnica de remuestreo que se utiliza para generar muestras a partir de una distribución de probabilidad empírica definida por una muestra original de la población. Se puede utilizar para encontrar un estimador bootstrap de un parámetro de la población. También se puede utilizar para estimar el error estándar de un estimador, así como para generar intervalos de confianza bootstrap. El jackknife es una técnica relacionada. [12]

Aplicaciones

Revistas de estadística computacional

Asociaciones

Véase también

Referencias

  1. ^ Nolan, D. y Temple Lang, D. (2010). "Computación en los planes de estudio de estadística", The American Statistician 64 (2), págs. 97-107.
  2. ^ ab Wegman, Edward J. “Estadística computacional: una nueva agenda para la teoría y la práctica estadística”. Journal of the Washington Academy of Sciences , vol. 78, núm. 4, 1988, págs. 310–322. JSTOR
  3. ^ Lauro, Carlo (1996), "Estadística computacional o computación estadística, ¿es esa la cuestión?", Computational Statistics & Data Analysis , 23 (1): 191–193, doi :10.1016/0167-9473(96)88920-1
  4. ^ Watnik, Mitchell (2011). "Estadística computacional temprana". Revista de estadística computacional y gráfica . 20 (4): 811–817. doi :10.1198/jcgs.2011.204b. ISSN  1061-8600. S2CID  120111510.
  5. ^ "Estudiante" [ William Sealy Gosset ] (1908). "El error probable de una media" (PDF) . Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR  2331554.{{cite journal}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  6. ^ Trahan, Travis John (3 de octubre de 2019). Avances recientes en métodos de Monte Carlo en el Laboratorio Nacional de Los Álamos (informe). doi :10.2172/1569710. OSTI  1569710.
  7. ^ Metropolis, Nicholas; Ulam, S. (1949). "El método de Monte Carlo". Revista de la Asociación Estadounidense de Estadística . 44 (247): 335–341. doi :10.1080/01621459.1949.10483310. ISSN  0162-1459. PMID  18139350.
  8. ^ Robert, Christian; Casella, George (1 de febrero de 2011). "Una breve historia del método Monte Carlo de cadenas de Markov: recuerdos subjetivos a partir de datos incompletos". Ciencia estadística . 26 (1). arXiv : 0808.2902 . doi : 10.1214/10-sts351 . ISSN  0883-4237. S2CID  2806098.
  9. ^ Pierre L'Ecuyer (2017). "Historia de la generación uniforme de números aleatorios" (PDF) . Conferencia de Simulación de Invierno de 2017 (WSC) . pp. 202–230. doi :10.1109/WSC.2017.8247790. ISBN . 978-1-5386-3428-8.S2CID4567651  .​
  10. ^ QUENOUILLE, MH (1956). "Notas sobre el sesgo en la estimación". Biometrika . 43 (3–4): 353–360. doi :10.1093/biomet/43.3-4.353. ISSN  0006-3444.
  11. ^ Teichroew, Daniel (1965). "Una historia del muestreo de distribución anterior a la era de la computadora y su relevancia para la simulación". Revista de la Asociación Estadounidense de Estadística . 60 (309): 27–49. doi :10.1080/01621459.1965.10480773. ISSN  0162-1459.
  12. ^ Rizzo, Maria (15 de noviembre de 2007). Cálculo estadístico con R. CRC Press. ISBN 9781420010718.

Lectura adicional

Artículos

Libros

Enlaces externos

Asociaciones

Revistas