stringtranslate.com

Estadística computacional

Estudiantes trabajando en la Sala de Máquinas de Estadística de la London School of Economics en 1964

La estadística computacional , o computación estadística , es el estudio que es la intersección de la estadística y la informática , y se refiere a los métodos estadísticos que se permiten mediante el uso de métodos computacionales. Es el área de la ciencia computacional (o computación científica) específica de la ciencia matemática de la estadística . Esta área se está desarrollando rápidamente. Está ganando impulso la opinión de que el concepto más amplio de informática debe enseñarse como parte de la educación estadística general. [1]

Al igual que en las estadísticas tradicionales, el objetivo es transformar los datos brutos en conocimiento , [2] pero la atención se centra en métodos estadísticos intensivos en informática , como casos con un tamaño de muestra muy grande y conjuntos de datos no homogéneos . [2]

Los términos 'estadística computacional' y 'computación estadística' se usan a menudo indistintamente, aunque Carlo Lauro (ex presidente de la Asociación Internacional de Computación Estadística ) propuso hacer una distinción, definiendo 'computación estadística' como "la aplicación de la informática a la estadística". ", y 'estadística computacional' como "el objetivo del diseño de algoritmos para implementar métodos estadísticos en computadoras, incluidos los impensables antes de la era de las computadoras (por ejemplo, arranque , simulación ), así como para hacer frente a problemas analíticamente intratables" [ sic ] . [3]

El término "estadística computacional" también puede usarse para referirse a métodos estadísticos computacionalmente intensivos , incluidos métodos de remuestreo , métodos de Monte Carlo de cadena de Markov , regresión local , estimación de densidad del núcleo , redes neuronales artificiales y modelos aditivos generalizados .

Historia

Aunque la estadística computacional se usa ampliamente hoy en día, en realidad tiene una historia relativamente corta de aceptación en la comunidad estadística . En su mayor parte, los fundadores del campo de la estadística se basaron en las matemáticas y las aproximaciones asintóticas en el desarrollo de la metodología estadística computacional. [4]

En 1908, William Sealy Gosset realizó su ahora conocido método de simulación de Monte Carlo que condujo al descubrimiento de la distribución t de Student . [5] Con la ayuda de métodos computacionales, también tiene gráficos de las distribuciones empíricas superpuestas a las distribuciones teóricas correspondientes. La computadora ha revolucionado la simulación y ha hecho que la replicación del experimento de Gosset sea poco más que un ejercicio. [6] [7]

Más tarde, los científicos propusieron métodos computacionales para generar desviaciones pseudoaleatorias , aplicaron métodos para convertir desviaciones uniformes en otras formas distributivas utilizando una función de distribución acumulativa inversa o métodos de aceptación-rechazo y desarrollaron una metodología de espacio de estados para la cadena de Markov Monte Carlo . [8] Uno de los primeros esfuerzos para generar dígitos aleatorios de forma totalmente automatizada fue realizado por RAND Corporation en 1947. Las tablas producidas se publicaron como un libro en 1955 , y también como una serie de tarjetas perforadas.

A mediados de la década de 1950, se habían propuesto varios artículos y patentes de dispositivos para generadores de números aleatorios . [9] El desarrollo de estos dispositivos fue motivado por la necesidad de utilizar dígitos aleatorios para realizar simulaciones y otros componentes fundamentales en el análisis estadístico. Uno de los dispositivos más conocidos es ERNIE, que produce números aleatorios que determinan los ganadores del Premium Bond , un bono de lotería emitido en el Reino Unido. En 1958, se desarrolló la navaja de John Tukey . Es un método para reducir el sesgo de las estimaciones de parámetros en muestras en condiciones no estándar. [10] Esto requiere computadoras para implementaciones prácticas. Hasta ahora, las computadoras han hecho viables muchos estudios estadísticos tediosos. [11]

Métodos

Estimación de máxima verosimilitud

La estimación de máxima verosimilitud se utiliza para estimar los parámetros de una distribución de probabilidad supuesta , dados algunos datos observados. Se logra maximizando una función de verosimilitud de modo que los datos observados sean más probables según el modelo estadístico supuesto .

Método Montecarlo

Monte Carlo es un método estadístico que se basa en un muestreo aleatorio repetido para obtener resultados numéricos. El concepto es utilizar la aleatoriedad para resolver problemas que en principio podrían ser deterministas . A menudo se utilizan en problemas físicos y matemáticos y son más útiles cuando es difícil utilizar otros enfoques. Los métodos de Monte Carlo se utilizan principalmente en tres clases de problemas: optimización , integración numérica y generación de sorteos a partir de una distribución de probabilidad .

Cadena de Markov Montecarlo

El método Monte Carlo de la cadena de Markov crea muestras a partir de una variable aleatoria continua , con una densidad de probabilidad proporcional a una función conocida. Estas muestras se pueden utilizar para evaluar una integral sobre esa variable, como su valor esperado o varianza . Cuantos más pasos se incluyan, más se acercará la distribución de la muestra a la distribución real deseada.


Arranque

El bootstrap es una técnica de remuestreo que se utiliza para generar muestras a partir de una distribución de probabilidad empírica definida por una muestra original de la población. Se puede utilizar para encontrar un estimador bootstrap de un parámetro de población. También se puede utilizar para estimar el error estándar de un estimador, así como para generar intervalos de confianza bootstrap. El jackknife es una técnica relacionada [12] .

Aplicaciones

Revistas de estadística computacional

Asociaciones

Ver también

Referencias

  1. ^ Nolan, D. y Temple Lang, D. (2010). "Computación en los planes de estudios de estadística", The American Statistician 64 (2), págs.97-107.
  2. ^ ab Wegman, Edward J. "Estadística computacional: una nueva agenda para la teoría y la práctica estadística". Revista de la Academia de Ciencias de Washington , vol. 78, núm. 4, 1988, págs. 310–322. JSTOR
  3. ^ Lauro, Carlo (1996), "Estadística computacional o computación estadística, ¿esa es la pregunta?", Estadísticas computacionales y análisis de datos , 23 (1): 191–193, doi :10.1016/0167-9473(96)88920-1
  4. ^ Watnik, Mitchell (2011). "Estadísticas computacionales tempranas". Revista de Estadística Computacional y Gráfica . 20 (4): 811–817. doi : 10.1198/jcgs.2011.204b. ISSN  1061-8600. S2CID  120111510.
  5. ^ "Estudiante" [ William Sealy Gosset ] (1908). «El probable error de una media» (PDF) . Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR  2331554.{{cite journal}}: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
  6. ^ Trahan, Travis John (3 de octubre de 2019). Avances recientes en los métodos Monte Carlo en el Laboratorio Nacional de Los Alamos (Informe). doi :10.2172/1569710. OSTI  1569710.
  7. ^ Metrópolis, Nicolás; Ulam, S. (1949). "El método Montecarlo". Revista de la Asociación Estadounidense de Estadística . 44 (247): 335–341. doi :10.1080/01621459.1949.10483310. ISSN  0162-1459. PMID  18139350.
  8. ^ Roberto, cristiano; Casella, George (1 de febrero de 2011). "Una breve historia de la cadena de Markov Monte Carlo: recuerdos subjetivos de datos incompletos". Ciencia estadística . 26 (1). arXiv : 0808.2902 . doi : 10.1214/10-pts351 . ISSN  0883-4237. S2CID  2806098.
  9. ^ Pierre L'Ecuyer (2017). "Historia de la generación uniforme de números aleatorios" (PDF) . Conferencia de simulación de invierno de 2017 (WSC) . págs. 202-230. doi :10.1109/WSC.2017.8247790. ISBN 978-1-5386-3428-8. S2CID  4567651.
  10. ^ QUENOUILLE, MH (1956). "Notas sobre el sesgo en la estimación". Biometrika . 43 (3–4): 353–360. doi :10.1093/biomet/43.3-4.353. ISSN  0006-3444.
  11. ^ Teichroew, Daniel (1965). "Una historia del muestreo de distribución antes de la era de la computadora y su relevancia para la simulación". Revista de la Asociación Estadounidense de Estadística . 60 (309): 27–49. doi :10.1080/01621459.1965.10480773. ISSN  0162-1459.
  12. ^ Rizzo, María. Computación estadística con R. ISBN 9781420010718.

Otras lecturas

Artículos

Libros

enlaces externos

Asociaciones

Revistas