La estadística computacional , o computación estadística , es el estudio que es la intersección de la estadística y la informática , y se refiere a los métodos estadísticos que se hacen posibles mediante el uso de métodos computacionales. Es el área de la ciencia computacional (o computación científica) específica de la ciencia matemática de la estadística . Esta área se está desarrollando rápidamente. La visión de que el concepto más amplio de computación debe enseñarse como parte de la educación estadística general está ganando impulso. [1]
Al igual que en las estadísticas tradicionales, el objetivo es transformar los datos brutos en conocimiento , [2] pero el foco se centra en métodos estadísticos intensivos en computación , como casos con tamaños de muestra muy grandes y conjuntos de datos no homogéneos . [2]
Los términos "estadística computacional" y "computación estadística" se usan a menudo indistintamente, aunque Carlo Lauro (ex presidente de la Asociación Internacional de Computación Estadística ) propuso hacer una distinción, definiendo "computación estadística" como "la aplicación de la ciencia informática a la estadística", y "estadística computacional" como "apuntando al diseño de algoritmos para implementar métodos estadísticos en computadoras, incluyendo aquellos impensables antes de la era de la computadora (por ejemplo, bootstrap , simulación ), así como para lidiar con problemas analíticamente intratables" [ sic ]. [3]
El término "estadística computacional" también puede usarse para referirse a métodos estadísticos computacionalmente intensivos , incluidos métodos de remuestreo , métodos de Monte Carlo de cadena de Markov , regresión local , estimación de densidad de kernel , redes neuronales artificiales y modelos aditivos generalizados .
Aunque la estadística computacional se utiliza ampliamente en la actualidad, en realidad tiene una historia relativamente corta de aceptación en la comunidad estadística . En su mayor parte, los fundadores del campo de la estadística se basaron en las matemáticas y las aproximaciones asintóticas en el desarrollo de la metodología estadística computacional. [4]
En 1908, William Sealy Gosset realizó su ahora famosa simulación por el método de Monte Carlo , que condujo al descubrimiento de la distribución t de Student . [5] Con la ayuda de métodos computacionales, también logró superponer gráficos de las distribuciones empíricas a las distribuciones teóricas correspondientes. La computadora ha revolucionado la simulación y ha hecho que la réplica del experimento de Gosset sea poco más que un ejercicio. [6] [7]
Más tarde, los científicos propusieron formas computacionales de generar desviaciones pseudoaleatorias , realizaron métodos para convertir desviaciones uniformes en otras formas de distribución utilizando la función de distribución acumulativa inversa o métodos de aceptación-rechazo, y desarrollaron una metodología de espacio de estados para el método Monte Carlo de cadena de Markov . [8] Uno de los primeros esfuerzos para generar dígitos aleatorios de forma totalmente automatizada fue realizado por la Corporación RAND en 1947. Las tablas producidas se publicaron como un libro en 1955 , y también como una serie de tarjetas perforadas.
A mediados de la década de 1950, se habían propuesto varios artículos y patentes para dispositivos generadores de números aleatorios . [9] El desarrollo de estos dispositivos estuvo motivado por la necesidad de utilizar dígitos aleatorios para realizar simulaciones y otros componentes fundamentales en el análisis estadístico. Uno de los dispositivos más conocidos es ERNIE, que produce números aleatorios que determinan los ganadores del Bono Premium , un bono de lotería emitido en el Reino Unido. En 1958, se desarrolló el jackknife de John Tukey . Es un método para reducir el sesgo de las estimaciones de parámetros en muestras en condiciones no estándar. [10] Esto requiere computadoras para implementaciones prácticas. Hasta este punto, las computadoras han hecho factibles muchos estudios estadísticos tediosos. [11]
La estimación de máxima verosimilitud se utiliza para estimar los parámetros de una distribución de probabilidad supuesta , dados algunos datos observados. Se logra maximizando una función de verosimilitud de modo que los datos observados sean los más probables según el modelo estadístico supuesto .
Monte Carlo es un método estadístico que se basa en un muestreo aleatorio repetido para obtener resultados numéricos. El concepto es utilizar la aleatoriedad para resolver problemas que podrían ser deterministas en principio. Se utilizan a menudo en problemas físicos y matemáticos y son más útiles cuando es difícil utilizar otros enfoques. Los métodos de Monte Carlo se utilizan principalmente en tres clases de problemas: optimización , integración numérica y generación de extracciones a partir de una distribución de probabilidad .
El método Monte Carlo de cadena de Markov crea muestras de una variable aleatoria continua , con una densidad de probabilidad proporcional a una función conocida. Estas muestras se pueden utilizar para evaluar una integral sobre esa variable, como su valor esperado o varianza . Cuantos más pasos se incluyan, más se ajustará la distribución de la muestra a la distribución deseada real.
El bootstrap es una técnica de remuestreo que se utiliza para generar muestras a partir de una distribución de probabilidad empírica definida por una muestra original de la población. Se puede utilizar para encontrar un estimador bootstrap de un parámetro de la población. También se puede utilizar para estimar el error estándar de un estimador, así como para generar intervalos de confianza bootstrap. El jackknife es una técnica relacionada. [12]
{{cite journal}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )