La estadística computacional , o computación estadística , es el estudio que es la intersección de la estadística y la informática , y se refiere a los métodos estadísticos que se permiten mediante el uso de métodos computacionales. Es el área de la ciencia computacional (o computación científica) específica de la ciencia matemática de la estadística . Esta área se está desarrollando rápidamente. Está ganando impulso la opinión de que el concepto más amplio de informática debe enseñarse como parte de la educación estadística general. [1]
Al igual que en las estadísticas tradicionales, el objetivo es transformar los datos brutos en conocimiento , [2] pero la atención se centra en métodos estadísticos intensivos en informática , como casos con un tamaño de muestra muy grande y conjuntos de datos no homogéneos . [2]
Los términos 'estadística computacional' y 'computación estadística' se usan a menudo indistintamente, aunque Carlo Lauro (ex presidente de la Asociación Internacional de Computación Estadística ) propuso hacer una distinción, definiendo 'computación estadística' como "la aplicación de la informática a la estadística". ", y 'estadística computacional' como "el objetivo del diseño de algoritmos para implementar métodos estadísticos en computadoras, incluidos los impensables antes de la era de las computadoras (por ejemplo, arranque , simulación ), así como para hacer frente a problemas analíticamente intratables" [ sic ] . [3]
El término "estadística computacional" también puede usarse para referirse a métodos estadísticos computacionalmente intensivos , incluidos métodos de remuestreo , métodos de Monte Carlo de cadena de Markov , regresión local , estimación de densidad del núcleo , redes neuronales artificiales y modelos aditivos generalizados .
Aunque la estadística computacional se usa ampliamente hoy en día, en realidad tiene una historia relativamente corta de aceptación en la comunidad estadística . En su mayor parte, los fundadores del campo de la estadística se basaron en las matemáticas y las aproximaciones asintóticas en el desarrollo de la metodología estadística computacional. [4]
En 1908, William Sealy Gosset realizó su ahora conocido método de simulación de Monte Carlo que condujo al descubrimiento de la distribución t de Student . [5] Con la ayuda de métodos computacionales, también tiene gráficos de las distribuciones empíricas superpuestas a las distribuciones teóricas correspondientes. La computadora ha revolucionado la simulación y ha hecho que la replicación del experimento de Gosset sea poco más que un ejercicio. [6] [7]
Más tarde, los científicos propusieron métodos computacionales para generar desviaciones pseudoaleatorias , aplicaron métodos para convertir desviaciones uniformes en otras formas distributivas utilizando una función de distribución acumulativa inversa o métodos de aceptación-rechazo y desarrollaron una metodología de espacio de estados para la cadena de Markov Monte Carlo . [8] Uno de los primeros esfuerzos para generar dígitos aleatorios de forma totalmente automatizada fue realizado por RAND Corporation en 1947. Las tablas producidas se publicaron como un libro en 1955 , y también como una serie de tarjetas perforadas.
A mediados de la década de 1950, se habían propuesto varios artículos y patentes de dispositivos para generadores de números aleatorios . [9] El desarrollo de estos dispositivos fue motivado por la necesidad de utilizar dígitos aleatorios para realizar simulaciones y otros componentes fundamentales en el análisis estadístico. Uno de los dispositivos más conocidos es ERNIE, que produce números aleatorios que determinan los ganadores del Premium Bond , un bono de lotería emitido en el Reino Unido. En 1958, se desarrolló la navaja de John Tukey . Es un método para reducir el sesgo de las estimaciones de parámetros en muestras en condiciones no estándar. [10] Esto requiere computadoras para implementaciones prácticas. Hasta ahora, las computadoras han hecho viables muchos estudios estadísticos tediosos. [11]
La estimación de máxima verosimilitud se utiliza para estimar los parámetros de una distribución de probabilidad supuesta , dados algunos datos observados. Se logra maximizando una función de verosimilitud de modo que los datos observados sean más probables según el modelo estadístico supuesto .
Monte Carlo es un método estadístico que se basa en un muestreo aleatorio repetido para obtener resultados numéricos. El concepto es utilizar la aleatoriedad para resolver problemas que en principio podrían ser deterministas . A menudo se utilizan en problemas físicos y matemáticos y son más útiles cuando es difícil utilizar otros enfoques. Los métodos de Monte Carlo se utilizan principalmente en tres clases de problemas: optimización , integración numérica y generación de sorteos a partir de una distribución de probabilidad .
El método Monte Carlo de la cadena de Markov crea muestras a partir de una variable aleatoria continua , con una densidad de probabilidad proporcional a una función conocida. Estas muestras se pueden utilizar para evaluar una integral sobre esa variable, como su valor esperado o varianza . Cuantos más pasos se incluyan, más se acercará la distribución de la muestra a la distribución real deseada.
Arranque
El bootstrap es una técnica de remuestreo que se utiliza para generar muestras a partir de una distribución de probabilidad empírica definida por una muestra original de la población. Se puede utilizar para encontrar un estimador bootstrap de un parámetro de población. También se puede utilizar para estimar el error estándar de un estimador, así como para generar intervalos de confianza bootstrap. El jackknife es una técnica relacionada [12] .
{{cite journal}}
: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )