Modelo estadístico

Un modelo estadístico es un modelo matemático que incorpora un conjunto de supuestos estadísticos relativos a la generación de datos de muestra (y datos similares de una población más grande ). Un modelo estadístico representa, a menudo en forma considerablemente idealizada, el proceso de generación de datos . ^[1] Cuando se hace referencia específicamente a probabilidades , el término correspondiente es modelo probabilístico . Todas las pruebas de hipótesis estadísticas y todos los estimadores estadísticos se derivan a través de modelos estadísticos. De manera más general, los modelos estadísticos son parte de la base de la inferencia estadística . Un modelo estadístico suele especificarse como una relación matemática entre una o más variables aleatorias y otras variables no aleatorias. Como tal, un modelo estadístico es "una representación formal de una teoría" ( Herman Adèr citando a Kenneth Bollen ). ^[2]

Introducción

De manera informal, un modelo estadístico puede considerarse como un supuesto estadístico (o un conjunto de supuestos estadísticos) con una determinada propiedad: que el supuesto nos permite calcular la probabilidad de cualquier evento . Como ejemplo, considere un par de dados comunes de seis caras . Estudiaremos dos supuestos estadísticos diferentes sobre los dados.

El primer supuesto estadístico es el siguiente: para cada uno de los dados, la probabilidad de que salga cada cara (1, 2, 3, 4, 5 y 6) es1/6⁠ . A partir de esa suposición, podemos calcular la probabilidad de que ambos dados den como resultado 5: ⁠1/6×1/6⁠ = ⁠1/36⁠ . De manera más general, podemos calcular la probabilidad de cualquier evento: por ejemplo, (1 y 2) o (3 y 3) o (5 y 6). El supuesto estadístico alternativo es el siguiente: para cada uno de los dados, la probabilidad de que salga el 5 es ⁠1/8⁠ (porque los dados están ponderados ). A partir de esa suposición, podemos calcular la probabilidad de que en ambos dados salga 5: ⁠1/8×1/8⁠ = ⁠1/64⁠ . Sin embargo, no podemos calcular la probabilidad de ningún otro evento no trivial, ya que las probabilidades de las otras caras son desconocidas.

El primer supuesto estadístico constituye un modelo estadístico, ya que con él solo podemos calcular la probabilidad de cualquier evento. El supuesto estadístico alternativo no constituye un modelo estadístico, ya que con él solo no podemos calcular la probabilidad de cada evento. En el ejemplo anterior, con el primer supuesto, calcular la probabilidad de un evento es fácil. Sin embargo, con otros ejemplos, el cálculo puede ser difícil o incluso poco práctico (por ejemplo, puede requerir millones de años de computación). Para que un supuesto constituya un modelo estadístico, dicha dificultad es aceptable: no es necesario que el cálculo sea practicable, solo teóricamente posible.

Definición formal

En términos matemáticos, un modelo estadístico es un par ( ), donde es el conjunto de observaciones posibles, es decir, el espacio muestral , y es un conjunto de distribuciones de probabilidad en . ^[3] El conjunto representa todos los modelos que se consideran posibles. Este conjunto suele estar parametrizado: . El conjunto define los parámetros del modelo. Si una parametrización es tal que distintos valores de parámetros dan lugar a distintas distribuciones, es decir (en otras palabras, la aplicación es inyectiva ), se dice que es identificable . ^[3] $S,{\mathcal {P}}$ ${\estilo de visualización S}$ ${\mathcal {P}}$ ${\estilo de visualización S}$ ${\mathcal {P}}$ ${\mathcal {P}}=\{F_{\theta }:\theta \en \Theta \}$ ${\estilo de visualización \Theta}$ ${\ Displaystyle F _ {\ theta _ {1}} = F _ {\ theta _ {2}} \ Rightarrow \ theta _ {1} = \ theta _ {2}}$

En algunos casos, el modelo puede ser más complejo.

En la estadística bayesiana , el modelo se extiende añadiendo una distribución de probabilidad sobre el espacio de parámetros . ${\estilo de visualización \Theta}$
Un modelo estadístico puede distinguir a veces dos conjuntos de distribuciones de probabilidad. El primer conjunto es el conjunto de modelos considerados para la inferencia. El segundo conjunto es el conjunto de modelos que podrían haber generado los datos que son mucho más grandes que . Estos modelos estadísticos son clave para verificar que un procedimiento dado sea robusto , es decir, que no produzca errores catastróficos cuando sus suposiciones sobre los datos sean incorrectas. ${\mathcal {Q}}=\{F_{\theta }:\theta \en \Theta \}$ ${\mathcal {P}}=\{F_{\lambda}:\lambda \in \Lambda \}$ ${\mathcal {Q}}$

Un ejemplo

Supongamos que tenemos una población de niños, con las edades de los niños distribuidas uniformemente , en la población. La altura de un niño estará relacionada estocásticamente con la edad: por ejemplo, cuando sabemos que un niño tiene 7 años, esto influye en la probabilidad de que el niño mida 1,5 metros de altura. Podríamos formalizar esa relación en un modelo de regresión lineal , como este: altura _i = b ₀ + b ₁ edad _i + ε _i , donde b ₀ es la intersección, b ₁ es un parámetro por el que se multiplica la edad para obtener una predicción de la altura, ε _i es el término de error e i identifica al niño. Esto implica que la altura se predice por la edad, con algún error.

Un modelo admisible debe ser consistente con todos los puntos de datos. Por lo tanto, una línea recta (altura _i = b ₀ + b ₁ edad _i ) no puede ser admisible para un modelo de los datos, a menos que se ajuste exactamente a todos los puntos de datos, es decir, todos los puntos de datos se encuentren perfectamente en la línea. El término de error, ε _i , debe incluirse en la ecuación, de modo que el modelo sea consistente con todos los puntos de datos. Para hacer inferencia estadística , primero necesitaríamos suponer algunas distribuciones de probabilidad para ε _i . Por ejemplo, podríamos suponer que las distribuciones ε _i son iid gaussianas, con media cero. En este caso, el modelo tendría 3 parámetros: b ₀ , b ₁ y la varianza de la distribución gaussiana. Podemos especificar formalmente el modelo en la forma ( ) de la siguiente manera. El espacio muestral, , de nuestro modelo comprende el conjunto de todos los pares posibles (edad, altura). Cada valor posible de = ( b ₀ , b ₁ , σ ² ) determina una distribución en ; denotemos esa distribución por . Si es el conjunto de todos los valores posibles de , entonces . (La parametrización es identificable y esto es fácil de comprobar). $S,{\mathcal {P}}$ ${\estilo de visualización S}$ ${\estilo de visualización \theta}$ ${\estilo de visualización S}$ $F_{\theta}$ ${\estilo de visualización \Theta}$ ${\estilo de visualización \theta}$ ${\mathcal {P}}=\{F_{\theta }:\theta \en \Theta \}$

En este ejemplo, el modelo se determina (1) especificando y (2) haciendo algunas suposiciones relevantes para . Hay dos suposiciones: que la altura se puede aproximar mediante una función lineal de la edad; que los errores en la aproximación se distribuyen como iid gaussianos. Las suposiciones son suficientes para especificar , como se requiere que lo hagan. ${\estilo de visualización S}$ ${\mathcal {P}}$ ${\mathcal {P}}$

Observaciones generales

Un modelo estadístico es una clase especial de modelo matemático . Lo que distingue a un modelo estadístico de otros modelos matemáticos es que un modelo estadístico es no determinista . Por lo tanto, en un modelo estadístico especificado mediante ecuaciones matemáticas, algunas de las variables no tienen valores específicos, sino que tienen distribuciones de probabilidad; es decir, algunas de las variables son estocásticas . En el ejemplo anterior con las alturas de los niños, ε es una variable estocástica; sin esa variable estocástica, el modelo sería determinista. Los modelos estadísticos se utilizan a menudo incluso cuando el proceso de generación de datos que se modela es determinista. Por ejemplo, el lanzamiento de una moneda es, en principio, un proceso determinista; sin embargo, se modela comúnmente como estocástico (a través de un proceso de Bernoulli ). Elegir un modelo estadístico apropiado para representar un proceso de generación de datos dado es a veces extremadamente difícil y puede requerir conocimiento tanto del proceso como de los análisis estadísticos relevantes. En relación con esto, el estadístico Sir David Cox ha dicho: "La forma en que se realiza la traducción del problema en cuestión al modelo estadístico es a menudo la parte más crítica de un análisis". ^[4]

Hay tres propósitos para un modelo estadístico, según Konishi y Kitagawa: ^[5]

Predicciones
Extracción de información
Descripción de estructuras estocásticas

Estos tres propósitos son esencialmente los mismos que los tres propósitos indicados por Friendly y Meyer: predicción, estimación, descripción. ^[6]

Dimensión de un modelo

Supongamos que tenemos un modelo estadístico ( ) con . En notación, escribimos que donde $k$ es un entero positivo ( denota los números reales ; se pueden usar otros conjuntos, en principio). Aquí, $k$ se llama la dimensión del modelo. Se dice que el modelo es paramétrico si tiene dimensión finita. ^[^{cita requerida}^] Como ejemplo, si suponemos que los datos surgen de una distribución gaussiana univariante , entonces estamos asumiendo que $S,{\mathcal {P}}$ ${\mathcal {P}}=\{F_{\theta }:\theta \en \Theta \}$ $\Theta \subseteq \mathbb {R} ^{k}$ $\mathbb {R}$ ${\estilo de visualización \Theta}$

{\mathcal {P}}=\left\{F_{\mu ,\sigma }(x)\equiv {\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right):\mu \in \mathbb {R} ,\sigma >0\right\}

En este ejemplo, la dimensión, $k$ , es igual a 2. Como otro ejemplo, supongamos que los datos consisten en puntos ( $x$ , $y$ ) que suponemos que se distribuyen de acuerdo con una línea recta con residuos gaussianos iid (con media cero): esto conduce al mismo modelo estadístico que se utilizó en el ejemplo con las alturas de los niños. La dimensión del modelo estadístico es 3: la intersección de la línea, la pendiente de la línea y la varianza de la distribución de los residuos. (Obsérvese que el conjunto de todas las líneas posibles tiene dimensión 2, aunque geométricamente, una línea tiene dimensión 1).

Aunque formalmente es un único parámetro que tiene dimensión $k$ , a veces se considera que comprende $k$ parámetros separados. Por ejemplo, con la distribución gaussiana univariante, es formalmente un único parámetro con dimensión 2, pero a menudo se considera que comprende 2 parámetros separados: la media y la desviación estándar. Un modelo estadístico es no paramétrico si el conjunto de parámetros es de dimensión infinita. Un modelo estadístico es semiparamétrico si tiene parámetros de dimensión finita e infinita. Formalmente, si $k$ es la dimensión de y $n$ es el número de muestras, tanto los modelos semiparamétricos como los no paramétricos tienen como . Si como , entonces el modelo es semiparamétrico; de lo contrario, el modelo es no paramétrico. $\theta \en \Theta$ ${\estilo de visualización \theta}$ ${\estilo de visualización \Theta}$ ${\estilo de visualización \Theta}$ $k\rightarrow \infty$ $n\rightarrow \infty$ $k/n\rightarrow 0$ $n\rightarrow \infty$

Los modelos paramétricos son, con diferencia, los modelos estadísticos más utilizados. En relación con los modelos semiparamétricos y no paramétricos, Sir David Cox ha dicho que "normalmente implican menos supuestos de estructura y forma distributiva, pero suelen contener supuestos sólidos sobre independencias". ^[7]

Modelos anidados

Dos modelos estadísticos están anidados si el primer modelo se puede transformar en el segundo modelo imponiendo restricciones a los parámetros del primer modelo. Como ejemplo, el conjunto de todas las distribuciones gaussianas tiene, anidado dentro de él, el conjunto de distribuciones gaussianas de media cero: restringimos la media en el conjunto de todas las distribuciones gaussianas para obtener las distribuciones de media cero. Como segundo ejemplo, el modelo cuadrático

y = segundo 0 + segundo 1 x + segundo 2 x 2 + ε, ε ~ 𝒩(0, σ 2)

tiene, anidado dentro de sí, el modelo lineal

y = b 0 + b 1 x + ε, ε ~ 𝒩(0, σ 2)

—restringimos el parámetro $b 2$ a igual a 0.

En ambos ejemplos, el primer modelo tiene una dimensión mayor que el segundo (en el primer ejemplo, el modelo de media cero tiene dimensión 1). Esto suele suceder, pero no siempre. Como ejemplo de un caso en el que tienen la misma dimensión, el conjunto de distribuciones gaussianas de media positiva está anidado dentro del conjunto de todas las distribuciones gaussianas; ambas tienen dimensión 2.

Comparando modelos

La comparación de modelos estadísticos es fundamental para gran parte de la inferencia estadística . Konishi y Kitagawa (2008, p. 75) afirman: "La mayoría de los problemas en la inferencia estadística pueden considerarse problemas relacionados con el modelado estadístico. Por lo general, se formulan como comparaciones de varios modelos estadísticos". Los criterios comunes para comparar modelos incluyen los siguientes: R 2 , factor de Bayes , criterio de información de Akaike y la prueba de razón de verosimilitud junto con su generalización, la verosimilitud relativa .

Otra forma de comparar dos modelos estadísticos es a través de la noción de deficiencia introducida por Lucien Le Cam . ^[8]

Véase también

Notas

^ Cox 2006, pág. 178
^ Adèr 2008, pág. 280
^ por McCullagh 2002
^ Cox 2006, pág. 197
^ Konishi y Kitagawa 2008, §1.1
^ Friendly y Meyer 2016, §11.6
^ Cox 2006, pág. 2
^ Le Cam, Lucien (1964). "Suficiencia y suficiencia aproximada". Anales de estadística matemática . 35 (4). Instituto de estadística matemática : 1429. doi : 10.1214/aoms/1177700372 .

Referencias

Adèr, HJ (2008), "Modelling", en Adèr, HJ; Mellenbergh, GJ (eds.), Asesoramiento sobre métodos de investigación: un compañero de consulta , Huizen, Países Bajos: Johannes van Kessel Publishing, págs. 271–304.
Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo (2.ª ed.), Springer-Verlag.
Cox, DR (2006), Principios de inferencia estadística , Cambridge University Press.
Friendly, M .; Meyer, D. (2016), Análisis de datos discretos con R , Chapman & Hall.
Konishi, S.; Kitagawa, G. (2008), Criterios de información y modelado estadístico , Springer.
McCullagh, P. (2002), "¿Qué es un modelo estadístico?" (PDF) , Annals of Statistics , 30 (5): 1225–1310, doi : 10.1214/aos/1035844977.

Lectura adicional

Davison, AC (2008), Modelos estadísticos , Cambridge University Press
Drton, M.; Sullivant, S. (2007), "Modelos estadísticos algebraicos" (PDF) , Statistica Sinica , 17 : 1273–1297
Freedman, DA (2009), Modelos estadísticos , Cambridge University Press
Helland, IS (2010), Pasos hacia una base unificada para modelos y métodos científicos , World Scientific
Kroese, DP ; Chan, JCC (2014), Modelado estadístico y computación , Springer
Shmueli, G. (2010), "¿Explicar o predecir?", Statistical Science , 25 (3): 289–310, arXiv : 1101.0891 , doi :10.1214/10-STS330, S2CID 15900983