stringtranslate.com

Modelo estadístico

Un modelo estadístico es un modelo matemático que incorpora un conjunto de supuestos estadísticos relacionados con la generación de datos de muestra (y datos similares de una población más grande ). Un modelo estadístico representa, a menudo de forma considerablemente idealizada, el proceso de generación de datos. [1] Cuando se hace referencia específicamente a probabilidades , el término correspondiente es modelo probabilístico .

Un modelo estadístico suele especificarse como una relación matemática entre una o más variables aleatorias y otras variables no aleatorias. Como tal, un modelo estadístico es "una representación formal de una teoría" ( Herman Adèr citando a Kenneth Bollen ). [2]

Todas las pruebas de hipótesis estadísticas y todos los estimadores estadísticos se derivan mediante modelos estadísticos. De manera más general, los modelos estadísticos son parte de la base de la inferencia estadística .

Introducción

De manera informal, se puede pensar en un modelo estadístico como un supuesto estadístico (o un conjunto de supuestos estadísticos) con una determinada propiedad: que el supuesto nos permite calcular la probabilidad de cualquier evento . Como ejemplo, consideremos un par de dados ordinarios de seis caras . Estudiaremos dos supuestos estadísticos diferentes sobre los dados.

La primera suposición estadística es la siguiente: para cada uno de los dados, la probabilidad de que salga cada cara (1, 2, 3, 4, 5 y 6) es1/6. A partir de esa suposición, podemos calcular la probabilidad de que ambos dados salgan 5:  1/6×1/6 =1/36. De manera más general, podemos calcular la probabilidad de cualquier evento: por ejemplo (1 y 2) o (3 y 3) o (5 y 6).

El supuesto estadístico alternativo es el siguiente: para cada uno de los dados, la probabilidad de que salga la cara 5 es1/8(porque los dados están ponderados ). A partir de esa suposición, podemos calcular la probabilidad de que ambos dados salgan 5:  1/8×1/8 =1/64. Sin embargo, no podemos calcular la probabilidad de ningún otro evento no trivial, ya que se desconocen las probabilidades de las otras caras.

El primer supuesto estadístico constituye un modelo estadístico: porque solo con el supuesto podemos calcular la probabilidad de cualquier evento. El supuesto estadístico alternativo no constituye un modelo estadístico: porque solo con el supuesto no podemos calcular la probabilidad de cada evento.

En el ejemplo anterior, con el primer supuesto, calcular la probabilidad de un evento es fácil. Sin embargo, con algunos otros ejemplos, el cálculo puede resultar difícil o incluso poco práctico (por ejemplo, podría requerir millones de años de cálculo). Para que un supuesto constituya un modelo estadístico, esa dificultad es aceptable: hacer el cálculo no necesita ser practicable, sólo teóricamente posible.

Definicion formal

En términos matemáticos, un modelo estadístico generalmente [ se necesita aclaración ] se considera como un par ( ), donde es el conjunto de observaciones posibles, es decir, el espacio muestral , y es un conjunto de distribuciones de probabilidad en . [3]

La intuición detrás de esta definición es la siguiente. Se supone que existe una distribución de probabilidad "verdadera" inducida por el proceso que genera los datos observados. Elegimos representar un conjunto (de distribuciones) que contiene una distribución que se aproxima adecuadamente a la distribución real.

Tenga en cuenta que no requerimos que contenga la distribución verdadera y, en la práctica, ese rara vez es el caso. De hecho, como afirman Burnham y Anderson, "Un modelo es una simplificación o aproximación de la realidad y, por lo tanto, no reflejará toda la realidad" [4] ; de ahí el dicho " todos los modelos están equivocados ".

El conjunto casi siempre está parametrizado: . El conjunto de distribuciones define los parámetros del modelo. Generalmente se requiere que una parametrización tenga distintos valores de parámetros que den lugar a distintas distribuciones, es decir, debe cumplirse (en otras palabras, debe ser inyectiva ). Se dice que una parametrización que cumple el requisito es identificable . [3]

Un ejemplo

Supongamos que tenemos una población de niños, con las edades de los niños distribuidas uniformemente en la población. La altura de un niño estará estocásticamente relacionada con la edad: por ejemplo, cuando sabemos que un niño tiene 7 años, esto influye en la probabilidad de que el niño mida 1,5 metros. Podríamos formalizar esa relación en un modelo de regresión lineal , como este: altura i  = b 0  + b 1 edad i  + ε i , donde b 0 es la intersección, b 1 es un parámetro por el que se multiplica la edad para obtener una predicción de altura, ε i es el término de error e i identifica al niño. Esto implica que la altura se predice por la edad, con cierto error.

Un modelo admisible debe ser consistente con todos los puntos de datos. Por lo tanto, una línea recta (altura i  = b 0  + b 1 edad i ) no puede ser la ecuación para un modelo de datos, a menos que se ajuste exactamente a todos los puntos de datos, es decir, todos los puntos de datos se encuentran perfectamente en la línea. El término de error, ε i , debe incluirse en la ecuación, para que el modelo sea consistente con todos los puntos de datos.

Para hacer inferencia estadística , primero necesitaríamos asumir algunas distribuciones de probabilidad para ε i . Por ejemplo, podríamos suponer que las distribuciones ε i son iid gaussianas, con media cero. En este caso, el modelo tendría 3 parámetros: b 0 , b 1 y la varianza de la distribución gaussiana.

Podemos especificar formalmente el modelo en la forma ( ) de la siguiente manera. El espacio muestral, , de nuestro modelo comprende el conjunto de todos los pares posibles (edad, altura). Cada valor posible de  = ( b 0 , b 1 , σ 2 ) determina una distribución en ; denota esa distribución por . Si es el conjunto de todos los valores posibles de , entonces . (La parametrización es identificable y es fácil de comprobar).

En este ejemplo, el modelo se determina (1) especificando y (2) haciendo algunos supuestos relevantes para . Hay dos supuestos: que la altura puede aproximarse mediante una función lineal de la edad; que los errores en la aproximación se distribuyen como iid gaussiano. Los supuestos son suficientes para especificarlos como se requiere que lo hagan.

Observaciones generales

Un modelo estadístico es una clase especial de modelo matemático . Lo que distingue a un modelo estadístico de otros modelos matemáticos es que un modelo estadístico no es determinista . Así, en un modelo estadístico especificado mediante ecuaciones matemáticas, algunas de las variables no tienen valores específicos, sino que tienen distribuciones de probabilidad; es decir, algunas de las variables son estocásticas . En el ejemplo anterior con la altura de los niños, ε es una variable estocástica; sin esa variable estocástica, el modelo sería determinista.

Los modelos estadísticos se utilizan a menudo incluso cuando el proceso de generación de datos que se modela es determinista. Por ejemplo, lanzar una moneda al aire es, en principio, un proceso determinista; sin embargo, comúnmente se modela como estocástico (mediante un proceso de Bernoulli ).

Elegir un modelo estadístico apropiado para representar un proceso de generación de datos determinado es a veces extremadamente difícil y puede requerir conocimiento tanto del proceso como de los análisis estadísticos relevantes. En relación con esto, el estadístico Sir David Cox ha dicho: "La forma en que se realiza [la] traducción del problema temático al modelo estadístico es a menudo la parte más crítica de un análisis". [5]

Según Konishi y Kitagawa, un modelo estadístico tiene tres propósitos. [6]

Esos tres propósitos son esencialmente los mismos que los tres propósitos indicados por Friendly & Meyer: predicción, estimación y descripción. [7] Los tres propósitos se corresponden con los tres tipos de razonamiento lógico : razonamiento deductivo , razonamiento inductivo , razonamiento abductivo . [ cita necesaria ] [ aclaración necesaria ]

Dimensión de un modelo

Supongamos que tenemos un modelo estadístico ( ) con . En notación, escribimos que donde k es un entero positivo ( denota los números reales ; en principio, se pueden usar otros conjuntos). Aquí, k se llama dimensión del modelo. Se dice que un modelo es paramétrico si tiene dimensiones finitas. [ cita necesaria ]

Como ejemplo, si asumimos que los datos surgen de una distribución gaussiana univariada , entonces asumimos que

.

En este ejemplo, la dimensión k es igual a 2.

Como otro ejemplo, supongamos que los datos constan de puntos ( x , y ) que asumimos que están distribuidos según una línea recta con residuos gaussianos iid (con media cero): esto conduce al mismo modelo estadístico que se usó en el ejemplo con alturas de los niños. La dimensión del modelo estadístico es 3: la intersección de la recta, la pendiente de la recta y la varianza de la distribución de los residuos. (Tenga en cuenta que el conjunto de todas las líneas posibles tiene dimensión 2, aunque geométricamente una línea tiene dimensión 1).

Aunque formalmente es un parámetro único que tiene dimensión k , a veces se considera que comprende k parámetros separados. Por ejemplo, con la distribución gaussiana univariante, formalmente es un único parámetro con dimensión 2, pero a menudo se considera que comprende 2 parámetros separados: la media y la desviación estándar.

Un modelo estadístico es no paramétrico si el conjunto de parámetros es de dimensión infinita. Un modelo estadístico es semiparamétrico si tiene parámetros tanto de dimensión finita como de dimensión infinita. Formalmente, si k es la dimensión de y n es el número de muestras, tanto el modelo semiparamétrico como el no paramétrico tienen como . Si as , entonces el modelo es semiparamétrico; de lo contrario, el modelo es no paramétrico.

Los modelos paramétricos son, con diferencia, los modelos estadísticos más utilizados. Con respecto a los modelos semiparamétricos y no paramétricos, Sir David Cox ha dicho: "Por lo general, implican menos supuestos de estructura y forma distributiva, pero generalmente contienen supuestos sólidos sobre las independencias". [8]

Modelos anidados

Dos modelos estadísticos están anidados si el primer modelo se puede transformar en el segundo imponiendo restricciones a los parámetros del primer modelo. Como ejemplo, el conjunto de todas las distribuciones gaussianas tiene, anidado dentro de él, el conjunto de distribuciones gaussianas de media cero: restringimos la media en el conjunto de todas las distribuciones gaussianas para obtener las distribuciones de media cero. Como segundo ejemplo, el modelo cuadrático

y  = segundo 0  + segundo 1 x  + segundo 2 x 2  + ε, ε ~ 𝒩(0, σ 2 )

tiene, anidado dentro de él, el modelo lineal

y  = b 0  + b 1 x  + ε, ε ~ 𝒩(0, σ 2 )

—Restringimos el parámetro b 2 para que sea igual a 0.

En ambos ejemplos, el primer modelo tiene una dimensión mayor que el segundo modelo (para el primer ejemplo, el modelo de media cero tiene dimensión 1). Éste es el caso a menudo, pero no siempre. Como ejemplo en el que tienen la misma dimensión, el conjunto de distribuciones gaussianas de media positiva está anidado dentro del conjunto de todas las distribuciones gaussianas; Ambos tienen dimensión 2.

Comparando modelos

Comparar modelos estadísticos es fundamental para gran parte de la inferencia estadística . De hecho, Konishi y Kitagawa (2008, p. 75) afirman lo siguiente: "La mayoría de los problemas de la inferencia estadística pueden considerarse problemas relacionados con el modelado estadístico. Normalmente se formulan como comparaciones de varios modelos estadísticos".

Los criterios comunes para comparar modelos incluyen los siguientes: R 2 , factor de Bayes , criterio de información de Akaike y la prueba de razón de verosimilitud junto con su generalización, la verosimilitud relativa .

Ver también

Notas

  1. ^ Cox 2006, pag. 178
  2. ^ Adèr 2008, pag. 280
  3. ^ ab McCullagh 2002
  4. ^ Burnham y Anderson 2002, §1.2.5
  5. ^ Cox 2006, pag. 197
  6. ^ Konishi y Kitagawa 2008, §1.1
  7. ^ Amistoso y Meyer 2016, §11.6
  8. ^ Cox 2006, pag. 2

Referencias

Otras lecturas