Mejor predicción lineal insesgada

En estadística , la mejor predicción lineal insesgada ( BLUP ) se utiliza en modelos lineales mixtos para la estimación de efectos aleatorios . BLUP fue derivado por Charles Roy Henderson en 1950, pero el término "mejor predictor lineal insesgado" (o "predicción") parece no haber sido utilizado hasta 1962. ^[1] Las "mejores predicciones lineales insesgadas" (BLUP) de efectos aleatorios son similares a las mejores estimaciones lineales insesgadas (AZUL) (ver teorema de Gauss-Markov ) de efectos fijos. La distinción surge porque es convencional hablar no de estimación de efectos fijos sino más bien de predicción de efectos aleatorios, pero por lo demás los dos términos son equivalentes. (Esto es un poco extraño ya que los efectos aleatorios ya se han "realizado"; ya existen. El uso del término "predicción" puede deberse a que en el campo de la cría de animales en el que trabajó Henderson, los efectos aleatorios generalmente eran mérito genético. , que podría usarse para predecir la calidad de la descendencia (Robinson ^[1] página 28)). Sin embargo, las ecuaciones para los efectos "fijos" y para los efectos aleatorios son diferentes.

En la práctica, ocurre a menudo que los parámetros asociados con los términos de efectos aleatorios son desconocidos; estos parámetros son las varianzas de los efectos aleatorios y los residuos. Normalmente, los parámetros se estiman y se conectan al predictor, lo que conduce al mejor predictor empírico lineal insesgado (EBLUP). Observe que simplemente ingresando el parámetro estimado en el predictor, no se tiene en cuenta la variabilidad adicional, lo que lleva a variaciones de predicción demasiado optimistas para el EBLUP. ^{[ cita necesaria ]}

Las mejores predicciones lineales insesgadas son similares a las estimaciones empíricas de Bayes de efectos aleatorios en modelos lineales mixtos, excepto que en el último caso, donde las ponderaciones dependen de valores desconocidos de los componentes de la varianza, estas varianzas desconocidas se reemplazan por estimaciones basadas en muestras.

Ejemplo

Supongamos que el modelo para observaciones { Y _j ; j = 1, ..., n } se escribe como

Y_{j}=\mu +x_{j}^{T}\beta +\xi _{j}+\varepsilon _{j},\,

donde es la media de todas las observaciones , y ξ _j y ε _j representan el efecto aleatorio y el error de observación para la observación j , y supongamos que no están correlacionados y tienen varianzas conocidas σ _ξ² y σ _ε² , respectivamente. Además, x _j es un vector de variables independientes para la j- ésima observación y es un vector de parámetros de regresión. $\mu$ $Y$ ${\displaystyle\beta}$

El problema BLUP de proporcionar una estimación del valor libre de errores de observación para la k -ésima observación,

{\widetilde {Y}}_{k}=\mu +x_{k}^{T}\beta +\xi _{k},

puede formularse requiriendo que los coeficientes de un predictor lineal, definido como

{\widehat {Y}}_{k}=\sum _{j=1}^{n}c_{j,k}Y_{j},

debe elegirse de modo que se minimice la varianza del error de predicción,

V=\operatorname {Var} ({\widetilde {Y}}_{k}-{\widehat {Y}}_{k}),

sujeto a la condición de que el predictor sea imparcial,

\operatorname {E} ({\widetilde {Y}}_{k}-{\widehat {Y}}_{k})=0.

BLUP vs AZUL

A diferencia del caso de la mejor estimación lineal insesgada , la "cantidad a estimar", no sólo tiene una contribución de un elemento aleatorio sino que una de las cantidades observadas, específicamente la que contribuye a , también tiene una contribución de este mismo elemento aleatorio. . ${\widetilde {Y}}_{k}$ $Y_{k}$ ${\widehat {Y}}_{k}$

A diferencia de BLUE, BLUP tiene en cuenta las variaciones conocidas o estimadas. ^[2]

Historia de BLUP en la cría.

Henderson exploró la cría desde un punto de vista estadístico. Su trabajo ayudó al desarrollo del índice de selección (SI) y del valor genético estimado (EBV). Estos métodos estadísticos influyeron en las clasificaciones de sementales de inseminación artificial utilizadas en los Estados Unidos. Estos primeros métodos estadísticos se confunden con el BLUP, ahora común en la cría de ganado.

El término actual BLUP se originó a partir del trabajo de Daniel Sorensen y Brian Kennedy en la Universidad de Guelph en Canadá, en el que extendieron los resultados de Henderson a un modelo que incluye varios ciclos de selección. ^[3] Este modelo fue popularizado por la Universidad de Guelph en la industria láctea con el nombre de BLUP. Trabajos posteriores realizados por la Universidad demostraron la superioridad de BLUP sobre EBV y SI, lo que lo convirtió en el principal predictor genético ^{[ cita necesaria ]} .

Por tanto, existe confusión entre el modelo BLUP popularizado anteriormente y el mejor método estadístico de predicción lineal insesgada, que era demasiado teórico para su uso general. El modelo se suministró a los agricultores para su uso en computadoras.

En Canadá, todas las lecherías informan a nivel nacional. La genética en Canadá se compartió, lo que la convierte en el acervo genético más grande y, por lo tanto, en una fuente de mejoras. Esto y BLUP impulsaron un rápido aumento en la calidad del ganado Holstein .

Ver también

Notas

^ ab Robinson, GK (1991). "Ese BLUP es algo bueno: la estimación de efectos aleatorios". Ciencia estadística . 6 (1): 15–32. doi : 10.1214/ss/1177011926 . JSTOR 2245695. SEÑOR 1108815. Zbl 0955.62500.
^ Stanek, Eduardo J. III; Bueno, Arnoldo; Ockene, Ira (1999). "¿Por qué no utilizar de forma rutinaria los mejores predictores lineales insesgados (BLUP) como estimaciones del colesterol, el porcentaje de grasa en kcal y la actividad física?". Estadística en Medicina . 18 (21): 2943–2959. doi :10.1002/(sici)1097-0258(19991115)18:21<2943::aid-sim241>3.0.co;2-0. PMID 10523752.
^ Sorensen, DA; Kennedy, BW (1 de mayo de 1984). "Estimación de la respuesta a la selección utilizando metodología de mínimos cuadrados y modelo mixto". Revista de ciencia animal . 58 (5): 1097-1106. doi :10.2527/jas1984.5851097x.

Referencias

Henderson, CR (1975). "Mejor estimación y predicción lineal insesgada bajo un modelo de selección". Biometría . 31 (2): 423–447. doi :10.2307/2529430. JSTOR 2529430. PMID 1174616.
Liu, Xu-Qing; Rong, Jian-Ying; Liu, Xiu-Ying (2008). "Mejor predicción lineal insesgada para combinaciones lineales en modelos lineales mixtos generales". Revista de análisis multivariado . 99 (8): 1503-1517. doi :10.1016/j.jmva.2008.01.004.