En estadística , la mejor predicción lineal insesgada ( BLUP ) se utiliza en modelos lineales mixtos para la estimación de efectos aleatorios . BLUP fue derivada por Charles Roy Henderson en 1950, pero el término "mejor predictor lineal insesgado" (o "predicción") parece no haber sido utilizado hasta 1962. [1] Las "mejores predicciones lineales insesgadas" (BLUP) de efectos aleatorios son similares a las mejores estimaciones lineales insesgadas (BLUE) (véase el teorema de Gauss-Markov ) de efectos fijos. La distinción surge porque es convencional hablar de estimar efectos fijos pero de predecir efectos aleatorios, pero los dos términos son equivalentes en lo demás. (Esto es un poco extraño ya que los efectos aleatorios ya se han "realizado"; ya existen. El uso del término "predicción" puede deberse a que en el campo de la cría de animales en el que trabajaba Henderson, los efectos aleatorios eran generalmente mérito genético, que podía usarse para predecir la calidad de la descendencia (Robinson [1] página 28)). Sin embargo, las ecuaciones para los efectos "fijos" y para los efectos aleatorios son diferentes.
En la práctica, suele suceder que los parámetros asociados con los términos de los efectos aleatorios son desconocidos; estos parámetros son las varianzas de los efectos aleatorios y los residuos. Normalmente, los parámetros se estiman y se introducen en el predictor, lo que da lugar al mejor predictor lineal imparcial empírico (EBLUP). Observe que, al introducir simplemente el parámetro estimado en el predictor, no se tiene en cuenta la variabilidad adicional, lo que da lugar a varianzas de predicción demasiado optimistas para el EBLUP. [ cita requerida ]
Las mejores predicciones lineales imparciales son similares a las estimaciones empíricas de Bayes de efectos aleatorios en modelos lineales mixtos, excepto que en el último caso, donde los pesos dependen de valores desconocidos de componentes de varianza, estas varianzas desconocidas se reemplazan por estimaciones basadas en muestras.
Supongamos que el modelo para las observaciones { Y j ; j = 1, ..., n } se escribe como
donde es la media de todas las observaciones , y ξ j y ε j representan el efecto aleatorio y el error de observación para la observación j , y supongamos que no están correlacionados y tienen varianzas conocidas σ ξ 2 y σ ε 2 , respectivamente. Además, x j es un vector de variables independientes para la observación j y es un vector de parámetros de regresión.
El problema BLUP de proporcionar una estimación del valor libre de errores de observación para la k -ésima observación,
puede formularse como que requiere que los coeficientes de un predictor lineal, definido como
debe elegirse de manera que se minimice la varianza del error de predicción,
sujeto a la condición de que el predictor sea imparcial,
A diferencia del caso de la mejor estimación lineal imparcial , la "cantidad a estimar", , no solo tiene una contribución de un elemento aleatorio sino que una de las cantidades observadas, específicamente la que contribuye a , también tiene una contribución de este mismo elemento aleatorio.
A diferencia de BLUE, BLUP tiene en cuenta las variaciones conocidas o estimadas. [2]
Henderson exploró la crianza desde un punto de vista estadístico. Su trabajo ayudó al desarrollo del índice de selección (IS) y el valor estimado de crianza (VEC). Estos métodos estadísticos influyeron en las clasificaciones de sementales de inseminación artificial utilizadas en los Estados Unidos. Estos primeros métodos estadísticos se confunden con el BLUP, ahora común en la crianza de ganado.
El término BLUP surgió del trabajo de Daniel Sorensen y Brian Kennedy en la Universidad de Guelph (Canadá), en el que ampliaron los resultados de Henderson a un modelo que incluye varios ciclos de selección. [3] Este modelo fue popularizado por la Universidad de Guelph en la industria láctea con el nombre de BLUP. Trabajos posteriores de la Universidad demostraron la superioridad de BLUP sobre EBV y SI, lo que lo convirtió en el predictor genético principal [ cita requerida ] .
Por lo tanto, existe una confusión entre el modelo BLUP popularizado anteriormente y el mejor método estadístico de predicción lineal imparcial, que era demasiado teórico para su uso general. El modelo se proporcionó a los agricultores para que lo utilizaran en computadoras.
En Canadá, todas las lecherías presentan informes a nivel nacional. La genética de Canadá se compartió, lo que la convirtió en el mayor acervo genético y, por lo tanto, en una fuente de mejoras. Esto y el programa BLUP impulsaron un rápido aumento en la calidad del ganado Holstein .