El propósito de esta página es proporcionar materiales complementarios al artículo de mínimos cuadrados ordinarios , reduciendo la carga del artículo principal con matemáticas y mejorando su accesibilidad, manteniendo al mismo tiempo la integridad de la exposición.
Derivación de las ecuaciones normales
Defina el residuo n.º como
Luego el objetivo puede reescribirse.
Dado que S es convexo, se minimiza cuando su vector de gradiente es cero (esto se deduce por definición: si el vector de gradiente no es cero, hay una dirección en la que podemos movernos para minimizarlo aún más; ver máximos y mínimos ). Los elementos del vector de gradiente son las derivadas parciales de S con respecto a los parámetros:
Las derivadas son
La sustitución de las expresiones para los residuos y las derivadas en las ecuaciones de gradiente da
Por lo tanto, si minimiza S , tenemos
Al reordenar, obtenemos las ecuaciones normales :
Las ecuaciones normales se escriben en notación matricial como
- (donde X T es la matriz transpuesta de X ).
La solución de las ecuaciones normales produce el vector de los valores óptimos de los parámetros.
Derivación directa en términos de matrices
Las ecuaciones normales se pueden derivar directamente de una representación matricial del problema de la siguiente manera. El objetivo es minimizar
Aquí tiene la dimensión 1x1 (el número de columnas de ), por lo que es un escalar e igual a su propia transpuesta, por lo tanto
y la cantidad a minimizar se convierte en
Diferenciando esto con respecto a e igualándolo a cero para satisfacer las condiciones de primer orden obtenemos
que es equivalente a las ecuaciones normales dadas anteriormente. Una condición suficiente para la satisfacción de las condiciones de segundo orden para un mínimo es que tenga rango de columna completo, en cuyo caso es definida positiva .
Derivación sin cálculo
Cuando es definida positiva, la fórmula para el valor minimizador de se puede derivar sin el uso de derivadas. La cantidad
se puede escribir como
donde depende únicamente de y , y es el producto interno definido por
Se deduce que es igual a
y por lo tanto se minimiza exactamente cuando
Generalización para ecuaciones complejas
En general, los coeficientes de las matrices y pueden ser complejos. Si se utiliza una transpuesta hermítica en lugar de una transpuesta simple, es posible encontrar un vector que minimice , tal como en el caso de la matriz real. Para obtener las ecuaciones normales, seguimos un camino similar al de las derivaciones anteriores:
donde significa transposición hermítica.
Ahora debemos tomar las derivadas de con respecto a cada uno de los coeficientes , pero primero separamos las partes reales e imaginarias para tratar con los factores conjugados en la expresión anterior. Para el tenemos
y las derivadas se transforman en
Después de reescribir en forma de suma y escribir explícitamente, podemos calcular ambas derivadas parciales con el resultado:
que, después de sumarlos y compararlos con cero (condición de minimización para ), da como resultado
En forma matricial:
Estimador de mínimos cuadrados paraβ
Usando notación matricial, la suma de los residuos al cuadrado se da por
Como se trata de una expresión cuadrática, el vector que da el mínimo global se puede encontrar mediante cálculo matricial diferenciando con respecto al vector (usando la disposición del denominador) y estableciendo igual a cero:
Suponiendo que la matriz X tiene rango de columna completo, y por lo tanto X T X es invertible y el estimador de mínimos cuadrados para β está dado por
Imparcialidad y varianza de β ^ {\displaystyle {\widehat {\beta }}}
Inserte y = Xβ + ε en la fórmula y luego use la ley de expectativa total :
donde E[ ε | X ] = 0 según los supuestos del modelo. Dado que el valor esperado de es igual al parámetro que estima, , es un estimador insesgado de .
Para la varianza, sea la matriz de covarianza de (
donde es la matriz identidad ), y sea X una constante conocida. Entonces,
donde utilizamos el hecho de que es solo una transformación afín de por la matriz .
Para un modelo de regresión lineal simple, donde ( es la intersección con el eje y y es la pendiente), se obtiene
Valor esperado y sesgo de σ ^ 2 {\displaystyle {\widehat {\sigma }}^{\,2}}
Primero, introduciremos la expresión para y en el estimador y utilizaremos el hecho de que X'M = MX = 0 (la matriz M se proyecta sobre el espacio ortogonal a X ):
Ahora podemos reconocer a ε ′ Mε como una matriz 1×1, dicha matriz es igual a su propia traza . Esto es útil porque por propiedades del operador de traza, tr ( AB ) = tr ( BA ), y podemos usar esto para separar la perturbación ε de la matriz M que es una función de los regresores X :
Usando la Ley de la expectativa iterada esto se puede escribir como
Recordemos que M = I − P donde P es la proyección sobre el espacio lineal abarcado por las columnas de la matriz X . Por propiedades de una matriz de proyección , tiene p = rank( X ) valores propios iguales a 1, y todos los demás valores propios son iguales a 0. La traza de una matriz es igual a la suma de sus valores característicos, por lo tanto tr( P ) = p , y tr( M ) = n − p . Por lo tanto,
Dado que el valor esperado de no es igual al parámetro que estima, , es un estimador sesgado de . Nótese que en la sección posterior “Máxima verosimilitud” mostramos que bajo el supuesto adicional de que los errores se distribuyen normalmente, el estimador es proporcional a una distribución de chi-cuadrado con n – p grados de libertad, de la cual se seguiría inmediatamente la fórmula para el valor esperado. Sin embargo, el resultado que hemos mostrado en esta sección es válido independientemente de la distribución de los errores y, por lo tanto, tiene importancia por sí mismo.
Consistencia y normalidad asintótica de β ^ {\displaystyle {\widehat {\beta }}}
El estimador se puede escribir como
Podemos utilizar la ley de los grandes números para establecer que
Mediante el teorema de Slutsky y el teorema de aplicación continua, estos resultados se pueden combinar para establecer la consistencia del estimador :
El teorema del límite central nos dice que
- dónde
Aplicando nuevamente el teorema de Slutsky tendremos
Enfoque de máxima verosimilitud
La estimación de máxima verosimilitud es una técnica genérica para estimar los parámetros desconocidos en un modelo estadístico mediante la construcción de una función de log-verosimilitud correspondiente a la distribución conjunta de los datos y, a continuación, maximizando esta función sobre todos los valores posibles de los parámetros. Para aplicar este método, tenemos que hacer una suposición sobre la distribución de y dada X de modo que se pueda construir la función de log-verosimilitud. La conexión de la estimación de máxima verosimilitud con MCO surge cuando esta distribución se modela como una normal multivariante .
En concreto, supongamos que los errores ε tienen una distribución normal multivariante con media 0 y matriz de varianza σ 2 I . Entonces la distribución de y condicionalmente sobre X es
y la función de verosimilitud logarítmica de los datos será
Diferenciando esta expresión con respecto a β y σ 2 encontraremos las estimaciones ML de estos parámetros:
Podemos comprobar que efectivamente se trata de un máximo observando la matriz hessiana de la función de log-verosimilitud.
Distribución de muestras finitas
Dado que en esta sección hemos asumido que se sabe que la distribución de los términos de error es normal, es posible derivar las expresiones explícitas para las distribuciones de los estimadores y :
de modo que por las propiedades de transformación afín de la distribución normal multivariada
De manera similar, la distribución de sigue a partir de
donde es la matriz de proyección simétrica sobre el subespacio ortogonal a X , y por lo tanto MX = X ′ M = 0. Hemos argumentado antes que esta matriz tiene rango n – p , y por lo tanto por propiedades de distribución chi-cuadrado ,
Además, los estimadores y resultan ser independientes (condicionados a X ), un hecho que es fundamental para la construcción de las pruebas t y F clásicas. La independencia se puede ver fácilmente de lo siguiente: el estimador representa coeficientes de descomposición vectorial de por la base de columnas de X , como tal es una función de Pε . Al mismo tiempo, el estimador es una norma del vector Mε dividido por n , y por lo tanto este estimador es una función de Mε . Ahora, las variables aleatorias ( Pε , Mε ) son conjuntamente normales como una transformación lineal de ε , y también están no correlacionadas porque PM = 0. Por propiedades de la distribución normal multivariante, esto significa que Pε y Mε son independientes y, por lo tanto, los estimadores y serán independientes también.
Derivación de estimadores de regresión lineal simple
Buscamos y que minimicen la suma de errores al cuadrado (SSE):
Para encontrar un mínimo, tome derivadas parciales con respecto a y
Antes de tomar la derivada parcial con respecto a , sustituya el resultado anterior por
Ahora, tome la derivada con respecto a :
Y finalmente sustituir para determinar