En estadística y en particular en análisis de regresión , una matriz de diseño , también conocida como matriz modelo o matriz regresora y a menudo denotada por X , es una matriz de valores de variables explicativas de un conjunto de objetos. Cada fila representa un objeto individual, con las columnas sucesivas correspondientes a las variables y sus valores específicos para ese objeto. La matriz de diseño se utiliza en ciertos modelos estadísticos , por ejemplo, el modelo lineal general . [1] [2] [3] Puede contener variables indicadoras (unos y ceros) que indican la pertenencia al grupo en un ANOVA , o puede contener valores de variables continuas .
La matriz de diseño contiene datos sobre las variables independientes (también llamadas variables explicativas), en un modelo estadístico que pretende explicar los datos observados sobre una variable de respuesta (a menudo llamada variable dependiente ). La teoría relacionada con dichos modelos utiliza la matriz de diseño como entrada para algunas operaciones de álgebra lineal : véase, por ejemplo, regresión lineal . Una característica notable del concepto de una matriz de diseño es que puede representar una serie de diseños experimentales y modelos estadísticos diferentes, por ejemplo, ANOVA , ANCOVA y regresión lineal. [ cita requerida ]
La matriz de diseño se define como una matriz tal que (la j -ésima columna de la i- ésima fila de ) representa el valor de la j -ésima variable asociada con el i -ésimo objeto.
Un modelo de regresión puede representarse mediante la multiplicación de matrices como
donde X es la matriz de diseño, es un vector de coeficientes del modelo (uno para cada variable), es un vector de errores aleatorios con media cero, e y es el vector de salidas previstas para cada objeto.
La matriz de diseño tiene dimensión n -por- p , donde n es el número de muestras observadas y p es el número de variables ( características ) medidas en todas las muestras. [4] [5]
En esta representación, las distintas filas suelen representar distintas repeticiones de un experimento, mientras que las columnas representan distintos tipos de datos (por ejemplo, los resultados de determinadas pruebas). Por ejemplo, supongamos que se lleva a cabo un experimento en el que se saca a 10 personas de la calle y se les hacen 4 preguntas. La matriz de datos M sería una matriz de 10×4 (es decir, 10 filas y 4 columnas). El dato de la fila i y la columna j de esta matriz sería la respuesta de la i- ésima persona a la j -ésima pregunta.
La matriz de diseño para una media aritmética es un vector columna de unos .
En esta sección se presenta un ejemplo de regresión lineal simple (es decir, regresión con una sola variable explicativa) con siete observaciones. Los siete puntos de datos son { y i , x i }, para i = 1, 2, …, 7. El modelo de regresión lineal simple es
donde es la intersección con el eje y y es la pendiente de la línea de regresión. Este modelo se puede representar en forma matricial como
donde la primera columna de 1 en la matriz de diseño permite estimar la intersección con el eje y , mientras que la segunda columna contiene los valores de x asociados con los valores de y correspondientes . La matriz cuyas columnas son 1 y x en este ejemplo es la matriz de diseño.
Esta sección contiene un ejemplo de regresión múltiple con dos covariables (variables explicativas): w y x . Supongamos nuevamente que los datos constan de siete observaciones y que para cada valor observado que se va a predecir ( ), también se observan los valores w i y x i de las dos covariables. El modelo a considerar es
Este modelo se puede escribir en términos matriciales como
Aquí la matriz 7×3 en el lado derecho es la matriz de diseño.
Esta sección contiene un ejemplo con un análisis de varianza unidireccional ( ANOVA ) con tres grupos y siete observaciones. El conjunto de datos dado tiene las primeras tres observaciones pertenecientes al primer grupo, las dos siguientes al segundo grupo y las dos últimas al tercer grupo. Si el modelo que se va a ajustar es solo la media de cada grupo, entonces el modelo es
que se puede escribir
En este modelo representa la media del grupo ésimo.
El modelo ANOVA se podría escribir de manera equivalente como cada parámetro de grupo que es una desviación de alguna referencia general. Normalmente, este punto de referencia se toma como uno de los grupos en consideración. Esto tiene sentido en el contexto de comparar múltiples grupos de tratamiento con un grupo de control y el grupo de control se considera la "referencia". En este ejemplo, se eligió el grupo 1 como grupo de referencia. Como tal, el modelo que se debe ajustar es
con la restricción de que es cero.
En este modelo la media del grupo de referencia es la diferencia del grupo con el grupo de referencia. no se incluye en la matriz porque su diferencia con el grupo de referencia (en sí mismo) es necesariamente cero.