stringtranslate.com

Matriz de diseño

En estadística y en particular en análisis de regresión , una matriz de diseño , también conocida como matriz modelo o matriz regresora y a menudo denotada por X , es una matriz de valores de variables explicativas de un conjunto de objetos. Cada fila representa un objeto individual, con las columnas sucesivas correspondientes a las variables y sus valores específicos para ese objeto. La matriz de diseño se utiliza en ciertos modelos estadísticos , por ejemplo, el modelo lineal general . [1] [2] [3] Puede contener variables indicadoras (unos y ceros) que indican la pertenencia al grupo en un ANOVA , o puede contener valores de variables continuas .

La matriz de diseño contiene datos sobre las variables independientes (también llamadas variables explicativas), en un modelo estadístico que pretende explicar los datos observados sobre una variable de respuesta (a menudo llamada variable dependiente ). La teoría relacionada con dichos modelos utiliza la matriz de diseño como entrada para algunas operaciones de álgebra lineal  : véase, por ejemplo, regresión lineal . Una característica notable del concepto de una matriz de diseño es que puede representar una serie de diseños experimentales y modelos estadísticos diferentes, por ejemplo, ANOVA , ANCOVA y regresión lineal. [ cita requerida ]

Definición

La matriz de diseño se define como una matriz tal que (la j -ésima columna de la i- ésima fila de ) representa el valor de la j -ésima variable asociada con el i -ésimo objeto.

Un modelo de regresión se puede representar mediante la multiplicación de matrices como

donde X es la matriz de diseño, es un vector de coeficientes del modelo (uno para cada variable), es un vector de errores aleatorios con media cero, e y es el vector de salidas previstas para cada objeto.

Tamaño

La matriz de diseño tiene dimensión n -por- p , donde n es el número de muestras observadas y p es el número de variables ( características ) medidas en todas las muestras. [4] [5]

En esta representación, las distintas filas suelen representar distintas repeticiones de un experimento, mientras que las columnas representan distintos tipos de datos (por ejemplo, los resultados de determinadas pruebas). Por ejemplo, supongamos que se lleva a cabo un experimento en el que se saca a 10 personas de la calle y se les hacen 4 preguntas. La matriz de datos M sería una matriz de 10×4 (es decir, 10 filas y 4 columnas). El dato de la fila i y la columna j de esta matriz sería la respuesta de la i- ésima persona a la j -ésima pregunta.

Ejemplos

Media aritmética

La matriz de diseño para una media aritmética es un vector columna de unos .

Regresión lineal simple

En esta sección se presenta un ejemplo de regresión lineal simple (es decir, regresión con una sola variable explicativa) con siete observaciones. Los siete puntos de datos son { y i , x i }, para i  = 1, 2, …, 7. El modelo de regresión lineal simple es

donde es la intersección con el eje y y es la pendiente de la línea de regresión. Este modelo se puede representar en forma matricial como

donde la primera columna de 1 en la matriz de diseño permite estimar la intersección con el eje y , mientras que la segunda columna contiene los valores x asociados con los valores y correspondientes . La matriz cuyas columnas son 1 y x en este ejemplo es la matriz de diseño.

Regresión múltiple

Esta sección contiene un ejemplo de regresión múltiple con dos covariables (variables explicativas): w y x . Supongamos nuevamente que los datos constan de siete observaciones y que para cada valor observado que se va a predecir ( ), también se observan los valores w i y x i de las dos covariables. El modelo a considerar es

Este modelo se puede escribir en términos matriciales como

Aquí la matriz 7×3 en el lado derecho es la matriz de diseño.

ANOVA unidireccional (modelo de media de celda)

Esta sección contiene un ejemplo con un análisis de varianza unidireccional ( ANOVA ) con tres grupos y siete observaciones. El conjunto de datos dado tiene las primeras tres observaciones pertenecientes al primer grupo, las dos siguientes al segundo grupo y las dos últimas al tercer grupo. Si el modelo que se va a ajustar es solo la media de cada grupo, entonces el modelo es

que se puede escribir

En este modelo representa la media del grupo ésimo.

ANOVA unidireccional (desplazamiento respecto del grupo de referencia)

El modelo ANOVA se podría escribir de manera equivalente como cada parámetro de grupo que es una desviación de alguna referencia general. Normalmente, este punto de referencia se toma como uno de los grupos en consideración. Esto tiene sentido en el contexto de comparar múltiples grupos de tratamiento con un grupo de control y el grupo de control se considera la "referencia". En este ejemplo, se eligió el grupo 1 como grupo de referencia. Como tal, el modelo que se debe ajustar es

con la restricción de que es cero.

En este modelo la media del grupo de referencia es la diferencia del grupo con el grupo de referencia. no se incluye en la matriz porque su diferencia con el grupo de referencia (en sí mismo) es necesariamente cero.

Véase también

Referencias

  1. ^ Everitt, BS (2002). Diccionario de Estadística de Cambridge (2.ª ed.). Cambridge, Reino Unido: Cambridge University Press. ISBN 0-521-81099-X.
  2. ^ Box, GEP ; Tiao, GC (1992) [1973]. Inferencia bayesiana en análisis estadístico . Nueva York: John Wiley and Sons. ISBN 0-471-57428-7.(Sección 8.1.1)
  3. ^ Timm, Neil H. (2007). Análisis multivariante aplicado. Springer Science & Business Media. pág. 107. ISBN 9780387227719.
  4. ^ Johnson, Richard A; Wichern, Dean W (2001). Análisis estadístico multivariante aplicado . Pearson. Págs. 111-112. ISBN. 0131877151.
  5. ^ "Conceptos básicos de estadística multivariante p.2" (PDF) . SAS Institute.

Lectura adicional