En estadística , una tabla de contingencia (también conocida como tabulación cruzada o tabla de referencias cruzadas ) es un tipo de tabla en formato matricial que muestra la distribución de frecuencias multivariadas de las variables. Se utilizan mucho en la investigación de encuestas, inteligencia empresarial, ingeniería e investigación científica. Proporcionan una imagen básica de la interrelación entre dos variables y pueden ayudar a encontrar interacciones entre ellas. El término tabla de contingencia fue utilizado por primera vez por Karl Pearson en "Sobre la teoría de la contingencia y su relación con la asociación y la correlación normal", [1] parte de la serie biométrica de memorias de investigación de la Drapers' Company publicada en 1904.
Un problema crucial de la estadística multivariante es encontrar la estructura de dependencia (directa) subyacente a las variables contenidas en las tablas de contingencia de alta dimensión. Si se revelan algunas de las independencias condicionales , entonces incluso el almacenamiento de los datos se puede realizar de una manera más inteligente (véase Lauritzen (2002)). Para ello se pueden utilizar conceptos de la teoría de la información , que obtienen la información únicamente de la distribución de probabilidad, que se puede expresar fácilmente a partir de la tabla de contingencia mediante las frecuencias relativas.
Una tabla dinámica es una forma de crear tablas de contingencia utilizando un software de hojas de cálculo.
Supongamos que hay dos variables: sexo (masculino o femenino) y lateralidad (diestro o zurdo). Supongamos además que se seleccionan al azar 100 individuos de una población muy grande como parte de un estudio de las diferencias sexuales en lateralidad. Se puede crear una tabla de contingencia para mostrar la cantidad de individuos que son diestros y zurdos, y mujeres diestras y zurdas. A continuación se muestra una tabla de contingencia de este tipo.
Las cantidades de hombres, mujeres, diestros y zurdos se denominan totales marginales . El total general (la cantidad total de individuos representados en la tabla de contingencia) es el número que aparece en la esquina inferior derecha.
La tabla permite a los usuarios ver de un vistazo que la proporción de hombres que son diestros es aproximadamente la misma que la proporción de mujeres que son diestras, aunque las proporciones no son idénticas. La fuerza de la asociación se puede medir por la razón de probabilidades y la razón de probabilidades de la población se estima por la razón de probabilidades de la muestra . La significación de la diferencia entre las dos proporciones se puede evaluar con una variedad de pruebas estadísticas, incluyendo la prueba de chi-cuadrado de Pearson , la prueba G , la prueba exacta de Fisher , la prueba de Boschloo y la prueba de Barnard , siempre que las entradas en la tabla representen individuos muestreados aleatoriamente de la población sobre la que se deben extraer conclusiones. Si las proporciones de individuos en las diferentes columnas varían significativamente entre filas (o viceversa), se dice que hay una contingencia entre las dos variables. En otras palabras, las dos variables no son independientes. Si no hay contingencia, se dice que las dos variables son independientes .
El ejemplo anterior es el tipo más simple de tabla de contingencia, una tabla en la que cada variable tiene solo dos niveles; esto se llama tabla de contingencia 2 × 2. En principio, se puede utilizar cualquier número de filas y columnas. También puede haber más de dos variables, pero las tablas de contingencia de orden superior son difíciles de representar visualmente. La relación entre variables ordinales , o entre variables ordinales y categóricas, también se puede representar en tablas de contingencia, aunque tal práctica es poco común. Para obtener más información sobre el uso de una tabla de contingencia para la relación entre dos variables ordinales, consulte la gamma de Goodman y Kruskal .
El grado de asociación entre las dos variables se puede evaluar mediante una serie de coeficientes. En las siguientes subsecciones se describen algunos de ellos. Para una discusión más completa de sus usos, consulte los artículos principales vinculados bajo el encabezado de cada subsección.
La medida de asociación más simple para una tabla de contingencia de 2 × 2 es la razón de probabilidades . Dados dos eventos, A y B, la razón de probabilidades se define como la razón de las probabilidades de A en presencia de B y las probabilidades de A en ausencia de B, o equivalentemente (debido a la simetría), la razón de las probabilidades de B en presencia de A y las probabilidades de B en ausencia de A. Dos eventos son independientes si y solo si la razón de probabilidades es 1; si la razón de probabilidades es mayor que 1, los eventos están asociados positivamente; si la razón de probabilidades es menor que 1, los eventos están asociados negativamente.
La razón de probabilidades tiene una expresión simple en términos de probabilidades; dada la distribución de probabilidad conjunta:
La razón de probabilidades es:
Una medida simple, aplicable sólo al caso de tablas de contingencia 2 × 2, es el coeficiente phi (φ) definido por
donde χ 2 se calcula como en la prueba de chi-cuadrado de Pearson , y N es el total general de observaciones. φ varía de 0 (que corresponde a ninguna asociación entre las variables) a 1 o −1 (asociación completa o asociación inversa completa), siempre que se base en datos de frecuencia representados en tablas de 2 × 2. Entonces su signo es igual al signo del producto de los elementos diagonales principales de la tabla menos el producto de los elementos fuera de la diagonal. φ toma el valor mínimo −1.0 o el valor máximo de +1.0 si y solo si cada proporción marginal es igual a 0.5 (y dos celdas diagonales están vacías). [2]
Dos alternativas son el coeficiente de contingencia C y el V de Cramér .
Las fórmulas para los coeficientes C y V son:
siendo k el número de filas o el número de columnas, el que sea menor.
C tiene la desventaja de que no alcanza un máximo de 1.0, en particular el máximo que puede alcanzar en una tabla 2 × 2 es 0.707. Puede alcanzar valores más cercanos a 1.0 en tablas de contingencia con más categorías; por ejemplo, puede alcanzar un máximo de 0.870 en una tabla 4 × 4. Por lo tanto, no debe usarse para comparar asociaciones en diferentes tablas si tienen diferentes números de categorías. [3]
C se puede ajustar para que alcance un máximo de 1,0 cuando hay una asociación completa en una tabla de cualquier número de filas y columnas dividiendo C por donde k es el número de filas o columnas, cuando la tabla es cuadrada [ cita requerida ] , o por donde r es el número de filas y c es el número de columnas. [4]
Otra opción es el coeficiente de correlación tetracórico , pero solo es aplicable a tablas de 2 × 2. La correlación policórica es una extensión de la correlación tetracórica a tablas que involucran variables con más de dos niveles.
La correlación tetracórica supone que la variable subyacente a cada medida dicotómica se distribuye normalmente. [5] El coeficiente proporciona "una medida conveniente de la correlación [producto-momento de Pearson] cuando las mediciones graduadas se han reducido a dos categorías". [6]
El coeficiente de correlación tetracórico no debe confundirse con el coeficiente de correlación de Pearson , que se calcula asignando, por ejemplo, los valores 0,0 y 1,0 para representar los dos niveles de cada variable (que es matemáticamente equivalente al coeficiente φ).
El coeficiente lambda es una medida de la fuerza de asociación de las tabulaciones cruzadas cuando las variables se miden en el nivel nominal . Los valores varían de 0,0 (ninguna asociación) a 1,0 (la máxima asociación posible).
La lambda asimétrica mide la mejora porcentual en la predicción de la variable dependiente. La lambda simétrica mide la mejora porcentual cuando la predicción se realiza en ambas direcciones.
El coeficiente de incertidumbre , o U de Theil, es otra medida para las variables a nivel nominal. Sus valores van desde −1,0 (asociación negativa del 100% o inversión perfecta) hasta +1,0 (asociación positiva del 100% o concordancia perfecta). Un valor de 0,0 indica la ausencia de asociación.
Además, el coeficiente de incertidumbre es condicional y una medida asimétrica de asociación, que puede expresarse como
Esta propiedad asimétrica puede conducir a conocimientos que no son tan evidentes en las medidas simétricas de asociación. [7]