Tabla de contingencia

En estadística , una tabla de contingencia (también conocida como tabulación cruzada o tabla de referencias cruzadas ) es un tipo de tabla en formato matricial que muestra la distribución de frecuencias multivariadas de las variables. Se utilizan mucho en la investigación de encuestas, inteligencia empresarial, ingeniería e investigación científica. Proporcionan una imagen básica de la interrelación entre dos variables y pueden ayudar a encontrar interacciones entre ellas. El término tabla de contingencia fue utilizado por primera vez por Karl Pearson en "Sobre la teoría de la contingencia y su relación con la asociación y la correlación normal", ^[1] parte de la serie biométrica de memorias de investigación de la Drapers' Company publicada en 1904.

Un problema crucial de la estadística multivariante es encontrar la estructura de dependencia (directa) subyacente a las variables contenidas en las tablas de contingencia de alta dimensión. Si se revelan algunas de las independencias condicionales , entonces incluso el almacenamiento de los datos se puede realizar de una manera más inteligente (véase Lauritzen (2002)). Para ello se pueden utilizar conceptos de la teoría de la información , que obtienen la información únicamente de la distribución de probabilidad, que se puede expresar fácilmente a partir de la tabla de contingencia mediante las frecuencias relativas.

Una tabla dinámica es una forma de crear tablas de contingencia utilizando un software de hojas de cálculo.

Ejemplo

Supongamos que hay dos variables: sexo (masculino o femenino) y lateralidad (diestro o zurdo). Supongamos además que se seleccionan al azar 100 individuos de una población muy grande como parte de un estudio de las diferencias sexuales en lateralidad. Se puede crear una tabla de contingencia para mostrar la cantidad de individuos que son diestros y zurdos, y mujeres diestras y zurdas. A continuación se muestra una tabla de contingencia de este tipo.

Las cantidades de hombres, mujeres, diestros y zurdos se denominan totales marginales . El total general (la cantidad total de individuos representados en la tabla de contingencia) es el número que aparece en la esquina inferior derecha.

La tabla permite a los usuarios ver de un vistazo que la proporción de hombres que son diestros es aproximadamente la misma que la proporción de mujeres que son diestras, aunque las proporciones no son idénticas. La fuerza de la asociación se puede medir por la razón de probabilidades y la razón de probabilidades de la población se estima por la razón de probabilidades de la muestra . La significación de la diferencia entre las dos proporciones se puede evaluar con una variedad de pruebas estadísticas, incluyendo la prueba de chi-cuadrado de Pearson , la prueba G , la prueba exacta de Fisher , la prueba de Boschloo y la prueba de Barnard , siempre que las entradas en la tabla representen individuos muestreados aleatoriamente de la población sobre la que se deben extraer conclusiones. Si las proporciones de individuos en las diferentes columnas varían significativamente entre filas (o viceversa), se dice que hay una contingencia entre las dos variables. En otras palabras, las dos variables no son independientes. Si no hay contingencia, se dice que las dos variables son independientes .

El ejemplo anterior es el tipo más simple de tabla de contingencia, una tabla en la que cada variable tiene solo dos niveles; esto se llama tabla de contingencia 2 × 2. En principio, se puede utilizar cualquier número de filas y columnas. También puede haber más de dos variables, pero las tablas de contingencia de orden superior son difíciles de representar visualmente. La relación entre variables ordinales , o entre variables ordinales y categóricas, también se puede representar en tablas de contingencia, aunque tal práctica es poco común. Para obtener más información sobre el uso de una tabla de contingencia para la relación entre dos variables ordinales, consulte la gamma de Goodman y Kruskal .

Contenido estándar de una tabla de contingencia

Varias columnas (históricamente, se diseñaron para utilizar todo el espacio en blanco de una página impresa). Cuando cada fila se refiere a un subgrupo específico de la población (en este caso, hombres o mujeres), las columnas a veces se denominan puntos de banner o cortes (y las filas a veces se denominan stubs ).
Pruebas de significación. Por lo general, se utilizan comparaciones de columnas , que buscan diferencias entre columnas y muestran estos resultados mediante letras, o comparaciones de celdas , que utilizan colores o flechas para identificar una celda de una tabla que se destaca de alguna manera.
Redes o netts que son subtotales.
Uno o más de: porcentajes, porcentajes de fila, porcentajes de columna, índices o promedios.
Tamaños de muestra no ponderados (recuentos).

Medidas de asociación

El grado de asociación entre las dos variables se puede evaluar mediante una serie de coeficientes. En las siguientes subsecciones se describen algunos de ellos. Para una discusión más completa de sus usos, consulte los artículos principales vinculados bajo el encabezado de cada subsección.

Razón de probabilidades

La medida de asociación más simple para una tabla de contingencia de 2 × 2 es la razón de probabilidades . Dados dos eventos, A y B, la razón de probabilidades se define como la razón de las probabilidades de A en presencia de B y las probabilidades de A en ausencia de B, o equivalentemente (debido a la simetría), la razón de las probabilidades de B en presencia de A y las probabilidades de B en ausencia de A. Dos eventos son independientes si y solo si la razón de probabilidades es 1; si la razón de probabilidades es mayor que 1, los eventos están asociados positivamente; si la razón de probabilidades es menor que 1, los eventos están asociados negativamente.

La razón de probabilidades tiene una expresión simple en términos de probabilidades; dada la distribución de probabilidad conjunta:

{\begin{array}{c|cc}&B=1&B=0\\\hline A=1&p_{11}&p_{10}\\A=0&p_{01}&p_{00}\end{array}}

La razón de probabilidades es:

O={\frac {p_{11}p_{00}}{p_{10}p_{01}}}.

Coeficiente phi

Una medida simple, aplicable sólo al caso de tablas de contingencia 2 × 2, es el coeficiente phi (φ) definido por

\phi =\pm {\sqrt {\frac {\chi ^{2}}{N}}},

donde $χ 2$ se calcula como en la prueba de chi-cuadrado de Pearson , y N es el total general de observaciones. φ varía de 0 (que corresponde a ninguna asociación entre las variables) a 1 o −1 (asociación completa o asociación inversa completa), siempre que se base en datos de frecuencia representados en tablas de 2 × 2. Entonces su signo es igual al signo del producto de los elementos diagonales principales de la tabla menos el producto de los elementos fuera de la diagonal. φ toma el valor mínimo −1.0 o el valor máximo de +1.0 si y solo si cada proporción marginal es igual a 0.5 (y dos celdas diagonales están vacías). ^[2]

De CramerVy el coeficiente de contingenciado

Dos alternativas son el coeficiente de contingencia C y el V de Cramér .

Las fórmulas para los coeficientes C y V son:

C={\sqrt {\frac {\chi ^{2}}{N+\chi ^{2}}}}

V={\sqrt {\frac {\chi ^{2}}{N(k-1)}}},

siendo k el número de filas o el número de columnas, el que sea menor.

C tiene la desventaja de que no alcanza un máximo de 1.0, en particular el máximo que puede alcanzar en una tabla 2 × 2 es 0.707. Puede alcanzar valores más cercanos a 1.0 en tablas de contingencia con más categorías; por ejemplo, puede alcanzar un máximo de 0.870 en una tabla 4 × 4. Por lo tanto, no debe usarse para comparar asociaciones en diferentes tablas si tienen diferentes números de categorías. ^[3]

C se puede ajustar para que alcance un máximo de 1,0 cuando hay una asociación completa en una tabla de cualquier número de filas y columnas dividiendo C por donde k es el número de filas o columnas, cuando la tabla es cuadrada ^[^{cita requerida}^] , o por donde r es el número de filas y c es el número de columnas. ^[4] ${\sqrt {\frac {k-1}{k}}}$ ${\sqrt[{\scriptstyle 4}]{{r-1 \sobre r}\times {c-1 \sobre c}}}$

Coeficiente de correlación tetracórico

Otra opción es el coeficiente de correlación tetracórico , pero solo es aplicable a tablas de 2 × 2. La correlación policórica es una extensión de la correlación tetracórica a tablas que involucran variables con más de dos niveles.

La correlación tetracórica supone que la variable subyacente a cada medida dicotómica se distribuye normalmente. ^[5] El coeficiente proporciona "una medida conveniente de la correlación [producto-momento de Pearson] cuando las mediciones graduadas se han reducido a dos categorías". ^[6]

El coeficiente de correlación tetracórico no debe confundirse con el coeficiente de correlación de Pearson , que se calcula asignando, por ejemplo, los valores 0,0 y 1,0 para representar los dos niveles de cada variable (que es matemáticamente equivalente al coeficiente φ).

Coeficiente lambda

El coeficiente lambda es una medida de la fuerza de asociación de las tabulaciones cruzadas cuando las variables se miden en el nivel nominal . Los valores varían de 0,0 (ninguna asociación) a 1,0 (la máxima asociación posible).

La lambda asimétrica mide la mejora porcentual en la predicción de la variable dependiente. La lambda simétrica mide la mejora porcentual cuando la predicción se realiza en ambas direcciones.

Coeficiente de incertidumbre

El coeficiente de incertidumbre , o U de Theil, es otra medida para las variables a nivel nominal. Sus valores van desde −1,0 (asociación negativa del 100% o inversión perfecta) hasta +1,0 (asociación positiva del 100% o concordancia perfecta). Un valor de 0,0 indica la ausencia de asociación.

Además, el coeficiente de incertidumbre es condicional y una medida asimétrica de asociación, que puede expresarse como

U(X|Y)\neq U(Y|X)

Esta propiedad asimétrica puede conducir a conocimientos que no son tan evidentes en las medidas simétricas de asociación. ^[7]

Otros

Prueba gamma : sin ajustes ni para el tamaño de la mesa ni para los empates.
Tau de Kendall : Ajuste para corbatas.
- Tau-b : Se utiliza para mesas cuadradas.
- Tau-c : Se utiliza para mesas rectangulares.

Véase también

Matriz de confusión
La tabla dinámica , en el software de hojas de cálculo, tabula de forma cruzada datos de muestreo con recuentos (tabla de contingencia) y/o sumas.
TPL Tables es una herramienta para generar e imprimir tablas cruzadas.
El procedimiento de ajuste proporcional iterativo esencialmente manipula las tablas de contingencia para que coincidan con distribuciones conjuntas alteradas o sumas marginales.
Las estadísticas multivariadas en distribuciones de probabilidad discretas multivariadas especiales. Algunos procedimientos utilizados en este contexto pueden emplearse en el manejo de tablas de contingencia.
Cubo OLAP , una forma moderna de computación multidimensional de tablas de contingencia
Datos de panel , datos multidimensionales a lo largo del tiempo

Referencias

^ Karl Pearson, FRS (1904). Contribuciones matemáticas a la teoría de la evolución. Dulau and Co.
^ Ferguson, GA (1966). Análisis estadístico en psicología y educación . Nueva York: McGraw–Hill.
^ Smith, SC y Albaum, GS (2004) Fundamentos de la investigación de marketing . Sage: Thousand Oaks, CA. pág. 631
^ Blaikie, N. (2003) Análisis de datos cuantitativos . Sage: Thousand Oaks, CA. pág. 100.
^ Ferguson. ^{[ cita completa necesaria ]}
^ Ferguson, 1966, pág. 244
^ "La búsqueda de correlación categórica". 26 de diciembre de 2019.

Lectura adicional

Andersen, Erling B. 1980. Modelos estadísticos discretos con aplicaciones en las ciencias sociales . Holanda Septentrional, 1980.
Bishop, YMM ; Fienberg, SE ; Holland, PW (1975). Análisis multivariante discreto: teoría y práctica . MIT Press. ISBN 978-0-262-02113-5.Sr. 0381130 .
Christensen, Ronald (1997). Modelos log-lineales y regresión logística . Springer Texts in Statistics (Segunda edición). Nueva York: Springer-Verlag. pp. xvi+483. ISBN 0-387-98247-7.Señor 1633357 .
Lauritzen, Steffen L. (1979). Lectures on Contingency Tables (Universidad de Aalborg) (PDF) (4.ª edición (primera edición electrónica), ed. 2002).
Gokhale, DV; Kullback, Solomon (1978). La información en tablas de contingencia . Marcel Dekker. ISBN 0-824-76698-9.

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Tablas de contingencia .

Análisis en línea de tablas de contingencia: calculadora con ejemplos
Tabulación cruzada interactiva, prueba independiente de chi-cuadrado y tutorial
Calculadora de Fisher y Chi-cuadrado de tabla de contingencia 2 × 2
Más coeficientes de correlación
Asociación nominal: Phi, coeficiente de contingencia, T de Tschuprow, V de Cramer, Lambda, coeficiente de incertidumbre, 24 de marzo de 2008, G. David Garson, Universidad Estatal de Carolina del Norte
Tabulación cruzada de CustomInsight.com
El Proyecto POWERMUTT: IV. VISUALIZACIÓN DE DATOS CATEGORICOS
StATS: El intento de Steve de enseñar estadística Razón de probabilidades versus riesgo relativo (9 de enero de 2001)
Tutorial de evaluación de salud comunitaria de Epi Info, lección 5: análisis: creación de estadísticas