En estadística , una variable categórica (también llamada variable cualitativa ) es una variable que puede tomar uno de un número limitado, y generalmente fijo, de valores posibles, asignando cada individuo u otra unidad de observación a un grupo particular o categoría nominal sobre la base de alguna propiedad cualitativa . [1] En informática y algunas ramas de las matemáticas, las variables categóricas se denominan enumeraciones o tipos enumerados . Comúnmente (aunque no en este artículo), cada uno de los valores posibles de una variable categórica se denomina nivel . La distribución de probabilidad asociada con una variable categórica aleatoria se denomina distribución categórica .
Los datos categóricos son el tipo de datos estadísticos que consiste en variables categóricas o en datos que se han convertido a esa forma, por ejemplo, como datos agrupados . Más específicamente, los datos categóricos pueden derivar de observaciones realizadas de datos cualitativos que se resumen como recuentos o tabulaciones cruzadas , o de observaciones de datos cuantitativos agrupados dentro de intervalos dados. A menudo, los datos puramente categóricos se resumen en forma de una tabla de contingencia . Sin embargo, en particular cuando se considera el análisis de datos, es común utilizar el término "datos categóricos" para aplicarlo a conjuntos de datos que, si bien contienen algunas variables categóricas, también pueden contener variables no categóricas. Las variables ordinales tienen un orden significativo, mientras que las variables nominales no tienen un orden significativo.
Una variable categórica que puede tomar exactamente dos valores se denomina variable binaria o variable dicotómica ; un caso especial importante es la variable de Bernoulli . Las variables categóricas con más de dos valores posibles se denominan variables politómicas ; a menudo se supone que las variables categóricas son politómicas a menos que se especifique lo contrario. La discretización es tratar los datos continuos como si fueran categóricos. La dicotomía es tratar los datos continuos o las variables politómicas como si fueran variables binarias. El análisis de regresión a menudo trata la pertenencia a una categoría con una o más variables ficticias cuantitativas .
Ejemplos de valores que podrían representarse en una variable categórica:
Para facilitar el procesamiento estadístico, a las variables categóricas se les pueden asignar índices numéricos, por ejemplo, de 1 a K para una variable categórica de K vías (es decir, una variable que puede expresar exactamente K valores posibles). En general, sin embargo, los números son arbitrarios y no tienen importancia más allá de simplemente proporcionar una etiqueta conveniente para un valor particular. En otras palabras, los valores de una variable categórica existen en una escala nominal : cada uno representa un concepto lógicamente separado, no necesariamente se pueden ordenar de manera significativa y no se pueden manipular de otra manera como podrían hacerlo los números. En cambio, las operaciones válidas son la equivalencia , la pertenencia a un conjunto y otras operaciones relacionadas con el conjunto.
Como resultado, la tendencia central de un conjunto de variables categóricas está dada por su moda ; ni la media ni la mediana pueden definirse. Como ejemplo, dado un conjunto de personas, podemos considerar el conjunto de variables categóricas correspondientes a sus apellidos. Podemos considerar operaciones como equivalencia (si dos personas tienen el mismo apellido), pertenencia a un conjunto (si una persona tiene un nombre en una lista dada), conteo (cuántas personas tienen un apellido dado) o encontrar la moda (qué nombre aparece con más frecuencia). Sin embargo, no podemos calcular de manera significativa la "suma" de Smith + Johnson, o preguntar si Smith es "menor que" o "mayor que" Johnson. Como resultado, no podemos preguntar de manera significativa cuál es el "nombre promedio" (la media) o el "nombre más intermedio" (la mediana) en un conjunto de nombres.
Esto ignora el concepto de orden alfabético , que es una propiedad que no es inherente a los nombres en sí, sino a la forma en que construimos las etiquetas. Por ejemplo, si escribimos los nombres en cirílico y consideramos el orden cirílico de las letras, podríamos obtener un resultado diferente al evaluar "Smith < Johnson" que si escribiéramos los nombres en el alfabeto latino estándar ; y si escribimos los nombres en caracteres chinos , no podemos evaluar significativamente "Smith < Johnson" en absoluto, porque no se define un orden consistente para dichos caracteres. Sin embargo, si consideramos los nombres como escritos, por ejemplo, en el alfabeto latino, y definimos un orden correspondiente al orden alfabético estándar, entonces los habremos convertido efectivamente en variables ordinales definidas en una escala ordinal .
Las variables aleatorias categóricas se describen normalmente estadísticamente mediante una distribución categórica , que permite expresar una variable categórica arbitraria de K vías con probabilidades separadas especificadas para cada uno de los K resultados posibles. Estas variables categóricas de múltiples categorías a menudo se analizan utilizando una distribución multinomial , que cuenta la frecuencia de cada combinación posible de números de ocurrencias de las diversas categorías. El análisis de regresión sobre resultados categóricos se logra a través de regresión logística multinomial , probit multinomial o un tipo relacionado de modelo de elección discreta .
Las variables categóricas que tienen solo dos resultados posibles (por ejemplo, "sí" frente a "no" o "éxito" frente a "fracaso") se conocen como variables binarias (o variables de Bernoulli ). Debido a su importancia, estas variables a menudo se consideran una categoría separada, con una distribución separada (la distribución de Bernoulli ) y modelos de regresión separados ( regresión logística , regresión probit , etc.). Como resultado, el término "variable categórica" a menudo se reserva para casos con 3 o más resultados, a veces se denomina variable multidireccional en oposición a una variable binaria.
También es posible considerar variables categóricas donde el número de categorías no está fijado de antemano. Como ejemplo, para una variable categórica que describe una palabra en particular, podríamos no saber de antemano el tamaño del vocabulario, y nos gustaría permitir la posibilidad de encontrar palabras que no hayamos visto ya. Los modelos estadísticos estándar, como los que involucran la distribución categórica y la regresión logística multinomial , suponen que el número de categorías se conoce de antemano, y cambiar el número de categorías sobre la marcha es complicado. En tales casos, se deben utilizar técnicas más avanzadas. Un ejemplo es el proceso de Dirichlet , que cae en el ámbito de las estadísticas no paramétricas . En tal caso, se supone lógicamente que existe un número infinito de categorías, pero en un momento dado la mayoría de ellas (de hecho, todas menos un número finito) nunca se han visto. Todas las fórmulas se formulan en términos del número de categorías realmente vistas hasta el momento en lugar del número total (infinito) de categorías potenciales existentes, y se crean métodos para la actualización incremental de distribuciones estadísticas, incluida la adición de categorías "nuevas".
Las variables categóricas representan un método cualitativo de puntuación de datos (es decir, representan categorías o pertenencia a grupos). Estas pueden incluirse como variables independientes en un análisis de regresión o como variables dependientes en regresión logística o regresión probit , pero deben convertirse en datos cuantitativos para poder analizar los datos. Esto se hace mediante el uso de sistemas de codificación. Los análisis se llevan a cabo de manera que solo se codifiquen g -1 ( siendo g el número de grupos). Esto minimiza la redundancia al mismo tiempo que representa el conjunto de datos completo, ya que no se obtendría información adicional al codificar los g grupos totales: por ejemplo, al codificar el género (donde g = 2: masculino y femenino), si solo codificamos mujeres, todos los que queden necesariamente serán hombres. En general, el grupo que no se codifica es el grupo de menor interés. [2]
Existen tres sistemas de codificación principales que se utilizan normalmente en el análisis de variables categóricas en regresión: codificación ficticia, codificación de efectos y codificación de contraste. La ecuación de regresión toma la forma de Y = bX + a , donde b es la pendiente y da el peso asignado empíricamente a un explicador, X es la variable explicativa y a es la intersección con el eje Y , y estos valores adquieren diferentes significados según el sistema de codificación utilizado. La elección del sistema de codificación no afecta a las estadísticas F o R 2 . Sin embargo, uno elige un sistema de codificación basado en la comparación de interés ya que la interpretación de los valores b variará. [2]
La codificación ficticia se utiliza cuando se tiene en mente un grupo de control o de comparación. Por lo tanto, se analizan los datos de un grupo en relación con el grupo de comparación: a representa la media del grupo de control y b es la diferencia entre la media del grupo experimental y la media del grupo de control. Se sugiere que se cumplan tres criterios para especificar un grupo de control adecuado: el grupo debe ser un grupo bien establecido (por ejemplo, no debe ser una categoría "otra"), debe haber una razón lógica para seleccionar este grupo como comparación (por ejemplo, se prevé que el grupo obtenga la puntuación más alta en la variable dependiente) y, por último, el tamaño de la muestra del grupo debe ser sustancial y no pequeño en comparación con los otros grupos. [3]
En la codificación ficticia, al grupo de referencia se le asigna un valor de 0 para cada variable de código, al grupo de interés para la comparación con el grupo de referencia se le asigna un valor de 1 para su variable de código especificada, mientras que a todos los demás grupos se les asigna un valor de 0 para esa variable de código en particular. [2]
Los valores b deben interpretarse de manera que el grupo experimental se compare con el grupo de control. Por lo tanto, obtener un valor b negativo implicaría que el grupo experimental obtuvo una puntuación menor que el grupo de control en la variable dependiente . Para ilustrar esto, supongamos que estamos midiendo el optimismo entre varias nacionalidades y hemos decidido que los franceses servirían como un control útil. Si los comparamos con los italianos y observamos un valor b negativo , esto sugeriría que los italianos obtienen puntuaciones de optimismo más bajas en promedio.
La siguiente tabla es un ejemplo de codificación ficticia con francés como grupo de control y C1, C2 y C3 respectivamente como códigos para italiano , alemán y Otros (ni francés ni italiano ni alemán):
En el sistema de codificación de efectos, los datos se analizan comparando un grupo con todos los demás grupos. A diferencia de la codificación ficticia, no hay un grupo de control. En cambio, la comparación se realiza en la media de todos los grupos combinados ( a es ahora la media general ). Por lo tanto, no se buscan datos en relación con otro grupo, sino que se buscan datos en relación con la media general. [2]
La codificación de efectos puede ser ponderada o no ponderada. La codificación de efectos ponderados consiste simplemente en calcular una media general ponderada, teniendo en cuenta así el tamaño de la muestra en cada variable. Esto es más apropiado en situaciones en las que la muestra es representativa de la población en cuestión. La codificación de efectos no ponderados es más apropiada en situaciones en las que las diferencias en el tamaño de la muestra son el resultado de factores incidentales. La interpretación de b es diferente para cada caso: en la codificación de efectos no ponderados, b es la diferencia entre la media del grupo experimental y la media general, mientras que en la situación ponderada es la media del grupo experimental menos la media general ponderada. [2]
En la codificación de efectos, codificamos el grupo de interés con un 1, tal como lo haríamos para la codificación ficticia. La principal diferencia es que codificamos −1 para el grupo que menos nos interesa. Dado que continuamos utilizando un esquema de codificación g - 1, es de hecho el grupo codificado −1 el que no producirá datos, de ahí el hecho de que sea el grupo que menos nos interesa. Se asigna un código de 0 a todos los demás grupos.
Los valores b deben interpretarse de manera que el grupo experimental se compare con la media de todos los grupos combinados (o la media general ponderada en el caso de la codificación de efectos ponderados). Por lo tanto, obtener un valor b negativo implicaría que el grupo codificado obtuvo una puntuación inferior a la media de todos los grupos en la variable dependiente. Utilizando nuestro ejemplo anterior de puntuaciones de optimismo entre nacionalidades, si el grupo de interés son los italianos, observar un valor b negativo sugiere que obtienen una puntuación de optimismo inferior.
La siguiente tabla es un ejemplo de codificación de efectos con Otros como el grupo de menor interés.
El sistema de codificación de contraste permite al investigador plantear directamente preguntas específicas. En lugar de que el sistema de codificación dicte la comparación que se va a realizar (es decir, contra un grupo de control como en la codificación ficticia, o contra todos los grupos como en la codificación de efectos), se puede diseñar una comparación única que se adapte a la pregunta de investigación específica de cada uno. Esta hipótesis personalizada se basa generalmente en teorías y/o investigaciones previas. Las hipótesis propuestas son generalmente las siguientes: en primer lugar, está la hipótesis central que postula una gran diferencia entre dos conjuntos de grupos; la segunda hipótesis sugiere que dentro de cada conjunto, las diferencias entre los grupos son pequeñas. A través de sus hipótesis centradas a priori , la codificación de contraste puede producir un aumento en el poder de la prueba estadística en comparación con los sistemas de codificación anteriores menos dirigidos. [2]
Cuando comparamos nuestros coeficientes a priori entre ANOVA y regresión, surgen ciertas diferencias. A diferencia de lo que ocurre en ANOVA, donde queda a criterio del investigador elegir valores de coeficientes ortogonales o no ortogonales, en regresión es esencial que los valores de coeficientes asignados en la codificación de contraste sean ortogonales. Además, en regresión, los valores de coeficientes deben estar en forma fraccionaria o decimal. No pueden adoptar valores de intervalo.
La construcción de códigos de contraste está restringida por tres reglas:
La violación de la regla 2 produce valores R2 y F precisos , lo que indica que llegaríamos a las mismas conclusiones acerca de si hay o no una diferencia significativa; sin embargo, ya no podemos interpretar los valores b como una diferencia media.
Para ilustrar la construcción de códigos de contraste, considere la siguiente tabla. Se eligieron coeficientes para ilustrar nuestras hipótesis a priori: Hipótesis 1: las personas francesas e italianas obtendrán una puntuación más alta en optimismo que los alemanes (franceses = +0,33, italianos = +0,33, alemanes = −0,66). Esto se ilustra asignando el mismo coeficiente a las categorías francesa e italiana y uno diferente a los alemanes. Los signos asignados indican la dirección de la relación (por lo tanto, dar a los alemanes un signo negativo es indicativo de sus puntuaciones de optimismo hipotético más bajas). Hipótesis 2: se espera que los franceses e italianos difieran en sus puntuaciones de optimismo (franceses = +0,50, italianos = −0,50, alemanes = 0). Aquí, asignar un valor cero a los alemanes demuestra su no inclusión en el análisis de esta hipótesis. Nuevamente, los signos asignados son indicativos de la relación propuesta.
La codificación sin sentido se produce cuando se utilizan valores arbitrarios en lugar de los "0", "1" y "-1" designados como los que se observaban en los sistemas de codificación anteriores. Aunque produce valores medios correctos para las variables, no se recomienda el uso de la codificación sin sentido, ya que conducirá a resultados estadísticos no interpretables. [2]
Las incrustaciones son codificaciones de valores categóricos en espacios vectoriales de valores reales de baja dimensión (a veces de valores complejos ), generalmente de tal manera que a los valores "similares" se les asignan vectores "similares", o con respecto a algún otro tipo de criterio que hace que los vectores sean útiles para la aplicación respectiva. Un caso especial común son las incrustaciones de palabras , donde los posibles valores de la variable categórica son las palabras de un idioma y a las palabras con significados similares se les deben asignar vectores similares.
Una interacción puede surgir cuando se considera la relación entre tres o más variables y describe una situación en la que la influencia simultánea de dos variables sobre una tercera no es aditiva. Las interacciones pueden surgir con variables categóricas de dos maneras: interacciones categóricas por variable categórica o interacciones categóricas por variable continua.
Este tipo de interacción surge cuando tenemos dos variables categóricas. Para investigar este tipo de interacción, se codificaría utilizando el sistema que responda a la hipótesis del investigador de manera más apropiada. El producto de los códigos da como resultado la interacción. Luego se puede calcular el valor b y determinar si la interacción es significativa. [2]
El análisis de pendientes simples es una prueba post hoc común que se utiliza en regresión y que es similar al análisis de efectos simples en ANOVA, que se utiliza para analizar interacciones. En esta prueba, examinamos las pendientes simples de una variable independiente en valores específicos de la otra variable independiente. Esta prueba no se limita a su uso con variables continuas, sino que también se puede emplear cuando la variable independiente es categórica. No podemos simplemente elegir valores para investigar la interacción como lo haríamos en el caso de la variable continua debido a la naturaleza nominal de los datos (es decir, en el caso continuo, uno podría analizar los datos en niveles alto, moderado y bajo asignando 1 desviación estándar por encima de la media, en la media y en una desviación estándar por debajo de la media respectivamente). En nuestro caso categórico, utilizaríamos una ecuación de regresión simple para cada grupo para investigar las pendientes simples. Es una práctica común estandarizar o centrar las variables para que los datos sean más interpretables en el análisis de pendientes simples; sin embargo, las variables categóricas nunca deben estandarizarse o centrarse. Esta prueba se puede utilizar con todos los sistemas de codificación. [2]