variable categórica

En estadística , una variable categórica (también llamada variable cualitativa ) es una variable que puede tomar uno de un número limitado, y generalmente fijo, de valores posibles, asignando cada individuo u otra unidad de observación a un grupo particular o categoría nominal en el base de alguna propiedad cualitativa . ^[1] En informática y algunas ramas de las matemáticas, las variables categóricas se denominan enumeraciones o tipos enumerados . Comúnmente (aunque no en este artículo), cada uno de los valores posibles de una variable categórica se denomina nivel . La distribución de probabilidad asociada a una variable categórica aleatoria se denomina distribución categórica .

Los datos categóricos son el tipo de datos estadísticos que consisten en variables categóricas o en datos que se han convertido en esa forma, por ejemplo, como datos agrupados . Más específicamente, los datos categóricos pueden derivar de observaciones hechas de datos cualitativos que se resumen como recuentos o tabulaciones cruzadas , o de observaciones de datos cuantitativos agrupados dentro de intervalos determinados. A menudo, los datos puramente categóricos se resumen en forma de tabla de contingencia . Sin embargo, particularmente cuando se considera el análisis de datos, es común utilizar el término "datos categóricos" para aplicarlo a conjuntos de datos que, si bien contienen algunas variables categóricas, también pueden contener variables no categóricas.

Una variable categórica que puede tomar exactamente dos valores se denomina variable binaria o variable dicotómica ; un caso especial importante es la variable de Bernoulli . Las variables categóricas con más de dos valores posibles se denominan variables politómicas ; A menudo se supone que las variables categóricas son politómicas a menos que se especifique lo contrario. La discretización consiste en tratar datos continuos como si fueran categóricos. La dicotomización consiste en tratar datos continuos o variables politómicas como si fueran variables binarias. El análisis de regresión a menudo trata la pertenencia a una categoría con una o más variables ficticias cuantitativas .

Ejemplos de variables categóricas

Ejemplos de valores que podrían representarse en una variable categórica:

La tirada de un dado de seis caras: los resultados posibles son 1,2,3,4,5 o 6.
Información demográfica de una población: sexo, estado de enfermedad.
El tipo de sangre de una persona: A, B, AB u O.
El partido político por el que un elector podría votar, e. gramo. Partido Verde , Demócrata Cristiano , Socialdemócrata , etc.
El tipo de roca: ígnea , sedimentaria o metamórfica .
La identidad de una palabra particular (por ejemplo, en un modelo de lenguaje ) : Una de V opciones posibles, para un vocabulario de tamaño V.

Notación

Para facilitar el procesamiento estadístico, a las variables categóricas se les pueden asignar índices numéricos, por ejemplo, de 1 a K para una variable categórica de K vías (es decir, una variable que puede expresar exactamente K valores posibles). Sin embargo, en general los números son arbitrarios y no tienen significado más allá de simplemente proporcionar una etiqueta conveniente para un valor particular. En otras palabras, los valores de una variable categórica existen en una escala nominal : cada uno de ellos representa un concepto lógicamente separado, no necesariamente puede ordenarse de manera significativa y no puede manipularse de otro modo como podrían hacerlo los números. En cambio, las operaciones válidas son equivalencia , pertenencia a conjuntos y otras operaciones relacionadas con conjuntos.

Como resultado, la tendencia central de un conjunto de variables categóricas viene dada por su moda ; No se pueden definir ni la media ni la mediana . Como ejemplo, dado un conjunto de personas, podemos considerar el conjunto de variables categóricas correspondientes a sus apellidos. Podemos considerar operaciones como equivalencia (si dos personas tienen el mismo apellido), establecer membresía (si una persona tiene un nombre en una lista determinada), contar (cuántas personas tienen un apellido determinado) o encontrar la moda ( qué nombre aparece con más frecuencia). Sin embargo, no podemos calcular de manera significativa la "suma" de Smith + Johnson, ni preguntar si Smith es "menor que" o "mayor que" Johnson. Como resultado, no podemos preguntar de manera significativa cuál es el "nombre promedio" (la media) o el "nombre medio" (la mediana) en un conjunto de nombres.

Esto ignora el concepto de orden alfabético , que es una propiedad que no es inherente a los nombres en sí, sino a la forma en que construimos las etiquetas. Por ejemplo, si escribimos los nombres en cirílico y consideramos el orden cirílico de las letras, podríamos obtener un resultado diferente al evaluar "Smith < Johnson" que si escribimos los nombres en el alfabeto latino estándar ; y si escribimos los nombres en caracteres chinos , no podemos evaluar de manera significativa "Smith < Johnson" en absoluto, porque no se define un orden consistente para dichos caracteres. Sin embargo, si consideramos los nombres tal como están escritos, por ejemplo, en el alfabeto latino, y definimos un orden correspondiente al orden alfabético estándar, entonces los habremos convertido efectivamente en variables ordinales definidas en una escala ordinal .

Número de valores posibles

Las variables aleatorias categóricas normalmente se describen estadísticamente mediante una distribución categórica , que permite expresar una variable categórica arbitraria de K con probabilidades separadas especificadas para cada uno de los K resultados posibles. Estas variables categóricas de múltiples categorías a menudo se analizan utilizando una distribución multinomial , que cuenta la frecuencia de cada posible combinación de números de apariciones de las distintas categorías. El análisis de regresión sobre resultados categóricos se logra mediante regresión logística multinomial , probit multinomial o un tipo relacionado de modelo de elección discreta .

Las variables categóricas que tienen sólo dos resultados posibles (p. ej., "sí" frente a "no" o "éxito" frente a "fracaso") se conocen como variables binarias (o variables de Bernoulli ). Debido a su importancia, estas variables a menudo se consideran una categoría separada, con una distribución separada (la distribución de Bernoulli ) y modelos de regresión separados ( regresión logística , regresión probit , etc.). Como resultado, el término "variable categórica" a menudo se reserva para casos con 3 o más resultados, a veces denominado variable multidireccional en oposición a variable binaria.

También es posible considerar variables categóricas donde el número de categorías no está fijado de antemano. Como ejemplo, para una variable categórica que describe una palabra en particular, es posible que no sepamos de antemano el tamaño del vocabulario y nos gustaría permitir la posibilidad de encontrar palabras que aún no hayamos visto. Los modelos estadísticos estándar, como los que involucran la distribución categórica y la regresión logística multinomial , suponen que el número de categorías se conoce de antemano, y cambiar el número de categorías sobre la marcha es complicado. En tales casos, se deben utilizar técnicas más avanzadas. Un ejemplo es el proceso de Dirichlet , que cae en el ámbito de la estadística no paramétrica . En tal caso, se supone lógicamente que existe un número infinito de categorías, pero en un momento dado la mayoría de ellas (de hecho, todas menos un número finito) nunca han sido vistas. Todas las fórmulas están redactadas en términos del número de categorías realmente vistas hasta ahora en lugar del número total (infinito) de categorías potenciales existentes, y se crean métodos para la actualización incremental de las distribuciones estadísticas, incluida la adición de "nuevas" categorías.

Variables categóricas y regresión.

Las variables categóricas representan un método cualitativo de puntuación de datos (es decir, representan categorías o pertenencia a grupos). Estas pueden incluirse como variables independientes en un análisis de regresión o como variables dependientes en una regresión logística o una regresión probit , pero deben convertirse a datos cuantitativos para poder analizar los datos. Se hace mediante el uso de sistemas de codificación. Los análisis se realizan de manera que sólo se codifiquen g -1 ( siendo g el número de grupos). Esto minimiza la redundancia y al mismo tiempo representa el conjunto de datos completo, ya que no se obtendría información adicional al codificar el total de grupos g : por ejemplo, al codificar el género (donde g = 2: hombre y mujer), si solo codificamos mujeres, todos los que queden necesariamente ser varones. En general, el grupo para el cual no se codifica es el grupo de menor interés. ^[2]

Hay tres sistemas de codificación principales que se utilizan normalmente en el análisis de variables categóricas en regresión: codificación ficticia, codificación de efectos y codificación de contraste. La ecuación de regresión toma la forma de Y = bX + a , donde b es la pendiente y da el peso asignado empíricamente a un explicador, X es la variable explicativa y a es la intersección en Y , y estos valores adquieren diferentes significados según del sistema de codificación utilizado. La elección del sistema de codificación no afecta a las estadísticas F o R 2 . Sin embargo, se elige un sistema de codificación basado en la comparación de interés ya que la interpretación de los valores b variará. ^[2]

Codificación ficticia

La codificación ficticia se utiliza cuando se tiene en mente un grupo de control o de comparación. Por lo tanto, se analizan los datos de un grupo en relación con el grupo de comparación: a representa la media del grupo de control y b es la diferencia entre la media del grupo experimental y la media del grupo de control. Se sugiere que se cumplan tres criterios para especificar un grupo de control adecuado: el grupo debe ser un grupo bien establecido (por ejemplo, no debe ser una categoría "otra"), debe haber una razón lógica para seleccionar este grupo como comparación ( por ejemplo, se prevé que el grupo obtenga la puntuación más alta en la variable dependiente) y, finalmente, el tamaño de la muestra del grupo debe ser sustancial y no pequeño en comparación con los otros grupos. ^[3]

En la codificación ficticia, al grupo de referencia se le asigna un valor de 0 para cada variable de código, al grupo de interés para comparar con el grupo de referencia se le asigna un valor de 1 para su variable de código especificada, mientras que a todos los demás grupos se les asigna 0 para esa variable de código en particular. variable de código. ^[2]

Los valores b deben interpretarse de manera que el grupo experimental se compare con el grupo de control. Por lo tanto, obtener un valor b negativo implicaría que el grupo experimental hubiera obtenido una puntuación menor que el grupo de control en la variable dependiente . Para ilustrar esto, supongamos que estamos midiendo el optimismo entre varias nacionalidades y hemos decidido que los franceses servirían como un control útil. Si los comparamos con los italianos y observamos un valor b negativo , esto sugeriría que los italianos obtienen puntuaciones de optimismo más bajas en promedio.

La siguiente tabla es un ejemplo de codificación ficticia con francés como grupo de control y C1, C2 y C3 respectivamente como códigos para italiano , alemán y otros (ni francés, ni italiano, ni alemán):

Codificación de efectos

En el sistema de codificación de efectos, los datos se analizan comparando un grupo con todos los demás grupos. A diferencia de la codificación ficticia, no existe un grupo de control. Más bien, la comparación se realiza según la media de todos los grupos combinados ( a es ahora la media general ). Por lo tanto, no se buscan datos en relación con otro grupo, sino más bien en relación con la media general. ^[2]

La codificación de efectos puede ser ponderada o no ponderada. La codificación de efectos ponderados consiste simplemente en calcular una gran media ponderada, teniendo así en cuenta el tamaño de la muestra en cada variable. Esto es más apropiado en situaciones donde la muestra es representativa de la población en cuestión. La codificación de efectos no ponderados es más apropiada en situaciones donde las diferencias en el tamaño de la muestra son el resultado de factores incidentales. La interpretación de b es diferente para cada uno: en efectos no ponderados, la codificación de b es la diferencia entre la media del grupo experimental y la media general, mientras que en la situación ponderada es la media del grupo experimental menos la media general ponderada. ^[2]

En la codificación de efectos, codificamos el grupo de interés con un 1, tal como lo haríamos en la codificación ficticia. La principal diferencia es que codificamos −1 para el grupo que menos nos interesa. Dado que continuamos usando un esquema de codificación g - 1, de hecho es el grupo codificado −1 el que no producirá datos, de ahí el hecho de que codificamos −1 para el grupo que menos nos interesa. están menos interesados en ese grupo. Se asigna un código de 0 a todos los demás grupos.

Los valores b deben interpretarse de manera que el grupo experimental se compare con la media de todos los grupos combinados (o la gran media ponderada en el caso de codificación de efectos ponderados). Por lo tanto, obtener un valor b negativo implicaría que el grupo codificado obtuvo una puntuación menor que la media de todos los grupos en la variable dependiente. Utilizando nuestro ejemplo anterior de puntuaciones de optimismo entre nacionalidades, si el grupo de interés son los italianos, observar un valor b negativo sugiere que obtienen una puntuación de optimismo más baja.

La siguiente tabla es un ejemplo de codificación de efectos con Otros como el grupo de menor interés.

Codificación de contraste

El sistema de codificación de contraste permite al investigador hacer preguntas específicas directamente. En lugar de que el sistema de codificación dicte la comparación que se realiza (es decir, contra un grupo de control como en la codificación ficticia, o contra todos los grupos como en la codificación de efectos), se puede diseñar una comparación única que se adapte a la pregunta de investigación específica. Esta hipótesis personalizada generalmente se basa en teorías y/o investigaciones previas. Las hipótesis propuestas son generalmente las siguientes: primero, está la hipótesis central que postula una gran diferencia entre dos conjuntos de grupos; la segunda hipótesis sugiere que dentro de cada conjunto, las diferencias entre los grupos son pequeñas. A través de sus hipótesis centradas a priori , la codificación de contraste puede producir un aumento en el poder de la prueba estadística en comparación con los sistemas de codificación anteriores menos dirigidos. ^[2]

Ciertas diferencias surgen cuando comparamos nuestros coeficientes a priori entre ANOVA y regresión. A diferencia de cuando se utiliza en ANOVA, donde queda a discreción del investigador elegir valores de coeficientes ortogonales o no ortogonales, en la regresión es esencial que los valores de coeficientes asignados en la codificación de contraste sean ortogonales. Además, en la regresión, los valores de los coeficientes deben estar en forma fraccionaria o decimal. No pueden adoptar valores de intervalo.

La construcción de códigos de contraste está restringida por tres reglas:

La suma de los coeficientes de contraste por cada variable de código debe ser igual a cero.
La diferencia entre la suma de los coeficientes positivos y la suma de los coeficientes negativos debe ser igual a 1.
Las variables codificadas deben ser ortogonales. ^[2]

La violación de la regla 2 produce valores precisos de R ² y F , lo que indica que llegaríamos a las mismas conclusiones sobre si existe o no una diferencia significativa; sin embargo, ya no podemos interpretar los valores de b como una diferencia de medias.

Para ilustrar la construcción de códigos de contraste, considere la siguiente tabla. Se eligieron coeficientes para ilustrar nuestras hipótesis a priori: Hipótesis 1: los franceses e italianos obtendrán puntuaciones más altas en optimismo que los alemanes (francés = +0,33, italiano = +0,33, alemán = −0,66). Esto se ilustra asignando el mismo coeficiente a las categorías francesa e italiana y otro diferente a las alemanas. Los signos asignados indican la dirección de la relación (por lo tanto, dar a los alemanes un signo negativo es indicativo de sus puntuaciones de optimismo hipotéticas más bajas). Hipótesis 2: Se espera que franceses e italianos difieran en sus puntuaciones de optimismo (francés = +0,50, italiano = −0,50, alemán = 0). Aquí, asignar un valor cero a los alemanes demuestra su no inclusión en el análisis de esta hipótesis. Nuevamente, los signos asignados son indicativos de la relación propuesta.

Codificación sin sentido

La codificación sin sentido ocurre cuando uno usa valores arbitrarios en lugar de los "0" designados, "1" y "-1" que se ven en los sistemas de codificación anteriores. Aunque produce valores medios correctos para las variables, no se recomienda el uso de codificación sin sentido ya que conducirá a resultados estadísticos no interpretables. ^[2]

Incrustaciones

Las incrustaciones son codificaciones de valores categóricos en espacios vectoriales de valores reales (a veces de valores complejos ) de baja dimensión , generalmente de tal manera que a valores "similares" se les asignan vectores "similares", o con respecto a algún otro tipo de criterio que vectores útiles para la aplicación respectiva. Un caso especial común son las incrustaciones de palabras , donde los posibles valores de la variable categórica son las palabras de un idioma y a las palabras con significados similares se les deben asignar vectores similares.

Interacciones

Una interacción puede surgir al considerar la relación entre tres o más variables y describe una situación en la que la influencia simultánea de dos variables sobre una tercera no es aditiva. Las interacciones pueden surgir con variables categóricas de dos maneras: categóricas por interacciones de variables categóricas o categóricas por interacciones de variables continuas.

Interacciones categóricas por variables categóricas

Este tipo de interacción surge cuando tenemos dos variables categóricas. Para investigar este tipo de interacción, se codificaría utilizando el sistema que aborde más apropiadamente la hipótesis del investigador. El producto de los códigos produce la interacción. Luego se puede calcular el valor b y determinar si la interacción es significativa. ^[2]

Categórico por interacciones de variables continuas.

El análisis de pendientes simples es una prueba post hoc común utilizada en regresión que es similar al análisis de efectos simples en ANOVA, utilizado para analizar interacciones. En esta prueba, examinamos las pendientes simples de una variable independiente en valores específicos de la otra variable independiente. Esta prueba no se limita a su uso con variables continuas, sino que también puede emplearse cuando la variable independiente es categórica. No podemos simplemente elegir valores para probar la interacción como lo haríamos en el caso de la variable continua debido a la naturaleza nominal de los datos (es decir, en el caso continuo, se podrían analizar los datos en niveles alto, moderado y bajo asignando 1 desviación estándar). por encima de la media, en la media y a una desviación estándar por debajo de la media, respectivamente). En nuestro caso categórico usaríamos una ecuación de regresión simple para cada grupo para investigar las pendientes simples. Es una práctica común estandarizar o centrar variables para que los datos sean más interpretables en análisis de pendientes simples; sin embargo, las variables categóricas nunca deben estandarizarse ni centrarse. Esta prueba se puede utilizar con todos los sistemas de codificación. ^[2]

Ver también

Referencias

^ Yates, Daniel S.; Moore, David S.; Starnes, Daren S. (2003). La práctica de la estadística (2ª ed.). Nueva York: Freeman . ISBN 978-0-7167-4773-4. Archivado desde el original el 9 de febrero de 2005 . Consultado el 28 de septiembre de 2014 .
^ abcdefghij Cohen, J.; Cohen, P.; Oeste, SG; Aiken, LS (2003). Análisis de correlación/regresión múltiple aplicado para las ciencias del comportamiento (3ª ed.) . Nueva York, Nueva York: Routledge.
^ Hardy, Melissa (1993). Regresión con variables ficticias . Newbury Park, California: Sage.

Otras lecturas

Andersen, Erling B. 1980. Modelos estadísticos discretos con aplicaciones de ciencias sociales . Holanda del Norte, 1980.
Obispo, YMM ; Fienberg, SE ; Holanda, PW (1975). Análisis multivariado discreto: teoría y práctica . Prensa del MIT. ISBN 978-0-262-02113-5. SEÑOR 0381130.
Christensen, Ronald (1997). Modelos log-lineales y regresión logística . Textos de Springer en estadística (Segunda ed.). Nueva York: Springer-Verlag. págs. xvi+483. ISBN 0-387-98247-7. SEÑOR 1633357.
Amable, Miguel . Visualización de datos categóricos. Instituto SAS, 2000.
Lauritzen, Steffen L. (2002) [1979]. Conferencias sobre tablas de contingencia (PDF) (versión electrónica actualizada de la (Universidad de Aalborg) 3ª (1989) ed.).
NIST/SEMATEK (2008) Manual de métodos estadísticos