stringtranslate.com

Categoría nominal

Introducción a los datos nominales

Una variable utilizada para asociar cada punto de datos en un conjunto de observaciones, o en un caso particular, a una determinada categoría cualitativa es una variable categórica. Las variables categóricas tienen dos tipos de escalas, ordinales y nominales. [1] El primer tipo de escala categórica depende del orden natural, niveles que se definen por un sentido de calidad. Las variables con esta convención de ordenación se conocen como variables ordinales . En comparación, las variables con escalas no ordenadas son variables nominales. [1]

Diferencia visual entre datos nominales y ordinales (con ejemplos), las dos escalas de datos categóricos [2]

Una variable nominal, o grupo nominal, es un grupo de objetos o ideas agrupados colectivamente por una característica cualitativa particular . [3] Las variables nominales no tienen un orden natural, lo que significa que los análisis estadísticos de estas variables siempre producirán los mismos resultados, independientemente del orden en que se presenten los datos. [1] [3]

Si bien los métodos estadísticos de variables ordinales no se pueden utilizar para grupos nominales, los métodos de grupos nominales se pueden utilizar para ambos tipos de conjuntos de datos categóricos; sin embargo, la categorización nominal de los datos ordinales eliminará el orden, lo que limitará el análisis posterior del conjunto de datos para obtener resultados nominales. [1]

Operaciones válidas y ejecutables sobre datos nominales

Dado que un grupo nominal consta de datos que se identifican como miembro o no miembro, cada punto de datos individual no tiene importancia adicional más allá de la identificación del grupo. Además, la identificación de los datos justifica si es necesario formar nuevos grupos nominales en función de la información disponible. [3] Debido a que las categorías nominales no se pueden organizar ni clasificar numéricamente, los miembros asociados con un grupo nominal no se pueden colocar en forma ordinal o de proporción .

Los datos nominales se comparan a menudo con datos ordinales y de razón para determinar si los puntos de datos individuales influyen en el comportamiento de los conjuntos de datos impulsados ​​cuantitativamente. [1] [4] Por ejemplo, el efecto de la raza (nominal) sobre los ingresos (razón) podría investigarse mediante la regresión del nivel de ingresos sobre una o más variables ficticias que especifican la raza. Cuando se utilizan variables nominales en estos contextos, las operaciones de datos válidas que se pueden realizar son limitadas. Si bien las operaciones aritméticas y los cálculos que miden la tendencia central de los datos (asignaciones cuantitativas del análisis de datos, incluidas la media y la mediana ) no se pueden realizar en categorías nominales, las operaciones de datos que se pueden realizar incluyen la comparación de frecuencias y la distribución de frecuencias , la determinación de una moda , la creación de tablas dinámicas y los usos de las pruebas de bondad de ajuste e independencia de Chi-cuadrado , la codificación y recodificación, y las regresiones logísticas o probit . [1] [3] [4]

Recopilación y descripción de datos nominales (desde distribuciones de frecuencia hasta gráficos de barras) utilizando información cualitativa, como la marca de la computadora que se posee [5]

Ejemplos y análisis lógico de datos nominales

Como sugiere el término “nominal”, los grupos nominales se basan en el nombre de los datos que encapsulan. [3] Por ejemplo, la ciudadanía es un grupo nominal. Una persona puede ser ciudadana de un país o no. Con esto, un ciudadano de Canadá no tiene “más ciudadanía” que otro ciudadano de Canadá; por lo tanto, es imposible ordenar la ciudadanía mediante cualquier lógica matemática.

Otro ejemplo de categorización de nombres sería la identificación de "palabras que comienzan con la letra 'a'". Hay miles de palabras que comienzan con la letra 'a', pero ninguna tiene "más" de esta cualidad nominal que otras, lo que significa que la palabra que comienza con la letra 'a' es más importante que determinar la cantidad de "a" como primeras letras de una instancia porque esto se asocia con la pertenencia en lugar de cuantificar los datos como un grupo ordinal.

En este sentido, la correlación de dos categorías nominales es difícil porque algunas relaciones que se dan son espurias, en las que se supone incorrectamente que dos o más variables se correlacionan entre sí. Los datos comparados dentro de las categorías también pueden no ser importantes. Por ejemplo, determinar si proporcionalmente más canadienses tienen nombres que comiencen con la letra "a" que no canadienses sería un ejercicio bastante arbitrario y aleatorio. Sin embargo, el uso de la comparación de datos nominales con una distribución de frecuencia para asociar el género y la afiliación política sería más eficaz, ya que una correlación entre los recuentos de afiliación a un partido en particular se compararía con el número de votantes masculinos y femeninos contabilizados en un conjunto de datos.

Desde una perspectiva de análisis cuantitativo, una de las operaciones más comunes que se realizan en los datos nominales es la asignación de variables ficticias, un método presentado anteriormente. Por ejemplo, si una variable nominal tiene tres categorías (A, B y C), se crearían dos variables ficticias (para A y B) donde C es la categoría de referencia, la variable nominal que sirve como línea base para la comparación de variables. [6] Otro ejemplo de esto es el uso de la codificación de variables indicadoras que asigna un valor numérico de 0 o 1 a cada punto de datos en un conjunto. Este método identifica si las observaciones individuales pertenecen a un grupo particular (conjunto en uno) o no (conjunto en cero). [6] Esta asociación numérica permite una mayor flexibilidad en el análisis de datos nominales, ya que captura las diferencias no solo entre grupos nominales distintos, sino también las diferencias presentes entre los datos dentro de un conjunto, determinando las interacciones entre las variables nominales y otras variables en un contexto sistemático. [6] 

Referencias

  1. ^ abcdef Agresti, Alan (2007). Introducción al análisis de datos categóricos . Series de Wiley en probabilidad y estadística (2.ª ed.). Hoboken (Nueva Jersey): Wiley-Interscience. ISBN 978-0-471-22618-5.
  2. ^ Dahouda, Mwamba Kasongo; Joe, Inwhee (2021). "Una técnica de incrustación de aprendizaje profundo para la codificación de características categóricas". IEEE Access . 9 : 114381–114391. Bibcode :2021IEEEA...9k4381D. doi : 10.1109/ACCESS.2021.3104357 . ISSN  2169-3536.
  3. ^ abcde Rugg, Gordon; Petre, Marian (2006), Una guía sencilla para los métodos de investigación, McGraw-Hill International, ISBN 9780335219278.
  4. ^ ab T. Reynolds, H. (1984). Análisis de datos nominales. SAGE Publications, Inc. doi :10.4135/9781412983303. ISBN 978-1-4129-8330-3.
  5. ^ Reid, Howard M. (2014). Introducción a la estadística: conceptos y procedimientos fundamentales del análisis de datos . Los Ángeles: SAGE. ISBN 978-1-4522-7196-5.
  6. ^ abc Ryan, Thomas P. (2009). Manual de soluciones para acompañar los métodos de regresión modernos . Series de Wiley en probabilidad y estadística (2.ª ed.). Hoboken, NJ: Wiley. ISBN 978-0-470-08186-0.