El nivel de medición o escala de medición es una clasificación que describe la naturaleza de la información dentro de los valores asignados a las variables . [1] El psicólogo Stanley Smith Stevens desarrolló la clasificación más conocida con cuatro niveles o escalas de medición: nominal, ordinal, de intervalo y de razón. [1] [2] Este marco de distinción de niveles de medición se originó en la psicología y desde entonces ha tenido una historia compleja, siendo adoptado y ampliado en algunas disciplinas y por algunos académicos, y criticado o rechazado por otros. [3] Otras clasificaciones incluyen las de Mosteller y Tukey , [4] y de Chrisman. [5]
Stevens propuso su tipología en un artículo de la revista Science de 1946 titulado "Sobre la teoría de las escalas de medición". [2] En ese artículo, Stevens afirmaba que toda medición en ciencia se realizaba utilizando cuatro tipos diferentes de escalas que él llamaba "nominal", "ordinal", "de intervalo" y "de proporción", unificando tanto las " cualitativas " (que se describen mediante su tipo "nominal") como las " cuantitativas " (en un grado diferente, todas las demás escalas). El concepto de tipos de escala recibió más tarde el rigor matemático del que carecía en sus inicios con el trabajo de los psicólogos matemáticos Theodore Alper (1985, 1987), Louis Narens (1981a, b) y R. Duncan Luce (1986, 1987, 2001). Como escribió Luce (1997, p. 395):
SS Stevens (1946, 1951, 1975) afirmó que lo que importaba era tener una escala de intervalos o de proporciones. Investigaciones posteriores han dado sentido a esta afirmación, pero dados sus intentos de invocar ideas de tipos de escala, es dudoso que él mismo la entendiera... ningún teórico de la medición que conozco acepta la amplia definición de medición de Stevens... en nuestra opinión, el único significado sensato de "regla" es leyes empíricamente comprobables sobre el atributo.
Una escala nominal consta únicamente de una serie de clases o categorías distintas, por ejemplo: [Gato, Perro, Conejo]. A diferencia de las otras escalas, no se puede confiar en ningún tipo de relación entre las clases. Por lo tanto, medir con la escala nominal equivale a clasificar .
La medición nominal puede diferenciar entre elementos o sujetos basándose únicamente en sus nombres o (meta)categorías y otras clasificaciones cualitativas a las que pertenecen. Por ello, se ha sostenido que incluso los datos dicotómicos se basan en una epistemología constructivista . En este caso, el descubrimiento de una excepción a una clasificación puede considerarse un avance.
Se pueden usar números para representar las variables, pero los números no tienen valor numérico ni relación: por ejemplo, un identificador único global .
Entre los ejemplos de estas clasificaciones se incluyen el género, la nacionalidad, la etnia, el idioma, el género, el estilo, la especie biológica y la forma. [6] [7] En una universidad también se podrían utilizar como ejemplos la residencia universitaria o la afiliación a un departamento. Otros ejemplos concretos son
Las escalas nominales solían denominarse escalas cualitativas y las mediciones realizadas en escalas cualitativas se denominaban datos cualitativos. Sin embargo, el auge de la investigación cualitativa ha hecho que este uso sea confuso. Si se asignan números como etiquetas en la medición nominal, no tienen ningún valor numérico o significado específico. No se puede realizar ningún tipo de cálculo aritmético (+, −, ×, etc.) en las mediciones nominales. El nivel nominal es el nivel de medición más bajo utilizado desde un punto de vista estadístico.
La igualdad y otras operaciones que pueden definirse en términos de igualdad, como la desigualdad y la pertenencia a un conjunto , son las únicas operaciones no triviales que se aplican genéricamente a objetos del tipo nominal.
La moda , es decir, el elemento más común , se permite como medida de tendencia central para el tipo nominal. Por otro lado, la mediana , es decir, el elemento de rango medio , no tiene sentido para el tipo nominal de datos, ya que la clasificación no tiene sentido para el tipo nominal. [8]
El tipo ordinal permite ordenar los datos por rangos (1.º, 2.º, 3.º, etc.), pero no permite establecer un grado relativo de diferencia entre ellos. Algunos ejemplos son, por un lado, los datos dicotómicos con valores dicotómicos (o dicotomizados), como "enfermo" frente a "sano" cuando se mide la salud, "culpable" frente a "no culpable" cuando se dictan sentencias en los tribunales, "incorrecto/falso" frente a "correcto/verdadero" cuando se mide el valor de la verdad y, por otro lado, los datos no dicotómicos que consisten en un espectro de valores, como "totalmente de acuerdo", "en su mayor parte de acuerdo", "en su mayor parte en desacuerdo", "totalmente en desacuerdo" cuando se mide la opinión .
La escala ordinal coloca los acontecimientos en orden, pero no se intenta que los intervalos de la escala sean iguales en términos de alguna regla. Los órdenes de clasificación representan escalas ordinales y se utilizan con frecuencia en la investigación relacionada con fenómenos cualitativos. La clasificación de un estudiante en su clase de graduación implica el uso de una escala ordinal. Hay que ser muy cuidadoso al hacer una afirmación sobre las puntuaciones basadas en escalas ordinales. Por ejemplo, si la posición de Devi en su clase es 10 y la posición de Ganga es 40, no se puede decir que la posición de Devi es cuatro veces mejor que la de Ganga. Las escalas ordinales sólo permiten la clasificación de elementos de mayor a menor. Las medidas ordinales no tienen valores absolutos, y las diferencias reales entre rangos adyacentes pueden no ser iguales. Todo lo que se puede decir es que una persona está más alta o más baja en la escala que otra, pero no se pueden hacer comparaciones más precisas. Por lo tanto, el uso de una escala ordinal implica una afirmación de "mayor que" o "menor que" (también es aceptable una afirmación de igualdad) sin que podamos afirmar cuánto mayor o menor. La diferencia real entre los rangos 1 y 2, por ejemplo, puede ser mayor o menor que la diferencia entre los rangos 5 y 6. Dado que los números de esta escala solo tienen un significado de rango, la medida apropiada de tendencia central es la mediana. Se utiliza una medida de percentil o cuartil para medir la dispersión. Las correlaciones se limitan a varios métodos de orden de rango. Las medidas de significación estadística se limitan a los métodos no paramétricos (RM Kothari, 2004).
Se permite la mediana , es decir, el elemento de rango medio , como medida de tendencia central ; sin embargo, no se permite la media (o promedio) como medida de tendencia central . Se permite la moda .
En 1946, Stevens observó que la medición psicológica, como la medición de opiniones, generalmente opera en escalas ordinales; por lo tanto, las medias y las desviaciones estándar no tienen validez , pero pueden usarse para obtener ideas sobre cómo mejorar la operacionalización de las variables utilizadas en los cuestionarios . La mayoría de los datos psicológicos recopilados por instrumentos y pruebas psicométricas , que miden habilidades cognitivas y de otro tipo, son ordinales, aunque algunos teóricos han argumentado que pueden tratarse como escalas de intervalo o de razón. Sin embargo, hay poca evidencia prima facie que sugiera que tales atributos sean algo más que ordinales (Cliff, 1996; Cliff y Keats, 2003; Michell, 2008). [9] En particular, [10] los puntajes de CI reflejan una escala ordinal, en la que todos los puntajes son significativos solo para la comparación. [11] [12] [13] No existe un cero absoluto, y una diferencia de 10 puntos puede tener diferentes significados en diferentes puntos de la escala. [14] [15]
El tipo de intervalo permite definir el grado de diferencia entre mediciones, pero no la razón entre mediciones. Los ejemplos incluyen escalas de temperatura con la escala Celsius , que tiene dos puntos definidos (el punto de congelación y ebullición del agua en condiciones específicas) y luego se separa en intervalos de 100, fecha cuando se mide a partir de una época arbitraria (como d. C.), ubicación en coordenadas cartesianas y dirección medida en grados desde el norte verdadero o magnético. Las razones no son significativas ya que no se puede decir que 20 °C sea "el doble de caliente" que 10 °C (a diferencia de la temperatura en kelvin ), ni se puede realizar una multiplicación/división entre dos fechas directamente. Sin embargo, se pueden expresar razones de diferencias ; por ejemplo, una diferencia puede ser el doble de otra; por ejemplo, la diferencia de diez grados entre 15 °C y 25 °C es el doble de la diferencia de cinco grados entre 17 °C y 22 °C. Las variables de tipo intervalo a veces también se denominan "variables escaladas", pero el término matemático formal es un espacio afín (en este caso, una línea afín ).
La moda , la mediana y la media aritmética se permiten para medir la tendencia central de las variables de intervalo, mientras que las medidas de dispersión estadística incluyen el rango y la desviación estándar . Dado que solo se puede dividir por diferencias , no se pueden definir medidas que requieran algunas razones, como el coeficiente de variación . Más sutilmente, si bien se pueden definir momentos sobre el origen , solo los momentos centrales son significativos, ya que la elección del origen es arbitraria. Se pueden definir momentos estandarizados , ya que las razones de las diferencias son significativas, pero no se puede definir el coeficiente de variación, ya que la media es un momento sobre el origen, a diferencia de la desviación estándar, que es (la raíz cuadrada de) un momento central.
El tipo de razón toma su nombre del hecho de que la medición es la estimación de la razón entre una magnitud de una cantidad continua y una unidad de medida del mismo tipo (Michell, 1997, 1999). La mayoría de las mediciones en las ciencias físicas y la ingeniería se realizan en escalas de razón. Los ejemplos incluyen masa , longitud , duración , ángulo plano , energía y carga eléctrica . A diferencia de las escalas de intervalo, las razones se pueden comparar utilizando la división . De manera muy informal, muchas escalas de razón se pueden describir como que especifican "cuánto" de algo (es decir, una cantidad o magnitud). La escala de razón se usa a menudo para expresar un orden de magnitud, como para la temperatura en Órdenes de magnitud (temperatura) .
Se permite el uso de la media geométrica y la media armónica para medir la tendencia central, además de la moda, la mediana y la media aritmética. Se permite el uso del rango estudentizado y del coeficiente de variación para medir la dispersión estadística. Se permiten todas las medidas estadísticas porque se definen todas las operaciones matemáticas necesarias para la escala de proporciones.
Si bien la tipología de Stevens es ampliamente adoptada, otros teóricos aún la cuestionan, particularmente en los casos de los tipos nominales y ordinales (Michell, 1986). [16] Duncan (1986), por ejemplo, objetó el uso de la palabra medición en relación con el tipo nominal y Luce (1997) no estuvo de acuerdo con la definición de medición de Stevens.
Por otra parte, Stevens (1975) dijo de su propia definición de medición que "la asignación puede ser cualquier regla consistente. La única regla no permitida sería la asignación aleatoria, ya que la aleatoriedad equivale en efecto a una no regla". Hand dice: "Los textos básicos de psicología a menudo comienzan con el marco de Stevens y las ideas son ubicuas. De hecho, la solidez esencial de su jerarquía ha sido establecida para la medición representacional por los matemáticos, determinando las propiedades de invariancia de las aplicaciones de los sistemas empíricos a los continuos de números reales. Ciertamente, las ideas han sido revisadas, extendidas y elaboradas, pero lo notable es su perspicacia dado el aparato formal relativamente limitado de que disponía y cuántas décadas han pasado desde que las acuñó". [17]
El uso de la media como medida de la tendencia central para el tipo ordinal todavía es discutible entre quienes aceptan la tipología de Stevens. De todos modos, muchos científicos del comportamiento utilizan la media para los datos ordinales. Esto se justifica a menudo sobre la base de que el tipo ordinal en la ciencia del comportamiento está de hecho en algún punto entre los tipos ordinales y de intervalo verdaderos; aunque la diferencia de intervalo entre dos rangos ordinales no es constante, a menudo es del mismo orden de magnitud.
Por ejemplo, las aplicaciones de modelos de medición en contextos educativos a menudo indican que las puntuaciones totales tienen una relación bastante lineal con las mediciones en todo el rango de una evaluación. Por lo tanto, algunos sostienen que, siempre que la diferencia de intervalo desconocida entre los rangos de la escala ordinal no sea demasiado variable, las estadísticas de escala de intervalo, como las medias, se pueden utilizar de manera significativa en las variables de escala ordinal. El software de análisis estadístico, como SPSS, requiere que el usuario seleccione la clase de medición adecuada para cada variable. Esto garantiza que los errores posteriores del usuario no puedan realizar inadvertidamente análisis sin sentido (por ejemplo, análisis de correlación con una variable en un nivel nominal).
LL Thurstone avanzó en el desarrollo de una justificación para obtener el tipo de intervalo, basándose en la ley del juicio comparativo . Una aplicación común de la ley es el proceso de jerarquía analítica . Georg Rasch (1960) realizó avances adicionales al desarrollar el modelo probabilístico de Rasch , que proporciona una base teórica y una justificación para obtener mediciones a nivel de intervalo a partir de recuentos de observaciones, como las puntuaciones totales en las evaluaciones.
Se han propuesto tipologías distintas a la de Stevens. Por ejemplo, Mosteller y Tukey (1977), Nelder (1990) [18] describieron recuentos continuos, razones continuas, razones de recuento y modos categóricos de datos. Véase también Chrisman (1998), van den Berg (1991). [19]
Mosteller y Tukey [4] señalaron que los cuatro niveles no son exhaustivos y propusieron:
Por ejemplo, los porcentajes (una variación de las fracciones en el marco de Mosteller-Tukey) no encajan bien en el marco de Stevens: ninguna transformación es totalmente admisible. [16]
Nicholas R. Chrisman [5] introdujo una lista ampliada de niveles de medición para dar cuenta de diversas mediciones que no necesariamente encajan con las nociones tradicionales de niveles de medición. Las mediciones limitadas a un rango y repetitivas (como los grados en un círculo, la hora del reloj, etc.), las categorías de pertenencia graduadas y otros tipos de medición no encajan en el trabajo original de Stevens, lo que llevó a la introducción de seis nuevos niveles de medición, para un total de diez:
Aunque algunos afirman que los niveles extendidos de medición rara vez se utilizan fuera de la geografía académica, [20] la membresía graduada es central para la teoría de conjuntos difusos , mientras que las mediciones absolutas incluyen probabilidades y la plausibilidad e ignorancia en la teoría de Dempster-Shafer . Las mediciones de razón cíclica incluyen ángulos y tiempos. Los conteos parecen ser mediciones de razón, pero la escala no es arbitraria y los conteos fraccionarios comúnmente no tienen sentido. Las mediciones de intervalo logarítmico se muestran comúnmente en gráficos del mercado de valores. Todos estos tipos de mediciones se usan comúnmente fuera de la geografía académica y no encajan bien con el trabajo original de Stevens.
La teoría de los tipos de escala es la ayudante intelectual de la "teoría operacional de la medición" de Stevens, que se convertiría en definitiva dentro de la psicología y las ciencias del comportamiento , [ cita requerida ] a pesar de la caracterización de Michell como bastante contraria a la medición en las ciencias naturales (Michell, 1999). Esencialmente, la teoría operacional de la medición fue una reacción a las conclusiones de un comité establecido en 1932 por la Asociación Británica para el Avance de la Ciencia para investigar la posibilidad de una medición científica genuina en las ciencias psicológicas y del comportamiento. Este comité, que se conoció como el comité Ferguson , publicó un Informe Final (Ferguson, et al., 1940, p. 245) en el que la escala sone de Stevens (Stevens y Davis, 1938) fue objeto de crítica:
…cualquier ley que pretenda expresar una relación cuantitativa entre la intensidad de la sensación y la intensidad del estímulo no es meramente falsa sino que, de hecho, carece de sentido a menos y hasta que se pueda dar un significado al concepto de adición tal como se aplica a la sensación.
Es decir, si la escala de sones de Stevens medía genuinamente la intensidad de las sensaciones auditivas, entonces era necesario aportar pruebas de que dichas sensaciones eran atributos cuantitativos. Las pruebas necesarias eran la presencia de una estructura aditiva , un concepto tratado exhaustivamente por el matemático alemán Otto Hölder (Hölder, 1901). Dado que el físico y teórico de la medición Norman Robert Campbell dominaba las deliberaciones del comité Ferguson, el comité concluyó que la medición en las ciencias sociales era imposible debido a la falta de operaciones de concatenación . Esta conclusión fue posteriormente desmentida por el descubrimiento de la teoría de la medición conjunta por Debreu (1960) y de forma independiente por Luce y Tukey (1964). Sin embargo, la reacción de Stevens no fue realizar experimentos para comprobar la presencia de una estructura aditiva en las sensaciones, sino, en cambio, invalidar las conclusiones del comité Ferguson proponiendo una nueva teoría de la medición:
Parafraseando a NR Campbell (Final Report, p.340), podemos decir que la medición, en el sentido más amplio, se define como la asignación de numerales a objetos y eventos de acuerdo con reglas (Stevens, 1946, p.677).
Stevens estuvo muy influido por las ideas de otro académico de Harvard, [21] el físico y premio Nobel Percy Bridgman (1927), cuya doctrina del operacionalismo utilizó Stevens para definir la medición. En la definición de Stevens, por ejemplo, es el uso de una cinta métrica lo que define la longitud (el objeto de la medición) como algo medible (y por lo tanto, por implicación, cuantitativo). Los críticos del operacionismo objetan que confunde las relaciones entre dos objetos o eventos con las propiedades de uno de los objetos o eventos. [22] [23] (Moyer, 1981a,b; Rogers, 1989).
El teórico de la medición canadiense William Rozeboom fue uno de los primeros y más agudos críticos de la teoría de los tipos de escala de Stevens. [24]
Otro problema es que la misma variable puede ser de un tipo de escala diferente dependiendo de cómo se mida y de los objetivos del análisis. Por ejemplo, el color del pelo suele considerarse una variable nominal, ya que no tiene un orden aparente. [25] Sin embargo, es posible ordenar los colores (incluidos los colores del pelo) de varias maneras, incluso por tono; esto se conoce como colorimetría . El tono es una variable de nivel de intervalo.
Aunque, formalmente hablando, la medición de intervalos siempre se puede obtener mediante especificación, dicha especificación es teóricamente significativa solo si está implícita en la teoría y el modelo relevantes para el procedimiento de medición.
en la práctica el cociente intelectual y la mayoría de las demás características humanas medidas mediante pruebas psicológicas (como la ansiedad, la introversión, la autoestima, etc.) se tratan como escalas de intervalo, muchos investigadores argumentarían que es más apropiado categorizarlas como escalas ordinales. Tales argumentos se basarían en el hecho de que tales medidas en realidad no cumplen los requisitos de una escala de intervalo, porque no se puede demostrar que las diferencias numéricas iguales en diferentes puntos de la escala sean comparables.
es esencialmente un rango; no existen verdaderas "unidades" de capacidad intelectual.
CI no es una puntuación de intervalo igual, como es evidente en la Tabla A.4 del manual WISC-III.
Cuando nos ocupamos de cantidades como el cociente intelectual o la gravedad, tal como las podemos medir actualmente, veremos más adelante que tenemos un nivel de medición aún más bajo: un nivel ordinal. Esto significa que los números que asignamos a los individuos solo se pueden utilizar para clasificarlos: el número nos dice dónde se encuentra el individuo en el orden de clasificación y nada más.
Lo ideal sería que una escala de medición tuviera un punto cero verdadero e intervalos idénticos... Las escalas de dureza carecen de estas ventajas, al igual que el coeficiente intelectual. No existe un cero absoluto y una diferencia de 10 puntos puede tener significados diferentes en distintos puntos de la escala.
de la teoría de la medición psicológica, el CI es una escala ordinal, donde simplemente estamos ordenando a las personas. ... Ni siquiera es apropiado afirmar que la diferencia de 10 puntos entre los puntajes de CI de 110 y 100 es la misma que la diferencia de 10 puntos entre los CI de 160 y 150.