En psicometría , la validez de contenido (también conocida como validez lógica ) se refiere al grado en que una medida representa todas las facetas de un constructo determinado. Por ejemplo, una escala de depresión puede carecer de validez de contenido si solo evalúa la dimensión afectiva de la depresión pero no tiene en cuenta la dimensión conductual . Existe un elemento de subjetividad en relación con la determinación de la validez de contenido, que requiere un grado de acuerdo sobre lo que representa un rasgo de personalidad particular, como la extroversión . Un desacuerdo sobre un rasgo de personalidad impedirá la obtención de una alta validez de contenido. [1]
La validez de contenido es diferente de la validez aparente , que no se refiere a lo que mide realmente la prueba, sino a lo que superficialmente parece medir. La validez aparente evalúa si la prueba "parece válida" para los examinados que la toman, el personal administrativo que decide sobre su uso y otros observadores técnicamente no capacitados. La validez de contenido requiere el uso de expertos en la materia reconocidos para evaluar si los ítems de la prueba evalúan contenido definido y pruebas estadísticas más rigurosas que la evaluación de la validez aparente. La validez de contenido se aborda con mayor frecuencia en pruebas académicas y vocacionales, donde los ítems de la prueba deben reflejar el conocimiento realmente requerido para un área temática determinada (por ejemplo, historia) o habilidad laboral (por ejemplo, contabilidad). En entornos clínicos, la validez de contenido se refiere a la correspondencia entre los ítems de la prueba y el contenido de los síntomas de un síndrome.
Un método ampliamente utilizado para medir la validez de contenido fue desarrollado por CH Lawshe. Es esencialmente un método para medir el acuerdo entre los evaluadores o jueces sobre cuán esencial es un elemento en particular. En un artículo sobre pruebas previas al empleo, Lawshe (1975) [2] propuso que cada uno de los evaluadores expertos en la materia (SME) del panel de jueces respondiera a la siguiente pregunta para cada elemento: "¿La habilidad o el conocimiento medido por este elemento es 'esencial', 'útil, pero no esencial' o 'no necesario' para el desempeño del trabajo?" Según Lawshe, si más de la mitad de los panelistas indican que un elemento es esencial, ese elemento tiene al menos cierta validez de contenido. Existen mayores niveles de validez de contenido a medida que un mayor número de panelistas está de acuerdo en que un elemento en particular es esencial. Usando estos supuestos, Lawshe desarrolló una fórmula denominada índice de validez de contenido: donde índice de validez de contenido, número de panelistas SME que indican "esencial", número total de panelistas SME. Esta fórmula arroja valores que van desde +1 a -1; Los valores positivos indican que al menos la mitad de las PYME calificaron el ítem como esencial. El CVR medio de los ítems puede utilizarse como indicador de la validez general del contenido de la prueba.
Lawshe (1975) proporcionó una tabla de valores críticos para el CVR mediante la cual un evaluador de pruebas podía determinar, para un grupo de SMEs de un tamaño determinado, el tamaño de un CVR calculado necesario para superar la expectativa de azar. Esta tabla había sido calculada para Lawshe por su amigo, Lowell Schipper. Un examen minucioso de esta tabla publicada reveló una anomalía. En la tabla de Schipper, el valor crítico para el CVR aumenta monótonamente desde el caso de 40 SMEs (valor mínimo = .29) hasta el caso de 9 SMEs (valor mínimo = .78) solo para caer inesperadamente en el caso de 8 SMEs (valor mínimo = .75) antes de alcanzar su valor máximo en el caso de 7 SMEs (valor mínimo = .99). Sin embargo, al aplicar la fórmula a 8 evaluadores, el resultado de 7 calificaciones esenciales y 1 calificación más arroja un CVR de .75. Si 0,75 no fuera el valor crítico, entonces se necesitarían 8 de 8 evaluadores de Essential que arrojaran un CVR de 1,00. En ese caso, para ser coherente con el orden ascendente de los CVR, el valor para 8 evaluadores tendría que ser 1,00. Eso violaría el mismo principio porque tendría el valor "perfecto" requerido para 8 evaluadores, pero no para las calificaciones en otros números de evaluadores, ya sea mayor o menor que 8 evaluadores. No está claro si esta desviación de la progresión monótona de la tabla se debió a un error de cálculo por parte de Schipper o a un error de mecanografía o composición tipográfica. Wilson, Pan y Schumsky (2012), que intentaron corregir el error, no encontraron ninguna explicación en los escritos de Lawshe ni en ninguna publicación de Schipper que describiera cómo se calculó la tabla de valores críticos. Wilson y sus colegas determinaron que los valores de Schipper eran aproximaciones cercanas a la aproximación normal a la distribución binomial. Al comparar los valores de Schipper con los valores binomiales recién calculados, también descubrieron que Lawshe y Schipper habían etiquetado erróneamente su tabla publicada como representativa de una prueba de una cola cuando, de hecho, los valores reflejaban los valores binomiales para una prueba de dos colas. Wilson y sus colegas publicaron un recálculo de los valores críticos para la razón de validez de contenido que proporciona valores críticos en pasos unitarios en múltiples niveles alfa. [3]
La tabla de valores es la siguiente: [2]