stringtranslate.com

Evaluación basada en el consenso

La evaluación basada en el consenso amplía la práctica común de la toma de decisiones por consenso y la observación teórica de que un gran número de novatos o expertos pueden aproximarse a la pericia. Crea un método para determinar estándares de medición para dominios de conocimiento muy ambiguos, como la inteligencia emocional , la política, la religión, los valores y la cultura en general. Desde esta perspectiva, el conocimiento compartido que forma el consenso cultural puede evaluarse de la misma manera que la pericia o la inteligencia general.

Estándares de medición de la inteligencia general

La evaluación basada en el consenso se basa en un hallazgo simple: que muestras de individuos con diferentes competencias (por ejemplo, expertos y aprendices) califican escenarios relevantes, utilizando escalas Likert , con calificaciones medias similares. Por lo tanto, desde la perspectiva de un marco de CBA, los estándares culturales para las claves de puntuación pueden derivarse de la población que se está evaluando. Peter Legree y Joseph Psotka, trabajando juntos durante las últimas décadas, propusieron que la g psicométrica podría medirse discretamente a través de escalas similares a encuestas que requieren juicios. Esto podría utilizar la puntuación de desviación para cada persona de la media del grupo o experto; o una correlación de Pearson entre sus juicios y la media del grupo. Las dos técnicas están perfectamente correlacionadas. Legree y Psotka posteriormente crearon escalas que solicitaban a los individuos estimar la frecuencia de las palabras; juzgar las probabilidades binarias de buena continuación; identificar las implicaciones del conocimiento; y aproximar las distribuciones de empleo. Los elementos se identificaron cuidadosamente para evitar referentes objetivos y, por lo tanto, las escalas requerían que los encuestados proporcionaran juicios que se calificaran en función de estándares consensuados ampliamente desarrollados. El desempeño en esta batería de juicios se correlacionó aproximadamente en 0,80 con las medidas convencionales de g psicométrica . Las claves de respuesta se derivaron de manera consensual. A diferencia de las preguntas de matemáticas o física, la selección de ítems, escenarios y opciones para evaluar g psicométrica se guió aproximadamente por una teoría que enfatizaba el juicio complejo, pero las claves explícitas se desconocían hasta que se habían realizado las evaluaciones: se determinaron por el promedio de las respuestas de todos, utilizando puntajes de desviación, correlaciones o puntajes factoriales.

Estándares de medición del conocimiento cultural

Una forma de entender la conexión entre la experiencia y el consenso es considerar que, en muchos ámbitos de desempeño, la experiencia refleja en gran medida el conocimiento derivado de la experiencia. Dado que los novatos tienden a tener menos experiencias, sus opiniones se desvían en varias direcciones inconsistentes. Sin embargo, a medida que se adquiere experiencia, las opiniones de los expertos se vuelven más consistentes. Según este punto de vista, los errores son aleatorios. Los datos de calificación recopilados de grandes muestras de encuestados de diversa experiencia se pueden utilizar para aproximar las calificaciones promedio que proporcionaría un número sustancial de expertos si hubiera muchos expertos disponibles. Debido a que la desviación estándar de una media se acercará a cero a medida que el número de observaciones se vuelve muy grande, las estimaciones basadas en grupos de competencia variable proporcionarán estimaciones convergentes de los mejores estándares de desempeño. Las medias de las respuestas de estos grupos se pueden utilizar para crear rúbricas de calificación efectivas o estándares de medición para evaluar el desempeño. Este enfoque es particularmente relevante para calificar áreas subjetivas de conocimiento que se escalan utilizando escalas de respuesta de Likert, y el enfoque se ha aplicado para desarrollar estándares de calificación para varios dominios donde los expertos son escasos.

Resultados experimentales

En la práctica, los análisis han demostrado altos niveles de convergencia entre los estándares de expertos y de CBA, con valores que cuantifican esos estándares altamente correlacionados ( R de Pearson que van desde .72 a .95), y con puntuaciones basadas en esos estándares también altamente correlacionadas ( R que van desde .88 a .99) siempre que el tamaño de la muestra de ambos grupos sea grande (Legree, Psotka, Tremble y Bourne, 2005). Esta convergencia entre el CBA y las puntuaciones de referencia de expertos y los datos de validez asociados indican que el CBA y la puntuación basada en expertos se pueden utilizar indistintamente, siempre que los datos de calificación se recopilen utilizando muestras grandes de expertos y novatos o profesionales.

Análisis factorial

El ACB se calcula a menudo utilizando la correlación R de Pearson de los juicios de cada persona en la escala Likert sobre un conjunto de elementos contra la media de los juicios de todas las personas sobre esos mismos elementos. La correlación es entonces una medida de la proximidad de esa persona al consenso. También se calcula a veces como una puntuación de desviación estandarizada de las medias de consenso de los grupos. Estos dos procedimientos son matemáticamente isomórficos. Si se considera que la cultura es conocimiento compartido; y la media de las calificaciones del grupo en un dominio específico de conocimiento se considera una medida del consenso cultural en ese dominio; entonces ambos procedimientos evalúan el ACB como una medida de la comprensión cultural de una persona individual.

Sin embargo, puede ser que el consenso no esté distribuido uniformemente entre todos los elementos subordinados sobre un tema. Tal vez el contenido de conocimiento de los elementos esté distribuido entre dominios con diferentes consensos. Por ejemplo, los conservadores que son libertarios pueden tener una opinión diferente sobre la invasión de la privacidad que los conservadores que tienen una opinión firme sobre la ley y el orden. De hecho, el análisis factorial estándar pone esta cuestión en primer plano.

Tanto en el análisis de componentes principales (PCA) como en el análisis de centroides , las puntuaciones del primer factor se crean multiplicando cada calificación por la correlación del factor (normalmente la media de todas las calificaciones estandarizadas de cada persona) con las calificaciones de cada elemento. Esta multiplicación pondera cada elemento por la correlación del patrón de diferencias individuales en cada elemento (las puntuaciones del componente). Si el consenso se distribuye de forma desigual entre estos elementos, algunos elementos pueden centrarse más en las cuestiones generales del factor común. Si un elemento se correlaciona en gran medida con el patrón de diferencias individuales generales, entonces tiene una ponderación más fuerte en las puntuaciones generales del factor. Esta ponderación también pondera implícitamente la puntuación del CBA, ya que son aquellos elementos que comparten un patrón CBA común de consenso los que tienen una mayor ponderación en el análisis factorial.

El análisis factorial transpuesto o de metodología Q , creado por William Stephenson (psicólogo), pone de manifiesto esta relación de forma explícita. Las puntuaciones del CBA son estadísticamente isomorfas a las puntuaciones de los componentes del PCA para un análisis factorial Q. Son la carga de las respuestas de cada persona sobre la media de las respuestas de todas las personas. Por tanto, el análisis factorial Q puede proporcionar una medida superior del CBA, si se puede utilizar primero para seleccionar a las personas que representan la dimensión dominante, por encima de los elementos que mejor representan una dimensión de atributo subordinada de un dominio (como el liberalismo en un dominio político). El análisis factorial puede entonces proporcionar el CBA de los individuos a lo largo de ese eje particular del dominio.

En la práctica, cuando los ítems no son fáciles de crear y ordenar para proporcionar una escala altamente confiable, el análisis factorial Q no es necesario, ya que el análisis factorial original también debe seleccionar aquellos ítems que tienen un consenso común. Así, por ejemplo, en una escala de ítems para actitudes políticas, los ítems pueden preguntar sobre actitudes hacia un gobierno grande; la ley y el orden; cuestiones económicas; cuestiones laborales; o cuestiones libertarias. Cuál de estos ítems tiene mayor influencia en las actitudes políticas de los grupos encuestados puede ser difícil de determinar a priori. Sin embargo, dado que el análisis factorial es un cálculo simétrico sobre la matriz de ítems y personas, el análisis factorial original de los ítems (cuando se trata de escalas Likert) selecciona no sólo aquellos ítems que están en un dominio similar, sino más generalmente, aquellos ítems que tienen un consenso similar. La ventaja adicional de esta técnica de análisis factorial es que los ítems se ordenan automáticamente a lo largo de un factor de modo que las calificaciones Likert más altas también sean las puntuaciones estándar más altas del CBA. Una vez seleccionado, ese factor determina las puntuaciones del CBA (componente).

Críticas

La crítica más común a los estándares del CBA es cuestionar cómo un promedio podría ser un estándar máximo. Esta crítica sostiene que el CBA no es adecuado para pruebas de máximo rendimiento de atributos psicológicos, especialmente la inteligencia. Aun así, las técnicas del CBA se emplean rutinariamente en varias mediciones de inteligencias no tradicionales (por ejemplo, práctica, emocional, social, etc.). Se presentan críticas detalladas en Gottfredson (2003) y MacCann, Roberts, Matthews y Zeidner (2004), así como en otras publicaciones científicas.

Véase también

Referencias

Enlaces externos