stringtranslate.com

Evaluación basada en consenso

La evaluación basada en el consenso amplía la práctica común de la toma de decisiones por consenso y la observación teórica de que un gran número de novatos o oficiales pueden aproximarse estrechamente a la experiencia. Crea un método para determinar estándares de medición para dominios de conocimiento muy ambiguos, como la inteligencia emocional , la política, la religión, los valores y la cultura en general. Desde esta perspectiva, el conocimiento compartido que forma el consenso cultural puede evaluarse de manera muy similar a la experiencia o la inteligencia general.

Estándares de medición para la inteligencia general.

La evaluación basada en consenso se basa en un hallazgo simple: que muestras de individuos con diferentes competencias (por ejemplo, expertos y aprendices) califican escenarios relevantes, utilizando escalas Likert , con calificaciones medias similares. Por lo tanto, desde la perspectiva de un marco ACB, los estándares culturales para las claves de puntuación pueden derivarse de la población que se está evaluando. Peter Legree y Joseph Psotka, trabajando juntos durante las últimas décadas, propusieron que la g psicométrica podría medirse discretamente a través de escalas similares a encuestas que requieren juicios. Esto podría utilizar la puntuación de desviación para cada persona del grupo o la media de expertos; o una correlación de Pearson entre sus juicios y la media del grupo. Las dos técnicas están perfectamente correlacionadas. Posteriormente, Legree y Psotka crearon escalas que pedían a los individuos que estimaran la frecuencia de las palabras; juzgar probabilidades binarias de buena continuación; identificar implicaciones de conocimiento; y distribuciones aproximadas del empleo. Los ítems se identificaron cuidadosamente para evitar referentes objetivos y, por lo tanto, las escalas requirieron que los encuestados proporcionaran juicios que fueron calificados según estándares consensuales ampliamente desarrollados. El rendimiento en esta batería de juicios tuvo una correlación de aproximadamente 0,80 con las medidas convencionales de g psicométricas . Las claves de respuesta se derivaron de forma consensuada. A diferencia de las preguntas de matemáticas o física, la selección de ítems, escenarios y opciones para evaluar la g psicométrica se guió aproximadamente por una teoría que enfatizaba el juicio complejo, pero las claves explícitas se desconocían hasta que se realizaron las evaluaciones: estaban determinadas por el promedio de las respuestas de todos, utilizando puntuaciones de desviación, correlaciones o puntuaciones de factores.

Estándares de medición del conocimiento cultural.

Una forma de entender la conexión entre experiencia y consenso es considerar que para muchos dominios de desempeño, la experiencia refleja en gran medida el conocimiento derivado de la experiencia. Dado que los novatos tienden a tener menos experiencias, sus opiniones se equivocan en varias direcciones inconsistentes. Sin embargo, a medida que se adquiere experiencia, las opiniones desde los oficiales hasta las de los expertos se vuelven más consistentes. Según este punto de vista, los errores son aleatorios. Por lo tanto, los datos de calificaciones recopilados de grandes muestras de encuestados con diferentes conocimientos pueden usarse para aproximar las calificaciones promedio que proporcionaría un número sustancial de expertos si hubiera muchos expertos disponibles. Debido a que la desviación estándar de una media se acercará a cero a medida que el número de observaciones se vuelve muy grande, las estimaciones basadas en grupos de diferentes competencias proporcionarán estimaciones convergentes de los mejores estándares de desempeño. Los medios de las respuestas de estos grupos se pueden utilizar para crear rúbricas de puntuación efectivas o estándares de medición para evaluar el desempeño. Este enfoque es particularmente relevante para calificar áreas subjetivas de conocimiento que se escalan utilizando escalas de respuesta Likert, y el enfoque se ha aplicado para desarrollar estándares de calificación para varios dominios donde los expertos son escasos.

Resultados experimentales

En la práctica, los análisis han demostrado altos niveles de convergencia entre los estándares de expertos y del CBA, con valores que cuantifican esos estándares altamente correlacionados ( R de Pearson que oscilan entre 0,72 y 0,95), y con puntuaciones basadas en esos estándares también altamente correlacionadas ( R que van de 0,72 a 0,95). .88 a .99) siempre que el tamaño de la muestra de ambos grupos sea grande (Legree, Psotka, Tremble & Bourne, 2005). Esta convergencia entre las puntuaciones CBA y referenciadas por expertos y los datos de validez asociados indican que el CBA y las puntuaciones basadas en expertos se pueden usar indistintamente, siempre que los datos de las calificaciones se recopilen utilizando grandes muestras de expertos y novatos o oficiales.

Análisis factorial

El CBA a menudo se calcula utilizando la correlación R de Pearson de los juicios de la escala Likert de cada persona sobre un conjunto de ítems frente a la media de los juicios de todas las personas sobre esos mismos ítems. La correlación es entonces una medida de la proximidad de esa persona al consenso. A veces también se calcula como una puntuación de desviación estandarizada de las medias de consenso de los grupos. Estos dos procedimientos son matemáticamente isomórficos. Si se considera que la cultura es un conocimiento compartido; y la media de las calificaciones del grupo en un dominio de conocimiento enfocado se considera una medida del consenso cultural en ese dominio; entonces ambos procedimientos evalúan el ACB como una medida de la comprensión cultural de una persona individual.

Sin embargo, puede ser que el consenso no esté distribuido uniformemente entre todos los ítems subordinados sobre un tema. Quizás el contenido de conocimiento de los ítems esté distribuido en dominios con diferentes consensos. Por ejemplo, los conservadores que son libertarios pueden sentir diferente acerca de la invasión de la privacidad que los conservadores que tienen fuertes opiniones sobre la ley y el orden. De hecho, el análisis factorial estándar pone esta cuestión en primer plano.

En el análisis de centroide o de componentes principales (PCA), las puntuaciones del primer factor se crean multiplicando cada calificación por la correlación del factor (generalmente la media de todas las calificaciones estandarizadas para cada persona) con las calificaciones de cada elemento. Esta multiplicación pondera cada ítem según la correlación del patrón de diferencias individuales en cada ítem (las puntuaciones de los componentes). Si el consenso se distribuye de manera desigual entre estos ítems, algunos ítems pueden centrarse más en las cuestiones generales del factor común. Si un ítem se correlaciona altamente con el patrón de diferencias individuales generales, entonces se pondera más fuertemente en las puntuaciones generales de los factores. Esta ponderación implícitamente también pondera la puntuación del CBA, ya que son aquellos ítems que comparten un patrón común de consenso del CBA los que se ponderan más en el análisis factorial.

El análisis factorial transpuesto o metodología Q , creado por William Stephenson (psicólogo) pone de manifiesto explícitamente esta relación. Las puntuaciones CBA son estadísticamente isomorfas a las puntuaciones de los componentes en PCA para un análisis factorial Q. Son la carga de las respuestas de cada persona sobre la media de las respuestas de todas las personas. Por lo tanto, el análisis del factor Q puede proporcionar una medida ACB superior, si se puede utilizar primero para seleccionar a las personas que representan la dimensión dominante, sobre los elementos que mejor representan una dimensión de atributo subordinado de un dominio (como el liberalismo en un dominio político). El análisis factorial puede entonces proporcionar el ACB de los individuos a lo largo de ese eje particular del dominio.

En la práctica, cuando los ítems no se crean y organizan fácilmente para proporcionar una escala altamente confiable, el análisis factorial Q no es necesario, ya que el análisis factorial original también debe seleccionar aquellos ítems que tienen un consenso común. Así, por ejemplo, en una escala de ítems para actitudes políticas, los ítems pueden preguntar sobre actitudes hacia el gran gobierno; la Ley y el orden; Problemas económicos; cuestiones laborales; o cuestiones libertarias. Puede ser difícil determinar a priori cuál de estos elementos influye más fuertemente en las actitudes políticas de los grupos encuestados. Sin embargo, dado que el análisis factorial es un cálculo simétrico sobre la matriz de ítems y personas, el análisis factorial original de ítems (cuando se trata de escalas Likert) selecciona no sólo aquellos ítems que están en un dominio similar, sino de manera más general, aquellos ítems que tienen un consenso similar. La ventaja adicional de esta técnica de análisis factorial es que los elementos se organizan automáticamente según un factor, de modo que las calificaciones más altas de Likert sean también las puntuaciones más altas del estándar CBA. Una vez seleccionado, ese factor determina las puntuaciones del CBA (componente).

Críticas

La crítica más común a los estándares del ACB es cuestionar cómo un promedio podría ser un estándar máximo. Esta crítica sostiene que el ACB no es adecuado para pruebas de máximo rendimiento de atributos psicológicos, especialmente de inteligencia. Aun así, las técnicas ACB se emplean habitualmente en diversas medidas de inteligencias no tradicionales (p. ej., práctica, emocional, social, etc.). Se presentan críticas detalladas en Gottfredson (2003) y MacCann, Roberts, Matthews y Zeidner (2004), así como en otros lugares de la literatura científica.

Ver también

Referencias

enlaces externos