John Kendall Kruschke es un psicólogo y estadístico estadounidense conocido por su trabajo en modelos conexionistas del aprendizaje humano [1] y en análisis estadístico bayesiano. [2] Es profesor emérito rector [3] [4] en el Departamento de Psicología y Ciencias del Cerebro de la Universidad de Indiana en Bloomington . Ganó el Premio de Investigación Troland de la Academia Nacional de Ciencias en 2002. [5]
El popular libro de texto de Kruschke, Doing Bayesian Data Analysis , [2] se destacó por su accesibilidad y su estructura única de conceptos. La primera mitad del libro utilizó el tipo de datos más simple (es decir, valores dicotómicos) para presentar todos los conceptos fundamentales del análisis bayesiano, incluido el análisis de potencia bayesiano generalizado y la planificación del tamaño de la muestra. La segunda mitad del libro utilizó el modelo lineal generalizado como marco para explicar las aplicaciones a un espectro de otros tipos de datos.
Kruschke ha escrito muchos artículos tutoriales sobre el análisis de datos bayesianos, incluido un artículo de acceso abierto que explica los conceptos bayesianos y frecuentistas uno al lado del otro. [6] Hay una aplicación en línea adjunta que realiza interactivamente análisis frecuentistas y bayesianos simultáneamente. Kruschke pronunció una charla plenaria grabada en vídeo sobre este tema en la Conferencia de los Estados Unidos sobre Enseñanza de Estadística (USCOTS).
Los análisis de datos bayesianos están ganando popularidad, pero aún son relativamente novedosos en muchos campos, y las pautas para informar sobre análisis bayesianos son útiles para investigadores, revisores y estudiantes. Las pautas de informes de análisis bayesianos (BARG) de acceso abierto de Kruschke [7] proporcionan una lista paso a paso con explicaciones. Por ejemplo, BARG recomienda que si el analista utiliza pruebas de hipótesis bayesianas, entonces el informe debe incluir no solo el factor Bayes sino también la probabilidad mínima del modelo anterior para que la probabilidad del modelo posterior exceda un criterio de decisión.
Kruschke propuso un procedimiento de decisión para evaluar valores nulos de parámetros, basado en la incertidumbre de la estimación posterior del parámetro. [8] Este enfoque contrasta con la prueba de hipótesis bayesiana como comparación de modelos. [9]
Liddell y Kruschke [10] demostraron que la práctica común de tratar datos ordinales (como calificaciones subjetivas) como si fueran valores métricos puede conducir sistemáticamente a errores de interpretación, incluso inversiones de medias. Los problemas se abordaron tratando datos ordinales con modelos ordinales, en particular un modelo probit ordenado. Las técnicas frecuentistas también pueden utilizar modelos probit ordenados, pero los autores prefirieron las técnicas bayesianas por su solidez.
Como referencia se proporciona una descripción general de los modelos de aprendizaje atencional de Kruschke hasta 2010. [11] Esa referencia resume numerosos hallazgos del aprendizaje humano que sugieren un aprendizaje atencional. Esa referencia también resume una serie de modelos de aprendizaje de Kruschke bajo un marco general.
Las redes de retropropagación son un tipo de modelo conexionista, en el centro de las redes neuronales de aprendizaje profundo. Los primeros trabajos de Kruschke con redes de retropropagación crearon algoritmos para expandir o contraer la dimensionalidad de las capas ocultas en la red, afectando así la forma en que la red se generalizaba desde casos de entrenamiento hasta casos de prueba. [12] Los algoritmos también mejoraron la velocidad de aprendizaje. [13]
El modelo ALCOVE de aprendizaje asociativo [1] utilizó el descenso de gradiente en caso de error, como en las redes de retropropagación, para aprender a qué dimensiones de estímulo prestar atención o ignorar. El modelo ALCOVE se derivó del modelo de contexto generalizado [14] de RM Nosofsky. Estos modelos representan matemáticamente estímulos en un espacio multidimensional basado en dimensiones percibidas por los humanos (como color, tamaño, etc.) y suponen que los ejemplos de entrenamiento se almacenan en la memoria como ejemplos completos (es decir, como combinaciones de valores en las dimensiones). ). El modelo ALCOVE se entrena con pares de entrada-salida y asocia gradualmente ejemplos con salidas entrenadas al mismo tiempo que desvía la atención hacia dimensiones relevantes y se aleja de dimensiones irrelevantes.
Una mejora del modelo ALCOVE, denominada RASHNL, proporcionó un mecanismo matemáticamente coherente para el descenso de gradiente con atención de capacidad limitada. [15] El modelo RASHNL asumió que la atención cambia rápidamente cuando se presenta un estímulo, mientras que el aprendizaje de la atención a lo largo de las pruebas es más gradual.
Estos modelos se ajustaron a datos empíricos de numerosos experimentos de aprendizaje en humanos y proporcionaron buenas explicaciones de las dificultades relativas de aprender diferentes tipos de asociaciones y de la exactitud de los estímulos individuales durante el entrenamiento y la generalización. Esos modelos no pueden explicar todos los aspectos del aprendizaje; por ejemplo, se necesitaba un mecanismo adicional para dar cuenta de la rapidez del aprendizaje humano del cambio inverso (es decir, lo que era "A" ahora es "B" y viceversa). [dieciséis]
Cuando las personas aprenden a categorizar combinaciones de características discretas sucesivamente a lo largo de una sesión de capacitación, tenderán a aprender sobre las características distintivas de los elementos aprendidos posteriormente en lugar de aprender sobre su combinación completa de características. Esta atención a las características distintivas de los elementos aprendidos posteriormente se denomina "efecto de resaltado" y se deriva de un hallazgo anterior conocido como "el efecto de tasa base inversa". [17]
Kruschke llevó a cabo una extensa serie de experimentos de aprendizaje novedosos con participantes humanos y desarrolló dos modelos conexionistas para dar cuenta de los hallazgos. El modelo ADIT [18] aprendió a prestar atención a características distintivas, y el modelo EXIT [19] utilizó cambios rápidos de atención en cada prueba. Como referencia se presentó un experimento de resaltado canónico y una revisión de los hallazgos. [20]
Las personas pueden aprender a clasificar estímulos según reglas como "un recipiente para líquidos que es más ancho que alto se llama cuenco", junto con excepciones a la regla como "a menos que sea este caso concreto el que se llama taza". . Una serie de experimentos demostraron que las personas tienden a clasificar elementos novedosos, que están relativamente cerca de un caso excepcional, según la regla más de lo que predecirían los modelos basados en ejemplos. Para dar cuenta de los datos, Erickson y Kruschke desarrollaron modelos híbridos que desviaron la atención entre la representación basada en reglas y la representación basada en ejemplos. [21] [22] [23]
Las personas también pueden aprender relaciones continuas entre variables, llamadas funciones, como "la altura de una página es aproximadamente 1,5 veces su ancho". Cuando se capacita a las personas con ejemplos de funciones que tienen casos excepcionales, los datos se contabilizan mediante modelos híbridos que combinan reglas funcionales aplicables localmente. [24]
Kruschke también exploró modelos bayesianos de resultados del aprendizaje humano que fueron abordados por sus modelos conexionistas. Los efectos del aprendizaje secuencial o sucesivo (como el resaltado, mencionado anteriormente) pueden resultar especialmente desafiantes para los modelos bayesianos, que normalmente suponen independencia de orden. En lugar de suponer que todo el sistema de aprendizaje es globalmente bayesiano, Kruschke desarrolló modelos en los que las capas del sistema son localmente bayesianas. [25] Este "aprendizaje bayesiano local" tuvo en cuenta combinaciones de fenómenos que son difíciles para los modelos de aprendizaje no bayesianos o para los modelos de aprendizaje bayesianos global.
Otra ventaja de las representaciones bayesianas es que representan inherentemente la incertidumbre de los valores de los parámetros, a diferencia de los modelos conexionistas típicos que guardan solo un valor para cada parámetro. La representación de la incertidumbre se puede utilizar para guiar el aprendizaje activo en el que el alumno decide qué casos sería más útil aprender a continuación. [26]
Kruschke se unió a la facultad del Departamento de Psicología y Ciencias del Cerebro de la Universidad de Indiana en Bloomington como profesor en 1989. Permaneció en IU hasta que se jubiló como profesor emérito rector en 2022.
Kruschke obtuvo una licenciatura en matemáticas, con Alta Distinción en Becas Generales, de la Universidad de California en Berkeley en 1983. En 1990, recibió un doctorado. en Psicología también de UC Berkeley.
Kruschke asistió al Programa de Ciencias de Verano de 1978 en la Escuela Thacher en Ojai CA, que se centró en astrofísica y mecánica celeste. Asistió a la Escuela de Verano de Modelos Conexionistas de 1988 [27] en la Universidad Carnegie Mellon.