John Kendall Kruschke es un psicólogo y estadístico estadounidense conocido por su trabajo en modelos conexionistas del aprendizaje humano, [1] y en el análisis estadístico bayesiano. [2] Es profesor emérito [3] [4] del Departamento de Ciencias Psicológicas y Cerebrales de la Universidad de Indiana en Bloomington . Ganó el Premio de Investigación Troland de la Academia Nacional de Ciencias en 2002. [5]
El popular libro de texto de Kruschke, Doing Bayesian Data Analysis [2] , se destacó por su accesibilidad y su estructura única de conceptos. La primera mitad del libro utilizó el tipo de datos más simple (es decir, valores dicotómicos) para presentar todos los conceptos fundamentales del análisis bayesiano, incluido el análisis de potencia bayesiano generalizado y la planificación del tamaño de la muestra. La segunda mitad del libro utilizó el modelo lineal generalizado como marco para explicar las aplicaciones a un espectro de otros tipos de datos.
Kruschke ha escrito muchos artículos tutoriales sobre análisis de datos bayesianos, incluido un artículo de acceso abierto que explica los conceptos bayesianos y frecuentistas en paralelo. [6] Existe una aplicación en línea complementaria que realiza análisis frecuentistas y bayesianos de manera interactiva y simultánea. Kruschke dio una charla plenaria grabada en video sobre este tema en la Conferencia de Estados Unidos sobre Enseñanza de la Estadística (USCOTS).
Los análisis de datos bayesianos están ganando popularidad, pero aún son relativamente novedosos en muchos campos, y las pautas para informar sobre los análisis bayesianos son útiles para investigadores, revisores y estudiantes. Las pautas de presentación de informes de análisis bayesianos (BARG) de acceso abierto de Kruschke [7] proporcionan una lista paso a paso con explicaciones. Por ejemplo, las BARG recomiendan que si el analista utiliza pruebas de hipótesis bayesianas, el informe debe incluir no solo el factor de Bayes sino también la probabilidad mínima del modelo anterior para que la probabilidad del modelo posterior supere un criterio de decisión.
Kruschke propuso un procedimiento de decisión para evaluar valores nulos de parámetros, basado en la incertidumbre de la estimación posterior del parámetro. [8] Este enfoque contrasta con la prueba de hipótesis bayesiana como comparación de modelos. [9]
Liddell y Kruschke [10] demostraron que la práctica habitual de tratar datos ordinales (como las calificaciones subjetivas) como si fueran valores métricos puede conducir sistemáticamente a errores de interpretación, incluso a inversiones de medias. Los problemas se abordaron tratando los datos ordinales con modelos ordinales, en particular un modelo probit ordenado. Las técnicas frecuentistas también pueden utilizar modelos probit ordenados, pero los autores favorecieron las técnicas bayesianas por su robustez.
En la referencia [11] se ofrece una descripción general de los modelos de aprendizaje atencional de Kruschke hasta el año 2010. En esa referencia se resumen numerosos hallazgos del aprendizaje humano que sugieren la existencia de un aprendizaje atencional. También se resumen una serie de modelos de aprendizaje de Kruschke en un marco general.
Las redes de retropropagación son un tipo de modelo conexionista, que se encuentra en el centro de las redes neuronales de aprendizaje profundo. Los primeros trabajos de Kruschke con redes de retropropagación crearon algoritmos para expandir o contraer la dimensionalidad de las capas ocultas en la red, lo que afectó la forma en que la red se generalizaba de los casos de entrenamiento a los casos de prueba. [12] Los algoritmos también mejoraron la velocidad de aprendizaje. [13]
El modelo ALCOVE de aprendizaje asociativo [1] utilizó el descenso de gradiente en caso de error, como en las redes de retropropagación, para aprender a qué dimensiones de estímulo prestar atención o ignorar. El modelo ALCOVE se derivó del modelo de contexto generalizado [14] de RM Nosofsky. Estos modelos representan matemáticamente los estímulos en un espacio multidimensional basado en las dimensiones percibidas por los humanos (como el color, el tamaño, etc.) y suponen que los ejemplos de entrenamiento se almacenan en la memoria como ejemplares completos (es decir, como combinaciones de valores en las dimensiones). El modelo ALCOVE se entrena con pares de entrada-salida y asocia gradualmente los ejemplares con las salidas entrenadas mientras cambia simultáneamente la atención hacia las dimensiones relevantes y las aleja de las dimensiones irrelevantes.
Una mejora del modelo ALCOVE, llamada RASHNL, proporcionó un mecanismo matemáticamente coherente para el descenso de gradiente con atención de capacidad limitada. [15] El modelo RASHNL asumió que la atención se desplaza rápidamente cuando se presenta un estímulo, mientras que el aprendizaje de la atención a través de ensayos es más gradual.
Estos modelos se ajustaron a datos empíricos de numerosos experimentos de aprendizaje humano y proporcionaron buenas explicaciones de las dificultades relativas de aprender diferentes tipos de asociaciones y de la precisión de los estímulos individuales durante el entrenamiento y la generalización. Esos modelos no pueden explicar todos los aspectos del aprendizaje; por ejemplo, se necesitaba un mecanismo adicional para explicar la rapidez del aprendizaje humano del cambio de dirección (es decir, lo que era "A" ahora es "B" y viceversa). [16]
Cuando las personas aprenden a categorizar combinaciones de características discretas de forma sucesiva a lo largo de una sesión de entrenamiento, tenderán a aprender acerca de las características distintivas de los elementos aprendidos posteriormente en lugar de aprender acerca de su combinación completa de características. Esta atención a las características distintivas de los elementos aprendidos posteriormente se denomina "efecto de resaltado" y se deriva de un hallazgo anterior conocido como "efecto de tasa base inversa". [17]
Kruschke llevó a cabo una extensa serie de experimentos de aprendizaje novedosos con participantes humanos y desarrolló dos modelos conexionistas para explicar los hallazgos. El modelo ADIT [18] aprendió a prestar atención a características distintivas y el modelo EXIT [19] utilizó cambios rápidos de atención en cada ensayo. En la referencia se presentó un experimento de resaltado canónico y una revisión de los hallazgos. [20]
Las personas pueden aprender a clasificar los estímulos según reglas como "un recipiente para líquidos que es más ancho que alto se llama tazón", junto con excepciones a la regla como "a menos que sea este caso específico el que se llama taza". Una serie de experimentos demostró que las personas tienden a clasificar elementos nuevos, que son relativamente cercanos a un caso excepcional, según la regla más de lo que se predeciría con modelos basados en ejemplos. Para tener en cuenta los datos, Erickson y Kruschke desarrollaron modelos híbridos que desplazaban la atención entre la representación basada en reglas y la representación basada en ejemplos. [21] [22] [23]
Las personas también pueden aprender relaciones continuas entre variables, llamadas funciones, como por ejemplo "la altura de una página es aproximadamente 1,5 veces su ancho". Cuando se capacita a las personas con ejemplos de funciones que tienen casos excepcionales, los datos se tienen en cuenta mediante modelos híbridos que combinan reglas funcionales aplicables localmente. [24]
Kruschke también exploró modelos bayesianos de resultados de aprendizaje humano que fueron abordados por sus modelos conexionistas. Los efectos del aprendizaje secuencial o sucesivo (como el resaltado, mencionado anteriormente) pueden ser especialmente desafiantes para los modelos bayesianos, que típicamente suponen independencia del orden. En lugar de suponer que todo el sistema de aprendizaje es globalmente bayesiano, Kruschke desarrolló modelos en los que las capas del sistema son localmente bayesianas. [25] Este "aprendizaje localmente bayesiano" dio cuenta de combinaciones de fenómenos que son difíciles para los modelos de aprendizaje no bayesianos o para los modelos de aprendizaje globalmente bayesianos.
Otra ventaja de las representaciones bayesianas es que representan inherentemente la incertidumbre de los valores de los parámetros, a diferencia de los modelos conexionistas típicos que guardan solo un valor único para cada parámetro. La representación de la incertidumbre se puede utilizar para guiar el aprendizaje activo en el que el alumno decide qué casos serían más útiles para aprender a continuación. [26]
Kruschke se unió a la facultad del Departamento de Ciencias Psicológicas y Cerebrales de la Universidad de Indiana en Bloomington como profesor en 1989. Permaneció en IU hasta que se jubiló como profesor rector emérito en 2022.
Kruschke obtuvo una licenciatura en matemáticas, con alta distinción en beca general, de la Universidad de California en Berkeley en 1983. En 1990, recibió un doctorado en Psicología también de UC Berkeley.
Kruschke asistió al Programa de Ciencias de Verano de 1978 en la Escuela Thacher en Ojai, California, que se centró en la astrofísica y la mecánica celeste. Asistió a la Escuela de Verano de Modelos Conexionistas de 1988 [27] en la Universidad Carnegie Mellon.