La toma de decisiones dinámica (DDM) es una toma de decisiones interdependiente que tiene lugar en un entorno que cambia con el tiempo, ya sea debido a las acciones previas del tomador de decisiones o debido a eventos que están fuera del control del tomador de decisiones. [1] [2] En este sentido, las decisiones dinámicas, a diferencia de las decisiones simples y convencionales de una sola vez, suelen ser más complejas y ocurren en tiempo real e implican observar el grado en que las personas pueden usar su experiencia para controlar un sistema complejo en particular , incluidos los tipos de experiencia que conducen a mejores decisiones con el tiempo. [3]
La investigación sobre toma de decisiones dinámicas utiliza simulaciones por ordenador, que son análogos de laboratorio para situaciones de la vida real. Estas simulaciones por ordenador también se denominan “micromundos” [4] y se utilizan para examinar el comportamiento de las personas en entornos simulados del mundo real, donde las personas suelen intentar controlar un sistema complejo en el que las decisiones posteriores se ven afectadas por las decisiones anteriores. [5] Los siguientes aspectos diferencian la investigación sobre toma de decisiones dinámicas de las formas más clásicas de investigación sobre toma de decisiones del pasado:
Además, el uso de micromundos como herramienta para investigar DDM no sólo proporciona control experimental a los investigadores de DDM sino que también hace que el campo de DDM sea contemporáneo a diferencia de la investigación clásica de toma de decisiones, que es muy antigua.
Entre los ejemplos de situaciones de toma de decisiones dinámicas se incluyen la gestión del cambio climático, la producción y el inventario de fábricas, el control del tráfico aéreo, la lucha contra incendios, la conducción de un automóvil y el mando y control militar en un campo de batalla. La investigación en DDM se ha centrado en investigar hasta qué punto los responsables de la toma de decisiones utilizan su experiencia para controlar un sistema en particular; los factores que subyacen a la adquisición y el uso de la experiencia en la toma de decisiones; y el tipo de experiencias que conducen a mejores decisiones en tareas dinámicas.
Las características principales de los entornos de decisión dinámicos son la dinámica, la complejidad, la opacidad y la complejidad dinámica. La dinámica de los entornos se refiere a la dependencia del estado del sistema con respecto a su estado en un momento anterior. La dinámica del sistema puede estar impulsada por retroalimentación positiva (bucles autoamplificadores) o retroalimentación negativa (bucles autocorrectores), ejemplos de los cuales podrían ser la acumulación de intereses en una cuenta de ahorros o la satisfacción del hambre debido a la alimentación, respectivamente.
La complejidad se refiere en gran medida a la cantidad de elementos que interactúan o están interconectados dentro de un sistema y que pueden dificultar la predicción del comportamiento del sistema. Sin embargo, la definición de complejidad aún podría presentar problemas, ya que los componentes del sistema pueden variar en términos de cuántos componentes hay en el sistema, la cantidad de relaciones entre ellos y la naturaleza de esas relaciones. La complejidad también puede ser una función de la capacidad del que toma las decisiones.
La opacidad se refiere a la invisibilidad física de algunos aspectos de un sistema dinámico y también podría depender de la capacidad del tomador de decisiones para adquirir conocimiento de los componentes del sistema.
La complejidad dinámica se refiere a la capacidad del responsable de la toma de decisiones para controlar el sistema utilizando la retroalimentación que recibe del sistema. Diehl y Sterman [6] han dividido la complejidad dinámica en tres componentes. La opacidad presente en el sistema puede causar efectos secundarios no deseados. Puede haber relaciones no lineales entre los componentes de un sistema y demoras en la retroalimentación entre las acciones tomadas y sus resultados. La complejidad dinámica de un sistema puede eventualmente dificultar que los responsables de la toma de decisiones comprendan y controlen el sistema.
Un micromundo es una simulación compleja utilizada en experimentos controlados diseñados para estudiar la toma de decisiones dinámica. La investigación en la toma de decisiones dinámica se basa principalmente en el laboratorio y utiliza herramientas de micromundos de simulación por computadora (es decir, juegos de toma de decisiones, DMGames). Los micromundos también se conocen con otros nombres, incluidos entornos de tareas sintéticas , simulaciones de alta fidelidad , entornos de aprendizaje interactivos , entornos virtuales y mundos escalados . Los micromundos se convierten en los análogos de laboratorio para situaciones de la vida real y ayudan a los investigadores de DDM a estudiar la toma de decisiones al comprimir el tiempo y el espacio mientras se mantiene el control experimental.
Los DMGames condensan los elementos más importantes de los problemas del mundo real que representan y son herramientas importantes para recopilar acciones humanas. Los DMGames han ayudado a investigar una variedad de factores, como la capacidad cognitiva , el tipo de retroalimentación , el momento de la retroalimentación, las estrategias utilizadas al tomar decisiones y la adquisición de conocimientos al realizar tareas DDM. Sin embargo, aunque los DMGames tienen como objetivo representar los elementos esenciales de los sistemas del mundo real, difieren de la tarea del mundo real en varios aspectos. Las apuestas pueden ser mayores en las tareas de la vida real y la experiencia del tomador de decisiones a menudo se ha adquirido durante un período de muchos años en lugar de minutos, horas o días como en las tareas DDM. Por lo tanto, DDM difiere en muchos aspectos de la toma de decisiones naturalista (NDM).
En las tareas de DDM, se ha demostrado que las personas tienen un rendimiento por debajo de los niveles óptimos, si se pudiera determinar o conocer un nivel óptimo. Por ejemplo, en un juego de simulación de extinción de incendios forestales, los participantes permitieron con frecuencia que se incendiara su sede. [7] En estudios similares de DDM, los participantes que actuaban como médicos en una sala de emergencias permitieron que sus pacientes murieran mientras esperaban los resultados de una prueba que en realidad no era diagnóstica. [8] [9] Una perspectiva interesante sobre las decisiones a partir de la experiencia en DDM es que, en su mayoría, el aprendizaje es implícito y, a pesar de la mejora del rendimiento de las personas con ensayos repetidos, son incapaces de verbalizar la estrategia que siguieron para hacerlo. [10]
El aprendizaje forma parte integral de la investigación en DDM. Una de las principales actividades de investigación en DDM ha sido investigar, mediante herramientas de simulación de micromundos, hasta qué punto las personas pueden aprender a controlar un sistema simulado en particular e investigar los factores que podrían explicar el aprendizaje en las tareas de DDM.
Una teoría del aprendizaje se basa en el uso de estrategias o reglas de acción relacionadas con una tarea en particular. Estas reglas especifican las condiciones bajo las cuales se aplicará una determinada regla o estrategia. Estas reglas son de la forma si reconoces la situación S, entonces lleva a cabo la acción/estrategia A. Por ejemplo, Anzai [11] implementó un conjunto de reglas o estrategias de producción que realizaban la tarea DDM de dirigir un barco a través de un determinado conjunto de puertas. Las estrategias de Anzai imitaron razonablemente bien el desempeño de la tarea por parte de los participantes humanos. De manera similar, Lovett y Anderson [12] han demostrado cómo las personas usan reglas o estrategias de producción del tipo si – entonces en la tarea de construcción de palos que es un isomorfo del problema de la jarra de agua de Lurchins. [13] [14] El objetivo en la tarea de construcción de palos es construir un palo de una longitud deseada particular dadas tres longitudes de palos a partir de las cuales construir (hay un suministro ilimitado de palos de cada longitud). Básicamente, hay dos estrategias para usar para tratar de resolver este problema. La estrategia de subimpulso consiste en tomar palos más pequeños y avanzar hasta el palo objetivo. La estrategia de sobreimpulso consiste en tomar el palo más largo que el objetivo y cortar trozos de igual longitud que el palo más pequeño hasta que uno alcance la longitud objetivo. Lovett y Anderson organizaron la estrategia de modo que sólo una estrategia funcionara para un problema en particular y dieron a los sujetos problemas en los que una de las dos estrategias funcionó en la mayoría de los problemas (y ella hizo un contrapeso sobre los sujetos, cuál era la estrategia más exitosa).
Algunos otros investigadores han sugerido que el aprendizaje en tareas DDM puede explicarse mediante una teoría conexionista o conexionismo . Las conexiones entre unidades, cuya fuerza o ponderación dependen de la experiencia previa. Por lo tanto, el resultado de una unidad dada depende del resultado de la unidad anterior ponderado por la fuerza de la conexión. Como ejemplo, Gibson et al. [15] ha demostrado que un modelo de aprendizaje automático de red neuronal conexionista hace un buen trabajo para explicar el comportamiento humano en la tarea de la fábrica de producción de azúcar de Berry y Broadbent [ aclaración necesaria ] .
La teoría del aprendizaje basado en instancias (IBLT) es una teoría de cómo los humanos toman decisiones en tareas dinámicas desarrollada por Cleotilde Gonzalez , Christian Lebiere y Javier Lerch. [3] La teoría se ha extendido a dos paradigmas diferentes de tareas dinámicas, llamados muestreo y elección repetida, por Cleotilde Gonzalez y Varun Dutt. [16] Gonzalez y Dutt [16] han demostrado que en estas tareas dinámicas, IBLT proporciona la mejor explicación del comportamiento humano y funciona mejor que muchos otros modelos y enfoques competitivos. Según IBLT, los individuos confían en su experiencia acumulada para tomar decisiones recuperando soluciones pasadas a situaciones similares almacenadas en la memoria. Por lo tanto, la precisión de la decisión solo puede mejorar gradualmente y a través de la interacción con situaciones similares.
La IBLT supone que se almacenan en la memoria instancias, experiencias o ejemplos específicos. [17] Estas instancias tienen una estructura muy concreta definida por tres partes distintas que incluyen la situación, la decisión y la utilidad (o SDU):
Además de una estructura predefinida de una instancia, la IBLT se basa en el proceso de toma de decisiones global de alto nivel, que consta de cinco etapas: reconocimiento, juicio, elección, ejecución y retroalimentación. [16] Cuando las personas se enfrentan a una situación de un entorno particular, es probable que recuperen instancias similares de la memoria para tomar una decisión. En situaciones atípicas (aquellas que no son similares a nada encontrado en el pasado), la recuperación de la memoria no es posible y las personas necesitarían usar una heurística (que no depende de la memoria) para tomar una decisión. En situaciones que son típicas y donde se pueden recuperar instancias similares, la evaluación de la utilidad de las instancias similares se lleva a cabo hasta que se cruza un nivel de necesidad. [16]
La necesidad suele estar determinada por el “nivel de aspiración” del decisor, similar a la estrategia de satisfacción de Simon y March . Pero el nivel de necesidad también puede estar determinado por factores ambientales externos como las limitaciones de tiempo (como en el ámbito médico, donde los médicos de una sala de urgencias tratan a pacientes en una situación crítica). Una vez que se supera ese nivel de necesidad, se toma la decisión que involucra la instancia con la mayor utilidad. El resultado de la decisión, cuando se recibe, se utiliza para actualizar la utilidad de la instancia que se utilizó para tomar la decisión en primer lugar (de esperada a experimentada). Se supone que este proceso de toma de decisiones genérico se aplica a cualquier situación de toma de decisiones dinámica, cuando las decisiones se toman a partir de la experiencia.
La representación computacional de la IBLT se basa en varios mecanismos de aprendizaje propuestos por una teoría genérica de la cognición, ACT-R . Actualmente, existen muchas tareas de decisión que se han implementado en la IBLT que reproducen y explican el comportamiento humano con precisión. [18] [19]
Aunque se ha descubierto que las intervenciones de retroalimentación benefician el desempeño en tareas DDM, se ha demostrado que la retroalimentación de resultados funciona para tareas que son simples, requieren habilidades cognitivas menores y que se practican repetidamente. [20] Por ejemplo, la IBLT sugiere que en situaciones DDM, el aprendizaje solo a partir de la retroalimentación de resultados es lento y generalmente ineficaz. [21]
La presencia de retrasos en la retroalimentación en las tareas DDM y sus percepciones erróneas por parte de los participantes contribuyen a un desempeño inferior al óptimo en las tareas DDM. [22] Estos retrasos en la retroalimentación dificultan que las personas comprendan las relaciones que rigen la dinámica del sistema de la tarea debido al retraso entre las acciones de los tomadores de decisiones y el resultado del sistema dinámico.
Un ejemplo conocido del efecto de los retrasos en la retroalimentación es el Juego de Distribución de Cerveza (o Juego de la Cerveza). Hay un retraso de tiempo incorporado en el juego entre la realización de un pedido por parte de un rol y la recepción de las cajas de cerveza pedidas. Si un rol se queda sin cerveza (es decir, no puede satisfacer la demanda actual de cajas de cerveza de un cliente), hay una multa de $1 por caja. Esto puede llevar a las personas a almacenar cerveza en exceso para satisfacer cualquier demanda futura imprevista. Los resultados, en contra de la teoría económica que predice un equilibrio estable a largo plazo, muestran que las personas hacen pedidos demasiado. Esto sucede porque el retraso de tiempo entre la realización de un pedido y la recepción del inventario hace que las personas piensen que el inventario se está agotando a medida que llegan nuevos pedidos, por lo que reaccionan y realizan pedidos más grandes. Una vez que acumulan el inventario y se dan cuenta de los pedidos entrantes, reducen drásticamente los pedidos futuros, lo que lleva a la industria de la cerveza a experimentar patrones oscilantes de pedidos excesivos y pedidos insuficientes, es decir, costosos ciclos de auge y caída.
En el pasado se han reportado ejemplos similares sobre los efectos del retraso en la retroalimentación entre bomberos en un juego de lucha contra incendios llamado NEWFIRE, donde debido a la complejidad de la tarea y el retraso en la retroalimentación entre las acciones de los bomberos y los resultados, los participantes frecuentemente permitieron que sus cuarteles generales se incendiaran.
Cada vez hay más pruebas de que los adultos comparten un problema importante a la hora de comprender algunos de los elementos básicos de los sistemas dinámicos simples, como los stocks, los flujos de entrada y los flujos de salida . Muchos adultos han demostrado no poder interpretar un principio básico de la dinámica: un stock (o acumulación) aumenta (o disminuye) cuando el flujo de entrada supera (o es menor que) el flujo de salida. Se ha demostrado que este problema, denominado fallo de stock-flujo (fallo de SF), persiste incluso en tareas sencillas, con participantes bien motivados, en contextos familiares y en presentaciones de información simplificadas. La creencia de que el stock se comporta como los flujos es una heurística común pero errónea (llamada "heurística de correlación") que la gente suele utilizar al juzgar sistemas no lineales. [23] El uso de la heurística de correlación o razonamiento proporcional está muy extendido en diferentes dominios y se ha descubierto que es un problema sólido tanto en niños en edad escolar como en adultos educados (Cronin et al., 2009; Larrick y Soll, 2008; De Bock, 2002; Greer, 1993; Van Dooren et al., 2005; Van Dooren et al., 2006; Verschaffel et al., 1994).
El desempeño individual en las tareas DDM está acompañado de una enorme cantidad de variabilidad, que podría ser resultado de la cantidad variable de habilidades y capacidades cognitivas de los individuos que interactúan con las tareas DDM. Aunque existen diferencias individuales y a menudo se muestran en las tareas DDM, ha habido un debate sobre si estas diferencias surgen como resultado de diferencias en las capacidades cognitivas. Algunos estudios no han logrado encontrar evidencia de un vínculo entre las capacidades cognitivas medidas por pruebas de inteligencia y el desempeño en las tareas DDM. Pero estudios posteriores sostienen que esta falta se debe a la ausencia de medidas confiables del desempeño en las tareas DDM. [24] [25]
Otros estudios han sugerido una relación entre la carga de trabajo y las capacidades cognitivas. [26] Se ha descubierto que los participantes con baja capacidad suelen tener un rendimiento mejor que los participantes con alta capacidad. En condiciones exigentes de carga de trabajo, los participantes con baja capacidad no muestran una mejora en el rendimiento ni en los ensayos de entrenamiento ni en los de prueba. La evidencia muestra que los participantes con baja capacidad utilizan más heurísticas , en particular cuando la tarea exige ensayos más rápidos o presión de tiempo, y esto sucede tanto en condiciones de entrenamiento como de prueba. [27]
En relación con el uso de herramientas de micromundo de laboratorio en la DDM para investigar la toma de decisiones, recientemente también se ha hecho hincapié en la investigación de la DDM para centrarse en la toma de decisiones en el mundo real. Esto no descarta la investigación en el laboratorio, pero revela la amplia concepción de la investigación que subyace a la DDM. En el marco de la DDM en el mundo real, las personas están más interesadas en procesos como el establecimiento de objetivos, la planificación, los procesos de percepción y atención, la previsión, los procesos de comprensión y muchos otros, incluida la atención a la retroalimentación. El estudio de estos procesos acerca la investigación de la DDM a la conciencia de la situación y la experiencia .
Por ejemplo, en las investigaciones sobre DDM se ha demostrado que los conductores que tienen más de 10 años de experiencia o conocimientos (en términos de años de experiencia al volante) responden más rápido a los peligros que los conductores con menos de tres años de experiencia. [28] Además, debido a su mayor experiencia, estos conductores tienden a realizar una búsqueda más eficaz y eficiente de señales de peligro que sus homólogos menos experimentados. [29] Una forma de explicar este comportamiento se basa en la premisa de que la conciencia de la situación en las tareas de DDM hace que ciertas conductas sean automáticas para las personas con experiencia. En este sentido, la búsqueda de señales en el entorno que podrían conducir a peligros para los conductores experimentados podría ser un proceso automático, mientras que la falta de conciencia de la situación entre los conductores novatos podría llevarlos a un esfuerzo consciente no automático para encontrar dichas señales, lo que los lleva a ser más propensos a los peligros al no notarlos en absoluto. Este comportamiento también se ha documentado en pilotos y comandantes de pelotón. [30] Las consideraciones de los comandantes de pelotón novatos y experimentados en un simulador de batalla de realidad virtual han demostrado que una mayor experiencia se asocia con mayores habilidades de percepción y comprensión. Por lo tanto, la experiencia en diferentes tareas de DDM hace que un tomador de decisiones sea más consciente de la situación y tenga mayores niveles de habilidades de percepción y comprensión.
Campos relacionados