El condicionamiento operante , también llamado condicionamiento instrumental , es un proceso de aprendizaje donde las conductas voluntarias se modifican mediante asociación con la adición (o eliminación) de recompensa o estímulos aversivos. La frecuencia o duración de la conducta puede aumentar mediante refuerzo o disminuir mediante castigo o extinción .
El condicionamiento operante se originó en el trabajo de Edward Thorndike , cuya ley del efecto teorizó que las conductas surgen como resultado de si sus consecuencias son satisfactorias o incómodas. En el siglo XX, el condicionamiento operante fue estudiado por psicólogos conductuales , quienes creían que gran parte, si no toda, la mente y el comportamiento pueden explicarse como resultado del condicionamiento ambiental. Los refuerzos son estímulos ambientales que aumentan las conductas, mientras que los castigos son estímulos que las disminuyen. Ambos tipos de estímulos se pueden clasificar además en estímulos positivos y negativos, que implican respectivamente la adición o eliminación de estímulos ambientales.
El condicionamiento operante difiere del condicionamiento clásico , que es un proceso en el que los estímulos se combinan con eventos biológicamente significativos para producir conductas involuntarias y reflexivas . Por el contrario, el condicionamiento operante es voluntario y depende de las consecuencias de una conducta.
El estudio del aprendizaje animal en el siglo XX estuvo dominado por el análisis de estos dos tipos de aprendizaje, [1] y todavía están en el centro del análisis del comportamiento. También se han aplicado al estudio de la psicología social , ayudando a esclarecer ciertos fenómenos como el efecto del falso consenso . [2]
El condicionamiento operante, a veces llamado aprendizaje instrumental , fue estudiado exhaustivamente por primera vez por Edward L. Thorndike (1874-1949), quien observó el comportamiento de los gatos que intentaban escapar de cajas de rompecabezas hechas en casa. [3] Un gato podía escapar de la caja con una simple respuesta, como tirar de una cuerda o empujar un poste, pero cuando se los obligaba por primera vez, los gatos tardaban mucho en salir. Con pruebas repetidas, las respuestas ineficaces ocurrieron con menos frecuencia y las respuestas exitosas ocurrieron con mayor frecuencia, por lo que los gatos escaparon cada vez más rápidamente. [3] Thorndike generalizó este hallazgo en su ley del efecto , que establece que las conductas seguidas de consecuencias satisfactorias tienden a repetirse y aquellas que producen consecuencias desagradables tienen menos probabilidades de repetirse. En resumen, algunas consecuencias fortalecen la conducta y otras debilitan la conducta. Al comparar el tiempo de escape con el número de prueba, Thorndike produjo las primeras curvas de aprendizaje en animales conocidas mediante este procedimiento. [4]
Los humanos parecen aprender muchos comportamientos simples a través del tipo de proceso estudiado por Thorndike, ahora llamado condicionamiento operante. Es decir, las respuestas se retienen cuando conducen a un resultado exitoso y se descartan cuando no lo hacen o cuando producen efectos aversivos. Esto suele suceder sin que ningún "maestro" lo planee, pero los padres han utilizado el condicionamiento operante para enseñar a sus hijos durante miles de años. [5]
A BF Skinner (1904-1990) se le conoce como el padre del condicionamiento operante y su trabajo se cita con frecuencia en relación con este tema. Su libro de 1938 "El comportamiento de los organismos: un análisis experimental", [6] inició su estudio de toda la vida sobre el condicionamiento operante y su aplicación al comportamiento humano y animal. Siguiendo las ideas de Ernst Mach , Skinner rechazó la referencia de Thorndike a estados mentales no observables como la satisfacción, construyendo su análisis sobre la conducta observable y sus consecuencias igualmente observables. [7]
Skinner creía que el condicionamiento clásico era demasiado simplista para usarlo para describir algo tan complejo como el comportamiento humano. El condicionamiento operante, en su opinión, describía mejor el comportamiento humano al examinar las causas y efectos del comportamiento intencional.
Para implementar su enfoque empírico, Skinner inventó la cámara de condicionamiento operante , o " Skinner Box ", en la que sujetos como palomas y ratas estaban aislados y podían exponerse a estímulos cuidadosamente controlados. A diferencia de la caja de rompecabezas de Thorndike, esta disposición permitía al sujeto dar una o dos respuestas simples y repetibles, y la tasa de tales respuestas se convirtió en la principal medida conductual de Skinner. [8] Otro invento, el registrador acumulativo, produjo un registro gráfico a partir del cual se podían estimar estas tasas de respuesta. Estos registros fueron los datos primarios que Skinner y sus colegas utilizaron para explorar los efectos sobre la tasa de respuesta de varios programas de refuerzo. [9] Un programa de refuerzo puede definirse como "cualquier procedimiento que proporcione refuerzo a un organismo de acuerdo con alguna regla bien definida". [10] Los efectos de los horarios se convirtieron, a su vez, en los hallazgos básicos a partir de los cuales Skinner desarrolló su explicación del condicionamiento operante. También se basó en muchas observaciones menos formales del comportamiento humano y animal. [11]
Muchos de los escritos de Skinner están dedicados a la aplicación del condicionamiento operante al comportamiento humano. [12] En 1948 publicó Walden Two , un relato ficticio de una comunidad pacífica, feliz y productiva organizada en torno a sus principios condicionantes. [13] En 1957, Skinner publicó Verbal Behavior , [14] que extendió los principios del condicionamiento operante al lenguaje, una forma de comportamiento humano que previamente había sido analizada de manera muy diferente por lingüistas y otros. Skinner definió nuevas relaciones funcionales como "mandos" y "tactos" para capturar algunos elementos esenciales del lenguaje, pero no introdujo nuevos principios y trató el comportamiento verbal como cualquier otro comportamiento controlado por sus consecuencias, que incluían las reacciones de la audiencia del hablante.
Se dice que la conducta operante es "emitida"; es decir, inicialmente no es provocado por ningún estímulo particular. Por tanto, cabe preguntarse por qué ocurre esto en primer lugar. La respuesta a esta pregunta es como la respuesta de Darwin a la pregunta sobre el origen de una "nueva" estructura corporal, es decir, la variación y la selección. De manera similar, el comportamiento de un individuo varía de un momento a otro, en aspectos tales como los movimientos específicos involucrados, la cantidad de fuerza aplicada o el momento de la respuesta. Las variaciones que conducen al refuerzo se fortalecen y, si el refuerzo es consistente, la conducta tiende a permanecer estable. Sin embargo, la variabilidad del comportamiento puede alterarse mediante la manipulación de ciertas variables. [15]
El refuerzo y el castigo son las herramientas centrales a través de las cuales se modifica la conducta operante. Estos términos se definen por su efecto sobre el comportamiento. Cualquiera puede ser positivo o negativo.
Otro procedimiento se llama "extinción".
Hay un total de cinco consecuencias.
No se dice que los actores (por ejemplo, una rata) sean reforzados, castigados o extinguidos; son las acciones las que se refuerzan, se castigan o se extinguen. Reforzamiento, castigo y extinción no son términos cuyo uso esté restringido al laboratorio. Las consecuencias que ocurren naturalmente también pueden reforzar, castigar o extinguir el comportamiento y no siempre se planifican o se implementan a propósito.
Los horarios de refuerzo son reglas que controlan la entrega de refuerzo. Las reglas especifican el momento en que el refuerzo estará disponible, el número de respuestas que se darán, o ambas cosas. Son posibles muchas reglas, pero las siguientes son las más básicas y comúnmente utilizadas [18] [9]
La eficacia del refuerzo y el castigo se puede cambiar.
La mayoría de estos factores cumplen funciones biológicas. Por ejemplo, el proceso de saciedad ayuda al organismo a mantener un ambiente interno estable ( homeostasis ). Cuando un organismo ha sido privado de azúcar, por ejemplo, el sabor del azúcar es un reforzador eficaz. Cuando el nivel de azúcar en sangre del organismo alcanza o supera un nivel óptimo, el sabor del azúcar se vuelve menos efectivo o incluso aversivo.
El modelado es un método de acondicionamiento que se utiliza a menudo en el adiestramiento de animales y en la enseñanza de seres humanos no verbales. Depende de la variabilidad operante y el refuerzo, como se describió anteriormente. El formador comienza identificando la conducta final deseada (o "objetivo"). A continuación, el entrenador elige una conducta que el animal o la persona ya emite con cierta probabilidad. Luego, la forma de esta conducta se cambia gradualmente a lo largo de pruebas sucesivas reforzando conductas que se aproximan cada vez más a la conducta objetivo. Cuando finalmente se emite la conducta objetivo, se puede fortalecer y mantener mediante el uso de un programa de refuerzo.
El refuerzo no contingente es la entrega de estímulos reforzantes independientemente del comportamiento del organismo. El refuerzo no contingente se puede utilizar en un intento de reducir una conducta objetivo no deseada reforzando múltiples respuestas alternativas mientras se extingue la respuesta objetivo. [21] Como no se identifica ningún comportamiento medido como fortalecido, existe controversia en torno al uso del término "refuerzo" no contingente. [22]
Aunque inicialmente la conducta operante se emite sin una referencia identificada a un estímulo particular, durante el condicionamiento operante los operantes quedan bajo el control de estímulos que están presentes cuando se refuerza la conducta. Estos estímulos se denominan "estímulos discriminativos". El resultado es la llamada " contingencia de tres períodos ". Es decir, los estímulos discriminativos crean la ocasión para respuestas que producen recompensa o castigo. Ejemplo: se puede entrenar a una rata para que presione una palanca sólo cuando se enciende una luz; un perro corre a la cocina cuando escucha el ruido de su bolsa de comida; Un niño busca un caramelo cuando lo ve sobre una mesa.
La mayor parte del comportamiento está bajo control de estímulos. De esto se pueden distinguir varios aspectos:
La mayor parte de la conducta no puede describirse fácilmente en términos de respuestas individuales reforzadas una por una. El alcance del análisis operante se amplía a través de la idea de cadenas conductuales, que son secuencias de respuestas unidas por las contingencias de tres términos definidas anteriormente. El encadenamiento se basa en el hecho, demostrado experimentalmente, de que un estímulo discriminativo no sólo prepara la ocasión para una conducta posterior, sino que también puede reforzar una conducta que la precede. Es decir, un estímulo discriminativo es también un "reforzador condicionado". Por ejemplo, la luz que propicia el momento de pulsar la palanca puede utilizarse para reforzar el "giro" en presencia de un ruido. Esto da como resultado la secuencia "ruido – giro – luz – presionar la palanca – comida". Se pueden construir cadenas mucho más largas añadiendo más estímulos y respuestas.
En el aprendizaje de escape, una conducta pone fin a un estímulo (aversivo). Por ejemplo, proteger los ojos de la luz solar pone fin a la estimulación (aversiva) de la luz brillante en los ojos. (Este es un ejemplo de refuerzo negativo, definido anteriormente). La conducta que se mantiene evitando un estímulo se llama "evitación", como, por ejemplo, ponerse gafas de sol antes de salir al aire libre. La conducta de evitación plantea la llamada "paradoja de la evitación", porque, cabe preguntarse, ¿cómo puede la no aparición de un estímulo servir como reforzador? Esta cuestión es abordada por varias teorías de la evitación (ver más abajo).
Se utilizan habitualmente dos tipos de entornos experimentales: aprendizaje de evitación discriminado y de operación libre.
Un experimento de evitación discriminada implica una serie de pruebas en las que un estímulo neutro, como una luz, es seguido por un estímulo aversivo, como una descarga eléctrica. Después de que aparece el estímulo neutral, una respuesta operante, como presionar una palanca, previene o finaliza el estímulo aversivo. En las primeras pruebas, el sujeto no responde hasta que se produce el estímulo aversivo, por lo que estas primeras pruebas se denominan pruebas de "escape". A medida que avanza el aprendizaje, el sujeto comienza a responder durante el estímulo neutro y así evita que se produzca el estímulo aversivo. Estos juicios se denominan "juicios de evasión". Se dice que este experimento implica condicionamiento clásico porque un EC neutro (estímulo condicionado) se combina con el EC aversivo (estímulo incondicionado); Esta idea subyace a la teoría de dos factores del aprendizaje por evitación que se describe a continuación.
En la evitación operante libre, un sujeto recibe periódicamente un estímulo aversivo (a menudo una descarga eléctrica) a menos que se dé una respuesta operante; la respuesta retrasa el inicio del shock. En esta situación, a diferencia de la evitación discriminada, ningún estímulo previo señala el shock. Dos intervalos de tiempo cruciales determinan la tasa de aprendizaje de la evitación. Este primero es el intervalo SS (shock-shock). Este es el tiempo entre shocks sucesivos en ausencia de una respuesta. El segundo intervalo es el intervalo RS (respuesta-shock). Esto especifica el tiempo durante el cual una respuesta operante retrasa el inicio del siguiente shock. Cada vez que el sujeto realiza la respuesta operante, el intervalo RS sin descarga comienza de nuevo.
Esta teoría se propuso originalmente para explicar el aprendizaje de evitación discriminada, en el que un organismo aprende a evitar un estímulo aversivo escapando de una señal de ese estímulo. Están involucrados dos procesos: condicionamiento clásico de la señal seguido de condicionamiento operante de la respuesta de escape:
a) Condicionamiento clásico del miedo. Inicialmente el organismo experimenta el emparejamiento de un EC con un EI aversivo. La teoría supone que este emparejamiento crea una asociación entre el CS y el EE.UU. a través del condicionamiento clásico y, debido a la naturaleza aversiva del EE.UU., el SC llega a provocar una reacción emocional condicionada (CER): "miedo". b) Reforzamiento de la respuesta operante por reducción del miedo. Como resultado del primer proceso, el CS ahora indica miedo; esta reacción emocional desagradable sirve para motivar respuestas operantes, y las respuestas que ponen fin al EC se ven reforzadas por la terminación del miedo. La teoría no dice que el organismo "evita" el EE.UU. en el sentido de anticiparlo, sino más bien que el organismo "escapa" de un estado interno aversivo causado por el SC. Varios hallazgos experimentales parecen ir en contra de la teoría de dos factores. Por ejemplo, la conducta de evitación a menudo se extingue muy lentamente incluso cuando el emparejamiento inicial CS-US nunca vuelve a ocurrir, por lo que se podría esperar que la respuesta de miedo se extinga (ver Condicionamiento clásico ). Además, los animales que han aprendido a evitar a menudo muestran poca evidencia de miedo, lo que sugiere que escapar del miedo no es necesario para mantener una conducta de evitación. [23]
Algunos teóricos sugieren que la conducta de evitación puede ser simplemente un caso especial de conducta operante mantenida por sus consecuencias. Desde este punto de vista, la idea de "consecuencias" se amplía para incluir la sensibilidad a un patrón de acontecimientos. Así, en la evitación, la consecuencia de una respuesta es una reducción en la tasa de estimulación aversiva. De hecho, la evidencia experimental sugiere que un "shock fallido" se detecta como un estímulo y puede actuar como reforzador. Las teorías cognitivas de la evitación llevan esta idea un paso más allá. Por ejemplo, una rata llega a "esperar" una descarga si no presiona una palanca y "no esperar ninguna descarga" si la presiona, y la conducta de evitación se fortalece si estas expectativas se confirman. [23]
El acaparamiento operante se refiere a la observación de que las ratas reforzadas de cierta manera pueden permitir que los gránulos de comida se acumulen en una bandeja de comida en lugar de recuperarlos. En este procedimiento, la recuperación de los gránulos siempre instituía un período de extinción de un minuto durante el cual no había gránulos de alimento adicionales disponibles, pero los que se habían acumulado anteriormente podían consumirse. Este hallazgo parece contradecir el hallazgo habitual de que las ratas se comportan impulsivamente en situaciones en las que pueden elegir entre un objeto de comida más pequeño de inmediato y un objeto de comida más grande después de algún retraso. Ver horarios de refuerzo . [24]
Los primeros estudios científicos que identificaron neuronas que respondían de maneras que sugerían que codificaban estímulos condicionados provinieron del trabajo de Mahlon deLong [25] [26] y RT Richardson. [26] Demostraron que las neuronas del núcleo basal , que liberan acetilcolina ampliamente en toda la corteza cerebral , se activan poco después de un estímulo condicionado, o después de una recompensa primaria si no existe ningún estímulo condicionado. Estas neuronas son igualmente activas para reforzadores positivos y negativos y se ha demostrado que están relacionadas con la neuroplasticidad en muchas regiones corticales . [27] También existe evidencia de que la dopamina se activa en momentos similares. Existe evidencia considerable de que la dopamina participa tanto en el refuerzo como en el aprendizaje aversivo. [28] Las vías de la dopamina se proyectan mucho más densamente en las regiones de la corteza frontal . Las proyecciones colinérgicas , por el contrario, son densas incluso en las regiones corticales posteriores como la corteza visual primaria . Un estudio de pacientes con enfermedad de Parkinson , una condición atribuida a la acción insuficiente de la dopamina, ilustra aún más el papel de la dopamina en el refuerzo positivo. [29] Demostró que mientras no tomaban la medicación, los pacientes aprendían más fácilmente con consecuencias aversivas que con refuerzo positivo. Los pacientes que estaban tomando medicación demostraron lo contrario: el refuerzo positivo resultó ser la forma más eficaz de aprendizaje cuando la actividad de la dopamina es alta.
Se ha sugerido que la base del refuerzo es un proceso neuroquímico que involucra la dopamina. Cuando un organismo experimenta un estímulo reforzador, se activan las vías de dopamina en el cerebro. Esta red de vías "libera un pulso corto de dopamina en muchas dendritas , transmitiendo así una señal de refuerzo global a las neuronas postsinápticas ". [30] Esto permite que las sinapsis recientemente activadas aumenten su sensibilidad a las señales eferentes (conducidas hacia afuera), aumentando así la probabilidad de que ocurran las respuestas recientes que precedieron al refuerzo. Estas respuestas son, estadísticamente, las que tienen más probabilidades de haber sido la conducta responsable de lograr con éxito el refuerzo. Pero cuando la aplicación del refuerzo es menos inmediata o menos contingente (menos consistente), se reduce la capacidad de la dopamina para actuar sobre las sinapsis apropiadas.
Varias observaciones parecen mostrar que la conducta operante puede establecerse sin refuerzo en el sentido definido anteriormente. El más citado es el fenómeno de autoformación (a veces llamado "seguimiento de signos"), en el que un estímulo es seguido repetidamente por un refuerzo y, en consecuencia, el animal comienza a responder al estímulo. Por ejemplo, se enciende una tecla de respuesta y luego se presenta la comida. Cuando esto se repite varias veces, la paloma comienza a picotear la llave a pesar de que llega comida, ya sea que el pájaro picotee o no. De manera similar, las ratas comienzan a manipular objetos pequeños, como una palanca, cuando se les presenta comida cerca. [31] [32] Sorprendentemente, las palomas y las ratas persisten en este comportamiento incluso cuando picotear la llave o presionar la palanca conduce a menos comida (entrenamiento de omisión). [33] [34] Otro comportamiento operante aparente que aparece sin refuerzo es el contrafreeloading .
Estas observaciones y otras parecen contradecir la ley del efecto y han llevado a algunos investigadores a proponer nuevas conceptualizaciones del refuerzo operante (por ejemplo, [35] [36] [37] ). Una visión más general es que la autoformación es un ejemplo de condicionamiento clásico. ; De hecho, el procedimiento de autoformación se ha convertido en una de las formas más comunes de medir el condicionamiento clásico. Desde este punto de vista, muchas conductas pueden verse influenciadas tanto por contingencias clásicas (estímulo-respuesta) como por contingencias operantes (respuesta-refuerzo), y la tarea del experimentador es descubrir cómo interactúan. [38]
El refuerzo y el castigo son omnipresentes en las interacciones sociales humanas y se han sugerido e implementado muchas aplicaciones de principios operantes. Los siguientes son algunos ejemplos.
El refuerzo positivo y negativo desempeñan papeles centrales en el desarrollo y mantenimiento de la adicción y la drogodependencia . Una droga adictiva es intrínsecamente gratificante ; es decir, funciona como un reforzador positivo primario del consumo de drogas. El sistema de recompensa del cerebro le asigna un incentivo destacado (es decir, es "deseado" o "deseado"), [39] [40] [41] de modo que, a medida que se desarrolla una adicción, la privación de la droga conduce al deseo. Además, los estímulos asociados con el consumo de drogas (por ejemplo, la vista de una jeringa y el lugar de uso) se asocian con el intenso refuerzo inducido por la droga. [39] [40] [41] Estos estímulos previamente neutrales adquieren varias propiedades: su apariencia puede inducir el deseo y pueden convertirse en reforzadores positivos condicionados del uso continuo. [39] [40] [41] Por lo tanto, si un individuo adicto encuentra una de estas señales de drogas, puede reaparecer un anhelo por la droga asociada. Por ejemplo, las agencias antidrogas utilizaban anteriormente carteles con imágenes de parafernalia de drogas como un intento de mostrar los peligros del consumo de drogas. Sin embargo, estos carteles ya no se utilizan debido a los efectos de la prominencia de los incentivos al provocar una recaída al ver los estímulos ilustrados en los carteles.
En individuos drogodependientes, el refuerzo negativo se produce cuando se autoadministra una droga con el fin de aliviar o "escapar" de los síntomas de dependencia física (p. ej., temblores y sudoración) y/o dependencia psicológica (p. ej., anhedonia , inquietud, irritabilidad y ansiedad) que surgen durante el estado de abstinencia de drogas . [39]
Los entrenadores de animales y los dueños de mascotas aplicaban los principios y prácticas del condicionamiento operante mucho antes de que estas ideas fueran nombradas y estudiadas, y el entrenamiento de animales todavía proporciona uno de los ejemplos más claros y convincentes de control operante. De los conceptos y procedimientos descritos en este artículo, algunos de los más destacados son los siguientes: (a) disponibilidad de refuerzo primario (por ejemplo, una bolsa de golosinas para perros); (b) el uso de refuerzo secundario (por ejemplo, hacer sonar un clicker inmediatamente después de una respuesta deseada y luego dar yummy); (c) contingencia, asegurando que el refuerzo (por ejemplo, el clicker) sigue el comportamiento deseado y no otra cosa; (d) dar forma, como hacer que un perro salte gradualmente más y más alto; (e) refuerzo intermitente, como reducir gradualmente la frecuencia del refuerzo para inducir una conducta persistente sin saciedad; (f) encadenamiento, donde un comportamiento complejo se construye gradualmente a partir de unidades más pequeñas. [42]
El análisis aplicado de la conducta es la disciplina iniciada por BF Skinner que aplica los principios del condicionamiento a la modificación de la conducta humana socialmente significativa. Utiliza los conceptos básicos de la teoría del condicionamiento, incluido el estímulo condicionado (S C ), el estímulo discriminativo (S d ), la respuesta (R) y el estímulo reforzante (S rein o S r para reforzadores, a veces S ave para estímulos aversivos). [23]
Los profesionales del análisis de conducta aplicado (ABA) aplican estos procedimientos, y muchas variaciones y desarrollos de ellos, a una variedad de conductas y cuestiones socialmente significativas. En muchos casos, los profesionales utilizan técnicas operantes para desarrollar conductas constructivas y socialmente aceptables para reemplazar conductas aberrantes. Las técnicas de ABA se han aplicado eficazmente en cosas como intervenciones conductuales intensivas tempranas para niños con un trastorno del espectro autista (TEA) [43] investigación sobre los principios que influyen en el comportamiento criminal , prevención del VIH, [44] conservación de recursos naturales, [ 45] educación, [46] gerontología , [47] salud y ejercicio , [48] seguridad industrial , [49] adquisición del lenguaje , [50] tirar basura, [51] procedimientos médicos , [52] crianza de los hijos, [53] psicoterapia , [ cita necesaria ] uso del cinturón de seguridad, [54] trastornos mentales graves , [55] deportes, [56] abuso de sustancias , fobias , trastornos alimentarios pediátricos y manejo y cuidado de animales en zoológicos . [57] Algunas de estas aplicaciones se encuentran entre las que se describen a continuación.
Proporcionar refuerzo positivo para las conductas infantiles apropiadas es un objetivo importante de la capacitación en gestión de padres. Normalmente, los padres aprenden a recompensar el comportamiento apropiado a través de recompensas sociales (como elogios, sonrisas y abrazos), así como recompensas concretas (como pegatinas o puntos para una recompensa mayor como parte de un sistema de incentivos creado en colaboración con el niño). [58] Además, los padres aprenden a seleccionar comportamientos simples como enfoque inicial y recompensan cada uno de los pequeños pasos que su hijo logra hacia la consecución de una meta mayor (este concepto se denomina "aproximaciones sucesivas"). [58] [59]
Tanto los psicólogos como los economistas se han interesado en aplicar conceptos y hallazgos operantes al comportamiento de los humanos en el mercado. Un ejemplo es el análisis de la demanda de los consumidores, indexada por la cantidad de un bien que se compra. En economía, el grado en que el precio influye en el consumo se denomina "elasticidad precio de la demanda". Ciertos productos son más elásticos que otros; por ejemplo, un cambio en el precio de ciertos alimentos puede tener un gran efecto en la cantidad comprada, mientras que la gasolina y otros consumibles cotidianos pueden verse menos afectados por los cambios de precio. En términos de análisis operante, tales efectos pueden interpretarse en términos de las motivaciones de los consumidores y el valor relativo de las mercancías como reforzadores. [60]
Como se indicó anteriormente en este artículo, un programa de proporción variable produce refuerzo después de la emisión de un número impredecible de respuestas. Este programa suele generar una respuesta rápida y persistente. Las máquinas tragamonedas pagan según un programa de proporción variable y producen precisamente este tipo de comportamiento persistente de tirar de la palanca en los jugadores. La rentabilidad variable de las máquinas tragamonedas y otras formas de juego se ha citado a menudo como un factor subyacente a la adicción al juego. [61]
Los seres humanos tienen una resistencia innata a matar y son reacios a actuar de manera directa y agresiva hacia miembros de su propia especie, incluso para salvar vidas. Esta resistencia a matar ha provocado que la infantería sea notablemente ineficiente a lo largo de la historia de la guerra militar. [62]
Este fenómeno no se entendió hasta que SLA Marshall (general de brigada e historiador militar) llevó a cabo estudios de entrevistas con la infantería de la Segunda Guerra Mundial inmediatamente después del combate. El conocido y controvertido libro de Marshall, Men Against Fire, reveló que sólo el 15% de los soldados disparaban sus rifles con el propósito de matar en combate. [63] Tras la aceptación de la investigación de Marshall por parte del ejército de los EE. UU. en 1946, la Oficina de Investigación de Recursos Humanos del ejército de los EE. UU. comenzó a implementar nuevos protocolos de entrenamiento que se asemejan a los métodos de condicionamiento operante. Las aplicaciones posteriores de tales métodos aumentaron el porcentaje de soldados capaces de matar a alrededor del 50% en Corea y a más del 90% en Vietnam. [62] Las revoluciones en el entrenamiento incluyeron el reemplazo de los tradicionales campos de tiro emergentes con objetivos emergentes tridimensionales, con forma de hombre, que colapsaban cuando eran alcanzados. Esto proporcionó retroalimentación inmediata y actuó como refuerzo positivo para el comportamiento de un soldado. [64] Otras mejoras en los métodos de entrenamiento militar han incluido el curso de tiro cronometrado; formación más realista; altas repeticiones; elogios de los superiores; recompensas de puntería; y reconocimiento grupal. El refuerzo negativo incluye la responsabilidad de los pares o el requisito de volver a tomar cursos. El entrenamiento militar moderno condiciona la respuesta del cerebro medio a la presión del combate simulando estrechamente el combate real, utilizando principalmente el condicionamiento clásico pavloviano y el condicionamiento operante skinneriano (ambas formas de conductismo ). [62]
El entrenamiento moderno en puntería es un ejemplo tan excelente de conductismo que se ha utilizado durante años en el curso de introducción a la psicología impartido a todos los cadetes de la Academia Militar de Estados Unidos en West Point como un ejemplo clásico de condicionamiento operante. En la década de 1980, durante una visita a West Point, BF Skinner identificó el entrenamiento de puntería militar moderno como una aplicación casi perfecta del condicionamiento operante. [64]
El teniente coronel Dave Grossman afirma sobre el condicionamiento operante y el entrenamiento militar estadounidense que:
Es muy posible que nadie se haya sentado intencionalmente a usar condicionamiento operante o técnicas de modificación de conducta para entrenar soldados en esta área... Pero desde el punto de vista de un psicólogo que también es historiador y soldado de carrera, se ha vuelto cada vez más obvio para mí que esto es exactamente lo que se ha logrado. [62]
La teoría del empujón (o nudge) es un concepto de las ciencias del comportamiento , la teoría política y la economía que sostiene que las sugerencias indirectas para tratar de lograr un cumplimiento no forzado pueden influir en los motivos, incentivos y la toma de decisiones de grupos e individuos, al menos con la misma eficacia, si no más eficazmente que la instrucción directa, la legislación o la aplicación de la ley. [ cita necesaria ]
El concepto de elogio como medio de refuerzo conductual tiene sus raíces en el modelo de condicionamiento operante de BF Skinner. A través de esta lente, los elogios se han visto como un medio de refuerzo positivo, en el que es más probable que ocurra una conducta observada al elogiar contingentemente dicha conducta. [65] Cientos de estudios han demostrado la eficacia de los elogios para promover conductas positivas, especialmente en el estudio del uso de los elogios por parte de maestros y padres en los niños para promover una mejor conducta y rendimiento académico, [66] [67] pero también en el estudio de desempeño laboral. [68] También se ha demostrado que los elogios refuerzan conductas positivas en individuos adyacentes no elogiados (como un compañero de clase del destinatario del elogio) a través del refuerzo indirecto. [69] El elogio puede ser más o menos eficaz para cambiar el comportamiento dependiendo de su forma, contenido y entrega. Para que los elogios efectúen un cambio de conducta positivo, deben depender de la conducta positiva (es decir, administrarse sólo después de que se haya implementado la conducta objetivo), deben especificar los detalles de la conducta que se va a reforzar y deben entregarse con sinceridad y sinceridad. creíblemente. [70]
Al reconocer el efecto de los elogios como estrategia de refuerzo positivo, numerosas intervenciones conductuales y cognitivo-conductuales han incorporado el uso de los elogios en sus protocolos. [71] [72] El uso estratégico de los elogios se reconoce como una práctica basada en evidencia tanto en la gestión del aula [71] como en las intervenciones de capacitación para padres, [67] aunque los elogios a menudo se subsumen en la investigación de intervenciones en una categoría más amplia de refuerzo positivo. que incluye estrategias como atención estratégica y recompensas conductuales.
Se han realizado varios estudios sobre el efecto que tienen la terapia cognitivo-conductual y la terapia conductual operante en diferentes afecciones médicas. Cuando los pacientes desarrollaron técnicas cognitivas y conductuales que cambiaron sus conductas, actitudes y emociones; la intensidad de su dolor disminuyó. Los resultados de estos estudios mostraron una influencia de las cogniciones en la percepción del dolor y el impacto presentado explicó la eficacia general de la terapia cognitivo-conductual (TCC) y la terapia operante-conductual (OBT). [ cita necesaria ]
La mayoría [ cita necesaria ] de los videojuegos están diseñados en torno a un ciclo de compulsión , agregando un tipo de refuerzo positivo a través de un programa de ritmo variable para mantener al jugador jugando. Esto puede conducir a la patología de la adicción a los videojuegos . [73]
Como parte de una tendencia en la monetización de los videojuegos durante la década de 2010, algunos juegos ofrecían cajas de botín como recompensas o como artículos que se podían comprar con fondos del mundo real. Las cajas contienen una selección aleatoria de elementos del juego. La práctica se ha vinculado a los mismos métodos con los que las máquinas tragamonedas y otros dispositivos de juego reparten recompensas, ya que sigue un programa de tasa variable. Si bien existe la percepción general de que las cajas de botín son una forma de juego, la práctica sólo se clasifica como tal en unos pocos países. Sin embargo, los métodos para utilizar esos artículos como moneda virtual para juegos de azar en línea o para intercambiar con dinero del mundo real han creado un mercado de juegos de azar que se encuentra bajo evaluación legal. [74]
Una de las muchas razones propuestas para los dramáticos costos asociados con la atención médica es la práctica de la medicina defensiva. Prabhu revisa el artículo de Cole y analiza cómo las respuestas de dos grupos de neurocirujanos son un comportamiento operante clásico. Un grupo practica en un estado con restricciones a las demandas médicas y el otro grupo sin restricciones. Se preguntó al grupo de neurocirujanos de forma anónima sobre sus patrones de práctica. Los médicos cambiaron su práctica en respuesta a una respuesta negativa (miedo a las demandas) en el grupo que practicaba en un estado sin restricciones a las demandas médicas. [75]
Las recompensas en el condicionamiento operante son reforzadores positivos. ... El comportamiento operante da una buena definición de recompensa. Cualquier cosa que haga que un individuo regrese por más es un reforzador positivo y, por tanto, una recompensa. Aunque proporciona una buena definición, el refuerzo positivo es sólo una de varias funciones de recompensa. ... Las recompensas son atractivas. Son motivadores y nos hacen esforzarnos. ... Las recompensas inducen una conducta de acercamiento, también llamada conducta apetitiva o preparatoria, y conducta consumatoria. ... Así, cualquier estímulo, objeto, evento, actividad o situación que tenga el potencial de hacernos acercarnos a él y consumirlo es, por definición, una recompensa.
Las sustancias de las que se abusa (desde alcohol hasta psicoestimulantes) se ingieren inicialmente en ocasiones regulares de acuerdo con sus propiedades de refuerzo positivo. Es importante destacar que la exposición repetida a sustancias gratificantes desencadena una cadena de eventos de refuerzo secundarios, mediante los cuales las señales y contextos asociados con el uso de drogas pueden convertirse en refuerzos y, por lo tanto, contribuir al uso continuo y posible abuso de la(s) sustancia(s) de elección. ...
Una dimensión importante del refuerzo muy relevante para el proceso de adicción (y particularmente la recaída) es el refuerzo secundario (Stewart, 1992). Los reforzadores secundarios (en muchos casos también considerados reforzadores condicionados) probablemente impulsen la mayoría de los procesos de refuerzo en humanos. En el caso específico de la [adicción] a las drogas, las señales y contextos que están íntima y repetidamente asociados con el uso de drogas a menudo se convertirán en refuerzo... Una pieza fundamental de la teoría de la adicción a la sensibilización por incentivos de Robinson y Berridge postula que el valor del incentivo o la atracción La naturaleza de tales procesos de refuerzo secundario, además de los propios reforzadores primarios, puede persistir e incluso sensibilizarse con el tiempo junto con el desarrollo de la adicción a las drogas (Robinson y Berridge, 1993). ...
El refuerzo negativo es una condición especial asociada con un fortalecimiento de las respuestas conductuales que ponen fin a algún estímulo en curso (presumiblemente aversivo). En este caso podemos definir un reforzador negativo como un estímulo motivacional que fortalece dicha respuesta de "escape". Históricamente, en relación con la adicción a las drogas, este fenómeno se ha observado consistentemente en humanos mediante el cual las drogas de abuso se autoadministran para saciar una necesidad motivacional en el estado de abstinencia (Wikler, 1952).
{{cite book}}
: |journal=
ignorado ( ayuda )Cuando a un CS + pavloviano se le atribuye prominencia de incentivo, no solo desencadena un "deseo" de su UCS, sino que a menudo la señal en sí se vuelve muy atractiva, incluso en un grado irracional. Esta atracción de señales es otra característica distintiva de la prominencia de incentivos. Se vuelve difícil no mirar el CS (Wiers & Stacy, 2006; Hickey et al., 2010a; Piech et al., 2010; Anderson et al., 2011). El CS incluso adopta algunas propiedades incentivadoras similares a las del UCS. Un CS atractivo a menudo provoca un enfoque motivado por el comportamiento y, a veces, un individuo puede incluso intentar "consumir" el CS de alguna manera como su UCS (por ejemplo, comer, beber, fumar, tener relaciones sexuales, tomarlo como droga). El "deseo" de un CS también puede convertir el estímulo anteriormente neutral en un reforzador condicionado instrumental, de modo que un individuo trabajará para obtener la señal (sin embargo, también existen mecanismos psicológicos alternativos para el refuerzo condicionado).
Un objetivo importante en el futuro para la neurociencia de las adicciones es comprender cómo la motivación intensa se centra estrechamente en un objetivo particular. Se ha sugerido que la adicción se debe en parte a una excesiva prominencia de incentivos producida por sistemas de dopamina sensibilizados o hiperreactivos que producen un intenso "deseo" (Robinson y Berridge, 1993). Pero no se ha explicado completamente por qué un objetivo se vuelve más "buscado" que todos los demás. En adictos o pacientes estimulados por agonistas, la repetición de la estimulación dopaminérgica de la importancia del incentivo se atribuye a actividades individualizadas particulares, como tomar la droga adictiva o las compulsiones particulares. En situaciones de recompensa pavlovianas, algunas señales de recompensa se vuelven más "deseadas" que otras como poderosos imanes motivacionales, de maneras que difieren entre individuos (Robinson et al., 2014b; Saunders y Robinson, 2013). ... Sin embargo, los efectos hedónicos bien podrían cambiar con el tiempo. Como una droga se toma repetidamente, la sensibilización dopaminérgica mesolímbica podría ocurrir en individuos susceptibles para amplificar el "deseo" (Leyton y Vezina, 2013; Lodge y Grace, 2011; Wolf y Ferrario, 2010), incluso si los mecanismos hedónicos de los opioides sufrieran una regulación negativa. debido a la estimulación continua de las drogas, lo que produce tolerancia al "agrado". La sensibilización a los incentivos produciría adicción, al magnificar selectivamente el "deseo" desencadenado por señales de volver a consumir la droga, y provocaría poderosamente motivación incluso si la droga se volviera menos placentera (Robinson y Berridge, 1993).