Condicionamiento operante

El condicionamiento operante , también llamado condicionamiento instrumental , es un proceso de aprendizaje en el que las conductas voluntarias se modifican mediante la asociación con la adición (o eliminación) de estímulos de recompensa o aversivos. La frecuencia o duración de la conducta puede aumentar mediante el refuerzo o disminuir mediante el castigo o la extinción .

El condicionamiento operante se originó en el trabajo de Edward Thorndike , cuya ley del efecto teorizó que las conductas surgen como resultado de si sus consecuencias son satisfactorias o incómodas. En el siglo XX, el condicionamiento operante fue estudiado por psicólogos conductuales , quienes creían que gran parte, si no toda, de la mente y la conducta se puede explicar como resultado del condicionamiento ambiental. Los refuerzos son estímulos ambientales que aumentan las conductas, mientras que los castigos son estímulos que las disminuyen. Ambos tipos de estímulos pueden clasificarse además en estímulos positivos y negativos, que implican respectivamente la adición o eliminación de estímulos ambientales.

El condicionamiento operante se diferencia del condicionamiento clásico , que es un proceso en el que los estímulos se combinan con eventos biológicamente significativos para producir conductas involuntarias y reflexivas . Por el contrario, el condicionamiento operante es voluntario y depende de las consecuencias de una conducta.

El estudio del aprendizaje animal en el siglo XX estuvo dominado por el análisis de estos dos tipos de aprendizaje ^[1] , y todavía hoy son el núcleo del análisis del comportamiento. También se han aplicado al estudio de la psicología social , ayudando a aclarar ciertos fenómenos como el efecto del falso consenso ^[2] .

Historia

Ley del efecto de Thorndike

El condicionamiento operante, a veces llamado aprendizaje instrumental , fue estudiado extensamente por primera vez por Edward L. Thorndike (1874-1949), quien observó el comportamiento de los gatos que intentaban escapar de cajas de rompecabezas hechas en casa. ^[3] Un gato podía escapar de la caja con una respuesta simple como tirar de una cuerda o empujar un palo, pero cuando se lo constreñía por primera vez, los gatos tardaban mucho tiempo en salir. Con ensayos repetidos, las respuestas ineficaces ocurrían con menos frecuencia y las respuestas exitosas ocurrían con mayor frecuencia, por lo que los gatos escapaban cada vez más rápidamente. ^[3] Thorndike generalizó este hallazgo en su ley del efecto , que establece que las conductas seguidas de consecuencias satisfactorias tienden a repetirse y las que producen consecuencias desagradables tienen menos probabilidades de repetirse. En resumen, algunas consecuencias fortalecen la conducta y algunas consecuencias la debilitan . Al trazar el tiempo de escape contra el número de ensayos, Thorndike produjo las primeras curvas de aprendizaje animal conocidas a través de este procedimiento. ^[4]

Los seres humanos parecen aprender muchas conductas simples mediante el tipo de proceso estudiado por Thorndike, ahora llamado condicionamiento operante. Es decir, las respuestas se conservan cuando conducen a un resultado exitoso y se descartan cuando no lo hacen, o cuando producen efectos aversivos. Esto suele ocurrir sin que ningún "maestro" lo haya planeado, pero los padres han utilizado el condicionamiento operante para enseñar a sus hijos durante miles de años. ^[5]

B. F. Skinner

A BF Skinner (1904-1990) se lo considera el padre del condicionamiento operante y su trabajo se cita con frecuencia en relación con este tema. Su libro de 1938 "The Behavior of Organisms: An Experimental Analysis" ^[6] inició su estudio permanente del condicionamiento operante y su aplicación al comportamiento humano y animal. Siguiendo las ideas de Ernst Mach , Skinner rechazó la referencia de Thorndike a estados mentales no observables como la satisfacción, basando su análisis en el comportamiento observable y sus consecuencias igualmente observables. ^[7]

Skinner creía que el condicionamiento clásico era demasiado simplista para ser utilizado para describir algo tan complejo como el comportamiento humano. El condicionamiento operante, en su opinión, describía mejor el comportamiento humano, ya que examinaba las causas y los efectos del comportamiento intencional.

Para implementar su enfoque empírico, Skinner inventó la cámara de condicionamiento operante , o " Caja de Skinner ", en la que sujetos como palomas y ratas estaban aislados y podían ser expuestos a estímulos cuidadosamente controlados. A diferencia de la caja de rompecabezas de Thorndike, esta disposición permitía al sujeto dar una o dos respuestas simples y repetibles, y la tasa de tales respuestas se convirtió en la principal medida conductual de Skinner. ^[8] Otro invento, el registrador acumulativo, produjo un registro gráfico a partir del cual se podían estimar estas tasas de respuesta. Estos registros fueron los datos primarios que Skinner y sus colegas usaron para explorar los efectos sobre la tasa de respuesta de varios programas de refuerzo. ^[9] Un programa de refuerzo puede definirse como "cualquier procedimiento que proporciona refuerzo a un organismo de acuerdo con alguna regla bien definida". ^[10] Los efectos de los programas se convirtieron, a su vez, en los hallazgos básicos a partir de los cuales Skinner desarrolló su explicación del condicionamiento operante. También se basó en muchas observaciones menos formales del comportamiento humano y animal. ^[11]

Muchos de los escritos de Skinner están dedicados a la aplicación del condicionamiento operante al comportamiento humano. ^[12] En 1948 publicó Walden Two , un relato ficticio de una comunidad pacífica, feliz y productiva organizada en torno a sus principios de condicionamiento. ^[13] En 1957, Skinner publicó Verbal Behavior , ^[14] que extendió los principios del condicionamiento operante al lenguaje, una forma de comportamiento humano que previamente había sido analizada de manera bastante diferente por los lingüistas y otros. Skinner definió nuevas relaciones funcionales como "mandos" y "tactos" para capturar algunos elementos esenciales del lenguaje, pero no introdujo nuevos principios, tratando el comportamiento verbal como cualquier otro comportamiento controlado por sus consecuencias, que incluían las reacciones de la audiencia del hablante.

Conceptos y procedimientos

Orígenes de la conducta operante: variabilidad operante

Se dice que la conducta operante es "emitida", es decir, que inicialmente no es provocada por ningún estímulo en particular. Por lo tanto, uno puede preguntarse por qué sucede en primer lugar. La respuesta a esta pregunta es como la respuesta de Darwin a la pregunta sobre el origen de una "nueva" estructura corporal, es decir, variación y selección. De manera similar, la conducta de un individuo varía de un momento a otro, en aspectos tales como los movimientos específicos involucrados, la cantidad de fuerza aplicada o el momento de la respuesta. Las variaciones que conducen al refuerzo se fortalecen y, si el refuerzo es constante, la conducta tiende a permanecer estable. Sin embargo, la variabilidad conductual puede alterarse mediante la manipulación de ciertas variables. ^[15]

Modificación de la conducta operante: refuerzo y castigo

El refuerzo y el castigo son las herramientas fundamentales a través de las cuales se modifica la conducta operante. Estos términos se definen por su efecto sobre la conducta. Ambos pueden ser positivos o negativos.

El refuerzo positivo y el refuerzo negativo aumentan la probabilidad de una conducta que siguen, mientras que el castigo positivo y el castigo negativo reducen la probabilidad de una conducta que siguen.

Otro procedimiento se llama "extinción".

La extinción se produce cuando una conducta previamente reforzada ya no se refuerza con refuerzo positivo o negativo. Durante la extinción, la conducta se vuelve menos probable. El refuerzo ocasional puede llevar a una demora aún mayor antes de la extinción de la conducta debido al factor de aprendizaje de que se necesiten instancias repetidas para obtener el refuerzo, en comparación con el refuerzo que se da en cada oportunidad antes de la extinción. ^[16]

Hay un total de cinco consecuencias.

El refuerzo positivo se produce cuando una conducta (respuesta) es gratificante o cuando la conducta es seguida por otro estímulo que es gratificante, aumentando la frecuencia de esa conducta.^[17] Por ejemplo, si una rata en una caja de Skinner obtiene comida cuando presiona una palanca, su frecuencia de presión aumentará. Este procedimiento suele denominarse simplemente refuerzo .
El refuerzo negativo (también conocido como escape) ocurre cuando una conducta (respuesta) es seguida por la eliminación de un estímulo aversivo , aumentando así la frecuencia de la conducta original. En el experimento de la caja de Skinner, el estímulo aversivo podría ser un ruido fuerte que se escucha continuamente dentro de la caja; el refuerzo negativo ocurriría cuando la rata presiona una palanca para apagar el ruido.
El castigo positivo (también denominado "castigo por estimulación contingente") se produce cuando una conducta (respuesta) es seguida por un estímulo aversivo. Ejemplo: el dolor de una paliza , que a menudo daría como resultado una disminución de esa conducta. El castigo positivo es un término confuso, por lo que el procedimiento suele denominarse "castigo".
El castigo negativo (también llamado "castigo por retirada contingente") se produce cuando una conducta (respuesta) es seguida por la eliminación de un estímulo. Ejemplo: quitarle un juguete a un niño después de una conducta no deseada por parte de este, lo que daría como resultado una disminución de la conducta no deseada.
La extinción se produce cuando una conducta (respuesta) que había sido reforzada previamente ya no es efectiva. Ejemplo: a una rata se le da comida muchas veces por presionar una palanca, hasta que el experimentador ya no le da comida como recompensa. La rata normalmente presionaría la palanca con menos frecuencia y luego dejaría de hacerlo. Entonces se diría que la presión de la palanca se "extinguió".

No se habla de los actores (por ejemplo, una rata) como si fueran reforzados, castigados o extinguidos; son las acciones las que se refuerzan, castigan o extinguen. El refuerzo, el castigo y la extinción no son términos cuyo uso se limite al laboratorio. Las consecuencias que ocurren naturalmente también pueden reforzar, castigar o extinguir la conducta y no siempre se planifican o se aplican a propósito.

Horarios de reforzamiento

Los programas de refuerzo son reglas que controlan la entrega del refuerzo. Las reglas especifican el momento en que el refuerzo debe estar disponible, el número de respuestas que deben darse o ambas cosas. Existen muchas reglas posibles, pero las siguientes son las más básicas y las más utilizadas ^[18]^[9]

Programa de intervalos fijos: el refuerzo se produce después de la primera respuesta, una vez transcurrido un tiempo fijo desde el refuerzo anterior. Este programa produce un patrón de respuesta de "interrupción-corrida"; es decir, después del entrenamiento con este programa, el organismo suele hacer una pausa después del refuerzo y luego comienza a responder rápidamente a medida que se acerca el momento del siguiente refuerzo.
Programa de intervalos variables: el refuerzo se produce después de la primera respuesta, una vez transcurrido un tiempo variable desde el refuerzo anterior. Este programa suele producir una tasa de respuesta relativamente constante que varía con el tiempo medio entre los refuerzos.
Programa de proporción fija: el reforzamiento se produce después de que se ha emitido una cantidad fija de respuestas desde el refuerzo anterior. Un organismo entrenado con este programa normalmente hace una pausa durante un tiempo después de un refuerzo y luego responde a un ritmo alto. Si el requerimiento de respuesta es bajo, puede que no haya pausa; si el requerimiento de respuesta es alto, el organismo puede dejar de responder por completo.
Programa de proporción variable: el reforzamiento se produce después de que se ha emitido una cantidad variable de respuestas desde el refuerzo anterior. Este programa suele producir una tasa de respuesta muy alta y persistente.
Refuerzo continuo: el refuerzo se produce después de cada respuesta. Los organismos suelen responder tan rápidamente como pueden, dado el tiempo que tardan en obtener y consumir el refuerzo, hasta que se sienten saciados.

Factores que alteran la eficacia del refuerzo y del castigo

La eficacia del refuerzo y del castigo se puede modificar.

Saciedad/Privación : La eficacia de un estímulo positivo o "apetitivo" se reducirá si el individuo ha recibido suficiente cantidad de ese estímulo para satisfacer su apetito. El efecto opuesto ocurrirá si el individuo se ve privado de ese estímulo: la eficacia de una consecuencia aumentará. Un sujeto con el estómago lleno no se sentirá tan motivado como uno hambriento. ^[19]
Inmediatez : una consecuencia inmediata es más eficaz que una tardía. Si le damos a un perro un premio por sentarse en los cinco segundos siguientes, el perro aprenderá más rápido que si se lo damos después de treinta segundos. ^[20]
Contingencia : para que sea más eficaz, el refuerzo debe producirse de forma sistemática después de las respuestas y no en otros momentos. El aprendizaje puede ser más lento si el refuerzo es intermitente, es decir, después de sólo algunas instancias de la misma respuesta. Las respuestas reforzadas de forma intermitente suelen tardar más en extinguirse que las respuestas que siempre han sido reforzadas. ^[19]
Tamaño : El tamaño o la cantidad de un estímulo suele afectar su potencia como reforzador. Los seres humanos y los animales realizan análisis de costo-beneficio. Si al presionar una palanca se obtienen diez bolitas de comida, es posible que se aprenda a presionar la palanca más rápidamente que si se obtiene una sola bolita. Una pila de monedas de veinticinco centavos de una máquina tragamonedas puede hacer que un jugador tire de la palanca durante más tiempo que una sola moneda de veinticinco centavos.

La mayoría de estos factores cumplen funciones biológicas. Por ejemplo, el proceso de saciedad ayuda al organismo a mantener un ambiente interno estable ( homeostasis ). Cuando un organismo ha sido privado de azúcar, por ejemplo, el sabor del azúcar es un reforzador eficaz. Cuando el nivel de azúcar en sangre del organismo alcanza o supera un nivel óptimo, el sabor del azúcar se vuelve menos eficaz o incluso aversivo.

Organización

El modelado es un método de condicionamiento que se utiliza a menudo en el adiestramiento animal y en la enseñanza de seres humanos no verbales. Depende de la variabilidad operante y del refuerzo, como se ha descrito anteriormente. El entrenador empieza por identificar la conducta final deseada (o "objetivo"). A continuación, elige una conducta que el animal o la persona ya emite con cierta probabilidad. La forma de esta conducta se va modificando gradualmente a lo largo de sucesivos ensayos reforzando conductas que se aproximan cada vez más a la conducta objetivo. Cuando finalmente se emite la conducta objetivo, se puede reforzar y mantener mediante el uso de un programa de refuerzo.

Refuerzo no contingente

El refuerzo no contingente es la entrega de estímulos de refuerzo independientemente de la conducta del organismo. El refuerzo no contingente puede utilizarse en un intento de reducir una conducta objetivo no deseada reforzando múltiples respuestas alternativas mientras se extingue la respuesta objetivo. ^[21] Como no se identifica ninguna conducta medida como fortalecida, existe controversia en torno al uso del término "refuerzo" no contingente. ^[22]

Control de estímulos de la conducta operante

Aunque inicialmente la conducta operante se emite sin una referencia identificada a un estímulo particular, durante el condicionamiento operante las operantes quedan bajo el control de estímulos que están presentes cuando la conducta es reforzada. Tales estímulos se denominan "estímulos discriminativos". El resultado es lo que se denomina una " contingencia de tres términos ". Es decir, los estímulos discriminativos establecen la ocasión para respuestas que producen recompensa o castigo. Ejemplo: una rata puede ser entrenada para presionar una palanca sólo cuando se enciende una luz; un perro corre a la cocina cuando escucha el ruido de su bolsa de comida; un niño alcanza un caramelo cuando lo ve sobre una mesa.

Discriminación, generalización y contexto

La mayor parte de la conducta está bajo control de estímulos. Se pueden distinguir varios aspectos de esto:

La discriminación ocurre típicamente cuando una respuesta es reforzada sólo en presencia de un estímulo específico. Por ejemplo, una paloma puede ser alimentada por picotear en una luz roja y no en una luz verde; en consecuencia, picotea en rojo y deja de picotear en verde. Se han estudiado muchas combinaciones complejas de estímulos y otras condiciones; por ejemplo, un organismo puede ser reforzado en un programa de intervalos en presencia de un estímulo y en un programa de proporción en presencia de otro.
La generalización es la tendencia a responder a estímulos similares a un estímulo discriminativo previamente entrenado. Por ejemplo, una paloma que ha sido entrenada para picotear el color "rojo" también podría picotear el color "rosa", aunque normalmente con menos fuerza.
El contexto se refiere a los estímulos que están presentes continuamente en una situación, como las paredes, mesas, sillas, etc. de una habitación o el interior de una cámara de condicionamiento operante. Los estímulos del contexto pueden llegar a controlar la conducta, al igual que los estímulos discriminativos, aunque por lo general de forma más débil. Las conductas aprendidas en un contexto pueden estar ausentes o alteradas en otro. Esto puede causar dificultades para la terapia conductual, porque las conductas aprendidas en el entorno terapéutico pueden no ocurrir en otras situaciones.

Secuencias de conducta: refuerzo condicionado y encadenamiento

La mayoría de las conductas no pueden describirse fácilmente en términos de respuestas individuales reforzadas una por una. El alcance del análisis operante se amplía mediante la idea de cadenas de conducta, que son secuencias de respuestas unidas entre sí por las contingencias de tres términos definidas anteriormente. El encadenamiento se basa en el hecho, demostrado experimentalmente, de que un estímulo discriminativo no sólo establece la ocasión para una conducta posterior, sino que también puede reforzar una conducta que la precede. Es decir, un estímulo discriminativo es también un "reforzador condicionado". Por ejemplo, la luz que establece la ocasión para presionar una palanca puede utilizarse para reforzar el "giro" en presencia de un ruido. Esto da como resultado la secuencia "ruido - giro - luz - presionar la palanca - comida". Se pueden construir cadenas mucho más largas añadiendo más estímulos y respuestas.

Escapar y evitar

En el aprendizaje por escape, una conducta pone fin a un estímulo (aversivo). Por ejemplo, protegerse los ojos de la luz del sol pone fin a la estimulación (aversiva) de la luz brillante en los ojos. (Este es un ejemplo de refuerzo negativo, definido anteriormente). La conducta que se mantiene evitando un estímulo se llama "evitación", como, por ejemplo, ponerse gafas de sol antes de salir al aire libre. La conducta de evitación plantea la llamada "paradoja de la evitación", ya que, cabe preguntarse, ¿cómo puede la no aparición de un estímulo servir como reforzador? Esta cuestión se aborda en varias teorías de la evitación (véase más adelante).

Se utilizan comúnmente dos tipos de configuraciones experimentales: aprendizaje de evitación discriminado y de operante libre.

Aprendizaje de evitación discriminada

Un experimento de evitación discriminada implica una serie de ensayos en los que un estímulo neutro, como una luz, es seguido por un estímulo aversivo, como una descarga eléctrica. Después de que aparece el estímulo neutro, una respuesta operante, como presionar una palanca, previene o termina el estímulo aversivo. En los primeros ensayos, el sujeto no da la respuesta hasta que se activa el estímulo aversivo, por lo que estos primeros ensayos se denominan ensayos de "escape". A medida que avanza el aprendizaje, el sujeto comienza a responder durante el estímulo neutro y, por lo tanto, evita que se produzca el estímulo aversivo. Estos ensayos se denominan "ensayos de evitación". Se dice que este experimento implica condicionamiento clásico porque un EC neutro (estímulo condicionado) se empareja con el EI aversivo (estímulo incondicionado); esta idea subyace a la teoría de dos factores del aprendizaje de evitación que se describe a continuación.

Aprendizaje de evitación operante libre

En la evitación operante libre, el sujeto recibe periódicamente un estímulo aversivo (a menudo una descarga eléctrica) a menos que se produzca una respuesta operante; la respuesta retrasa el inicio de la descarga. En esta situación, a diferencia de la evitación discriminada, ningún estímulo previo señala la descarga. Dos intervalos de tiempo cruciales determinan la velocidad de aprendizaje de la evitación. El primero es el intervalo SS (descarga-descarga), que es el tiempo transcurrido entre descargas sucesivas en ausencia de una respuesta. El segundo intervalo es el intervalo RS (respuesta-descarga), que especifica el tiempo en el que una respuesta operante retrasa el inicio de la siguiente descarga. Cada vez que el sujeto realiza la respuesta operante, el intervalo RS sin descarga comienza de nuevo.

Teoría de la evitación de dos procesos

Esta teoría fue propuesta originalmente para explicar el aprendizaje de evitación discriminada, en el que un organismo aprende a evitar un estímulo aversivo escapando de una señal para ese estímulo. Están involucrados dos procesos: el condicionamiento clásico de la señal seguido del condicionamiento operante de la respuesta de escape:

a) Condicionamiento clásico del miedo. Inicialmente, el organismo experimenta el emparejamiento de un EC con un EI aversivo. La teoría supone que este emparejamiento crea una asociación entre el EC y el EI a través del condicionamiento clásico y, debido a la naturaleza aversiva del EI, el EC llega a provocar una reacción emocional condicionada (REC): el "miedo". b) Reforzamiento de la respuesta operante por reducción del miedo. Como resultado del primer proceso, el EC ahora señala miedo; esta reacción emocional desagradable sirve para motivar respuestas operantes, y las respuestas que terminan el EC se refuerzan por la terminación del miedo. La teoría no dice que el organismo "evite" el EI en el sentido de anticiparlo, sino que el organismo "escapa" de un estado interno aversivo que es causado por el EC. Varios hallazgos experimentales parecen ir en contra de la teoría de dos factores. Por ejemplo, la conducta de evitación a menudo se extingue muy lentamente incluso cuando el emparejamiento inicial EC-EI nunca vuelve a ocurrir, por lo que podría esperarse que la respuesta de miedo se extinga (véase Condicionamiento clásico ). Además, los animales que han aprendido a evitar a menudo muestran poca evidencia de miedo, lo que sugiere que escapar del miedo no es necesario para mantener la conducta de evitación. ^[23]

Teoría operante o de “un factor”

Algunos teóricos sugieren que la conducta de evitación puede ser simplemente un caso especial de conducta operante mantenida por sus consecuencias. En esta perspectiva, la idea de "consecuencias" se amplía para incluir la sensibilidad a un patrón de eventos. Así, en la evitación, la consecuencia de una respuesta es una reducción en la tasa de estimulación aversiva. De hecho, la evidencia experimental sugiere que una "descarga no detectada" se detecta como un estímulo y puede actuar como reforzador. Las teorías cognitivas de la evitación llevan esta idea un paso más allá. Por ejemplo, una rata llega a "esperar" una descarga si no presiona una palanca y a "no esperar ninguna descarga" si la presiona, y la conducta de evitación se fortalece si se confirman estas expectativas. ^[23]

Acaparamiento operante

El acaparamiento operante se refiere a la observación de que las ratas reforzadas de una determinada manera pueden permitir que las bolitas de comida se acumulen en una bandeja de comida en lugar de recuperarlas. En este procedimiento, la recuperación de las bolitas siempre instituyó un período de extinción de un minuto durante el cual no había bolitas de comida adicionales disponibles, pero las que se habían acumulado anteriormente podían consumirse. Este hallazgo parece contradecir el hallazgo habitual de que las ratas se comportan impulsivamente en situaciones en las que hay una elección entre un objeto de comida más pequeño de inmediato y un objeto de comida más grande después de algún tiempo. Ver programas de reforzamiento . ^[24]

Correlatos neurobiológicos

Los primeros estudios científicos que identificaron neuronas que respondían de maneras que sugerían que codificaban estímulos condicionados provinieron del trabajo de Mahlon deLong ^[25]^[26] y de RT Richardson. ^[26] Demostraron que las neuronas del núcleo basal , que liberan acetilcolina ampliamente en toda la corteza cerebral , se activan poco después de un estímulo condicionado, o después de una recompensa primaria si no existe estímulo condicionado. Estas neuronas son igualmente activas para reforzadores positivos y negativos, y se ha demostrado que están relacionadas con la neuroplasticidad en muchas regiones corticales . ^[27] También existe evidencia de que la dopamina se activa en momentos similares. Hay evidencia considerable de que la dopamina participa tanto en el refuerzo como en el aprendizaje aversivo. ^[28] Las vías de dopamina se proyectan mucho más densamente en las regiones de la corteza frontal . Las proyecciones colinérgicas , por el contrario, son densas incluso en las regiones corticales posteriores como la corteza visual primaria . Un estudio de pacientes con enfermedad de Parkinson , una condición atribuida a la acción insuficiente de la dopamina, ilustra aún más el papel de la dopamina en el refuerzo positivo. ^[29] Mostró que mientras no tomaban su medicación, los pacientes aprendían más fácilmente con consecuencias aversivas que con refuerzo positivo. Los pacientes que tomaban su medicación mostraron lo contrario: el refuerzo positivo demostró ser la forma más efectiva de aprendizaje cuando la actividad de la dopamina es alta.

Se ha sugerido que un proceso neuroquímico en el que participa la dopamina subyace al refuerzo. Cuando un organismo experimenta un estímulo de refuerzo, se activan las vías de dopamina en el cerebro. Esta red de vías "libera un pulso corto de dopamina en muchas dendritas , transmitiendo así una señal de refuerzo global a las neuronas postsinápticas ". ^[30] Esto permite que las sinapsis recientemente activadas aumenten su sensibilidad a las señales eferentes (que conducen hacia el exterior), aumentando así la probabilidad de que se produzcan las respuestas recientes que precedieron al refuerzo. Estas respuestas son, estadísticamente, las que tienen más probabilidades de haber sido la conducta responsable de lograr con éxito el refuerzo. Pero cuando la aplicación del refuerzo es menos inmediata o menos contingente (menos consistente), se reduce la capacidad de la dopamina para actuar sobre las sinapsis apropiadas.

Preguntas sobre la ley del efecto

Varias observaciones parecen mostrar que la conducta operante puede establecerse sin refuerzo en el sentido definido anteriormente. El fenómeno más citado es el de automodelado (a veces llamado "seguimiento de señales"), en el que un estímulo es seguido repetidamente por un refuerzo y, en consecuencia, el animal comienza a responder al estímulo. Por ejemplo, se enciende una tecla de respuesta y luego se presenta comida. Cuando esto se repite unas cuantas veces, un sujeto paloma comienza a picotear la tecla aunque la comida venga, ya sea que el ave picotee o no. De manera similar, las ratas comienzan a manipular objetos pequeños, como una palanca, cuando se les presenta comida cerca. ^[31]^[32] Sorprendentemente, las palomas y las ratas persisten en este comportamiento incluso cuando picotear la tecla o presionar la palanca conduce a menos comida (entrenamiento por omisión). ^[33]^[34] Otra conducta operante aparente que aparece sin refuerzo es el contrafreeloading .

Estas observaciones y otras parecen contradecir la ley del efecto , y han impulsado a algunos investigadores a proponer nuevas conceptualizaciones del refuerzo operante (por ejemplo, ^[35]^[36]^[37] ). Una visión más general es que el automoldeo es una instancia del condicionamiento clásico ; el procedimiento de automoldeo se ha convertido, de hecho, en una de las formas más comunes de medir el condicionamiento clásico. En esta visión, muchas conductas pueden verse influenciadas tanto por contingencias clásicas (estímulo-respuesta) como por contingencias operantes (respuesta-refuerzo), y la tarea del experimentador es determinar cómo interactúan. ^[38]

Aplicaciones

El refuerzo y el castigo son omnipresentes en las interacciones sociales humanas, y se han sugerido e implementado muchas aplicaciones de los principios operantes. A continuación se presentan algunos ejemplos.

Adicción y dependencia

El refuerzo positivo y negativo desempeñan papeles centrales en el desarrollo y mantenimiento de la adicción y la dependencia de drogas . Una droga adictiva es intrínsecamente gratificante ; es decir, funciona como un reforzador positivo primario del consumo de drogas. El sistema de recompensa del cerebro le asigna prominencia de incentivo (es decir, es "querida" o "deseada"), ^[39]^[40]^[41] por lo que a medida que se desarrolla una adicción, la privación de la droga conduce al ansia. Además, los estímulos asociados con el consumo de drogas (por ejemplo, la vista de una jeringa y el lugar de consumo) se asocian con el refuerzo intenso inducido por la droga. ^[39]^[40]^[41] Estos estímulos previamente neutrales adquieren varias propiedades: su aparición puede inducir ansia y pueden convertirse en reforzadores positivos condicionados del consumo continuado. ^[39]^[40]^[41] Por lo tanto, si un individuo adicto se encuentra con una de estas señales de drogas, puede reaparecer un ansia por la droga asociada. Por ejemplo, las agencias antidrogas solían utilizar carteles con imágenes de parafernalia relacionada con las drogas como un intento de mostrar los peligros del consumo de drogas. Sin embargo, esos carteles ya no se utilizan debido a los efectos de la prominencia del incentivo en la recaída al ver los estímulos ilustrados en los carteles.

En los individuos dependientes de drogas, el refuerzo negativo ocurre cuando se autoadministra una droga para aliviar o "escapar" de los síntomas de dependencia física (p. ej., temblores y sudoración) y/o dependencia psicológica (p. ej., anhedonia , inquietud, irritabilidad y ansiedad) que surgen durante el estado de abstinencia de la droga . ^[39]

Entrenamiento de animales

Los entrenadores de animales y los dueños de mascotas aplicaban los principios y prácticas del condicionamiento operante mucho antes de que estas ideas fueran nombradas y estudiadas, y el entrenamiento animal todavía proporciona uno de los ejemplos más claros y convincentes de control operante. De los conceptos y procedimientos descritos en este artículo, algunos de los más destacados son los siguientes: (a) disponibilidad de refuerzo primario (por ejemplo, una bolsa de golosinas para perros); (b) el uso de refuerzo secundario (por ejemplo, hacer sonar un clicker inmediatamente después de una respuesta deseada, y luego dar una golosina); (c) contingencia, asegurar que el refuerzo (por ejemplo, el clicker) siga la conducta deseada y no otra cosa; (d) modelado, como hacer que un perro salte cada vez más alto; (e) refuerzo intermitente, como reducir gradualmente la frecuencia del refuerzo para inducir una conducta persistente sin saciedad; (f) encadenamiento, donde una conducta compleja se construye gradualmente a partir de unidades más pequeñas. ^[42]

Análisis de comportamiento aplicado

El análisis de conducta aplicado es la disciplina iniciada por BF Skinner que aplica los principios del condicionamiento a la modificación de la conducta humana socialmente significativa. Utiliza los conceptos básicos de la teoría del condicionamiento, incluidos el estímulo condicionado (S ^C ), el estímulo discriminativo (S ^d ), la respuesta (R) y el estímulo reforzante (S ^rein o S ^r para reforzadores, a veces Save ^para estímulos aversivos). ^[23]

Los profesionales del análisis conductual aplicado (ABA) aplican estos procedimientos, y muchas variaciones y desarrollos de ellos, a una variedad de conductas y cuestiones socialmente significativas. En muchos casos, los profesionales utilizan técnicas operantes para desarrollar conductas constructivas y socialmente aceptables que reemplacen conductas aberrantes. Las técnicas de ABA se han aplicado de manera efectiva en cosas tales como intervenciones conductuales intensivas tempranas para niños con un trastorno del espectro autista (TEA) ^[43] investigación sobre los principios que influyen en la conducta delictiva , prevención del VIH, ^[44] conservación de recursos naturales, ^[45] educación, ^[46] gerontología , ^[47] salud y ejercicio , ^[48] seguridad industrial , ^[49] adquisición del lenguaje , ^[50] basura, ^[51] procedimientos médicos , ^[52] crianza de los hijos, ^[53] psicoterapia , ^{[ cita requerida ]} uso del cinturón de seguridad, ^[54] trastornos mentales graves , ^[55] deportes, ^[56] abuso de sustancias , fobias , trastornos de la alimentación pediátrica y gestión y cuidado de animales en zoológicos . ^[57] Algunas de estas aplicaciones se encuentran entre las que se describen a continuación.

Comportamiento infantil: capacitación para padres sobre gestión

El refuerzo positivo de las conductas apropiadas de los niños es un aspecto fundamental de la formación para padres en materia de gestión de conductas. Normalmente, los padres aprenden a recompensar las conductas apropiadas mediante recompensas sociales (como elogios, sonrisas y abrazos) y recompensas concretas (como pegatinas o puntos para una recompensa mayor como parte de un sistema de incentivos creado en colaboración con el niño). ^[58] Además, los padres aprenden a seleccionar conductas sencillas como objetivo inicial y a recompensar cada uno de los pequeños pasos que da su hijo para alcanzar una meta mayor (este concepto se denomina "aproximaciones sucesivas"). ^[58]^[59]

Ciencias económicas

Tanto los psicólogos como los economistas se han interesado en aplicar conceptos y hallazgos operantes al comportamiento de los seres humanos en el mercado. Un ejemplo es el análisis de la demanda de los consumidores, indexada por la cantidad de un producto que se compra. En economía, el grado en que el precio influye en el consumo se denomina "elasticidad precio de la demanda". Algunos productos son más elásticos que otros; por ejemplo, un cambio en el precio de ciertos alimentos puede tener un gran efecto en la cantidad comprada, mientras que la gasolina y otros productos de consumo diario pueden verse menos afectados por los cambios de precio. En términos de análisis operante, dichos efectos pueden interpretarse en términos de las motivaciones de los consumidores y el valor relativo de los productos como reforzadores. ^[60]

Juegos de azar: programación de ratios variables

Como se ha dicho antes en este artículo, un programa de proporción variable produce un refuerzo tras la emisión de un número impredecible de respuestas. Este programa suele generar una respuesta rápida y persistente. Las máquinas tragamonedas pagan según un programa de proporción variable y producen precisamente este tipo de comportamiento persistente de tirar de la palanca en los jugadores. La recompensa de proporción variable de las máquinas tragamonedas y otras formas de juego se ha citado a menudo como un factor subyacente a la adicción al juego. ^[61]

Psicología militar

Los seres humanos tienen una resistencia innata a matar y son reacios a actuar de manera directa y agresiva contra miembros de su propia especie, incluso para salvar vidas. Esta resistencia a matar ha hecho que la infantería sea notablemente ineficiente a lo largo de la historia de la guerra militar. ^[62]

Este fenómeno no se comprendió hasta que SLA Marshall (general de brigada e historiador militar) realizó estudios de entrevistas a la infantería de la Segunda Guerra Mundial inmediatamente después de participar en el combate. El conocido y controvertido libro de Marshall, Men Against Fire, reveló que solo el 15% de los soldados disparaban sus rifles con el propósito de matar en combate. ^[63] Tras la aceptación de la investigación de Marshall por parte del Ejército de los EE. UU. en 1946, la Oficina de Investigación de Recursos Humanos del Ejército de los EE. UU. comenzó a implementar nuevos protocolos de entrenamiento que se asemejan a los métodos de condicionamiento operante. Las aplicaciones posteriores de dichos métodos aumentaron el porcentaje de soldados capaces de matar a alrededor del 50% en Corea y más del 90% en Vietnam. ^[62] Las revoluciones en el entrenamiento incluyeron la sustitución de los campos de tiro tradicionales emergentes por objetivos tridimensionales, con forma de hombre, que colapsaban cuando eran alcanzados. Esto proporcionaba una retroalimentación inmediata y actuaba como refuerzo positivo para el comportamiento de un soldado. ^[64] Otras mejoras en los métodos de entrenamiento militar han incluido el curso de tiro cronometrado; un entrenamiento más realista; muchas repeticiones; elogios de los superiores; recompensas por puntería; y reconocimiento grupal. El refuerzo negativo incluye la rendición de cuentas entre pares o la exigencia de repetir cursos. El entrenamiento militar moderno condiciona la respuesta del mesencéfalo a la presión del combate simulando de cerca el combate real, utilizando principalmente el condicionamiento clásico pavloviano y el condicionamiento operante skinneriano (ambas formas de conductismo ). ^[62]

El entrenamiento moderno de puntería es un ejemplo tan excelente de conductismo que se ha utilizado durante años en el curso introductorio de psicología que se enseña a todos los cadetes de la Academia Militar de los Estados Unidos en West Point como un ejemplo clásico de condicionamiento operante. En la década de 1980, durante una visita a West Point, BF Skinner identificó el entrenamiento moderno de puntería militar como una aplicación casi perfecta del condicionamiento operante. ^[64]

El teniente coronel Dave Grossman afirma lo siguiente sobre el condicionamiento operante y el entrenamiento militar de los EE. UU.:

Es perfectamente posible que nadie se haya sentado intencionadamente a utilizar técnicas de condicionamiento operante o de modificación de conducta para entrenar a soldados en esta área… Pero desde el punto de vista de un psicólogo que también es historiador y soldado de carrera, se me ha hecho cada vez más evidente que esto es exactamente lo que se ha logrado. ^[62]

Teoría del empujón

La teoría del empujón (o nudge) es un concepto de la ciencia del comportamiento , la teoría política y la economía que sostiene que las sugerencias indirectas para intentar lograr un cumplimiento no forzado pueden influir en los motivos, los incentivos y la toma de decisiones de grupos e individuos, al menos con la misma eficacia –si no más– que la instrucción directa, la legislación o la aplicación de la ley. ^{[ cita requerida ]}

Elogio

El concepto de elogio como un medio de refuerzo conductual tiene sus raíces en el modelo de condicionamiento operante de BF Skinner. Desde esta perspectiva, el elogio se ha visto como un medio de refuerzo positivo, en el que es más probable que ocurra una conducta observada al elogiar contingentemente dicha conducta. ^[65] Cientos de estudios han demostrado la eficacia del elogio para promover conductas positivas, en particular en el estudio del uso de elogios por parte de maestros y padres en niños para promover una mejor conducta y un mejor rendimiento académico, ^[66]^[67] pero también en el estudio del rendimiento laboral. ^[68] También se ha demostrado que el elogio refuerza conductas positivas en individuos adyacentes no elogiados (como un compañero de clase del receptor del elogio) a través del refuerzo vicario. ^[69] El elogio puede ser más o menos eficaz para cambiar la conducta dependiendo de su forma, contenido y presentación. Para que el elogio produzca un cambio positivo en la conducta, debe ser contingente a la conducta positiva (es decir, solo administrarse después de que se realice la conducta deseada), debe especificar los detalles de la conducta que se va a reforzar y debe entregarse de manera sincera y creíble. ^[70]

Reconociendo el efecto del elogio como una estrategia de refuerzo positivo, numerosas intervenciones conductuales y cognitivo-conductuales han incorporado el uso del elogio en sus protocolos. ^[71]^[72] El uso estratégico del elogio se reconoce como una práctica basada en evidencia tanto en la gestión del aula ^[71] como en las intervenciones de capacitación para padres, ^[67] aunque el elogio a menudo se incluye en la investigación de intervenciones en una categoría más amplia de refuerzo positivo, que incluye estrategias como la atención estratégica y las recompensas conductuales.

Se han realizado varios estudios sobre el efecto que tienen la terapia cognitivo-conductual y la terapia operante-conductual en diferentes afecciones médicas. Cuando los pacientes desarrollaron técnicas cognitivas y conductuales que cambiaron sus conductas, actitudes y emociones, la intensidad de su dolor disminuyó. Los resultados de estos estudios mostraron una influencia de las cogniciones en la percepción del dolor y el impacto presentado explicó la eficacia general de la terapia cognitivo-conductual (TCC) y la terapia operante-conductual (TBO). ^{[ cita requerida ]}

Juegos de vídeo

La mayoría de los videojuegos ^{[ cita requerida ]} están diseñados en torno a un ciclo de compulsión , añadiendo un tipo de refuerzo positivo a través de un programa de ritmo variable para mantener al jugador jugando. Esto puede conducir a la patología de la adicción a los videojuegos . ^[73]

Como parte de una tendencia en la monetización de los videojuegos durante la década de 2010, algunos juegos ofrecían cajas de botín como recompensas o como artículos que se podían comprar con fondos del mundo real. Las cajas contienen una selección aleatoria de artículos del juego. La práctica se ha relacionado con los mismos métodos que utilizan las máquinas tragamonedas y otros dispositivos de juego para repartir recompensas, ya que sigue un programa de tarifas variables. Si bien la percepción general es que las cajas de botín son una forma de juego, la práctica solo se clasifica como tal en unos pocos países. Sin embargo, los métodos para usar esos artículos como moneda virtual para juegos de azar en línea o para intercambiarlos por dinero del mundo real han creado un mercado de juegos de azar que se encuentra bajo evaluación legal. ^[74]

Condicionamiento operante y medicina defensiva

Una de las muchas razones propuestas para los dramáticos costos asociados con la atención médica es la práctica de la medicina defensiva. Prabhu analiza el artículo de Cole y analiza cómo las respuestas de dos grupos de neurocirujanos son un comportamiento operante clásico. Un grupo ejerce en un estado con restricciones a las demandas médicas y el otro grupo no tiene restricciones. Se preguntó anónimamente al grupo de neurocirujanos sobre sus patrones de práctica. Los médicos cambiaron su práctica en respuesta a una retroalimentación negativa (miedo a la demanda) en el grupo que ejercía en un estado sin restricciones a las demandas médicas. ^[75]

Véase también

Poder y control abusivos
Experimentación con animales
Contraste conductual
Conductismo (rama de la psicología que se refiere al conductismo metodológico y radical)
Modificación de la conducta (antigua expresión para ABA; modifica la conducta ya sea a través de consecuencias sin incorporar control de estímulos o implica el uso de inundación —también conocida como terapia de exposición prolongada— )
Zanahoria y palo
Aseo infantil
Condicionamiento clásico
Cognitivismo (psicología) (teoría de los mecanismos internos sin referencia a la conducta)
Pruebas de demanda de consumidores (animales)
Psicología educativa
Tecnología educativa
Análisis experimental de la conducta ( principios de investigación experimental en condicionamiento operante y respondiente)
Terapia de exposición (también llamada desensibilización)
Terapia de exposición gradual (también llamada desensibilización sistemática )
Habituación
Jerzy Konorski
Laboriosidad aprendida
Ley de correspondencia
Efecto de contraste negativo (positivo)
Conductismo radical (teoría conceptual del análisis del comportamiento que amplía el conductismo para abarcar también los eventos privados (pensamientos y sentimientos) como formas de comportamiento)
Reforzamiento
Transferencia pavloviana-instrumental
Pruebas de preferencia (animales)
Principio de Premack
Sensibilización
Condicionamiento social
Sociedad para el Análisis Cuantitativo del Comportamiento
Recuperación espontánea

Referencias

^ Jenkins, HM "Teoría del aprendizaje y la conducta animal", cap. 5 en Hearst, E. "El primer siglo de la psicología experimental", Hillsdale, NJ, Earlbaum, 1979
^ Tarantola, Tor; Kumaran, Dharshan; Dayan, Peters; De Martino, Benedetto (10 de octubre de 2017). "Las preferencias previas influyen de forma beneficiosa en el aprendizaje social y no social". Nature Communications . 8 (1): 817. Bibcode :2017NatCo...8..817T. doi : 10.1038/s41467-017-00826-8 . ISSN 2041-1723. PMC 5635122 . PMID 29018195.
^ ab Thorndike, EL (1901). "Inteligencia animal: un estudio experimental de los procesos asociativos en animales". Suplemento monográfico de Psychological Review . 2 : 1–109.
^ Miltenberger, RG "Modificación de la conducta: principios y procedimientos". Thomson/Wadsworth , 2008. pág. 9.
^ Miltenberger, RG y Crosland, KA (2014). Crianza. Manual de Wiley-Blackwell sobre condicionamiento operante y clásico. (págs. 509-531) Wiley-Blackwell. doi :10.1002/9781118468135.ch20
^ Skinner, BF (1938). El comportamiento de los organismos: un análisis experimental. Nueva York: Appleton-Century-Crofts.
^ Skinner, BF (1950). "¿Son necesarias las teorías del aprendizaje?". Psychological Review . 57 (4): 193–216. doi :10.1037/h0054367. PMID 15440996. S2CID 17811847.
^ Schacter, Daniel L., Daniel T. Gilbert y Daniel M. Wegner. "BF Skinner: El papel del refuerzo y el castigo", subsección en: Psicología; Segunda edición. Nueva York: Worth, Incorporated, 2011, 278–288.
^ ab Ferster, CB y Skinner, BF "Programas de refuerzo", 1957 Nueva York: Appleton-Century-Crofts
^ Staddon, JE R; D. T Cerutti (febrero de 2003). "Condicionamiento operante". Revista Anual de Psicología . 54 (1): 115–144. doi :10.1146/annurev.psych.54.101601.145124. PMC 1473025 . PMID 12415075.
^ Mecca Chiesa (2004) Conductismo radical: la filosofía y la ciencia
^ Skinner, BF "Ciencia y comportamiento humano", 1953. Nueva York: MacMillan
^ Skinner, BF (1948). Walden Two. Indianápolis: Hackett
^ Skinner, BF "Comportamiento verbal", 1957. Nueva York: Appleton-Century-Crofts
^ Neuringer, A (2002). "Variabilidad operante: evidencia, funciones y teoría". Psychonomic Bulletin & Review . 9 (4): 672–705. doi : 10.3758/bf03196324 . PMID 12613672.
^ Skinner, BF (2014). Science and Human Behavior (PDF) . Cambridge, MA: The BF Skinner Foundation. pág. 70. Consultado el 13 de marzo de 2019 .
^ Schultz W (2015). "Señales neuronales de recompensa y decisión: de las teorías a los datos". Physiological Reviews . 95 (3): 853–951. doi :10.1152/physrev.00023.2014. PMC 4491543 . PMID 26109341. Las recompensas en el condicionamiento operante son reforzadores positivos. ... El comportamiento operante da una buena definición de recompensas. Cualquier cosa que haga que un individuo vuelva por más es un reforzador positivo y, por lo tanto, una recompensa. Aunque proporciona una buena definición, el refuerzo positivo es solo una de varias funciones de recompensa. ... Las recompensas son atractivas. Son motivadoras y nos hacen realizar un esfuerzo. ... Las recompensas inducen un comportamiento de aproximación, también llamado comportamiento apetitivo o preparatorio, y comportamiento consumatorio. ... Por lo tanto, cualquier estímulo, objeto, evento, actividad o situación que tenga el potencial de hacer que nos acerquemos a él y lo consumamos es, por definición, una recompensa.
^ Schacter et al. 2011 Psicología 2.ª ed. págs. 280-284 Referencia para la sección completa Principios versión 130317
^ ab Miltenberger, RG "Modificación de la conducta: principios y procedimientos". Thomson/Wadsworth , 2008. pág. 84.
^ Miltenberger, RG "Modificación de la conducta: principios y procedimientos". Thomson/Wadsworth , 2008. pág. 86.
^ Tucker, M.; Sigafoos, J.; Bushell, H. (1998). "Uso de refuerzo no contingente en el tratamiento de la conducta desafiante". Modificación de la conducta . 22 (4): 529–547. doi :10.1177/01454455980224005. PMID 9755650. S2CID 21542125.
^ Poling, A.; Normand, M. (1999). "Refuerzo no contingente: una descripción inapropiada de programas basados en el tiempo que reducen la conducta". Journal of Applied Behavior Analysis . 32 (2): 237–238. doi :10.1901/jaba.1999.32-237. PMC 1284187 .
^ abc Pierce y Cheney (2004) Análisis del comportamiento y aprendizaje
^ Cole, MR (1990). "Acaparamiento operante: un nuevo paradigma para el estudio del autocontrol". Revista del análisis experimental del comportamiento . 53 (2): 247–262. doi :10.1901/jeab.1990.53-247. PMC 1323010 . PMID 2324665.
^ "Actividad de las neuronas pálidas durante el movimiento", MR DeLong, J. Neurophysiol. , 34:414–27, 1971
^ ab Richardson RT, DeLong MR (1991): Estudios electrofisiológicos de la función del núcleo basal en primates. En Napier TC, Kalivas P, Hamin I (eds), El prosencéfalo basal: de la anatomía a la función ( Avances en medicina experimental y biología ), vol. 295. Nueva York, Plenum, págs. 232-252
^ PNAS 93:11219-24 1996, Ciencia 279:1714–8 1998
^ Neuron 63:244–253, 2009, Frontiers in Behavioral Neuroscience, 3: Artículo 13, 2009
^ Michael J. Frank, Lauren C. Seeberger y Randall C. O'Reilly (2004) "Con la zanahoria o con el palo: aprendizaje cognitivo por refuerzo en el parkinsonismo", Science 4, noviembre de 2004
^ Schultz, Wolfram (1998). "Señal de recompensa predictiva de las neuronas dopaminérgicas". Revista de neurofisiología . 80 (1): 1–27. doi : 10.1152/jn.1998.80.1.1 . PMID 9658025. S2CID 52857162.
^ Timberlake, W (1983). "Respuestas de las ratas a un objeto en movimiento relacionado con la comida o el agua: un análisis de sistemas de comportamiento". Aprendizaje y comportamiento animal . 11 (3): 309–320. doi : 10.3758/bf03199781 .
^ Neuringer, AJ (1969). "Los animales responden a la comida en presencia de comida gratuita". Science . 166 (3903): 399–401. Bibcode :1969Sci...166..399N. doi :10.1126/science.166.3903.399. PMID 5812041. S2CID 35969740.
^ Williams, DR; Williams, H. (1969). "Automantenimiento en la paloma: picoteo sostenido a pesar de la falta de refuerzo contingente". Journal of the Experimental Analysis of Behavior . 12 (4): 511–520. doi :10.1901/jeab.1969.12-511. PMC 1338642 . PMID 16811370.
^ Peden, BF; Brown, MP; Hearst, E. (1977). "Aproximaciones persistentes a una señal de comida a pesar de la omisión de comida para acercarse". Revista de psicología experimental: procesos de comportamiento animal . 3 (4): 377–399. doi :10.1037/0097-7403.3.4.377.
^ Gardner, RA; Gardner, BT (1988). "Feedforward vs feedbackward: Una alternativa etológica a la ley del efecto". Ciencias del comportamiento y del cerebro . 11 (3): 429–447. doi :10.1017/s0140525x00058258. S2CID 143876403.
^ Gardner, RA y Gardner BT (1998) La estructura del aprendizaje a partir de estímulos de signos en el lenguaje de signos. Mahwah NJ: Lawrence Erlbaum Associates.
^ Baum, WM (2012). "Replanteando el refuerzo: asignación, inducción y contingencia". Revista del análisis experimental del comportamiento . 97 (1): 101–124. doi :10.1901/jeab.2012.97-101. PMC 3266735 . PMID 22287807.
^ Locurto, CM, Terrace, HS y Gibbon, J. (1981) Teoría del automodelado y el condicionamiento. Nueva York: Academic Press.
^ abcd Edwards S (2016). "Principios de refuerzo para la medicina de las adicciones; desde el uso recreativo de drogas hasta el trastorno psiquiátrico". Neurociencia para la medicina de las adicciones: de la prevención a la rehabilitación: constructos y fármacos . Avances en la investigación del cerebro. Vol. 223. págs. 63–76. doi :10.1016/bs.pbr.2015.07.005. ISBN 9780444635457. PMID 26806771. Las sustancias de abuso (que van desde el alcohol hasta los psicoestimulantes) se ingieren inicialmente en ocasiones regulares de acuerdo con sus propiedades de refuerzo positivas. Es importante destacar que la exposición repetida a sustancias gratificantes desencadena una cadena de eventos de refuerzo secundarios, por lo que las señales y los contextos asociados con el consumo de drogas pueden volverse ellos mismos reforzantes y, por lo tanto, contribuir al uso continuo y posible abuso de la(s) sustancia(s) de elección. ...
Una dimensión importante del refuerzo altamente relevante para el proceso de adicción (y particularmente la recaída) es el refuerzo secundario (Stewart, 1992). Los reforzadores secundarios (en muchos casos también considerados reforzadores condicionados) probablemente impulsan la mayoría de los procesos de refuerzo en humanos. En el caso específico de la adicción a las drogas, las señales y los contextos que se asocian íntima y repetidamente con el consumo de drogas a menudo se vuelven ellos mismos reforzantes... Una parte fundamental de la teoría de la sensibilización a los incentivos de la adicción de Robinson y Berridge postula que el valor de incentivo o la naturaleza atractiva de dichos procesos de refuerzo secundario, además de los propios reforzadores primarios, pueden persistir e incluso sensibilizarse con el tiempo en connivencia con el desarrollo de la adicción a las drogas (Robinson y Berridge, 1993). ...
El refuerzo negativo es una condición especial asociada con un fortalecimiento de las respuestas conductuales que terminan algún estímulo en curso (presumiblemente aversivo). En este caso, podemos definir un reforzador negativo como un estímulo motivacional que fortalece dicha respuesta de "escape". Históricamente, en relación con la adicción a las drogas, este fenómeno se ha observado sistemáticamente en humanos mediante la autoadministración de drogas de abuso para saciar una necesidad motivacional en el estado de abstinencia (Wikler, 1952). {{cite book}}: |journal=ignorado ( ayuda )
^ abc Berridge KC (abril de 2012). "Del error de predicción a la prominencia de incentivos: cálculo mesolímbico de la motivación de recompensa". Eur. J. Neurosci . 35 (7): 1124–1143. doi :10.1111/j.1460-9568.2012.07990.x. PMC 3325516 . PMID 22487042. Cuando a un EC+ pavloviano se le atribuye prominencia de incentivos, no solo desencadena el "deseo" de su ECS, sino que a menudo la señal en sí misma se vuelve muy atractiva, incluso en un grado irracional. Esta atracción de señales es otra característica distintiva de la prominencia de incentivos. Se vuelve difícil no mirar al EC (Wiers y Stacy, 2006; Hickey et al., 2010a; Piech et al., 2010; Anderson et al., 2011). El EC incluso adquiere algunas propiedades de incentivo similares a su ECU. Un EC atractivo a menudo provoca un acercamiento motivado por la conducta y, a veces, un individuo puede incluso intentar "consumir" el EC de alguna manera como su ECU (por ejemplo, comer, beber, fumar, tener relaciones sexuales con él, tomarlo como droga). "Querer" un EC también puede convertir el estímulo anteriormente neutral en un reforzador condicionado instrumental, de modo que un individuo trabajará para obtener la señal (sin embargo, también existen mecanismos psicológicos alternativos para el refuerzo condicionado).
^ abc Berridge KC, Kringelbach ML (mayo de 2015). "Sistemas de placer en el cerebro". Neuron . 86 (3): 646–664. doi :10.1016/j.neuron.2015.02.018. PMC 4425246 . PMID 25950633. Un objetivo importante en el futuro para la neurociencia de la adicción es comprender cómo la motivación intensa se enfoca estrechamente en un objetivo en particular. Se ha sugerido que la adicción se debe en parte a la excesiva prominencia de incentivos producida por sistemas de dopamina sensibilizados o hiperreactivos que producen un "deseo" intenso (Robinson y Berridge, 1993). Pero no se ha explicado por completo por qué un objetivo se vuelve más "deseado" que todos los demás. En los pacientes adictos o estimulados con agonistas, la repetición de la estimulación dopaminérgica de la prominencia del incentivo se atribuye a actividades individualizadas particulares, como tomar la droga adictiva o las compulsiones particulares. En las situaciones de recompensa pavloviana, algunas señales de recompensa se vuelven más "deseadas" que otras como poderosos imanes motivacionales, de maneras que difieren entre individuos (Robinson et al., 2014b; Saunders y Robinson, 2013). ... Sin embargo, los efectos hedónicos bien podrían cambiar con el tiempo. A medida que se toma una droga repetidamente, la sensibilización dopaminérgica mesolímbica podría ocurrir en consecuencia en individuos susceptibles para amplificar el "deseo" (Leyton y Vezina, 2013; Lodge y Grace, 2011; Wolf y Ferrario, 2010), incluso si los mecanismos hedónicos opioides sufrieran una regulación negativa debido a la estimulación continua de la droga, produciendo tolerancia al "gusto". La sensibilización a los incentivos produciría adicción al magnificar selectivamente el "deseo" desencadenado por las señales de volver a tomar la droga, y así provocaría una motivación poderosa incluso si la droga se volviera menos placentera (Robinson y Berridge, 1993).
^ McGreevy, P y Boakes, R."Palos y zanahorias: principios del adiestramiento animal". (Sydney: "Sydney University Press", 2011)
^ Dillenburger, K.; Keenan, M. (2009). "Ninguna de las A en ABA representa autismo: disipando los mitos". J Intellect Dev Disabil . 34 (2): 193–95. doi :10.1080/13668250902845244. PMID 19404840. S2CID 1818966.
^ DeVries, JE; Burnette, MM; Redmon, WK (1991). "Prevención del SIDA: Mejorar el cumplimiento del uso de guantes por parte de las enfermeras mediante retroalimentación del desempeño". Journal of Applied Behavior Analysis . 24 (4): 705–11. doi :10.1901/jaba.1991.24-705. PMC 1279627 . PMID 1797773.
^ Brothers, KJ; Krantz, PJ; McClannahan, LE (1994). "Reciclaje de papel de oficina: una función de la proximidad del contenedor". Journal of Applied Behavior Analysis . 27 (1): 153–60. doi :10.1901/jaba.1994.27-153. PMC 1297784 . PMID 16795821.
^ Dardig, Jill C.; Heward, William L.; Heron, Timothy E.; Nancy A. Neef; Peterson, Stephanie; Diane M. Sainato; Cartledge, Gwendolyn; Gardner, Ralph; Peterson, Lloyd R.; Susan B. Hersh (2005). Enfoque en el análisis del comportamiento en la educación: logros, desafíos y oportunidades . Upper Saddle River, NJ: Pearson/Merrill/Prentice Hall. ISBN 978-0-13-111339-8.
^ Gallagher, SM; Keenan M. (2000). "Uso independiente de materiales de actividad por parte de personas mayores en un entorno residencial". Journal of Applied Behavior Analysis . 33 (3): 325–28. doi :10.1901/jaba.2000.33-325. PMC 1284256 . PMID 11051575.
^ De Luca, RV; Holborn, SW (1992). "Efectos de un programa de refuerzo de proporción variable con criterios cambiantes sobre el ejercicio en niños obesos y no obesos". Journal of Applied Behavior Analysis . 25 (3): 671–79. doi :10.1901/jaba.1992.25-671. PMC 1279749 . PMID 1429319.
^ Fox, DK; Hopkins, BL; Anger, WK (1987). "Los efectos a largo plazo de una economía de fichas en el desempeño de seguridad en la minería a cielo abierto". Journal of Applied Behavior Analysis . 20 (3): 215–24. doi :10.1901/jaba.1987.20-215. PMC 1286011 . PMID 3667473.
^ Drasgow, E.; Halle, JW; Ostrosky, MM (1998). "Efectos del reforzamiento diferencial en la generalización de un mando de reemplazo en tres niños con retrasos graves del lenguaje". Journal of Applied Behavior Analysis . 31 (3): 357–74. doi :10.1901/jaba.1998.31-357. PMC 1284128 . PMID 9757580.
^ Powers, RB; Osborne, JG; Anderson, EG (1973). "Refuerzo positivo de la eliminación de basura en el entorno natural". Journal of Applied Behavior Analysis . 6 (4): 579–86. doi :10.1901/jaba.1973.6-579. PMC 1310876 . PMID 16795442.
^ Hagopian, LP; Thompson, RH (1999). "Refuerzo del cumplimiento del tratamiento respiratorio en un niño con fibrosis quística". Journal of Applied Behavior Analysis . 32 (2): 233–36. doi :10.1901/jaba.1999.32-233. PMC 1284184 . PMID 10396778.
^ Kuhn, SAC; Lerman, DC; Vorndran, CM (2003). "Entrenamiento piramidal para familias de niños con problemas de conducta". Journal of Applied Behavior Analysis . 36 (1): 77–88. doi :10.1901/jaba.2003.36-77. PMC 1284418 . PMID 12723868.
^ Van Houten, R.; Malenfant, JEL; Austin, J.; Lebbon, A. (2005). Vollmer, Timothy (ed.). "Los efectos de un aviso de retraso en el cambio de marchas del cinturón de seguridad en el uso del cinturón de seguridad por parte de los conductores que no lo usan regularmente". Journal of Applied Behavior Analysis . 38 (2): 195–203. doi :10.1901/jaba.2005.48-04. PMC 1226155 . PMID 16033166.
^ Wong, SE; Martinez-Diaz, JA; Massel, HK; Edelstein, BA; Wiegand, W.; Bowen, L.; Liberman, RP (1993). "Entrenamiento de habilidades conversacionales con pacientes hospitalizados con esquizofrenia: un estudio de generalización en diferentes entornos y participantes". Terapia de conducta . 24 (2): 285–304. doi :10.1016/S0005-7894(05)80270-9.
^ Brobst, B.; Ward, P. (2002). "Efectos de la publicación en público, el establecimiento de objetivos y la retroalimentación oral en las habilidades de las jugadoras de fútbol". Journal of Applied Behavior Analysis . 35 (3): 247–57. doi :10.1901/jaba.2002.35-247. PMC 1284383 . PMID 12365738.
^ Forthman, DL; Ogden, JJ (1992). "El papel del análisis de comportamiento aplicado en la gestión de zoológicos: hoy y mañana". Revista de análisis de comportamiento aplicado . 25 (3): 647–52. doi :10.1901/jaba.1992.25-647. PMC 1279745 . PMID 16795790.
^ ab Kazdin AE (2010). Capacitación en habilidades de resolución de problemas y capacitación para padres en el manejo del trastorno negativista desafiante y el trastorno de conducta. Psicoterapias basadas en evidencia para niños y adolescentes (2.ª ed.), 211–226. Nueva York: Guilford Press.
^ Forgatch MS, Patterson GR (2010). Capacitación para padres en el manejo de la conducta: modelo de Oregón: una intervención para la conducta antisocial en niños y adolescentes. Psicoterapias basadas en evidencia para niños y adolescentes (2.ª ed.), 159–78. Nueva York: Guilford Press.
^ Domjan, M. (2009). Los principios del aprendizaje y la conducta. Wadsworth Publishing Company. Sexta edición. Páginas 244–249.
^ Bleda, Miguel Ángel Pérez; Nieto, José Héctor Lozano (2012). "Impulsividad, inteligencia y contingencias de reforzamiento discriminantes en un esquema de razón fija 3". Revista Española de Psicología . 3 (15): 922–929. doi :10.5209/rev_SJOP.2012.v15.n3.39384. PMID 23156902. S2CID 144193503. ProQuest 1439791203.
^ abcd Grossman, Dave (1995). Sobre matar: el costo psicológico de aprender a matar en la guerra y en la sociedad . Boston: Little Brown. ISBN 978-0316040938.
^ Marshall, SLA (1947). Hombres contra el fuego: el problema del mando de batalla en la guerra futura . Washington: Infantry Journal. ISBN 978-0-8061-3280-8.
^ ab Murray KA, Grossman D, Kentridge RW (21 de octubre de 2018). "Psicología del comportamiento". killology.com/behavioral-psychology .
^ Kazdin, Alan (1978). Historia de la modificación de la conducta: fundamentos experimentales de la investigación contemporánea . Baltimore: University Park Press. ISBN 9780839112051.
^ Strain, Phillip S.; Lambert, Deborah L.; Kerr, Mary Margaret; Stagg, Vaughan; Lenkner, Donna A. (1983). "Evaluación naturalista del cumplimiento de los niños ante las solicitudes de los maestros y las consecuencias del cumplimiento". Journal of Applied Behavior Analysis . 16 (2): 243–249. doi :10.1901/jaba.1983.16-243. PMC 1307879 . PMID 16795665.
^ ab Garland, Ann F.; Hawley, Kristin M.; Brookman-Frazee, Lauren; Hurlburt, Michael S. (mayo de 2008). "Identificación de elementos comunes de tratamientos psicosociales basados en evidencia para problemas de conducta disruptiva en niños". Revista de la Academia Estadounidense de Psiquiatría Infantil y Adolescente . 47 (5): 505–514. doi :10.1097/CHI.0b013e31816765c2. PMID 18356768.
^ Crowell, Charles R.; Anderson, D. Chris; Abel, Dawn M.; Sergio, Joseph P. (1988). "Aclaración de tareas, retroalimentación del desempeño y elogio social: procedimientos para mejorar el servicio al cliente de los cajeros bancarios". Journal of Applied Behavior Analysis . 21 (1): 65–71. doi :10.1901/jaba.1988.21-65. PMC 1286094 . PMID 16795713.
^ Kazdin, Alan E. (1973). "El efecto del refuerzo vicario en la conducta atenta en el aula". Journal of Applied Behavior Analysis . 6 (1): 71–78. doi :10.1901/jaba.1973.6-71. PMC 1310808 . PMID 16795397.
^ Brophy, Jere (1981). "Sobre elogios eficaces". The Elementary School Journal . 81 (5): 269–278. doi :10.1086/461229. JSTOR 1001606. S2CID 144444174.
^ ab Simonsen, Brandi; Fairbanks, Sarah; Briesch, Amy; Myers, Diane; Sugai, George (2008). "Prácticas basadas en evidencia en la gestión del aula: consideraciones para la investigación y la práctica". Educación y tratamiento de niños . 31 (1): 351–380. doi :10.1353/etc.0.0007. S2CID 145087451.
^ Weisz, John R.; Kazdin, Alan E. (2010). Psicoterapias basadas en evidencia para niños y adolescentes . Guilford Press.
^ John Hopson: Diseño de juegos conductuales, Gamasutra , 27 de abril de 2001
^ Hood, Vic (12 de octubre de 2017). «¿Son las cajas de botín un juego de azar?». Eurogamer . Consultado el 12 de octubre de 2017 .
^ Condicionamiento operante y la práctica de la medicina defensiva. Vikram C. Prabhu World Neurosurgery, 1 de julio de 2016, volumen 91, páginas 603-605

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Condicionamiento operante .

Busque operante en Wikcionario, el diccionario libre.

Recursos de la biblioteca sobre
el condicionamiento operante

Recursos en tu biblioteca
Recursos en otras bibliotecas

Artículo sobre condicionamiento operante en Scholarpedia
Revista de análisis de conducta aplicado
Revista de análisis experimental del comportamiento
Refuerzo negativo
scienceofbehavior.com Archivado el 2 de octubre de 2011 en Wayback Machine.