Reforzamiento

En psicología conductual , el refuerzo se refiere a las consecuencias que aumentan la probabilidad de la conducta futura de un organismo, típicamente en presencia de un estímulo antecedente particular . ^[1] Por ejemplo, una rata puede ser entrenada para empujar una palanca para recibir comida cada vez que se enciende una luz. En este ejemplo, la luz es el estímulo antecedente, empujar la palanca es la conducta operante y la comida es el reforzador. Del mismo modo, un estudiante que recibe atención y elogios al responder la pregunta de un maestro tendrá más probabilidades de responder futuras preguntas en clase. La pregunta del maestro es el antecedente, la respuesta del estudiante es la conducta y los elogios y la atención son los refuerzos.

Las consecuencias que conducen a una conducta apetitiva, como el "querer" y el "gustar" subjetivos (deseo y placer), funcionan como recompensas o como refuerzo positivo . ^[2] También existe el refuerzo negativo , que consiste en retirar un estímulo indeseable. Un ejemplo de refuerzo negativo sería tomar una aspirina para aliviar un dolor de cabeza.

El refuerzo es un componente importante del condicionamiento operante y la modificación de la conducta . El concepto se ha aplicado en diversas áreas prácticas, entre ellas la crianza, el coaching, la terapia, la autoayuda, la educación y la gestión.

Terminología

En las ciencias del comportamiento, los términos "positivo" y "negativo" se refieren, cuando se utilizan en su sentido técnico estricto, a la naturaleza de la acción realizada por el condicionante, más que a la evaluación que el operante respondedor hace de esa acción y de sus consecuencias. Las acciones "positivas" son aquellas que añaden un factor, ya sea agradable o desagradable, al entorno, mientras que las acciones "negativas" son aquellas que eliminan o retienen del entorno un factor de cualquier tipo. A su vez, el sentido estricto de "refuerzo" se refiere únicamente al condicionamiento basado en la recompensa; la introducción de factores desagradables y la eliminación o retención de factores agradables se denominan, en cambio, "castigo", que, cuando se utiliza en su sentido estricto, se contrapone al "refuerzo". Así, "refuerzo positivo" se refiere a la adición de un factor agradable, "castigo positivo" se refiere a la adición de un factor desagradable, "refuerzo negativo" se refiere a la eliminación o retención de un factor desagradable, y "castigo negativo" se refiere a la eliminación o retención de un factor agradable.

Este uso está en desacuerdo con algunos usos no técnicos de las cuatro combinaciones de términos, especialmente en el caso del término "refuerzo negativo", que a menudo se utiliza para denotar lo que el lenguaje técnico describiría como "castigo positivo" en el sentido de que el uso no técnico interpreta "refuerzo" como subsumiendo tanto la recompensa como el castigo y "negativo" como refiriéndose a la evaluación del factor introducido por parte del operante que responde. Por el contrario, el lenguaje técnico utilizaría el término "refuerzo negativo" para describir el estímulo de una conducta dada mediante la creación de un escenario en el que un factor desagradable está o estará presente pero la participación en la conducta da como resultado escapar de ese factor o prevenir su ocurrencia, como en el experimento de Martin Seligman sobre perros que aprenden a evitar descargas eléctricas .

Introducción

BF Skinner fue un investigador conocido e influyente que articuló muchos de los constructos teóricos del refuerzo y el conductismo . Skinner definió los reforzadores según el cambio en la fuerza de la respuesta (tasa de respuesta) en lugar de criterios más subjetivos, como lo que es placentero o valioso para alguien. En consecuencia, las actividades, alimentos o elementos considerados agradables o placenteros pueden no ser necesariamente reforzantes (porque no producen ningún aumento en la respuesta que los precede). Los estímulos, entornos y actividades solo se ajustan a la definición de reforzadores si el comportamiento que precede inmediatamente al reforzador potencial aumenta en situaciones similares en el futuro; por ejemplo, un niño que recibe una galleta cuando la pide. Si la frecuencia del "comportamiento de solicitud de galletas" aumenta, la galleta puede verse como reforzante del "comportamiento de solicitud de galletas". Sin embargo, si el "comportamiento de solicitud de galletas" no aumenta, la galleta no puede considerarse reforzante.

El único criterio que determina si un estímulo es reforzante es el cambio en la probabilidad de una conducta después de la administración de ese reforzador potencial. Otras teorías pueden centrarse en factores adicionales, como si la persona esperaba que una conducta produjera un resultado determinado, pero en la teoría conductual, el refuerzo se define por una mayor probabilidad de una respuesta.

El estudio del refuerzo ha producido una enorme cantidad de resultados experimentales reproducibles . El refuerzo es el concepto y el procedimiento central en la educación especial , el análisis conductual aplicado y el análisis experimental del comportamiento , y es un concepto central en algunos modelos médicos y psicofarmacológicos , en particular la adicción , la dependencia y la compulsión .

Historia

La investigación de laboratorio sobre el refuerzo suele datar del trabajo de Edward Thorndike , conocido por sus experimentos con gatos que escapaban de cajas de rompecabezas. ^[6] Varios otros continuaron esta investigación, en particular BF Skinner, quien publicó su obra seminal sobre el tema en The Behavior of Organisms , en 1938, y elaboró esta investigación en muchas publicaciones posteriores. ^[7] Cabe destacar que Skinner argumentó que el refuerzo positivo es superior al castigo en la formación del comportamiento. ^[8] Aunque el castigo puede parecer justo lo opuesto al refuerzo, Skinner afirmó que difieren enormemente, diciendo que el refuerzo positivo da como resultado una modificación duradera del comportamiento (a largo plazo), mientras que el castigo cambia el comportamiento solo temporalmente (a corto plazo) y tiene muchos efectos secundarios perjudiciales.

Posteriormente, muchos investigadores ampliaron nuestra comprensión del refuerzo y cuestionaron algunas de las conclusiones de Skinner. Por ejemplo, Azrin y Holz definieron el castigo como una “consecuencia de la conducta que reduce la probabilidad futura de esa conducta” ^[9] y algunos estudios han demostrado que el refuerzo positivo y el castigo son igualmente eficaces para modificar la conducta. ^{[ cita requerida ]} La investigación sobre los efectos del refuerzo positivo, el refuerzo negativo y el castigo continúa hoy en día, ya que esos conceptos son fundamentales para la teoría del aprendizaje y se aplican a muchas aplicaciones prácticas de esa teoría.

Condicionamiento operante

El término condicionamiento operante fue introducido por Skinner para indicar que, en su paradigma experimental, el organismo es libre de actuar sobre el entorno. En este paradigma, el experimentador no puede desencadenar la respuesta deseada; el experimentador espera a que se produzca la respuesta (que sea emitida por el organismo) y luego se entrega un reforzador potencial. En el paradigma del condicionamiento clásico , el experimentador desencadena (evoca) la respuesta deseada presentando un estímulo reflejo que provoca, el estímulo incondicional (ECI), que se empareja (precede) con un estímulo neutro, el estímulo condicional (EC).

El refuerzo es un término básico en el condicionamiento operante. Para el aspecto de castigo del condicionamiento operante, véase castigo (psicología) .

Refuerzo positivo

El refuerzo positivo ocurre cuando se presenta un evento o estímulo deseable como consecuencia de una conducta y aumenta la probabilidad de que esta conducta se manifieste en entornos similares. ^[10]^{: 253}

El tratamiento de instrucción de alta probabilidad (HPI) es un tratamiento conductista basado en la idea del refuerzo positivo.

Refuerzo negativo

El refuerzo negativo aumenta la probabilidad de que se produzca una conducta para evitar o escapar de una situación o estímulo aversivo . ^[10]^{: 253} Hacer algo desagradable a las personas para evitar o evitar que vuelva a ocurrir una conducta es un castigo , no un refuerzo negativo. La diferencia es que el refuerzo siempre aumenta la probabilidad de que se produzca una conducta, mientras que el castigo siempre la disminuye.

Extinción

La extinción se produce cuando se ignora una determinada conducta (es decir, se la sigue sin consecuencias), y desaparece con el tiempo si no se la refuerza continuamente. La conducta después de la extinción alcanza su punto máximo y luego declina con el tiempo. La extinción no tiene por qué ser deliberada para tener un efecto en la conducta de un sujeto.

Refuerzo versus castigo

Los reforzadores sirven para aumentar las conductas mientras que los castigadores sirven para disminuirlas; por lo tanto, los reforzadores positivos son estímulos que el sujeto trabajará para alcanzar, y los reforzadores negativos son estímulos que el sujeto trabajará para deshacerse de ellos o para terminar. ^[11] La siguiente tabla ilustra la adición y sustracción de estímulos (agradables o aversivos) en relación con el refuerzo frente al castigo.

Más ideas y conceptos

Distinguir entre refuerzo positivo y negativo puede resultar difícil y no siempre necesario. Puede resultar más útil centrarse en lo que se elimina o se añade y en cómo afecta al comportamiento.
Un evento que castiga el comportamiento de algunos puede reforzar el comportamiento de otros.
Algunos refuerzos pueden incluir características tanto positivas como negativas, como por ejemplo, un drogadicto que toma drogas para obtener una mayor euforia (refuerzo positivo) y también para eliminar los síntomas de abstinencia (refuerzo negativo).
En el mundo empresarial, el refuerzo es esencial para impulsar la productividad. Los empleados se sienten constantemente motivados por la posibilidad de recibir un estímulo positivo, como un ascenso o una bonificación. Los empleados también se ven motivados por el refuerzo negativo, como la eliminación de tareas desagradables.
Aunque el refuerzo negativo tiene un efecto positivo a corto plazo para un lugar de trabajo (es decir, fomenta una acción económicamente beneficiosa), la dependencia excesiva de un refuerzo negativo obstaculiza la capacidad de los trabajadores de actuar de forma creativa y comprometida, creando crecimiento a largo plazo. ^[12]

Reforzadores primarios y secundarios

Un reforzador primario , a veces llamado reforzador incondicionado , es un estímulo que no requiere emparejarse con un estímulo diferente para funcionar como reforzador y lo más probable es que haya obtenido esta función a través de la evolución y su papel en la supervivencia de las especies. ^[13] Los ejemplos de reforzadores primarios incluyen la comida, el agua y el sexo. Algunos reforzadores primarios, como ciertas drogas, pueden imitar los efectos de otros reforzadores primarios. Si bien estos reforzadores primarios son bastante estables a lo largo de la vida y entre individuos, el valor de refuerzo de diferentes reforzadores primarios varía debido a múltiples factores (por ejemplo, genética, experiencia). Por lo tanto, una persona puede preferir un tipo de alimento mientras que otra lo evita. O una persona puede comer mucha comida mientras que otra come muy poco. Entonces, aunque la comida es un reforzador primario para ambos individuos, el valor de la comida como reforzador difiere entre ellos.

Un reforzador secundario , a veces llamado reforzador condicionado , es un estímulo o situación que ha adquirido su función como reforzador tras emparejarse con un estímulo que funciona como reforzador. Este estímulo puede ser un reforzador primario u otro reforzador condicionado (como el dinero).

Para intentar distinguir entre reforzadores primarios y secundarios en ejemplos humanos, utilice la "prueba del hombre de las cavernas". Si el estímulo es algo que un hombre de las cavernas encontraría naturalmente deseable (por ejemplo, un caramelo), entonces es un reforzador primario. Si, por otro lado, el hombre de las cavernas no reaccionaría ante él (por ejemplo, un billete de dólar), es un reforzador secundario. Al igual que con los reforzadores primarios, un organismo puede experimentar satisfacción y privación con reforzadores secundarios.

Otros términos de refuerzo

Un reforzador generalizado es un reforzador condicionado que ha obtenido la función de refuerzo al emparejarse con muchos otros reforzadores y funciona como reforzador bajo una amplia variedad de operaciones motivadoras . (Un ejemplo de esto es el dinero porque se empareja con muchos otros reforzadores). ^[14]^{: 83}
En el muestreo de reforzadores, se presenta a un organismo un estímulo potencialmente reforzador pero desconocido sin tener en cuenta ningún comportamiento previo.
El refuerzo mediado socialmente implica la entrega de un refuerzo que requiere la conducta de otro organismo. Por ejemplo, otra persona proporciona el refuerzo.
El principio de Premack es un caso especial de refuerzo elaborado por David Premack , que establece que una actividad altamente preferida puede utilizarse eficazmente como reforzador de una actividad menos preferida. ^[14]^{: 123}
La jerarquía de refuerzo es una lista de acciones que ordena las consecuencias más deseables a las menos deseables que pueden servir como reforzador. Una jerarquía de refuerzo se puede utilizar para determinar la frecuencia relativa y la conveniencia de diferentes actividades, y se emplea a menudo al aplicar el principio de Premack. ^{[ cita requerida ]}
Los resultados contingentes tienen más probabilidades de reforzar la conducta que las respuestas no contingentes. Los resultados contingentes son aquellos directamente vinculados a una conducta causal , como que la luz se encienda si se activa un interruptor. Cabe señalar que los resultados contingentes no son necesarios para demostrar el refuerzo, pero la contingencia percibida puede aumentar el aprendizaje.
Los estímulos contiguos son estímulos estrechamente asociados en el tiempo y el espacio con conductas específicas. Reducen la cantidad de tiempo necesario para aprender una conducta y, al mismo tiempo, aumentan su resistencia a la extinción . ^{[ cita requerida ]} Darle un trozo de comida a un perro inmediatamente después de sentarse es más contiguo a la conducta (y, por lo tanto, es más probable que la refuerce) que una demora de varios minutos en la entrega de la comida después de la conducta.
El refuerzo no contingente se refiere a la entrega independiente de la respuesta de estímulos identificados como reforzadores para algunas conductas de ese organismo. Sin embargo, esto generalmente implica la entrega en función del tiempo de estímulos identificados como el mantenimiento de la conducta aberrante, lo que disminuye la tasa de la conducta objetivo. ^[15] Como no se identifica ninguna conducta medida como fortalecida, existe controversia en torno al uso del término "refuerzo" no contingente. ^[16]

Refuerzo natural y artificial

En su artículo de 1967, Refuerzo arbitrario y natural , Charles Ferster propuso clasificar el refuerzo en eventos que aumentan la frecuencia de una conducta operante como consecuencia natural de la conducta misma, y eventos que afectan la frecuencia por su requerimiento de mediación humana, como en una economía de fichas donde los sujetos son recompensados por cierta conducta por el terapeuta.

En 1970, Baer y Wolf desarrollaron el concepto de "trampas conductuales". ^[17] Una trampa conductual requiere sólo una respuesta simple para entrar en ella, pero una vez que se entra, no se puede resistir a la trampa para crear un cambio general de conducta. Es el uso de una trampa conductual lo que aumenta el repertorio de una persona, al exponerla al refuerzo natural de esa conducta. Las trampas conductuales tienen cuatro características:

Están “cebados” con reforzadores deseables que “atraen” al estudiante a la trampa.
Sólo es necesaria una respuesta de bajo esfuerzo ya presente en el repertorio para entrar en la trampa.
Las contingencias interrelacionadas de refuerzo dentro de la trampa motivan a la persona a adquirir, ampliar y mantener habilidades específicas. ^[18]
Pueden seguir siendo eficaces durante largos periodos de tiempo porque la persona muestra pocos o ningún efecto de saciedad.

Por lo tanto, el refuerzo artificial puede utilizarse para crear o desarrollar habilidades generalizables, y luego pasar a un refuerzo natural para mantener o aumentar la conducta. Otro ejemplo es una situación social que generalmente resultará de una conducta específica una vez que haya cumplido con un criterio determinado.

Programas de refuerzo intermitente

La conducta no siempre se refuerza cada vez que se emite, y el patrón de reforzamiento afecta en gran medida la velocidad con la que se aprende una respuesta operante, cuál es su ritmo en un momento determinado y cuánto tiempo continúa cuando cesa el reforzamiento. Las reglas más simples que controlan el reforzamiento son el reforzamiento continuo, en el que se refuerza cada respuesta, y la extinción, en la que no se refuerza ninguna respuesta. Entre estos extremos, existen programas de reforzamiento más complejos que especifican las reglas que determinan cómo y cuándo una respuesta será seguida por un reforzador.

Los programas específicos de refuerzo inducen de manera fiable patrones específicos de respuesta, y estas reglas se aplican en muchas especies diferentes. La consistencia y previsibilidad variables del refuerzo son una influencia importante en el funcionamiento de los diferentes programas. BF Skinner investigó en profundidad muchos programas simples y complejos utilizando palomas .

Horarios sencillos

Esquema de proporción : el refuerzo depende únicamente del número de respuestas que el organismo ha realizado.
Refuerzo continuo (CRF) : un programa de refuerzo en el que cada ocurrencia de la respuesta instrumental (respuesta deseada) es seguida por el reforzador. ^[14]^{: 86}

Los programas simples tienen una única regla para determinar cuándo se administra un único tipo de reforzador para una respuesta específica.

Relación fija (FR): los programas entregan refuerzo después de cada n- ésima respuesta. ^[14]^{: 88} Un programa FR 1 es sinónimo de un programa CRF.
Programa de proporción variable (VR): reforzado en promedio cada n- ésima respuesta, pero no siempre en la n- ésima respuesta. ^[14]^{: 88}
Intervalo fijo (FI): reforzado después de un período de tiempo n .
Intervalo variable (VI): reforzado en un promedio de n cantidad de tiempo, pero no siempre exactamente n cantidad de tiempo. ^[14]^{: 89}
Tiempo fijo (TF): proporciona un estímulo reforzante en un tiempo fijo desde la última aplicación del refuerzo, independientemente de si el sujeto ha respondido o no. En otras palabras, es un programa no contingente.
Tiempo variable (VT) – Proporciona refuerzo en un tiempo promedio variable desde el último refuerzo, independientemente de si el sujeto ha respondido o no.

^{En muchos procedimientos de reforzamiento diferencial [19]} se utilizan programas simples :

Refuerzo diferencial de conducta alternativa (DRA): procedimiento de condicionamiento en el que se reduce una respuesta no deseada extinguiéndola o , con menos frecuencia, proporcionando un castigo contingente, al mismo tiempo que se proporciona un refuerzo contingente a una respuesta deseable. Un ejemplo sería un profesor que sólo presta atención a un alumno cuando levanta la mano, mientras que lo ignora cuando lo llama.
Refuerzo diferencial de otras conductas (DR) – También conocido como procedimiento de entrenamiento por omisión, es un procedimiento de condicionamiento instrumental en el que se aplica periódicamente un reforzador positivo solo si el participante hace algo distinto a la respuesta objetivo. Un ejemplo sería reforzar cualquier acción manual que no sea hurgarse la nariz. ^[14]^{: 338}
Refuerzo diferencial de conductas incompatibles (DRI): se utiliza para reducir una conducta frecuente sin castigarla reforzando una respuesta incompatible. Un ejemplo sería reforzar los aplausos para reducir el hábito de hurgarse la nariz.
Refuerzo diferencial de baja tasa de respuesta (DRL): se utiliza para estimular tasas bajas de respuesta. Es como un programa de intervalos, excepto que las respuestas prematuras restablecen el tiempo necesario entre conductas.
Refuerzo diferencial de alta frecuencia (DRH): se utiliza para aumentar las altas frecuencias de respuesta. Es como un programa de intervalos, excepto que se requiere una cantidad mínima de respuestas en el intervalo para recibir el refuerzo.

Efectos de diferentes tipos de horarios simples

Proporción fija: la actividad disminuye después de que se entrega el reforzador, luego las tasas de respuesta aumentan hasta la siguiente entrega del reforzador (pausa posterior al refuerzo).
Relación variable: ritmo de respuesta rápido y constante; más resistente a la extinción .
Intervalo fijo: la respuesta aumenta hacia el final del intervalo; poca resistencia a la extinción.
Intervalo variable: resultados de actividad constante, buena resistencia a la extinción.
Los programas de proporción producen tasas de respuesta más altas que los programas de intervalo, cuando las tasas de refuerzo son similares.
Los programas variables producen tasas más altas y una mayor resistencia a la extinción que la mayoría de los programas fijos. Esto también se conoce como efecto de extinción por refuerzo parcial (PREE).
La escala de razón variable produce tanto la mayor tasa de respuesta como la mayor resistencia a la extinción (por ejemplo, el comportamiento de los jugadores en las máquinas tragamonedas ).
Los programas fijos producen "pausas post-refuerzo" (PRP), donde las respuestas cesarán brevemente inmediatamente después del refuerzo, aunque la pausa es una función del próximo requisito de respuesta en lugar del refuerzo previo. ^[20]
- El PRP de un programa de intervalo fijo con frecuencia es seguido por una tasa de respuesta de aceleración en "forma de vieira", mientras que los programas de relación fija producen una respuesta más "angular".
  - Vieira de intervalo fijo: patrón de respuesta que se desarrolla con un programa de refuerzo de intervalo fijo, el desempeño en un intervalo fijo refleja la precisión del sujeto al decir la hora.
Los organismos cuyos programas de reforzamiento se "reducen" (es decir, requieren más respuestas o un período de espera mayor antes del refuerzo) pueden experimentar una "tensión de proporción" si se reduce demasiado rápido. Esto produce un comportamiento similar al observado durante la extinción.
- Tensión de relación: la interrupción de la respuesta que ocurre cuando un requisito de respuesta de relación fija aumenta demasiado rápido.
- Ratio de ejecución: tasa de respuesta alta y constante que completa cada requisito de ratio. Por lo general, un requisito de ratio más alto hace que se produzcan pausas posteriores al refuerzo más prolongadas.
Los programas de reforzamiento parcial son más resistentes a la extinción que los programas de reforzamiento continuo.
- Los programas de razón son más resistentes que los de intervalo y los programas variables son más resistentes que los fijos.
- Los cambios momentáneos en el valor del refuerzo conducen a cambios dinámicos en el comportamiento. ^[21]

Programas compuestos

Los programas compuestos combinan de alguna manera dos o más programas simples diferentes utilizando el mismo reforzador para la misma conducta. Existen muchas posibilidades; entre las más utilizadas se encuentran:

'Programas alternativos' : un tipo de programa compuesto en el que están en vigor dos o más programas simples y el programa que se completa primero da como resultado el refuerzo. ^[22]
Programas conjuntivos : un programa complejo de reforzamiento en el que dos o más programas simples entran en vigor independientemente uno del otro y se deben cumplir los requisitos de todos los programas simples para el refuerzo.
Programas múltiples : dos o más programas se alternan a lo largo del tiempo y un estímulo indica cuál está en vigor. Se aplica un refuerzo si se cumple el requisito de respuesta mientras un programa está en vigor.
Programas mixtos : pueden darse dos o más programas sin que haya ningún estímulo que indique cuál está en vigor. Se aplica el refuerzo si se cumple el requisito de respuesta mientras un programa está en vigor.
Administrar dos programas de refuerzo al mismo tiempo
Programas concurrentes : procedimiento complejo de refuerzo en el que el participante puede elegir cualquiera de dos o más programas de refuerzo simples que están disponibles simultáneamente. Los organismos tienen la libertad de cambiar entre las alternativas de respuesta en cualquier momento.
Programa de reforzamiento en cadena concurrente : procedimiento complejo de reforzamiento en el que se permite al participante elegir durante el primer eslabón cuál de varios programas de reforzamiento simples estará en vigor en el segundo eslabón. Una vez que se ha hecho una elección, las alternativas rechazadas dejan de estar disponibles hasta el comienzo del siguiente ensayo.
Programas entrelazados : un programa único con dos componentes en el que el progreso en un componente afecta el progreso en el otro componente. En un programa entrelazado FR 60 FI 120-s, por ejemplo, cada respuesta resta tiempo del componente de intervalo de modo que cada respuesta es "igual" a quitar dos segundos del programa FI.
Programas encadenados : el refuerzo se produce después de que se han completado dos o más programas sucesivos, con un estímulo que indica cuándo se ha completado un programa y ha comenzado el siguiente.
Programas tándem : el refuerzo ocurre cuando se han completado dos o más requisitos sucesivos del programa, sin que haya ningún estímulo que indique cuándo se ha completado un programa y ha comenzado el siguiente.
Programas de orden superior : la finalización de un programa se refuerza de acuerdo con un segundo programa; por ejemplo, en FR2 (FI10 segundos), dos programas sucesivos de intervalo fijo requieren la finalización antes de que se refuerce una respuesta.

Horarios superpuestos

El término psicológico de programas superpuestos de refuerzo se refiere a una estructura de recompensas en la que dos o más programas simples de refuerzo operan simultáneamente. Los reforzadores pueden ser positivos, negativos o ambos. Un ejemplo es una persona que llega a casa después de un largo día de trabajo. La conducta de abrir la puerta principal es recompensada con un gran beso en los labios por parte de su cónyuge y un desgarre en los pantalones por parte del perro de la familia que salta con entusiasmo. Otro ejemplo de programas superpuestos de refuerzo es una paloma en una jaula experimental que picotea un botón. Los picos entregan una tolva de grano cada 20 picoteos y acceso al agua después de cada 200 picoteos.

Los programas superpuestos de refuerzo son un tipo de programa compuesto que evolucionó a partir del trabajo inicial sobre programas simples de refuerzo de BF Skinner y sus colegas (Skinner y Ferster, 1957). Demostraron que los reforzadores podían administrarse según horarios y, además, que los organismos se comportaban de manera diferente bajo distintos horarios. En lugar de que un reforzador, como comida o agua, se administrara cada vez como consecuencia de algún comportamiento, un reforzador podría administrarse después de más de una instancia del comportamiento. Por ejemplo, se puede pedir a una paloma que picotee un interruptor diez veces antes de que aparezca la comida. Este es un "programa de proporción". Además, un reforzador podría administrarse después de que transcurriera un intervalo de tiempo después de un comportamiento objetivo. Un ejemplo es una rata a la que se le da una bolita de comida inmediatamente después de la primera respuesta que se produce después de que hayan transcurrido dos minutos desde la última presión de la palanca. Esto se llama un "programa de intervalo".

Además, los programas de proporción pueden proporcionar refuerzos después de un número fijo o variable de conductas por parte del organismo individual. Del mismo modo, los programas de intervalos pueden proporcionar refuerzos después de intervalos de tiempo fijos o variables después de una única respuesta del organismo. Las conductas individuales tienden a generar tasas de respuesta que difieren en función de cómo se crea el programa de refuerzos. Muchas investigaciones posteriores en muchos laboratorios examinaron los efectos de la programación de reforzadores sobre las conductas.

Si a un organismo se le ofrece la oportunidad de elegir entre dos o más programas simples de refuerzo al mismo tiempo, la estructura de refuerzo se denomina "programa concurrente de refuerzo". Brechner (1974, 1977) introdujo el concepto de programas superpuestos de refuerzo en un intento de crear una analogía de laboratorio de las trampas sociales , como cuando los humanos sobreexplotan sus pesquerías o talan sus bosques tropicales. Brechner creó una situación en la que los programas de refuerzo simples se superponían entre sí. En otras palabras, una única respuesta o grupo de respuestas de un organismo conducía a múltiples consecuencias. Los programas concurrentes de refuerzo pueden considerarse programas "o", y los programas superpuestos de refuerzo pueden considerarse programas "y". Brechner y Linder (1981) y Brechner (1987) ampliaron el concepto para describir cómo los programas superpuestos y la analogía de la trampa social podrían usarse para analizar la forma en que la energía fluye a través de los sistemas .

Los programas superpuestos de refuerzo tienen muchas aplicaciones en el mundo real, además de generar trampas sociales . Se pueden crear muchas situaciones individuales y sociales humanas diferentes superponiendo programas de refuerzo simples. Por ejemplo, un ser humano podría tener adicciones simultáneas al tabaco y al alcohol. Se pueden crear o simular situaciones aún más complejas superponiendo dos o más programas concurrentes. Por ejemplo, un estudiante de último año de secundaria podría tener la opción de ir a la Universidad de Stanford o a la UCLA, y al mismo tiempo tener la opción de ingresar al ejército o a la fuerza aérea, y simultáneamente la opción de aceptar un trabajo en una empresa de Internet o en una empresa de software. Esa es una estructura de refuerzo de tres programas concurrentes de refuerzo superpuestos.

Los programas superpuestos de reforzamiento pueden crear las tres situaciones clásicas de conflicto (conflicto de aproximación-aproximación, conflicto de aproximación-evitación y conflicto de evitación-evitación) descritas por Kurt Lewin (1935) y pueden operacionalizar otras situaciones lewinianas analizadas por su análisis de campos de fuerza . Otros ejemplos del uso de programas superpuestos de reforzamiento como herramienta analítica son su aplicación a las contingencias del control de alquileres (Brechner, 2003) y el problema del vertido de residuos tóxicos en el sistema de drenaje pluvial del condado de Los Ángeles (Brechner, 2010).

Horarios concurrentes

En el condicionamiento operante , los programas concurrentes de refuerzo son programas de refuerzo que están disponibles simultáneamente para un sujeto animal o un participante humano, de modo que el sujeto o participante puede responder en cualquiera de los programas. Por ejemplo, en una tarea de elección forzada de dos alternativas , una paloma en una caja de Skinner se enfrenta a dos teclas que puede picotear; las respuestas de picoteo pueden realizarse en cualquiera de ellas, y el refuerzo de comida puede seguir a un picoteo en cualquiera de ellas. Los programas de refuerzo dispuestos para los picoteos en las dos teclas pueden ser diferentes. Pueden ser independientes o pueden estar vinculados de modo que el comportamiento en una tecla afecte la probabilidad de refuerzo en la otra.

No es necesario que las respuestas en los dos programas sean físicamente distintas. En una forma alternativa de organizar los programas concurrentes, introducida por Findley en 1958, ambos programas se organizan en una sola tecla u otro dispositivo de respuesta, y el sujeto puede responder en una segunda tecla para cambiar entre los programas. En este procedimiento "concurrente de Findley", un estímulo (por ejemplo, el color de la tecla principal) señala qué programa está en vigor.

Los programas simultáneos suelen provocar una rápida alternancia entre las claves. Para evitarlo, se suele introducir un "retardo de cambio": cada programa se desactiva durante un breve período después de que el sujeto cambia a él.

Cuando ambos programas concurrentes son intervalos variables, se encuentra una relación cuantitativa conocida como ley de emparejamiento entre las tasas de respuesta relativas en los dos programas y las tasas de refuerzo relativas que proporcionan; esto fue observado por primera vez por RJ Herrnstein en 1961. La ley de emparejamiento es una regla para la conducta instrumental que establece que la tasa relativa de respuesta a una alternativa de respuesta particular es igual a la tasa relativa de refuerzo para esa respuesta (tasa de conducta = tasa de refuerzo). Los animales y los humanos tienen una tendencia a preferir la elección de programas. ^[23]

Organización

El modelado es el refuerzo de aproximaciones sucesivas a una respuesta instrumental deseada. Por ejemplo, al entrenar a una rata para que presione una palanca, primero se refuerza simplemente el hecho de girar hacia ella. Luego, solo se refuerza el hecho de girar y dar un paso hacia ella. Finalmente, la rata recibirá un refuerzo por presionar la palanca. La consecución exitosa de una conducta inicia el proceso de modelado para la siguiente. A medida que avanza el entrenamiento, la respuesta se va pareciendo cada vez más a la conducta deseada, y cada conducta posterior se va convirtiendo en una aproximación más cercana a la conducta final. ^[24]

La intervención de modelado se utiliza en muchas situaciones de entrenamiento, y también para personas con autismo y otras discapacidades del desarrollo. Cuando el modelado se combina con otras prácticas basadas en evidencia como el Entrenamiento de Comunicación Funcional (FCT), ^[25] puede producir resultados positivos para la conducta humana. El modelado generalmente utiliza un refuerzo continuo, pero la respuesta puede cambiarse posteriormente a un programa de refuerzo intermitente.

El moldeamiento también se utiliza para el rechazo de alimentos. ^[26] El rechazo de alimentos se produce cuando una persona tiene una aversión parcial o total a los alimentos. Esto puede ser tan mínimo como ser quisquilloso con la comida o tan grave que puede afectar la salud de una persona. El moldeamiento se ha utilizado para obtener una alta tasa de éxito en la aceptación de alimentos. ^[27]

Encadenamiento

El encadenamiento implica vincular conductas discretas entre sí en una serie, de modo que la consecuencia de cada conducta sea a la vez el refuerzo de la conducta anterior y el estímulo antecedente de la siguiente conducta. Hay muchas formas de enseñar el encadenamiento, como el encadenamiento hacia delante (empezando por la primera conducta de la cadena), el encadenamiento hacia atrás (empezando por la última conducta) y el encadenamiento total de tareas (enseñando cada conducta de la cadena simultáneamente). Las rutinas matinales de las personas son una cadena típica, con una serie de conductas (por ejemplo, ducharse, secarse, vestirse) que ocurren en secuencia como un hábito bien aprendido.

En estudios realizados con un programa de refuerzos encadenados, se han logrado controlar y mantener con éxito las conductas desafiantes observadas en personas con autismo y otras discapacidades relacionadas. ^[28] El entrenamiento en comunicación funcional es una intervención que a menudo utiliza programas encadenados de refuerzos para promover eficazmente la respuesta de comunicación funcional adecuada y deseada. ^[29]

Modelos matemáticos

Se han realizado investigaciones para construir un modelo matemático del reforzamiento. Este modelo se conoce como MPR, que es la abreviatura de principios matemáticos del reforzamiento . Peter Killeen ha hecho descubrimientos clave en este campo con su investigación sobre las palomas. ^[30]

Aplicaciones

El refuerzo y el castigo son omnipresentes en las interacciones sociales humanas, y se han sugerido e implementado muchas aplicaciones de los principios operantes. A continuación se presentan algunos ejemplos.

Adicción y dependencia

El refuerzo positivo y negativo desempeñan papeles centrales en el desarrollo y mantenimiento de la adicción y la dependencia de drogas . Una droga adictiva es intrínsecamente gratificante ; es decir, funciona como un reforzador positivo primario del consumo de drogas. El sistema de recompensa del cerebro le asigna prominencia de incentivo (es decir, es "querida" o "deseada"), ^[31]^[32]^[33] por lo que a medida que se desarrolla una adicción, la privación de la droga conduce al ansia. Además, los estímulos asociados con el consumo de drogas (por ejemplo, la vista de una jeringa y el lugar de consumo) se asocian con el refuerzo intenso inducido por la droga. ^[31]^[32]^[33] Estos estímulos previamente neutrales adquieren varias propiedades: su aparición puede inducir ansia y pueden convertirse en reforzadores positivos condicionados del consumo continuado. ^[31]^[32]^[33] Por lo tanto, si un individuo adicto se encuentra con una de estas señales de drogas, puede reaparecer un ansia por la droga asociada. Por ejemplo, las agencias antidrogas solían utilizar carteles con imágenes de parafernalia relacionada con las drogas como un intento de mostrar los peligros del consumo de drogas. Sin embargo, esos carteles ya no se utilizan debido a los efectos de la prominencia del incentivo en la recaída al ver los estímulos ilustrados en los carteles.

En los individuos dependientes de drogas, el refuerzo negativo ocurre cuando se autoadministra una droga para aliviar o "escapar" de los síntomas de dependencia física (p. ej., temblores y sudoración) y/o dependencia psicológica (p. ej., anhedonia , inquietud, irritabilidad y ansiedad) que surgen durante el estado de abstinencia de la droga . ^[31]

Entrenamiento de animales

Un pollo montando una patineta

Los entrenadores de animales y los dueños de mascotas aplicaban los principios y prácticas del condicionamiento operante mucho antes de que se les diera nombre y se estudiaran estas ideas, y el entrenamiento de animales todavía proporciona uno de los ejemplos más claros y convincentes de control operante. De los conceptos y procedimientos descritos en este artículo, algunos de los más destacados son: disponibilidad de refuerzo inmediato (por ejemplo, la omnipresente bolsa de golosinas para perros); contingencia, asegurar que el refuerzo siga a la conducta deseada y no a otra cosa; el uso de refuerzo secundario, como hacer sonar un clicker inmediatamente después de una respuesta deseada; modelado, como hacer que un perro salte cada vez más alto; refuerzo intermitente, reducir la frecuencia de esas golosinas para inducir una conducta persistente sin saciedad; encadenamiento, donde una conducta compleja se va armando gradualmente. ^[34]

Comportamiento infantil: capacitación para padres sobre gestión

Proporcionar refuerzo positivo para las conductas apropiadas de los niños es un objetivo principal de la formación para la gestión de los padres. Normalmente, los padres aprenden a recompensar el comportamiento adecuado a través de recompensas sociales (como elogios, sonrisas y abrazos), así como recompensas concretas (como pegatinas o puntos para una recompensa mayor como parte de un sistema de incentivos creado en colaboración con el niño). ^[35] Además, los padres aprenden a seleccionar conductas sencillas como foco inicial y recompensar cada uno de los pequeños pasos que su hijo consigue para alcanzar una meta mayor (este concepto se llama "aproximaciones sucesivas"). ^[35]^[36] También pueden utilizar recompensas indirectas, como a través de gráficos de progreso . Proporcionar refuerzo positivo en el aula puede ser beneficioso para el éxito de los estudiantes. Al aplicar el refuerzo positivo a los estudiantes, es fundamental que sea individualizado según las necesidades de ese estudiante. De esta manera, el estudiante entiende por qué está recibiendo el elogio, puede aceptarlo y, finalmente, aprender a continuar con la acción que se ganó mediante el refuerzo positivo. Por ejemplo, el uso de recompensas o tiempo adicional de recreo puede ser más aplicable a algunos estudiantes, mientras que otros pueden aceptar la aplicación recibiendo pegatinas o marcas de verificación que indiquen elogios.

Ciencias económicas

Tanto los psicólogos como los economistas se han interesado en aplicar conceptos y hallazgos operantes al comportamiento de los seres humanos en el mercado. Un ejemplo es el análisis de la demanda de los consumidores, indexada por la cantidad de un producto que se compra. En economía, el grado en que el precio influye en el consumo se denomina "elasticidad precio de la demanda". Algunos productos son más elásticos que otros; por ejemplo, un cambio en el precio de ciertos alimentos puede tener un gran efecto en la cantidad comprada, mientras que la gasolina y otros productos básicos pueden verse menos afectados por los cambios de precio. En términos de análisis operante, dichos efectos pueden interpretarse en términos de las motivaciones de los consumidores y el valor relativo de los productos como reforzadores. ^[37]

Juegos de azar: programación de ratios variables

Como se ha dicho antes en este artículo, un programa de razón variable produce un refuerzo tras la emisión de un número impredecible de respuestas. Este programa suele generar una respuesta rápida y persistente. Las máquinas tragamonedas pagan según un programa de razón variable y producen precisamente este tipo de comportamiento persistente de tirar de la palanca en los jugadores. Como las máquinas están programadas para pagar menos dinero del que reciben, el usuario persistente de las máquinas tragamonedas invariablemente pierde a largo plazo. Las máquinas tragamonedas, y por tanto el refuerzo de razón variable, han sido a menudo culpadas de ser un factor subyacente a la adicción al juego. ^[38]

Elogio

El concepto de elogio como un medio de refuerzo conductual en humanos tiene sus raíces en el modelo de condicionamiento operante de BF Skinner. Desde esta perspectiva, el elogio se ha visto como un medio de refuerzo positivo, en el que es más probable que ocurra una conducta observada al elogiar contingentemente dicha conducta. ^[39] Cientos de estudios han demostrado la eficacia del elogio para promover conductas positivas, en particular en el estudio del uso de elogios por parte de maestros y padres en niños para promover una mejor conducta y un mejor rendimiento académico, ^[40]^[41] pero también en el estudio del rendimiento laboral. ^[42] También se ha demostrado que el elogio refuerza conductas positivas en individuos adyacentes no elogiados (como un compañero de clase del receptor del elogio) a través del refuerzo vicario. ^[43] El elogio puede ser más o menos eficaz para cambiar la conducta dependiendo de su forma, contenido y presentación. Para que el elogio produzca un cambio positivo en la conducta, debe ser contingente a la conducta positiva (es decir, solo administrarse después de que se realice la conducta deseada), debe especificar los detalles de la conducta que se va a reforzar y debe entregarse de manera sincera y creíble. ^[44]

Reconociendo el efecto del elogio como una estrategia de refuerzo positivo, numerosas intervenciones conductuales y cognitivo-conductuales han incorporado el uso del elogio en sus protocolos. ^[45]^[46] El uso estratégico del elogio se reconoce como una práctica basada en evidencia tanto en la gestión del aula ^[45] como en las intervenciones de capacitación para padres, ^[41] aunque el elogio a menudo se incluye en la investigación de intervenciones en una categoría más amplia de refuerzo positivo, que incluye estrategias como la atención estratégica y las recompensas conductuales.

Vínculo traumático

Los vínculos traumáticos se producen como resultado de ciclos continuos de abuso en los que el refuerzo intermitente de la recompensa y el castigo crea vínculos emocionales poderosos que son resistentes al cambio. ^[47]^[48]

La otra fuente indicó que ^[49] 'Las condiciones necesarias para que se produzca un vínculo traumático son que una persona domine a la otra y que el nivel de abuso aumente crónicamente y luego disminuya. La relación se caracteriza por períodos de comportamiento permisivo, compasivo e incluso afectuoso por parte de la persona dominante, interrumpidos por episodios intermitentes de abuso intenso. Para mantener la ventaja, el victimario manipula el comportamiento de la víctima y limita las opciones de esta para perpetuar el desequilibrio de poder. Cualquier amenaza al equilibrio entre dominio y sumisión puede ser respondida con un ciclo creciente de castigo que va desde la intimidación furiosa hasta los estallidos de violencia intensa. El agresor también aísla a la víctima de otras fuentes de apoyo, lo que reduce la probabilidad de detección e intervención, perjudica la capacidad de la víctima para recibir retroalimentación autorreferencial contraria y fortalece el sentimiento de dependencia unilateral... Los efectos traumáticos de estas relaciones abusivas pueden incluir el deterioro de la capacidad de la víctima para una autoevaluación precisa, lo que lleva a un sentimiento de incompetencia personal y un sentimiento de subordinación dependiente de la persona dominante. Las víctimas también pueden encontrar una variedad de consecuencias sociales y legales desagradables de su afiliación emocional y conductual con alguien que perpetró actos agresivos, incluso si ellas mismas fueron las receptoras de la agresión.

Juegos de vídeo

La mayoría de los videojuegos están diseñados en torno a algún tipo de ciclo de compulsión, añadiendo un tipo de refuerzo positivo a través de un programa de ritmo variable para mantener al jugador jugando, aunque esto también puede conducir a la adicción a los videojuegos . ^[50]

Como parte de una tendencia en la monetización de los videojuegos en la década de 2010, algunos juegos ofrecían "cajas de botín" como recompensas o que se podían comprar con fondos del mundo real y que ofrecían una selección aleatoria de elementos del juego, distribuidos por rareza. La práctica se ha relacionado con los mismos métodos que utilizan las máquinas tragamonedas y otros dispositivos de juego para repartir recompensas, ya que sigue un programa de tarifas variables. Si bien la percepción general es que las cajas de botín son una forma de juego, la práctica solo se clasifica como tal en unos pocos países como juego y, por lo demás, legal. Sin embargo, los métodos para usar esos elementos como moneda virtual para juegos de azar en línea o para intercambiarlos por dinero del mundo real han creado un mercado de juegos de azar que se encuentra bajo evaluación legal. ^[51]

Críticas

La definición estándar de refuerzo conductual ha sido criticada por ser circular , ya que parece argumentar que la fuerza de respuesta aumenta con el refuerzo, y define el refuerzo como algo que aumenta la fuerza de respuesta (es decir, la fuerza de respuesta aumenta con cosas que aumentan la fuerza de respuesta). Sin embargo, el uso correcto ^[52] de refuerzo es que algo es un reforzador debido a su efecto sobre la conducta, y no al revés. Se vuelve circular si uno dice que un estímulo particular fortalece la conducta porque es un reforzador, y no explica por qué un estímulo está produciendo ese efecto sobre la conducta. Se han propuesto otras definiciones, como la "conducta consumatoria contingente a una respuesta" de FD Sheffield, pero estas no se usan ampliamente en psicología. ^[53]

Cada vez más, la comprensión del papel que desempeñan los reforzadores se está alejando de un efecto de "fortalecimiento" a un efecto de "señalización". ^[54] Es decir, la visión de que los reforzadores aumentan la respuesta porque señalan las conductas que probablemente resulten en un refuerzo. Si bien en la mayoría de las aplicaciones prácticas, el efecto de cualquier reforzador dado será el mismo independientemente de si el reforzador es de señalización o de fortalecimiento, este enfoque ayuda a explicar una serie de fenómenos conductuales, incluidos los patrones de respuesta en programas de refuerzo intermitentes (vieiras de intervalo fijo) y el efecto de resultados diferenciales . ^[55]

Véase también

Referencias

^ Definición de refuerzo de la Asociación Americana de Psicología. Recuperado el 30 de enero de 2024.
^ Schultz W (julio de 2015). "Neuronal Reward and Decision Signals: From Theories to Data". Physiological Reviews . 95 (3): 853–951. doi :10.1152/physrev.00023.2014. PMC 4491543 . PMID 26109341. Las recompensas en el condicionamiento operante son reforzadores positivos. ... La conducta operante ofrece una buena definición de recompensas. Todo lo que hace que un individuo vuelva a por más es un reforzador positivo y, por lo tanto, una recompensa. Aunque ofrece una buena definición, el refuerzo positivo es solo una de varias funciones de recompensa. ... Las recompensas son atractivas. Son motivadoras y nos hacen hacer un esfuerzo. ... Las recompensas inducen una conducta de aproximación, también llamada conducta apetitiva o preparatoria, y conducta consumatoria. ... Por lo tanto, cualquier estímulo, objeto, acontecimiento, actividad o situación que tenga el potencial de hacer que nos acerquemos a él y lo consumamos es, por definición, una recompensa. ... Las recompensas intrínsecas son actividades que son placenteras por sí mismas y se realizan por sí mismas, sin ser el medio para obtener recompensas extrínsecas. ... Las recompensas intrínsecas son recompensas genuinas por derecho propio, ya que inducen al aprendizaje, al enfoque y al placer, como perfeccionar, tocar y disfrutar del piano. Aunque pueden servir para condicionar recompensas de orden superior, no son recompensas condicionadas de orden superior, ya que la obtención de sus propiedades de recompensa no requiere emparejarse con una recompensa incondicionada.
^ Malenka RC, Nestler EJ, Hyman SE (2009). "Capítulo 15: Refuerzo y trastornos adictivos". En Sydor A, Brown RY (eds.). Neurofarmacología molecular: una base para la neurociencia clínica (2.ª ed.). Nueva York: McGraw-Hill Medical. págs. 364–375. ISBN 9780071481274.
^ Nestler EJ (diciembre de 2013). "Bases celulares de la memoria para la adicción". Diálogos en neurociencia clínica . 15 (4): 431–443. PMC 3898681 . PMID 24459410. A pesar de la importancia de numerosos factores psicosociales, en esencia, la adicción a las drogas implica un proceso biológico: la capacidad de la exposición repetida a una droga de abuso para inducir cambios en un cerebro vulnerable que impulsan la búsqueda y el consumo compulsivo de drogas, y la pérdida de control sobre el consumo de drogas, que definen un estado de adicción. ... Una gran cantidad de literatura ha demostrado que dicha inducción de ΔFosB en neuronas de tipo D1 [núcleo accumbens] aumenta la sensibilidad de un animal a la droga, así como las recompensas naturales y promueve la autoadministración de la droga, presumiblemente a través de un proceso de refuerzo positivo... Otro objetivo de ΔFosB es cFos: a medida que ΔFosB se acumula con la exposición repetida a la droga, reprime c-Fos y contribuye al interruptor molecular por el cual ΔFosB se induce selectivamente en el estado de tratamiento crónico con la droga. ⁴¹ . ... Además, hay cada vez más evidencia de que, a pesar de una variedad de riesgos genéticos para la adicción en la población, la exposición a dosis suficientemente altas de una droga durante largos períodos de tiempo puede transformar a alguien que tiene una carga genética relativamente menor en un adicto.
^ Volkow ND, Koob GF, McLellan AT (enero de 2016). "Avances neurobiológicos a partir del modelo de adicción basado en enfermedades cerebrales". New England Journal of Medicine . 374 (4): 363–371. doi :10.1056/NEJMra1511480. PMC 6135257 . PMID 26816013. Trastorno por consumo de sustancias: término diagnóstico de la quinta edición del Manual diagnóstico y estadístico de los trastornos mentales (DSM-5) que se refiere al consumo recurrente de alcohol u otras drogas que causa un deterioro clínica y funcionalmente significativo, como problemas de salud, discapacidad e incapacidad para cumplir con responsabilidades importantes en el trabajo, la escuela o el hogar. Según el nivel de gravedad, este trastorno se clasifica como leve, moderado o grave. Adicción: término utilizado para indicar la etapa más grave y crónica del trastorno por consumo de sustancias, en la que hay una pérdida sustancial del autocontrol, como lo indica el consumo compulsivo de drogas a pesar del deseo de dejar de tomarlas. En el DSM-5, el término adicción es sinónimo de la clasificación de trastorno grave por consumo de sustancias.
^ Thorndike E (junio de 1898). "Algunos experimentos sobre inteligencia animal". Science . 7 (181): 818–24. Bibcode :1898Sci.....7..818T. doi :10.1126/science.7.181.818. PMID 17769765.
^ Skinner, BF "El comportamiento de los organismos: un análisis experimental", 1938 Nueva York: Appleton-Century-Crofts
^ Skinner BF (1948). Walden Two . Toronto: The Macmillan Company.
^ Honig W (1966). Conducta operante: áreas de investigación y aplicación. Nueva York: Meredith Publishing Company. pág. 381.
^ ab Flora S (2004). El poder del refuerzo . Albany: State University of New York Press.
^ D'Amato MR (1969). Marx MH (ed.). Procesos de aprendizaje: condicionamiento instrumental . Toronto: The Macmillan Company.
^ Harter JK (2002). Keyes CL (ed.). Bienestar en el lugar de trabajo y su relación con los resultados empresariales: una revisión de los estudios Gallup (PDF) . Washington DC: Asociación Estadounidense de Psicología.
^ Skinner, BF (1974). Acerca del conductismo
^ abcdefg Miltenberger, RG "Modificación del comportamiento: principios y procedimientos". Thomson/Wadsworth , 2008.
^ Tucker M, Sigafoos J, Bushell H (octubre de 1998). "Uso de refuerzo no contingente en el tratamiento de la conducta desafiante. Una revisión y guía clínica". Modificación de la conducta . 22 (4): 529–47. doi :10.1177/01454455980224005. PMID 9755650. S2CID 21542125.
^ Droleskey RE, Andrews K, Chiarantini L, DeLoach JR (1992). "Uso de sondas fluorescentes para describir el proceso de encapsulación por diálisis hipotónica". El uso de eritrocitos resellados como portadores y biorreactores . Avances en medicina y biología experimental. Vol. 326. págs. 73–80. doi :10.1007/978-1-4615-3030-5_9. ISBN 978-1-4613-6321-7. Número de identificación personal 1284187.
^ Baer DM, Wolf MM. "La entrada en comunidades naturales de refuerzo". En Ulrich R, Stachnik T, Mabry J (eds.). Control del comportamiento humano . Vol. 2. Glenview, IL: Scott Foresman. págs. 319–24.
^ Kohler FW, Greenwood CR (1986). "Hacia una tecnología de generalización: la identificación de contingencias naturales de refuerzo". The Behavior Analyst . 9 (1): 19–26. doi :10.1007/bf03391926. PMC 2741872 . PMID 22478644.
^ Vollmer TR, Iwata BA (1992). "Refuerzo diferencial como tratamiento para trastornos de conducta: variaciones procedimentales y funcionales". Investigación en discapacidades del desarrollo . 13 (4): 393–417. doi :10.1016/0891-4222(92)90013-v. PMID 1509180.
^ Derenne A, Flannery KA (2007). "Pausa de FR dentro de la sesión". The Behavior Analyst Today . 8 (2): 175–86. doi :10.1037/h0100611.
^ McSweeney FK, Murphy ES, Kowal BP (2001). "Cambios dinámicos en el valor del reforzador: algunos conceptos erróneos y por qué debería importarnos". The Behavior Analyst Today . 2 (4): 341–349. doi :10.1037/h0099952.
^ Iversen IH, Lattal KA (1991). Análisis experimental del comportamiento. Ámsterdam: Elsevier. ISBN 9781483291260.
^ Martin TL, Yu CT, Martin GL, Fazzio D (2006). "Sobre la elección, la preferencia y la preferencia por la elección". The Behavior Analyst Today . 7 (2): 234–48. doi :10.1037/h0100083. PMC 3558524 . PMID 23372459.
^ Schacter DL, Gilbert DT, Wegner DM (2011). "Capítulo 7: Aprendizaje". Psicología (2.ª ed.). Nueva York: Worth Publishers. págs. 284-85. ISBN 978-1-4292-3719-2.
^ Ghaemmaghami, Mahshid; Hanley, Gregory P.; Jessel, Joshua; Landa, Robin (14 de mayo de 2018). "Dar forma a respuestas de comunicación funcional complejas". Revista de análisis de comportamiento aplicado . 51 (3): 502–520. doi :10.1002/jaba.468. ISSN 0021-8855. PMID 29761485.
^ Tarbox y Lanagan Bermudez, Jonathan y Taira (2017). Tratamiento de los problemas de alimentación en el autismo . San Diego: Academic Press. pp. 1–6. ISBN 978-0-12-813563-1.
^ Turner, Virginia R; et al. (2020). "Modelación de la respuesta para mejorar la aceptación de los alimentos en niños con autismo: efectos de los conjuntos de alimentos pequeños y grandes". Investigación en discapacidades del desarrollo . 98 : 103574. doi :10.1016/j.ridd.2020.103574. PMID 31982827. S2CID 210922007.
^ "CORRIGENDUM de "Evaluaciones adicionales del entrenamiento en comunicación funcional y programas encadenados de refuerzo para tratar múltiples funciones de la conducta desafiante"". Modificación de la conducta . 46 (1): 254. 24 de julio de 2020. doi : 10.1177/0145445520945810 . ISSN 0145-4455. PMID 32706269. S2CID 241136859.
^ Falcomata, Terry S.; Roane, Henry S.; Muething, Colin S.; Stephenson, Kasey M.; Ing, Anna D. (9 de febrero de 2012). "Entrenamiento en comunicación funcional y programas encadenados de refuerzo para tratar la conducta desafiante mantenida por la terminación de las interrupciones de la actividad". Modificación de la conducta . 36 (5): 630–649. doi :10.1177/0145445511433821. ISSN 0145-4455. PMID 22327267. S2CID 29108702.
^ Killeen PR (4 de febrero de 2010). "Principios matemáticos del reforzamiento". Ciencias del comportamiento y del cerebro . 17 (1): 105–135. doi :10.1017/S0140525X00033628.
^ abcd Edwards S (2016). "Principios de refuerzo para la medicina de las adicciones; desde el uso recreativo de drogas hasta el trastorno psiquiátrico". Neurociencia para la medicina de las adicciones: de la prevención a la rehabilitación: constructos y fármacos . Avances en la investigación del cerebro. Vol. 223. págs. 63–76. doi :10.1016/bs.pbr.2015.07.005. ISBN 9780444635457. PMID 26806771. Las sustancias de abuso (que van desde el alcohol hasta los psicoestimulantes) se ingieren inicialmente en ocasiones regulares de acuerdo con sus propiedades de refuerzo positivas. Es importante destacar que la exposición repetida a sustancias gratificantes desencadena una cadena de eventos de refuerzo secundarios, por lo que las señales y los contextos asociados con el consumo de drogas pueden volverse ellos mismos reforzantes y, por lo tanto, contribuir al uso continuo y posible abuso de la(s) sustancia(s) de elección. ...
Una dimensión importante del refuerzo altamente relevante para el proceso de adicción (y particularmente la recaída) es el refuerzo secundario (Stewart, 1992). Los reforzadores secundarios (en muchos casos también considerados reforzadores condicionados) probablemente impulsan la mayoría de los procesos de refuerzo en humanos. En el caso específico de la adicción a las drogas, las señales y los contextos que se asocian íntima y repetidamente con el consumo de drogas a menudo se vuelven ellos mismos reforzantes... Una parte fundamental de la teoría de la sensibilización a los incentivos de la adicción de Robinson y Berridge postula que el valor de incentivo o la naturaleza atractiva de dichos procesos de refuerzo secundario, además de los propios reforzadores primarios, pueden persistir e incluso sensibilizarse con el tiempo en connivencia con el desarrollo de la adicción a las drogas (Robinson y Berridge, 1993). ...
El refuerzo negativo es una condición especial asociada con un fortalecimiento de las respuestas conductuales que terminan algún estímulo en curso (presumiblemente aversivo). En este caso, podemos definir un reforzador negativo como un estímulo motivacional que fortalece dicha respuesta de "escape". Históricamente, en relación con la adicción a las drogas, este fenómeno se ha observado sistemáticamente en humanos mediante el cual se autoadministran drogas de abuso para saciar una necesidad motivacional en el estado de abstinencia (Wikler, 1952).
^ abc Berridge KC (abril de 2012). "Del error de predicción a la prominencia de incentivos: cálculo mesolímbico de la motivación de recompensa". The European Journal of Neuroscience . 35 (7): 1124–43. doi :10.1111/j.1460-9568.2012.07990.x. PMC 3325516 . PMID 22487042. Cuando a un EC+ pavloviano se le atribuye prominencia de incentivos, no solo desencadena el "deseo" de su ECS, sino que a menudo la señal en sí misma se vuelve muy atractiva, incluso en un grado irracional. Esta atracción de señales es otra característica distintiva de la prominencia de incentivos. Se vuelve difícil no mirar al EC (Wiers y Stacy, 2006; Hickey et al., 2010a; Piech et al., 2010; Anderson et al., 2011). El EC incluso adquiere algunas propiedades de incentivo similares a su ECU. Un EC atractivo a menudo provoca un acercamiento motivado por la conducta y, a veces, un individuo puede incluso intentar "consumir" el EC de alguna manera como su ECU (por ejemplo, comer, beber, fumar, tener relaciones sexuales con él, tomarlo como droga). "Querer" un EC también puede convertir el estímulo anteriormente neutral en un reforzador condicionado instrumental, de modo que un individuo trabajará para obtener la señal (sin embargo, también existen mecanismos psicológicos alternativos para el refuerzo condicionado).
^ abc Berridge KC, Kringelbach ML (mayo de 2015). "Sistemas de placer en el cerebro". Neuron . 86 (3): 646–64. doi :10.1016/j.neuron.2015.02.018. PMC 4425246 . PMID 25950633. Un objetivo importante en el futuro para la neurociencia de la adicción es comprender cómo la motivación intensa se enfoca estrechamente en un objetivo en particular. Se ha sugerido que la adicción se debe en parte a la excesiva prominencia de incentivos producida por sistemas de dopamina sensibilizados o hiperreactivos que producen un intenso "deseo" (Robinson y Berridge, 1993). Pero no se ha explicado por completo por qué un objetivo se vuelve más "deseado" que todos los demás. En los pacientes adictos o estimulados con agonistas, la repetición de la estimulación dopaminérgica de la prominencia del incentivo se atribuye a actividades individualizadas particulares, como tomar la droga adictiva o las compulsiones particulares. En las situaciones de recompensa pavloviana, algunas señales de recompensa se vuelven más "deseadas" que otras como poderosos imanes motivacionales, de maneras que difieren entre individuos (Robinson et al., 2014b; Saunders y Robinson, 2013). ... Sin embargo, los efectos hedónicos bien podrían cambiar con el tiempo. A medida que se toma una droga repetidamente, la sensibilización dopaminérgica mesolímbica podría ocurrir en consecuencia en individuos susceptibles para amplificar el "deseo" (Leyton y Vezina, 2013; Lodge y Grace, 2011; Wolf y Ferrario, 2010), incluso si los mecanismos hedónicos opioides sufrieran una regulación negativa debido a la estimulación continua de la droga, produciendo tolerancia al "gusto". La sensibilización a los incentivos produciría adicción al magnificar selectivamente el "deseo" desencadenado por las señales de volver a tomar la droga, y así provocaría una motivación poderosa incluso si la droga se volviera menos placentera (Robinson y Berridge, 1993).
^ McGreevy PD, Boakes RA (2007). Zanahorias y palos: principios del entrenamiento animal . Cambridge: Cambridge University Press. ISBN 978-0-521-68691-4.
^ ab Kazdin AE (2010). Capacitación en habilidades de resolución de problemas y capacitación para padres en el manejo del trastorno negativista desafiante y el trastorno de conducta. Psicoterapias basadas en evidencia para niños y adolescentes (2.ª ed.), 211–226. Nueva York: Guilford Press.
^ Forgatch MS, Patterson GR (2010). Capacitación para padres en el manejo de la conducta: modelo de Oregón: una intervención para la conducta antisocial en niños y adolescentes. Psicoterapias basadas en evidencia para niños y adolescentes (2.ª ed.), 159–78. Nueva York: Guilford Press.
^ Domjan, M. (2009). Los principios del aprendizaje y la conducta. Wadsworth Publishing Company. 6.ª edición. páginas 244–249.
^ Lozano Bleda JH, Pérez Nieto MA (noviembre de 2012). "Impulsividad, inteligencia y contingencias de reforzamiento discriminante en un esquema de razón fija 3". Revista Española de Psicología . 15 (3): 922–9. doi :10.5209/rev_sjop.2012.v15.n3.39384. PMID 23156902. S2CID 144193503.
^ Kazdin, Alan (1978). Historia de la modificación de la conducta: fundamentos experimentales de la investigación contemporánea . Baltimore: University Park Press. ISBN 9780839112051.
^ Baker GL, Barnes HJ (1992). "Síndrome de la vena cava superior: etiología, diagnóstico y tratamiento". American Journal of Critical Care . 1 (1): 54–64. doi :10.4037/ajcc1992.1.1.54. PMID 1307879.
^ ab Garland AF, Hawley KM, Brookman-Frazee L, Hurlburt MS (mayo de 2008). "Identificación de elementos comunes de tratamientos psicosociales basados en evidencia para problemas de conducta disruptiva en niños". Revista de la Academia Estadounidense de Psiquiatría Infantil y Adolescente . 47 (5): 505–14. doi :10.1097/CHI.0b013e31816765c2. PMID 18356768.
^ Crowell CR, Anderson DC, Abel DM, Sergio JP (1988). "Aclaración de tareas, retroalimentación del desempeño y elogio social: procedimientos para mejorar el servicio al cliente de los cajeros bancarios". Journal of Applied Behavior Analysis . 21 (1): 65–71. doi :10.1901/jaba.1988.21-65. PMC 1286094 . PMID 16795713.
^ Goldman NC (1992). "Carcinoma adenoide quístico del conducto auditivo externo". Otorrinolaringología–Cirugía de cabeza y cuello . 106 (2): 214–5. doi :10.1177/019459989210600211. PMID 1310808. S2CID 23782303.
^ Brophy J (1981). "Sobre elogios eficaces". The Elementary School Journal . 81 (5): 269–278. doi :10.1086/461229. JSTOR 1001606. S2CID 144444174.
^ ab Simonsen B, Fairbanks S, Briesch A, Myers D, Sugai G (2008). "Prácticas basadas en evidencia en la gestión del aula: consideraciones para la investigación y la práctica". Educación y tratamiento de niños . 31 (1): 351–380. doi :10.1353/etc.0.0007. S2CID 145087451.
^ Weisz JR, Kazdin AE (2010). Psicoterapias basadas en evidencia para niños y adolescentes. Guilford Press. ISBN 9781606235256.
^ Dutton; Painter (1981). "Vínculos traumáticos: el desarrollo de vínculos emocionales en mujeres maltratadas y otras relaciones de abuso intermitente". Victimología (7).
^ Chrissie Sanderson. Asesoramiento a supervivientes de abuso doméstico . Jessica Kingsley Publishers; 15 de junio de 2008. ISBN 978-1-84642-811-1 . pág. 84.
^ "Vínculo traumático | Encyclopedia.com".
^ Hopson J (27 de abril de 2001). "Diseño de juegos conductuales". Gamasutra .
^ Hood V (12 de octubre de 2017). «¿Son las cajas de botín un juego de azar?». Eurogamer . Consultado el 12 de octubre de 2017 .
^ Skinner BF (1982). Epstein R (ed.). Skinner para el aula: artículos seleccionados . Champaign, Ill.: Research Press. ISBN 978-0-87822-261-2.
^ Vaccarino FJ, Schiff BB, Glickman SE (1989). Mowrer RR, Klein SB (eds.). Teorías contemporáneas del aprendizaje . Hillsdale, NJ: Lawrence Erlbaum Associates. ISBN 978-0-89859-915-2.
^ Cowie S, Davison M, Elliffe D (julio de 2011). "Refuerzo: la comida señala el momento y la ubicación de la comida futura". Journal of the Experimental Analysis of Behavior . 96 (1): 63–86. doi :10.1901/jeab.2011.96-63. PMC 3136894 . PMID 21765546.
^ McCormack J, Arnold-Saritepe A, Elliffe D (junio de 2017). "El efecto de los resultados diferenciales en niños con autismo". Intervenciones conductuales . 32 (4): 357–369. doi :10.1002/bin.1489.

^[1]

Lectura adicional

Brechner KC (1974). Un análisis experimental de las trampas sociales (tesis doctoral). Universidad Estatal de Arizona .
Brechner KC (1977). "Un análisis experimental de las trampas sociales". Revista de Psicología Social Experimental . 13 (6): 552–64. doi :10.1016/0022-1031(77)90054-3.
Brechner KC (1987). Trampas sociales, trampas individuales y teoría en psicología social . Boletín n.º 870001. Pasadena, CA: Time River Laboratory.
Brechner KC (28 de febrero de 2003). "Superimposed schedule applied to rental control". En Levine DK, Pesendorfer W (eds.). Teoría económica y de juegos .
Brechner KC, Linder DE (1981). "Un análisis de la trampa social de los sistemas de distribución de energía". En Baum A, Singer JE (eds.). Avances en psicología ambiental . Vol. 3. Hillsdale, NJ: Lawrence Erlbaum & Associates.
Chance P (2003). Aprendizaje y comportamiento (5ª ed.). Toronto: Thomson-Wadsworth.
Cowie S (2019). "Algunas debilidades de una explicación de los efectos de los reforzadores basada en la fuerza de la respuesta". Revista Europea de Análisis del Comportamiento . 21 (2): 1–16. doi :10.1080/15021149.2019.1685247. S2CID 210503231.
Dinsmoor JA (noviembre de 2004). "La etimología de los conceptos básicos en el análisis experimental del comportamiento". Journal of the Experimental Analysis of Behavior . 82 (3): 311–6. doi :10.1901/jeab.2004.82-311. PMC 1285013 . PMID 15693525.
Ferster CB , Skinner BF (1957). Programas de refuerzo . Nueva York: Appleton-Century-Crofts. ISBN 0-13-792309-0.
Lewin K (1935). Una teoría dinámica de la personalidad: artículos seleccionados. Nueva York: McGraw-Hill. ISBN 9781447497134.
Skinner BF (1938). El comportamiento de los organismos. Nueva York: Appleton-Century-Crofts. ISBN 9780996453905.
Skinner BF (1956). "Una historia de caso en el método científico". American Psychologist . 11 (5): 221–33. doi :10.1037/h0047662.
Zeiler MD (julio de 1968). "Programas fijos y variables de reforzamiento independiente de la respuesta". Revista del análisis experimental del comportamiento . 11 (4): 405–14. doi :10.1901/jeab.1968.11-405. PMC 1338502 . PMID 5672249.
"Glosario de términos de refuerzo". Universidad de Iowa. Archivado desde el original el 13 de abril de 2007.
Harter JK, Shmidt FL, Keyes CL (2002). "Bienestar en el lugar de trabajo y su relación con los resultados empresariales: una revisión de los estudios Gallup". En Keyes CL, Haidt J (eds.). Florecer: la persona positiva y la buena vida . Washington DC: Asociación Estadounidense de Psicología. págs. 205–224.

Enlaces externos

Un tutorial de refuerzo positivo en línea
Refuerzo de Scholarpedia
scienceofbehavior.com Archivado el 2 de octubre de 2011 en Wayback Machine.

^ Burdon, William M.; St. De Lore, Jef; Prendergast, Michael L. (7 de septiembre de 2011). "Desarrollo e implementación de una intervención de refuerzo conductual positivo en el tratamiento de drogas en prisión: Proyecto BRITE". Journal of Psychoactive Drugs . 43 (sup1): 40–50. doi :10.1080/02791072.2011.601990. ISSN 0279-1072. PMC 3429341 . PMID 22185038.