Resumen aprendizaje temas 1 9

69
Aprendizaje Tema 1 : Introducción 1 Introducción y antecedentes históricos En el aprendizaje se da mayor importancia al aprendizaje procedimental de carácter automático, que no requiere conciencia, que al aprendizaje de tipo declarativo, más accesible a la conciencia. Wegner y Wheatley concluyeron que el verdadero mecanismo causal que subyace al comportamiento nunca se presenta a la conciencia. Bargh y Chartrand concluyeron que la mayor parte de la vida cotidiana de una persona esta determinada no por sus intenciones conscientes y decisiones deliberadas, sino por procesos mentales que se ponen en marcha ante rasgos del ambiente y que opera fuera de la supervisión de la conciencia. Antes de Descartes se pensaba que el comportamiento humano estaba enteramente determinado por la intención consciente y el libre albedrío, sin intervenir estímulos externos. Descartes propuso una visión dualista del comportamiento denominada dualismo cartesiano donde existen dos formas de conducta; voluntaria e involuntaria. La involuntaria consiste en respuesta automáticas a los estímulos externos, mediada por un mecanismo denominado reflejo. Por el contrario la conducta voluntaria no requiere de estímulos externos (es independiente) y se debe únicamente a la voluntad consciente de actuar de una determinada forma. Según Descartes los nervios que transmiten la información de los sentidos al cerebro y del cerebro a los músculos son los mismos. Por otro lado consideraba que los animales no tenían libre albedrío (mente) ni conducta voluntaria. De este dualismo mente-cuerpo surgen dos tradiciones intelectuales; el mentalismo, interesada por el contenido y funcionamiento de la mente, y la reflexología, interesada por la conducta involuntaria. Ambas constituyen la base del estudio del aprendizaje moderno. Desarrollo histórico del estudio de la mente Descartes pensaba que la mente y el cerebro estaban conectados por la glándula pineal, y por lo tanto algunos contenidos de esta provenían de experiencia sensoriales. También creía que la mente contenía ideas innatas al nacer (concepto de Dios, concepto de si mismo, etc..). Esta aproximación filosófica se denomina innatismo. John Locke (posterior a Descartes) creía que todas las ideas de las personas eran aprendidas directa o indirectamente a través de experiencias posteriores al nacimiento (la mente es una pizarra en blanco). Esta corriente filosófica se denomina empirismo (siglos XVII y XIX). Descartes creía que la mente no funciona de forma predecible, mientras que Thomas Hobbes creía que al igual que los reflejos la mente funcionaba de forma predecible. De esta manera propuso que la conducta voluntaria estaba gobernada por el principio del hedonismo (búsqueda del placer y evitación del dolor). El funcionamiento de la mente para los empiristas (obtención de información por experiencias sensoriales) está basado en la asociación. Esta se basa en la asociación de sensaciones simples para formar ideas complejas. Las tres leyes primarias de la asociación son: contigüidad (dos eventos que ocurren juntos quedan

Transcript of Resumen aprendizaje temas 1 9

Page 1: Resumen aprendizaje temas 1 9

Aprendizaje

Tema 1 : Introducción

1 Introducción y antecedentes históricos En el aprendizaje se da mayor importancia al aprendizaje procedimental de carácter automático, que no requiere conciencia, que al aprendizaje de tipo declarativo, más accesible a la conciencia. Wegner y Wheatley concluyeron que el verdadero mecanismo causal que subyace al comportamiento nunca se presenta a la conciencia. Bargh y Chartrand concluyeron que la mayor parte de la vida cotidiana de una persona esta determinada no por sus intenciones conscientes y decisiones deliberadas, sino por procesos mentales que se ponen en marcha ante rasgos del ambiente y que opera fuera de la supervisión de la conciencia. Antes de Descartes se pensaba que el comportamiento humano estaba enteramente determinado por la intención consciente y el libre albedrío, sin intervenir estímulos externos. Descartes propuso una visión dualista del comportamiento denominada dualismo cartesiano donde existen dos formas de conducta; voluntaria e involuntaria. La involuntaria consiste en respuesta automáticas a los estímulos externos, mediada por un mecanismo denominado reflejo . Por el contrario la conducta voluntaria no requiere de estímulos externos (es independiente) y se debe únicamente a la voluntad consciente de actuar de una determinada forma. Según Descartes los nervios que transmiten la información de los sentidos al cerebro y del cerebro a los músculos son los mismos. Por otro lado consideraba que los animales no tenían libre albedrío (mente) ni conducta voluntaria. De este dualismo mente-cuerpo surgen dos tradiciones intelectuales; el mentalismo , interesada por el contenido y funcionamiento de la mente, y la reflexología , interesada por la conducta involuntaria. Ambas constituyen la base del estudio del aprendizaje moderno. � Desarrollo histórico del estudio de la mente Descartes pensaba que la mente y el cerebro estaban conectados por la glándula pineal, y por lo tanto algunos contenidos de esta provenían de experiencia sensoriales. También creía que la mente contenía ideas innatas al nacer (concepto de Dios, concepto de si mismo, etc..). Esta aproximación filosófica se denomina innatismo . John Locke (posterior a Descartes) creía que todas las ideas de las personas eran aprendidas directa o indirectamente a través de experiencias posteriores al nacimiento (la mente es una pizarra en blanco). Esta corriente filosófica se denomina empirismo (siglos XVII y XIX). Descartes creía que la mente no funciona de forma predecible, mientras que Thomas Hobbes creía que al igual que los reflejos la mente funcionaba de forma predecible. De esta manera propuso que la conducta voluntaria estaba gobernada por el principio del hedonismo (búsqueda del placer y evitación del dolor). El funcionamiento de la mente para los empiristas (obtención de información por experiencias sensoriales) está basado en la asociación . Esta se basa en la asociación de sensaciones simples para formar ideas complejas. Las tres leyes primarias de la asociación son: contigüidad (dos eventos que ocurren juntos quedan

Page 2: Resumen aprendizaje temas 1 9

asociados), similitud (dos ideas similares se asocian) y contraste (dos estímulos muy diferentes se asocian, sin evidencias). Las leyes de asociación secundarias dependen de la intensidad, frecuencia y recencia con que las sensaciones ocurrían conjuntamente. Los empiristas no realizaron experimentos para validar sus leyes. Fue Hermann Ebbinghaus (siglo XIX) quien comenzó la investigación empírica mediante el uso de silabas sin sentido (tres letras sin significado). Comprobó que la fuerza de la asociación mejora con el entrenamiento. � Desarrollo histórico del estudio de los reflejos Descartes consideraba que los nervios son tubos huecos con gases denominados espíritus animales. Todo esto fue refutado posteriormente. Descartes y posteriores filósofos consideraban que los reflejos eran responsables únicamente de reacciones sencillas a estímulos externos. Sechenov propuso que los estímulos no siempre elicitan (provocan) respuestas reflejas de forma directa (puede liberar respuestas inhibidas). En este caso la fuerza de la respuesta no depende de la intensidad del estimulo (ej. conducta voluntaria y pensamientos asociados con estímulos débiles). Pavlov demostró experimentalmente que no todos los reflejos son innatos. La teoría moderna de conducta se basa en el concepto de estimulo-respuesta (E-R) y el concepto de la asociación.

2 El amanecer de una nueva era La investigación del aprendizaje esta basada en tres fuentes; la cognición comparada y la evolución de la mente, neurología funciona l (funcionamiento del sistema nervioso) y el desarrollo de modelos animales de la conducta humana. - Cognición comparada y evolución de la inteligencia Según Darwin la mente humana es producto de la evolución, en oposición a lo que pensaba Descartes (sólo los humanos tienen mente). Según George Romanes la inteligencia podría identificarse determinando si un animal aprende a hacer nuevos ajustes, o a modificar los antiguos, de acuerdos con los resultados de su propia experiencia individual (definición de inteligencia en función de la capacidad de aprendizaje). - Neurología funcional De acuerdo con el nervismo , las principales funcionas fisiológicas están gobernadas por el sistema nervioso. Pavlov considero el condicionamiento como medio de obtener información del sistema nervioso. - Modelos animales de la conducta humana Los modelos se utilizan para analizar aspectos de la realidad bajo condiciones sencillas, controladas y económicas. Para que un modelo se valido debe ser

Page 3: Resumen aprendizaje temas 1 9

comparable con el objeto real en relación a los rasgos o función sometidos a estudio.

3 Definición de aprendizaje El aprendizaje es un cambio duradero en los mecanismos de la conducta que implica estímulos y/o respuestas específicas y que es resultados de la experiencia previa con esos estímulos y respuestas o con otros similares. La ejecución se refiere a las acciones de un organismo en un momento concreto. Un cambio en la actuación no puede ser automáticamente considerado una manifestación de aprendizaje. La fatiga puede producir una disminución gradual en la fuerza de una respuesta (este tipo de cambio es debido a la experiencia). Esto no se considera aprendizaje. La conducta también puede verse alterada por cambios en la condiciones estimulares o cambios en el estado fisiológico o motivacional. En la maduración aparecen cambios persistentes en la conducta sin necesidad de la experiencia con eventos del entorno tal y como requiere el aprendizaje. Cuatro son los mecanismos causales descritos por Aristóteles. Causa eficiente: condiciones necesarias y suficientes para producir un resultado en la conducta (experiencia anterior con estimulo y/o respuestas). Causa material: cambios físicos en el sistema nervioso que median en el aprendizaje (mecanismos sinápticos). Causas formales: son las teorías y modelos de aprendizaje (constructor teóricos, matemáticos, etc..). Causa final: relacionado con la función o utilidad. En biología la causa final es como afecta este proceso al éxito reproductivo del organismo.

4 Aspectos metodológicos del estudio del aprendizaj e La investigación del aprendizaje se caracteriza por dos rasgos metodológicos; el método experimental (en contraste con los métodos de observación), y la confianza en una perspectiva de proceso general . Los estudios de aprendizaje hacen hincapié en identificar los factores causales responsables de los cambios persistentes en la conducta que resultan de la experiencia previa, centrándose en las causas eficientes, materiales y formales. El aprendizaje solo puede estudiarse mediante técnicas experimentales (básicamente en laboratorio). El aprendizaje no puede observarse de la misma manera que el acicalamiento, la agresión etc.. ya que es necesario estar seguros que los cambios en la conducta no se deben a cambios hormonales, motivacionales, etc.. Un presupuesto fundamental de la perspectiva de proceso general es que los fenómenos estudiados son el resultado de procesos más elementales que operan de forma similar independientemente de donde se encuentren (se asume que la

Page 4: Resumen aprendizaje temas 1 9

generalidad emerge a nivel de los procesos básicos). Si asumimos que existen principios universales de aprendizaje, estos principios pueden ser descubiertos en cualquier situación donde el aprendizaje tenga lugar. Esto permite que el aprendizaje pueda ser estudiado en un número reducido de situaciones experimentales (paradigmas). Una teoría general del aprendizaje no puede verificarse empíricamente utilizando solo unos pocos paradigmas experimentales estandarizados, es necesario realizar estudios en distintas especies y situaciones.

5 Uso de animales no humanos en la investigación so bre aprendizaje En la investigación se usan animales no humanos por razones tanto teóricas como metodológicas. Con los animales de laboratorio se puede estudiar como el aprendizaje interviene a la hora de buscar comida, evitar el dolor o el estrés o encontrar una pareja sexual. La búsqueda de las bases biológicas del aprendizaje requiere documentar antes la naturaleza de los procesos de aprendizaje a nivel conductual. Los estudios conductuales de aprendizaje realizados con animales son un requisito necesario para investigar las bases biológicas del aprendizaje. La neurociencia tiene que fundamentarse en la ciencia del comportamiento. El comportamiento de los animales no se ve complicado por los procesos lingüísticos ni por las solicitudes explicitas a lo sujetos así como deseos de complacer o contrariar al investigador.. Los animales de laboratorio no son menos representativos que sus congéneres salvajes. Los animales deben ser tratados con respeto y cuidado para que los resultados sean fiables. Las alternativas a la investigación con animales son; técnicas observacionales (no proporcionan información), plantas (no tienen sistema nervioso), cultivo de tejidos (es necesario la caracterización previa a nivel conductual) y simulaciones informáticas (es necesario conocer las reglas del aprendizaje para poder ser programas).

Page 5: Resumen aprendizaje temas 1 9

Tema 2 : Conducta elicitada, habituación y sensibil ización 1. La naturaleza de la conducta elicitada En los vertebrados los reflejos simples suelen estar mediados por tres neuronas. El estimulo ambiental de un reflejo activa una neurona sensorial (neurona aferente) que transmite el mensaje sensorial a la medula espinal. Allí el impulso sensorial se transmite a la neurona motora (neurona eferente) que activa el músculo involucrado en la respuesta en la respuesta refleja. Raramente ambas neuronas se comunican directamente y estas se suelen comunicar a través de una interneurona . Esto da lugar a que determinadas respuestas reflejas están elicitadas sólo por un conjunto limitado de estímulos. El conjunto de tres neuronas se denomina arco reflejo . Sin embargo la información sensorial puede transmitirse al cerebro y alterar la reacción refleja. En los niños este fenómeno se da con el reflejo de oclusión respiratoria . Si el bebe recibe menos oxigeno tenderá a inclinar la cabeza para atrás, si no surge efecto moverá las manos y llorará para expulsar cualquier obstrucción � Pautas de acción modal A las secuencias de respuestas típicas de especies particulares (alimentación de aves por estimulación del pico de la madre por parte de los polluelos) se las denomina pautas de acción modal (PAM). Los rasgos específicos que se requieren para elicitar la pauta de acción modal reciben el nombre de estímulo señal o estímulo desencadenante (ej. las características del pico del ave que trae la comida para que el polluelo lo reconozca). Los rasgos del estimulo se pueden identificar para fabricar un estimulo más efectivo que el natural como elicitador de la pauta de acción. Estos estímulos inusualmente efectivos se denominan estímulos supranormales . Los patrones de acción modal tienen lugar de forma parecida entre miembros de una misma especie dando lugar a actividades “instintivas”. Se considera que la conducta instintiva refleja la historia genética de un individuo, pero también el aprendizaje puede estar involucrado en este tipo de conductas. Las respuestas no tienen lugar aisladas unas de otras, organizándose en secuencias de comportamiento funcionalmente efectivas. Los etólogos denominan conducta apetitiva a los primeros componentes de la secuencia de comportamiento (búsqueda de comida) y conducta consumatoria a los últimos (romper la cáscara, extraer el contenido, masticarlo y tragarlo). Las conductas consumatorias son altamente estereotipadas (masticación y deglución), siendo las conductas apetitivas menos estereotipadas (diferentes formas de obtener comida). Las conductas consumatorias tienden a ser pautas de acción modal específicas de la especie. Al estudiar animales es normal considerar que la secuencia de respuestas de búsqueda de comida comienza por un modo de búsqueda general (el sujeto no sabe donde encontrar comida) seguido de un modo de búsqueda focalizada (identificado una fuente de comida, se busca en ella la comida, ej. un árbol y sus frutos) y termina por un modo de manipulación del alimento . En la teoría moderna del aprendizaje la

Page 6: Resumen aprendizaje temas 1 9

categoría de respuesta apetitiva se ha subdividido en las categorías de búsqueda general y focalizada. 2. Conceptos de habituación y sensibilización Uno de los rasgos más característicos de la conducta elicitada es su plasticidad (las respuestas elicitadas simples no ocurren de la misma manera en todas las ocasiones). A medida que se presenta el estimulo de forma repetida la respuesta elicitada se va haciendo más débil (efecto de habituación ) o más intensa (efectos de sensibilización ). Como ejemplo el caso de los bebes ante estímulos visuales, donde al aumentar la frecuencia de aparición de un objeto reducen su interés por el. Teniendo en cuenta los tres componentes del reflejo (neurona sensorial, motora e interneurona), existan varias razones por las cuales una respuesta elicitada puede no ocurrir. Una disminución de la sensibilidad recibe el nombre de adaptación sensorial (ej. quedar cegado por una luz brillante). Si los músculos involucrados quedan incapacitados por la fatiga tampoco aparecerá la respuesta. En ambos fenómenos no interviene el sistema nervioso, por lo que puede distinguirse de la habituación. Se asume que la habituación y la sensibilización conllevan cambios neurofisiológicos que dificultan o facilitan la transmisión de impulsos entre neuronas sensoriales y motoras (pero sigue percibiendo el estimulo y tiene capacidad de hacer movimientos). La adaptación sensorial puede detectarse teniendo en cuenta que la habituación es especifica de la respuesta (deja de responder de una forma pero responde de otra). La fatiga puede detectarse teniendo en cuenta la habituación al estimulo (una respuesta habituada se recupera rápidamente cuando se introduce un estimulo novedoso). � Teoría del proceso dual de la habituación y sensibi lización La teoría del proceso dual presupone que los incrementos y disminuciones en la tendencia a responder a un estimulo son producto de procesos neuronales diferentes. El proceso de habituación provoca una disminución en la tendencia a responder, mientras que el proceso de sensibilización provoca un incremento en la tendencia a responder, pudiendo estar ambos activos al mismo tiempo. El resultado conductual (efecto de habituación o sensibilización) depende de que proceso sea más fuerte. Los efectos hacen referencia a la conducta observable y los procesos a los mecanismos subyacentes. Según estudios, los procesos de habituación y sensibilización tienen lugar en diferentes partes del sistema nervioso. Los procesos de habituación tienen lugar en el sistema E-R (conducto neuronal más corto que conecta los órganos sensoriales con los motores). El sistema E-R actúa como un arco reflejo. Se asume que los procesos de sensibilización tienen lugar en el sistema de estado ( abarca otras partes del organismo). El sistema de estado determina la tendencia general de un organismo a responder, mientras que el sistema E-R permite al animal dar la respuesta específica al estimulo relevante. El sistema E-R se activa siempre que un estimulo elicita una respuesta, sin embargo, el sistema de estado sólo interviene en circunstancias especiales. El sistema de estado puede sensibilizarse por la presentación repetida del propio estimulo critico si es lo suficientemente intenso o estimulante.

Page 7: Resumen aprendizaje temas 1 9

3. Características de la habituación y sensibilizac ión La mayor parte de los cambios conductuales se mantienen durante periodos largos (semanas o meses), una característica definitoria de los fenómenos de aprendizaje. Sin embargo, no todos los casos de habituación y sensibilización pueden considerarse en rigor muestras de aprendizaje duradero. En todos los sistemas de respuesta la duración de los efectos de sensibilización está determinada por la intensidad del estimulo. Los estímulos mas intensos producen mayores incrementos en la tendencia a responder y una sensibilización más persistente. En el caso de la habituación hay dos tipos de efectos, habituación a corto plazo (segundos o minutos de duración), y habituación a largo plazo (persistente mucho días). Tras un periodo de habituación a corto plazo la respuesta decrece, pero si se permite un periodo de descanso lo suficientemente largo, la recuperación espontánea restaura completamente la reacción del animal. La recuperación espontánea es la principal característica del efecto de habituación a corto plazo. Sin embargo con habituación a largo plazo, la recuperación espontánea nunca es completa. La habituación a corto plazo se da cuando el estímulo elicitante se presenta frecuentemente, mientras que la habituación a largo plazo es más probable cuando las presentaciones del estimulo están más separadas. La habituación es específica del estímulo que ha sido presentado repetidamente. Una respuesta a un estimulo previamente habituada puede manifestarse plenamente alterando alguna característica importante del estimulo. Sin embargo cuando los estímulos son similares se puede dar la generalización del estimulo a la habituación. La sensibilización no es muy especifica del estimulo (la sensibilización a las descargas eléctricas incrementa la reactividad a claves visuales y auditivas). Un cambio en la naturaleza del estimulo elicitante puede dar lugar a la recuperación de una respuesta habituada. La respuesta habituada también puede restablecerse sensibilizando al organismo con la exposición a un estímulo externo, este fenómeno se denomina deshabituación . 4. Aplicación a las emociones y la conducta motivad a Las reacciones emocionales intensas a menudo constan de dos fases. Una emoción tiene lugar durante la presentación del estimulo elicitante, y la opuesta se observa cuando el estimulo desaparece (ej. el alcohol produce sedación y posteriormente cuando se pasan los efectos irritabilidad). Con la experiencia la reacción primaria se hace más débil y su postefecto se hace más fuerte. La habituación a la reacción de la droga se denomina tolerancia a la droga . Solomon y Corbit destacaron que se producen patrones de reacción emocional similares con otros estímulos emocionales (ej. el amor y el apego cuando pasan los años es menor, sin embargo el sufrimiento de la muerte es mayor debido al postefecto afectivo, aun habiendo dejado de mostrar afecto). Tres características comunes de las reacciones emocionales: son bifásica (reacción

Page 8: Resumen aprendizaje temas 1 9

primaria y postefecto), la reacción primaria se debilita con la estimulación repetida, y el debilitamiento de la reacción primaria va acompañado por un fortalecimiento del postefecto. Estos tres rasgos se explican mediante la teoría del proceso oponente de la motivación . La teoría del proceso oponente asume que los mecanismos neurofisiológicos involucrados en la conducta emocional tratan de mantener la estabilidad emocional (teoría homeostática). La teoría asume que un estimulo emocional activador desvía de la neutralidad el estado emocional de una persona. Se asume que este desplazamiento con respecto a la neutralidad emocional pone en marcha un proceso oponente que compensa el cambio. La teoría del proceso oponente asume que la presentación de un estimulo emocional activador elicita un proceso primario o proceso a que es el responsable de la naturaleza del estado emocional (ej. felicidad) en presencia del estimulo. El proceso primario elicita a su vez un proceso oponente o proceso b que genera la reacción emocional opuesta (ej. tristeza). La fuerza del proceso oponente se resta de la fuerza del proceso primario para dar lugar a las emociones que realmente ocurren. El proceso oponente es ligeramente ineficiente. Al principio es muy débil para compensar la emoción primaria, pero posteriormente se hace más rápido y potente con la experiencia del estimulo que activa la emoción (se sensibiliza). Con el tiempo el proceso oponente se va haciendo más fuerte produciendo un postefecto muy fuerte al terminar el estimulo emocional activador. Un estimulo familiar (debido a una exposición prolongada) no elicita reacciones emocionales fuertes, pero el postefecto afectivo tiende a ser más fuerte cuando se retira un estimulo familiar. La teoría del proceso oponente asume que el proceso b se fortalece con la exposición prologada al estimulo, dando lugar a que el proceso b se active antes tras la aparición del estimulo, su intensidad máxima sea mayor y tarde más tiempo en decaer tras la desaparición del estimulo. Sin embargo el proceso a permanece inalterado. Este fortalecimiento del proceso oponente reduce la intensidad de las respuesta emocionales primarias observadas durante la presentación del estimulo emocional activador. Hay dos formas de reducir los postefectos oponentes aversivos de las drogas, una es esperar el tiempo necesario hasta que se disipen (“pasar el mono“). La otra es reducir más rápidamente el postefecto oponente tomando de nuevo la droga, reactivando de nuevo el proceso primario acabando con la agonía de la abstinencia. De acuerdo con la teoría los adictos quedan atrapados, no por el placer de la droga, sino por la necesidad de tomar la droga para reducir los efectos de la retirada. Responder para escapar de la molestia producida por la retirada de un estimulo es sólo uno de los tipos de conducta motivada o dirigida a metas. Un objeto meta gratificante recibe el nombre técnico de reforzador . El reforzador es un estimulo cuya administración inmediatamente posterior a una respuesta incrementa la probabilidad futura de dicha respuesta.

Page 9: Resumen aprendizaje temas 1 9

Tema 3: Condicionamiento clásico: fundamentos La habituación y la sensibilización permiten cambios en las respuestas que ya pertenecen al repertorio de respuestas del organismo. No permiten el aprendizaje de nuevas respuestas o de respuestas a nuevos estímulos. El condicionamiento clásico es el mecanismo más simple por el cual los organismos pueden aprender acerca de la relación entre estímulos y cambiar su conducta. 1. Los primeros años del condicionamiento clásico Los estudios sistemáticos del condicionamiento clásico comenzaron con los trabajos del fisiólogo Ivan P. Pavlov. Pero también fue descubierto independientemente por Edwin B. Twitmyer al condicionar el reflejo patelar (patada debido al golpeo de la rotula) haciendo sonar una campana 0.5 segundos antes de golpear el tendón rotuliano. Los técnicos del laboratorio de Pavlov descubrieron que los perros secretaban jugos gástricos en respuesta a la mera visión de la comida o de la persona que los alimentaba. Los primero estudios sistemáticos sobre el condicionamiento clásico fueron realizados por S. G. Vul’fson y A. T. Snarskii en el laboratorio de Pavlov. Ambos estudiaron la respuesta salival a varias sustancias situadas en la boca. Después de que los perros hubieran experimentado la sensación provocada por estas sustancias en la boca, la mera visión de las mismas era suficiente para provocar la salivación. Las sustancias provocaban en la boca sensaciones de textura y sabor características. Estas sensaciones se denominan estímulos orofaríngeos . Al poner arena en la boca de un perro, este salivaba. Tras poner arena varias veces en la boca, la visión de la eran (y sus características visuales) también provocaban salivación. Este tipo de aprendizaje se denomina aprendizaje de objeto , ya que requiere asociar diferentes características de un mismo objeto. Para estudiar los mecanismos del aprendizaje asociativo los estímulos se deben manejar de forma independiente, estos es difícil cuando los dos estímulos son propiedades del mismo objeto. Pavlov utilizo procedimientos en los que los estímulos a asociar provenían de distintas fuentes. � El paradigma del condicionamiento clásico El procedimiento de Pavlov conlleva dos estímulos; (1) un tono o luz que no provoca salivación al principio del experimento y (2) un alimento o solución acida situada en la boca que produce una fuerte salivación la primera vez que se presenta. El tono o luz se considera el estimulo condicional (EC) ya que la efectividad de este estimulo para provocar salivación dependía del emparejamiento repetido con la presencia de la comida. Al alimento se denominó estimulo incondicional (EI) ya que su efectividad de provocar salivación era independiente del entrenamiento anterior. La salivación provocada por el tono o luz se denomina respuesta condicional (RC) , y la salivación provocada por la comida o sabor acido se denomina respuesta incondicional (RI) . En resumen, los estímulos y respuestas cuyas propiedades no dependen del entrenamiento proveo se denomina “incondicional”, y los estímulos y respuestas cuyas propiedades aparecían sólo tras el entrenamiento se denominan “condicionales”.

Page 10: Resumen aprendizaje temas 1 9

2. Situaciones experimentales � Condicionamiento del miedo Watson y Rayner (1920) creían que al principio los niños estaban limitados en su reactividad emocional, asumiendo que “debe haber algún procedimiento sencillo (condicionamiento pavloviano) por medio del cual el rango de estímulos que pueden despertar las emociones y sus compuestos se amplia”. Para demostrarlo condicionaron la respuesta de miedo de un niño (Albert) de 9 meses a la presentación de una inofensiva rata blanca de laboratorio. Tras cinco ensayos de condicionamiento (con un sonido fuerte a la vez que la presencia de la rata) Albert mostró una reacción de miedo intenso a la rata que antes no tenía. Debido a cuestiones éticas, actualmente los estudios de miedo se realizan con ratas de laboratorio. El estimulo incondicionado aversivo utilizado es una breve descarga eléctrica en las patas. El estimulo condicionado suele ser un tono o luz. Las ratas muestran miedo quedándose quietas, pero esta respuesta no suele ser medida directamente, sino indirectamente registrando como el estimulo condicionado altera la actividad del animal. Una técnica popular de la medida indirecta del miedo condicionado es el procedimiento de respuesta emocional condicionada o supresión condicionada (REC), diseñada por Estes y Skineer (1941). Este procedimiento consiste en enseñar a la rata a presionar una palanca para obtener comida. Después comienza la fase de condicionamiento del miedo, donde en cada ensayo se presenta el EC durante 1 o 2 minutos y posteriormente la descarga, habiendo una separación entre ensayos de 15 a 30 minutos. Las ratas no pueden presionar la palanca cuando están paralizadas por el miedo. La supresión es específica del EC, ya que si este desaparece las ratas vuelve a su conducta para obtener comida. Para medir cuantitativamente la supresión condicionada se usa la razón de supresión= Respuestas durante el EC/(Respuestas dur ante el EC+Respuestas durante el pre-EC) . El rango de esta formula va desde 0 (supresión total durante el EC) a 0.5, donde la rata no suprime en absoluto su conducta (la escala es inversa). Otro procedimiento similar al de pulsar una palanca para obtener comida es el de la conducta de lameteo de un tubo de agua. La presentación del EC que provoca miedo da lugar a la supresión de conducta de lameteo, denominada supresión condicionada de lameteo . En este procedimiento se registra el tiempo que tarda el animal en completar un total de 5 seg. de lameteo como medida de supresión de la respuesta. � Condicionamiento del parpadeo El reflejo palpebral (parpadear) es un reflejo discreto, similar al patelar. Este reflejo se puede condicionar a un tono soplando al ojo a la ves que suena el tono. Steinmets (1999) destaca que el condicionamiento palpebral es un medio excelente para la observación de una conducta simple en humanos y puede ser usado para analizar el aprendizaje, la atención, la activación, etc…. Los estudios con niños pequeños muestran que el reflejo palpebral puede ser condicionado a un tono si el EC (tono) y el EI (soplo de aire) son contiguos. Sin embargo si el EC y EI están separados entre 4 y 8 segundos no se produce el condicionamiento. Gormezano (1996) estudio el reflejo palpebral en conejos, ya que raramente parpadean en ausencia de aire. Sin embargo el condicionamiento palpebral en conejos es lento y se requieren cientos de ensayos para obtener un nivel significativo de condicionamiento.

Page 11: Resumen aprendizaje temas 1 9

El engrama es la memoria biológica que permite asociar dos estímulos y que de algún modo queda almacenado en el cerebro. En humanos se ha demostrado que para poder recordar algo de forma consciente el hipocampo debe estar intacto. Sin embargo en conejos se ha comprobado que la eliminación de las estructurales cerebrales hasta el cerebro medio tiene un escaso efecto en el condicionamiento palpebral. Esto sugiere que el circuito esencial para el condicionamiento palpebral se sitúa en las estructuras inferiores del tronco del encéfalo y el cerebelo. Los experimentos demostraron claramente que la adquisición de una respuesta condicionada depende de un circuito neuronal situado en el cerebelo. Los pacientes amnésicos que han sufrido daños en el hipocampo son incapaces de aprender por un procedimiento de huella (el EI comienza 0.5 seg. después de acabar el EC), sin embargo si pueden aprender con un procedimiento de demora corta (el EI comienza antes de acabar el EC). Los individuos que no pueden dar información explicita de la relación EC-EI son incapaces de aprender. Seguimiento del signo Uno de los paradigmas experimentales que ha contribuido significativamente a la concepción actual del condicionamiento pavloviano es el seguimiento del signo o automoldeamiento . Los animales tienden a aproximarse y a tomar contacto con los estímulos que señalan la disponibilidad de alimento. El seguimiento del signo se estudia en el laboratorio mediante la presentación de un estímulo visual discreto y bien localizado justo antes de la administración de alimento. En estudios con palomas (Hearst y Jenkins 1974) donde una luz (EC) se activa antes de la administración de la comida (EI), sin necesidad de intervención del animal, se ha comprobado que las palomas tienden a picotear la luz en lugar de usarla como medio de predicción de la comida. Esta atracción por el seguimiento del signo es tan fuerte que picotean la luz incluso cuando no es necesario (por ejemplo con el pasillo muy largo y el comedero en el centro, estando la paloma en el centro, van y vuelven). Experimentos adicionales con ratas mostraron que usando una luz y un tono, el EC auditivo provocaba una aproximación al comedero en lugar de a la fuente de sonido, cosa que ocurre con la luz. Esto demuestra que para que tenga lugar el seguimiento del signo el estimulo tiene que ser uno determinado. Se obtienen mayores niveles de seguimiento del signo con mayores exposiciones al contexto experimental en relación a la duración del EC. � Aprendizaje de aversión al sabor El simple acto de comer proporciona numerosas oportunidades para el aprendizaje de asociaciones. La aversión al sabor puede aprenderse si la ingestión de un sabor nuevo va seguida de enfermedad o de otras consecuencias aversivas. Por el contrario, la preferencia por un sabor puede aprenderse si se empareja con la sensación de saciedad. El condicionamiento de aversión sabor puede darse incluso si las molestias surgen horas después de ingerir el alimento y en un único ensayo (y es independiente de los procesos de pensamiento racionales). La anorexia que acompaña al crecimiento de algunos tumores puede ser el resultado de un aprendizaje de aversión al sabor. Algunas evidencias sugieren que las personas aquejadas de anorexia nerviosa sufren trastornos digestivos que pueden incrementar la probabilidad de aprender aversiones al sabor (similar a lo que ocurre con las personas que sufren depresiones severas). La aversión al sabor es el resultado del emparejamiento de un EC (sabor) con un EI (droga o radiación).Tiene dos características; puede aprenderse con un único ensayo, algo muy raro con el condicionamiento palpebral, salival o seguimiento del signo. La otra característica única es que tiene lugar incluso si los animales enferman horas después de haber ingerido el alimento (García 1966). El aprendizaje demorado a la

Page 12: Resumen aprendizaje temas 1 9

aversión al sabor probablemente ha evolucionado para permitir a los animales (humanos como no humanos) evitar alimentos venenosos con efectos retardados. Experimentos con ratas irradiadas mostraron aversión al sabor hasta 24 horas después (menor aversión cuanto más tiempo pasa), a partir de 24h prácticamente desaparece la aversión al sabor. 3. Procedimientos de condicionamiento pavloviano ex citatorio � Procedimientos típicos de condicionamiento pavlovia no Uno de los factores críticos que terminan el curso del condicionamiento clásico es la ordenación temporal del estímulo condicionado e incondicionado. El tiempo entre un ensayo de condicionamiento y el siguiente se denomina intervalo entre ensayos . El tiempo entre el comienzo del EC y el comienzo del EI dentro de un mismo ensayo se llama intervalo entre estímulos o intervalo EC-EI. Para desarrollar la respuesta condicionada el intervalo EC-EI debe ser mucho mas corto que el intervalo entre ensayos. Típicamente intervalo entre estímulos=1minuto e intervalo entre ensayos=5min. Existen cinco procedimientos de condicionamiento clásico:

• Condicionamiento de demora corta : Se demora el comienzo del EI ligeramente tras el comienzo del EC. El EC puede continuar durante el EI o terminar cuando empieza el EI.

• Condicionamiento de huella : Es similar al condicionamiento de demora corta, pero en este caso el EI no se presenta hasta que ha transcurrido cierto tiempo desde la terminación del EC. El espacio de tiempo entre el EC y el EI se denomina intervalo de huella .

• Condicionamiento de demora larga : Similar al condicionamiento de demora corta, sin embargo el EI se demora durante más tiempo (5-10 minutos) que en el procedimiento de demora corta. El EC lógicamente es más largo. El procedimiento de demora larga no incluye intervalo de huella y el EC dura hasta que el EI empieza.

• Condicionamiento simultaneo : el EC y el EI comienzan al mismo tiempo. • Condicionamiento hacia atrás : el EI ocurre un poco antes que el EC (en

orden contrario que los casos anteriores). � Medida de las respuestas condicionadas Para medir el condicionamiento se realiza un ensayo de prueba que consiste en la presentación del estimulo condicionado aislado (sin el EI). La magnitud de la respuesta condicionada mide la conducta durante el EC. Ejemplos son el número de gotas de saliva, la supresión de la conducta (procedimiento REC) o el grado de reducción de la preferencia del sabor. La probabilidad de la respuesta hace referencia al porcentaje de ensayos que el EC provoca una respuesta condicionada. La latencia es la cantidad de tiempo que pasa entre el principio del EC y la aparición de la respuesta condicionada. En los procedimientos de demora y huella el EC aparece de forma aislada y cualquier conducta condicionada no esta contaminada por el EI y puede ser utilizada como medida del aprendizaje (cosa que no puede hacerse con el procedimiento simultaneo y hacia atrás). � Procedimientos de control en el condicionamiento cl ásico El aprendizaje es una inferencia sobre las causas de la conducta basada en una comparación entre al menos dos condiciones. Una asociación entre un EC y un EI

Page 13: Resumen aprendizaje temas 1 9

implica que los dos eventos han quedado conectados de alguna forma. Un incremento en la respuesta podría resultar de la sensibilización, que no es un proceso asociativo. Así por ejemplo la presencia de la comida puede incrementar la conducta provocada por un tono sin que se haya establecido ninguna asociación entre los dos estímulos. Por tanto el incremento en la respuesta que se observa con el emparejamiento repetido de EC y EI puede ser en realidad el resultado de la mera exposición al EI. En estos casos la respuesta condicionada recibe el nombre de pseudocondicionamiento . Para determinar si existe una asociación se requieren procedimientos de control. Uno de ellos es la presentación aleatoria del EC y el EI, denominado control aleatorio . Sin embargo el procedimiento de control aleatorio puede dar lugar a aprendizaje asociativo. Un procedimiento más útil es el control desemparejado explicito donde el EC y el EI aparecen lo suficientemente separados para evitar que se asocien. La cantidad de tiempo depende del sistema de respuesta (el sabor requiere más tiempo). � Eficacia de los procedimientos típicos de condicion amiento Se han realizado muchos estudios para determinar que procedimiento de condicionamiento es más efectivo. Se observo poco condicionamiento cuando EC y EI se presentan simultáneamente. Si se demora el EI tras el EC incrementa el condicionamiento, pero si se demora demasiado se reduce (similar a la aversión al sabor). Tradicionalmente se ha considerado que el condicionamiento de huella es menos efectivo que el de demora debido al intervalo de huella. En general se considera el condicionamiento más efectivo cuando el EC es una buena señal de que el EI aparecerá pronto. El condicionamiento hacia atrás da resultados ambiguos. El simple presupuesto de que el valor de señal EC determina si un procedimiento producirá condicionamiento es claramente incapaz de explicar la complejidad de los hallazgos que se han obtenido en el condicionamiento hacia atrás. El reto es formular nuevas ideas teóricas para explicar la diversidad de resultados. Una conceptualización completamente nueva de la efectividad relativa de diferentes procedimientos de condicionamiento pavloviano está empezando a emerger. La hipótesis de la codificación temporal asume que el sujeto también aprende cuando aparece el EI en relación al EC. La idea es que pueden obtenerse diferentes tipos de respuesta condicionada dependiendo de la información temporal del EI que proporciona el EC. 4. Condicionamiento pavloviano inhibitorio Existe otro tipo de condicionamiento donde el individuo aprende a predecir la ausencia del estímulo incondicionado. La investigación con animales de laboratorio muestra que la exposición a estímulos aversivos impredecibles es muy perturbadora y produce úlceras de estomago y otros síntomas fisiológicos de estrés. Estudios con pacientes con problemas de ataques de pánico demostraron que la ansiedad generada por la experiencia de pánico tiene lugar principalmente a causa de la imprevisibilidad de los ataques (cuando se pueden predecir la ansiedad es menor posteriormente que cuando son imprevisibles). Esto demuestra que en los experimentos es preferible estímulos aversivos predecibles. El hecho de que sea preferible la predicción de estímulos aversivos puede ser debida a que permite predecir la ausencia de estimulación aversiva. La introducción de pequeños periodos de seguridad predecible puede reducir el estrés sustancialmente. Las señales que predicen la ausencia de un estímulo aversivo son estímulos condicionados inhibitorios. Aunque se puede aprender a predecir la ausencia de un estimulo EI positivo, gran parte de la investigación se realiza con estímulos aversivos.

Page 14: Resumen aprendizaje temas 1 9

� Procedimientos de condicionamiento inhibitorio A diferencia del condicionamiento excitatorio que puede ocurrir si condiciones previas, para que la ausencia de un EI se significativa, el EI debe ocurrir periódicamente en la situación. Esto hace que el condicionamiento inhibitorio dependa del contexto. Procedimiento estándar de inhibición condicionada El procedimiento que uso Pavlov requiere dos estímulos condicionados (EC+ y EC-) y dos tipos de ensayo de condicionamiento. El EI se presenta en el primer tipo de ensayo y siempre va precedido por un EC+ (un tono por ejemplo), de esta forma el EC+ se convierte en una señal del EI. En el segundo tipo de ensayo el EC+ se empareja con el EC- y no se presenta el EI. Esto convierte el EC- en un inhibidor condicionado. A lo largo del tratamiento los ensayos de los dos tipos se alternan de forma aleatoria. A medida que esto ocurre el EC- adquiere gradualmente propiedades inhibitorias. Contingencia o correlación negativa entre el EC y e l EI Este procedimiento para producir inhibición condicionada no requiere un EC+ explicito, en lugar de eso usa un EC- que está correlacionado negativamente con el EI (el EI es menor probable que se produzca junto con el EC-).Lo que proporciona el contexto excitatorio es el entorno de la cámara experimental, ya que es en este entorno donde se repite el EI. En este procedimiento el EI aversivo puede aparecer de vez en cuando tras el EC, pero con una probabilidad pequeña. Es mucho más probable que el EI aparezca en ausencia del EC, dando lugar a una contingencia negativa entre EC y EI. Dado que el procedimiento estándar permite predecir la aparición del EI, también permite predecir cuando no va a aparecer. Esto permite la codificación temporal de la ausencia del EI. � Medición de la inhibición condicionada Sistemas de respuesta bidireccionales Ciertas respuestas conductuales son bidireccionales (ritmo cardiaco, respiración y temperatura corporal pueden aumentar o disminuir). En estos casos la excitación condicionada da lugar a un cambio conductual en una dirección y la inhibición condicionada da lugar a un cambio en la dirección opuesta (ej. la frecuencia a la que se presiona una palanca puede aumentar o disminuir). Este método no es valido si el EC adquiere tanto propiedades excitatorias como inhibitorias y sólo muestra el efecto neto de la excitación y la inhibición. Prueba del estímulo compuesto o sumación Este método permite medir la inhibición cuando la conducta no es bidireccional. La inhibición condicionada se mide a partir de la reducción o inhibición de esta respuesta condicionada. La prueba requiere observar los efectos de un EC inhibitorio en compuesto con un EC+ excitatorio. El procedimiento también puede verse como la sumación de los efectos de un EC+ y un EC-. Ejemplo, se somete a las ratas a un

Page 15: Resumen aprendizaje temas 1 9

estimulo (luz) que terminaba con una descarga A+, y un inhibidor X (tono) que eliminaba la descarga AX-. (procedimiento estándar de inhibición condicionada). Se las sometió también a otro estimulo auditivo B que terminaba en descarga B+. El resultado fue que X podía inhibir A+, como había sido condicionado, pero también B+. Se probo con otro estímulo auditivo Y pero este al no ser condicionada no surtió efecto. El resultado fue que X fue capaz de inhibir el miedo condicionado ante A, pero también ante B que no había sido presentado junto con X. El procedimiento de prueba del estimulo compuesto para la inhibición condicionada sugiere que la presentación de un inhibidor condicionado o de una señal de seguridad puede reducir los efectos estresantes de una experiencia aversiva. Prueba del retraso en la adquisición Si un estimulo inhibe una respuesta particular, entonces debería ser especialmente difícil de condicionar ese estímulo para que provoque la conducta. En otras palabras, la velocidad de adquisición de una respuesta excitatoria debería disminuir si el EC es un inhibidor condicionado. En el ejemplo anterior, el entrenamiento inhibitorio inicial de X retrasará la adquisición de propiedades excitatorias de miedo condicionado. Rescorla (1969) propone usar el retraso en la adquisición y la prueba de estimulo compuesto para medir la conducta de inhibición condicionada.

Page 16: Resumen aprendizaje temas 1 9

Tema 4: Condicionamiento clásico: mecanismos 1. ¿A que deben su eficacia los estímulos condicion ados e

incondicionados? Esta es quizá la pregunta más importante en relación al condicionamiento clásico. Actualmente está recabando cada vez más la atención de los investigadores. � Respuestas iniciales a los estímulos Pavlov hizo hincapié en los criterios de eficacia de los estímulos. El estímulo condicionado (EC) inicialmente no provoca la respuesta condicionada, pero adquiere la capacidad de hacerlo como resultado del desarrollo de una asociación con el estimulo incondicionado (EI). El EI elicita eficazmente la respuesta en cuestión desde el principio. La comparación del EC y el EI previa al condicionamiento siempre es relativa . Un evento particular puede servir de EC respecto a un estímulo y de EI respecto a otro. � La novedad de los estímulos condicionados e incondi cionados El efecto conductual de un estímulo depende de su novedad. Los estímulos familiares no suscitan reacciones tan intensas como los estímulos novedosos (los estímulos familiares producen un aprendizaje más lento). El efecto de preexposición al EC o efecto de inhibición latente es debido a la exposición, previa al condicionamiento, del EC de forma repetida sin el EI. Esto da lugar a un retraso en el condicionamiento posterior. Este efecto es similar a la habituación. La habituación sirve para sesgar la conducta elicitada a favor de los estímulos novedosos, la inhibición latente sirve para sesgar el aprendizaje a favor de los estímulos novedosos. Según Lubow (1995) la inhibición latente promueve la selección de estímulos necesaria para un aprendizaje rápido. Algo similar ocurre con el EI, dando lugar al efecto de preexposición al EI , que retrasa el condicionamiento. Según la explicación basada en la interferencia asociativa , las preexposiciones al EC o al EI disminuyen la capacidad de esos estímulos para participar en nuevas asociaciones. Según la explicación basada en la interferencia de memoria, la respuesta condicionada resulta alterada debido a que los participantes recuerdan lo sucedido en ambas fases del experimento (haber sido expuesto al EC o EI de forma aislada, y posteriormente al EC y al EI emparejados). En concordancia con este mecanismo, los procedimientos que reducen el recuerdo de la preexposición en el momento de la prueba fortalecen la respuesta condicionada. � Intensidad y saliencia del EC y del EI La mayor parte de los efectos biológicos y fisiológicos de la estimulación se relacionan con la intensidad del estímulo. La respuesta condicionada es más fuerte cuando se utilizan estímulos condicionados e incondicionados más intensos. La saliencia del estímulo se corresponde con la significación o la perceptibilidad del estímulo. Si aumenta la saliencia aumentará la velocidad de aprendizaje, según las teorías del aprendizaje. El aumento de la saliencia se puede lograr aumentando la intensidad del estímulo (despertando mayor atención), o haciéndolo más relevante en relación a las necesidades biológicas del organismo (mayor atención a la sal si se sufre déficit de nutricional de sal).

Page 17: Resumen aprendizaje temas 1 9

� Relevancia o pertinencia EC-EI Otra variable que afecta al ritmo de desarrollo del condicionamiento clásico es el grado en que el EC es relevante o pertinente con respecto al EI. García y Koelling (1966) demostraron la importancia de la relevancia del estímulo con el siguiente experimento:

En el experimento se condicionaban dos EC a un EI diferente (descarga o malestar), posteriormente se midió la respuesta (supresión del lameteo) de cada EC de forma individual, dando como resultado una mayor supresión del estímulo audiovisual para el condicionamiento mediante descarga (asemeja el ataque de un depredador), y mayor supresión del estímulo gustativo para el condicionamiento mediante malestar (asemeja la aversión al sabor). El sabor se asoció fácilmente al malestar y las claves audiovisuales se asociaron al dolor periférico (combinación de EC y EI apropiados). El fenómeno de relevancia EC-EI parece reflejar una predisposición genética para la asociación selectiva de ciertas combinaciones de estímulos condicionados e incondicionados (no se requiere experiencia previa). En las palomas las claves visuales son relevantes para la conducta de alimentación (comida) y las claves auditivas son relevantes para la conducta defensiva (descarga), LoLordo 1982. La relevancia del estímulo también es importante en la adquisición del miedo. Los monos Rheus adquieren el miedo por observación de sus congéneres ante serpientes (es menos probable la adquisición del miedo si en lugar de serpientes se presentan flores artificiales). Si el paradigma de aprendizaje implica comida, las flores y la serpiente son igual de efectivas. Como conclusión, parece que los monos tienen una predisposición para aprender a temer a las serpientes. � El concepto de fuerza biológica Pavlov sugirió que para que un estímulo se condicionara, debía tener una fuerza biológica menor que la del estímulo incondicionado con el que se emparejaba. Fuerza biológica se refiere a que el EC debía elicitar menos respuestas y más débiles que el EI.

Condicionamiento de orden superior El criterio de fuerza biológica implica que un estímulo puede hacer de EI tras haber sido fuertemente condicionado. El hecho de condicionar una respuesta con un estímulo (EC) usando otro estímulo (EI) que ha sido previamente condicionado, recibe el nombre de condicionamiento de orden superior . La siguiente figura resume el proceso.

Gustativo + Audiovisual Gustativo + audiovisual

Descarga Malestar (radiación)

Condicionamiento

Gustativo Audiovisual Gustativo Audiovisual

Prueba

Page 18: Resumen aprendizaje temas 1 9

EL primer emparejamiento se denomina condicionamiento de primer orden , mientras que el segundo es condicionamiento de segundo orden . Este procedimiento es similar a la inhibición condicionada (tema 2). ¿Por qué este procedimiento puede provocar inhibición condicionada en algunos casos, y condicionamiento excitatorio de segundo orden en otros casos? El número de ensayos no EI es el factor crítico. Con pocos ensayos no reforzados tiene lugar el condicionamiento excitatorio de segundo orden. Con un entrenamiento más extenso se desarrolla inhibición condicionada. Un ejemplo de condicionamiento de orden superior en la experiencia humana está relacionado con el dinero debido a la asociación con caramelos, juguetes, etc.. El condicionamiento de segundo orden también resulta interesante como técnica para confirmar la aparición de condicionamiento de primer orden.

Contracondicionamiento

Muchos ejemplos de aprendizaje asociativo satisface el criterio de fuerza biológica diferencial. Pero no todas las situaciones que permiten aprendizaje de asociaciones entre estímulos satisfacen este criterio. En el contracondicionamiento dos estímulos pueden quedar asociados el uno con el otro aunque ambos eliciten respuestas intensas. La respuesta que un animal da a un EC se invierte o contrarresta emparejando ese estímulo con un EI que provoca una reacción opuesta. En un estudio de condicionamiento (Pearce y Dickinson, 1975) se redujeron las propiedades aversivas de una descarga emparejándola con comida. Como resultado los animales mostraban menos supresión condicionada que los grupos de control (reducción de las propiedades aversivas de la descarga debido al contracondicionamiento).

Precondicionamiento sensorial Cuando dos estímulos quedan asociados (por ejemplo dos sabores), si posteriormente adquirimos aversión a uno de ellos es posible que adquiramos también aversión hacia el otro sabor asociado al primero. Esto se denomina precondicionamiento sensorial . En el siguiente cuadro se resume:

Este experimento se suele realizar con estímulos biológicamente débiles, que tan sólo elicitan una débil respuesta de orientación antes del condicionamiento.

EC1 EI RC

EC2 RC

EC2 EC1

EC1 EI RC

EC2 EC1 RC

Page 19: Resumen aprendizaje temas 1 9

2. ¿Qué determina la naturaleza de la respuesta con dicionada? � El modelo del estímulo La primera y más duradera explicación acerca de la naturaleza de la respuesta condicionada (RC) es el modelo de sustitución del estímulo . En este modelo se asume que el EC activa los circuitos neuronales que previamente activaba sólo el EI y elicita respuestas similares a las del EI. Pavlov sugirió que el condicionamiento da lugar al establecimiento de nuevos enlaces neuronales, y por tanto el EC se concierte en un sustituto del EI. Estímulos incondicionados diferentes elicitan respuestas condicionales diferentes (comida->salivación, descargas->aversión y alejamiento). La salivación no se condiciona con los experimentos de condicionamiento palpebral y las respuestas de parpadeo no se condicionan en los experimentos de condicionamiento salival. El estimulo incondicionado es una factor determinante de la respuesta condicionada. El famoso experimento de Jenkins y Moore (1973) demuestra este fenómeno con palomas. Las palomas tienen respuestas incondicionadas diferentes para beber que para comer (difieren tanto en la velocidad del pico como en la forma de abrirlo). Cuando se las condicionó con comida o bebida mediante la iluminación de una tecla, la respuesta condicionada hacia la tecla fue la misma que la RI hacia el EI (cambiaba la velocidad y la forma de actuar hacia la tecla según se las condicionara con bebida o comida). � Aprendizaje y homeostasis: Un caso especial de sust itución del estímulo Walter Cannon introdujo el concepto de homeostasis para referirse a los mecanismos fisiológicos que mantienen los aspectos críticos del cuerpo dentro de los límites aceptables. Para lograr la homeostasis se requiere que cualquier amenaza al nivel homeostático ponga en marcha una reacción compensatoria que neutralice la alteración (bucle de realimentación negativa).Este proceso puede resultar ineficiente si el proceso de corrección tarda en activarse. Dworkin (1993) señalo que las alteraciones en la homeostasis pueden compensarse más efectivamente si pueden anticiparse, y el condicionamiento Pavloviano proporciona los medios necesarios para tal anticipación. De acuerdo con esta perspectiva, la respuesta condicionada a una alteración fisiológica es igual que la respuesta compensatoria a dicha alteración. Por tanto la respuesta condicionada es la misma que la respuesta incondicionada, sólo que esta vez la respuesta incondicionada es una reacción compensatoria a una alteración fisiológica. Las drogas suelen provocar alteraciones fisiológicas de la homeostasis que activan reacciones compensatorias condicionadas (respuestas homeostáticas condicionadas ). Las claves que se asocian con la alteración fisiológica inducida por la droga pueden llegar a elicitar estas reacciones compensatorias como respuestas condicionadas anticipatorias (la ansiedad por consumir droga es una manifestación de estas respuestas anticipatorias). Se considera que la administración de una droga constituye un ensayo de condicionamiento en el que las claves relacionadas con la administración de la droga se emparejan con los efectos farmacológicos de la misma (ej: el olor y sabor del café pueden funcionar como estímulos condicionados que predicen los efectos fisiológicos de la cafeína). Estudios llevados a cabo con cocainómanos muestran que presentan mayor ansiedad y sensación de abstinencia con los estímulos relacionados con la cocaína, y poca ansiedad con los estímulos de la heroína (sin ser consumidores). Por tanto, los resultados sugieren que los consumidores de cocaína adquieren respuestas emocionales y fisiológicas condicionadas a los estímulos relacionados con la cocaína en el curso del consumo de cocaína.

Page 20: Resumen aprendizaje temas 1 9

El condicionamiento Pavloviano se ha estudiado extensamente en lo referente al desarrollo de la tolerancia a las drogas . Se ha desarrollado tolerancia a la droga cuando las administraciones repetidas tienen un efecto cada vez menor, requiriéndose dosis mayores. En el modelo de condicionamiento de tolerancia a las drog as los cambios fisiológicos (debidos a las droga) constituyen el estimulo incondicionado (EI), que a su vez pone en marcha ajustes compensatorios incondicionados (RI) para contrarrestar la alteración. Mediante el condicionamiento Pavloviano los estímulos que acompañan la administración de la droga (hora del día, preparación de la jeringuilla, lugar donde se prepara la droga) se asocian al EI. Las claves que acompañan la administración de la droga elicitan respuestas compensatorias que previamente se activaban como respuestas incondicionadas a las alteraciones homeostáticas, y por tanto atenúan los efectos de la droga, dando lugar a la tolerancia a la droga. El modelo de condicionamiento de la tolerancia a las drogas atribuye la tolerancia a las respuestas compensatorias condicionadas a los estímulos del entorno (EC) que se emparejan con la administración de la droga. El modelo predice que la tolerancia a la droga se verá atenuada si los sujetos reciben la droga en condiciones novedosas o en ausencia de las claves que normalmente predicen su consumo, así como la preexposición al EC (claves del contexto) también debería reducir el efecto de la droga. Este modelo ha sido validado por muchos estudios de laboratorio. En este modelo el EC adquiere la capacidad de elicitar respuestas compensatorias. Las respuestas compensatorias condicionadas se desarrollaran sólo para aquellos sistemas fisiológicos que están controlados de forma homeostática. � El EC como determinante de la forma de la RC El EI no es el único factor importante para determinar la forma de la respuesta condicionada, ya que esta también está influida por la naturaleza del EC. Timberlake y Grant (1995) sustituyeron al típico estímulo de luz o tono (EC), por el uso de una rata viva como EC, junto con un EI de tipo comida. Según el modelo de sustitución del estímulo, el EC (rata viva) producirá las mismas respuestas que el EI (comer y roer) debido a los emparejamientos EC-EI. Contrariamente el EC no produjo conductas de roer y morder, y elicitaba respuestas de aproximación, olfateo y conductas sociales. Estas respuestas no se desarrollaban si la rata EC no se emparejaba con comida o se presentaba sin guardar relación alguna con la comida. El resultado de este no apoya ningún modelo que explique la forma de la respuesta condicionada en términos del estímulo incondicionado utilizado. La conducta de la rata está condicionada por la naturaleza del EC. � Conducta condicionada y sistemas de conducta Holland (1984) ha comentado que la comprensión de la conducta condicionada requerirá un mayor conocimiento “de las funciones normales de los sistemas de conducta activados por diferentes EC, de la organización natural de dichos sistemas independientes del aprendizaje y de su desarrollo ontogénico”. Los sistemas de conducta han evolucionado para permitir a los animales llevar a cabo tareas críticas, tales como obtener y comer alimentos, defender su territorio, evitar a los depredadores, reproducir y cuidar de sus crías. La teoría de los sistemas de conducta asume que la presentación del EI en un procedimiento de condicionamiento pavloviano activa el sistema de conducta relevante para ese EI. Los estímulos incondicionados relacionados con la comida activan los sistemas de búsqueda de comida. Cuando un estímulo condicionado se asocia con el EI, se integra en su sistema conductual y adquiere la capacidad de elicitar respuestas que forman parte de dicho sistema. Una predicción provocadora de la teoría de sistemas de conducta es que la forma de la RC dependerá del intervalo EC-EI que se utilice. La razón es que el intervalo EC-EI

Page 21: Resumen aprendizaje temas 1 9

determina el lugar en el que se incorporará el EC dentro de la secuencia de respuestas del sistema de conducta. El EC no sustituye ni compensa al EI, en lugar de eso sustituye a un estímulo en un punto del sistema de conducta determinado por el intervalo EC-EI. Todo esto fue estudiado por Akins (2000) con codornices y su sistema de búsqueda focalizada y general. La teoría es claramente compatible con el hecho de que la forma de la respuesta condicionada está determinada por (1) la naturaleza del EI, ya que diferentes estímulos incondicionados activan diferentes sistemas de conducta, y (2) la naturaleza del estímulo condicionado. La naturaleza del EC determina como se incorpora el EC al sistema de conducta (hay estímulos más efectivos que otros para elicitar componentes del sistema de conducta). � Aprendizaje E-R frente a aprendizaje E-E Históricamente la conducta condicionada se veía como una respuesta elicitada directamente por el EC (aprendizaje E-R ). Una visión más moderna considera que los sujetos aprenden una asociación estímulo-estímulo (aprendizaje E-E ). Según este modelo, lo sujetos responden al EC, no porque eliciten directamente la RC, sino porque el EC activa una representación del EI. De esta forma, la conducta condicionada refleja el estado de la representación del EI activada por el EC. El método para decidir entre aprendizaje E-R y E-E es la técnica de la devaluación del EI . La siguiente figura muestra el proceso: Fase 1 Fase 2 Prueba Grupo Experimental Grupo de Control En este experimento el EI se devalúa dándole un menor valor, como por ejemplo, considerando el EI la comida y dando un acceso menos restringido a la comida. La saciedad del alimento reduce el valor de la comida, y por tanto devalúa la representación del EI. En este experimento, en el grupo que se ha devaluado el EI (comida) da lugar a menos respuestas condicionadas que en el grupo de control. No todos los casos de condicionamiento clásico conllevan aprendizaje E-E. Estudios sobre condicionamiento de segundo orden proporcionan evidencia de aprendizaje E-R, pero algunos casos también conllevan aprendizaje E-E.

EC EI

RC

EI EI

Devaluación

del EI

EC EI

RC

EC EI

RC

EI sigue siendo EI

EC EI

RC

Page 22: Resumen aprendizaje temas 1 9

3. ¿Cómo se asocian los estímulos condicionado e in condicionado? � El efecto bloqueo En el efecto bloqueo , un estimulo (A) previamente condicionado, es presentado junto con un nuevo estímulo (B) y emparejado con el EI. En una prueba posterior con el estímulo B aislado, el grupo experimental produce una respuesta condicionada menor que el grupo de control (sin emparejamiento A y EI). EL hallazgo básico es que el condicionamiento previo de A interfiere, o bloquea, el desarrollo de la respuesta condicionada al estímulo añadido B. Fase 1 Fase 2 Prueba

El efecto de bloqueo muestra claramente que no es suficiente emparejar un EC y un EI para que se desarrolle la respuesta condicionada. Kamin (descubridor del efecto de bloqueo) explicó el fenómeno proponiendo que para que se produjera aprendizaje de forma efectiva, el EI debería ser sorprendente. Si el EI no es sorprendente, no alerta al animal y no estimula el trabajo mental necesario para formar la asociación. Los eventos inesperados activan procesos que llevan a un nuevo aprendizaje. � El modelo de Rescorla y Wagner La idea de que la efectividad de un estímulo incondicionada está determinada por el grado en que resulta sorprendente es la base de un modelo matemático formal del condicionamiento clásico (modelo de Rescorla y Wagner ). Por definición un evento es sorprendente si es diferente de lo que se espera. Un EI puede ser inesperadamente grande, o inesperadamente pequeño. Según el modelo, un EI inesperadamente grande es la base del condicionamiento excitatorio (incremento de la fuerza asociativa), y un EI inesperadamente pequeño es la base del condicionamiento inhibitorio (disminución de la fuerza asociativa). Una respuesta condicionada intensa indica una fuerte expectativa de que el EI aparecerá, mientras que si es débil indica una baja expectativa del EI. En el modelo, el parámetro λ representa la asíntota de aprendizaje que permite el EI utilizado, y V representa el valor asociativo de los estímulos que preceden al EI. La sorpresividad del EI será (λ-V), y la cantidad de aprendizaje en un ensayo es proporcional a (λ-V). La sorpresividad será alta al principio, dando lugar al aprendizaje y a la fuerza asociativa, y posteriormente la sorpresividad será menor disminuyendo el aprendizaje adicional. El aprendizaje que se produce en un determinado ensayo de condicionamiento es el cambio (∆V) en el valor asociativo de un estímulo. El modelo finalmente es:

[A+B] EI [A+B] EI

B B

A EI A/EI

Grupo exp. Grupo control

∆V=k (λ-V)

k= saliencia del EC λ=asíntota de aprendizaje que permite el EI utilizado

V=valor asociativo de los estímulos que preceden al EI (λ-V)= sorpresividad del EI (proporcional al aprendizaje)

Page 23: Resumen aprendizaje temas 1 9

Aplicación al efecto de bloqueo El modelo de Rescorla y Wagner predicen el efecto de bloqueo. En la primera fase del experimento de bloqueo, VA es igual a la asíntota de aprendizaje o λ (VA= λ). De acuerdo con el modelo de Rescorla –Wagner no habrá condicionamiento con el estímulo B en la fase 2 ya que el IE es perfectamente predecible por la presencia del estímulo A: (λ- VA+B)=0. En el grupo de control la presentación del estimulo A no lleva una expectativa del EI. Por tanto, en la fase 2 el EI es sorprendente para el grupo de control y produce nuevo aprendizaje. Pérdida de valor asociativo a pesar de los emparej amientos con el EI Una predicción del modelo Rescorla-Wagner es que los estímulos perderán valor asociativo si se presentan juntos en un ensayo de condicionamiento después de haber sido entrenados por separado. El experimento para confirma esto es el siguiente:

Posteriormente a la fase 1, VA = VB = λ. En la fase 2 A y B se presentan simultáneamente por vez primera y este estímulo compuesto va seguido por el mismo EI (una bolita de comida). El modelo de Rescorla-Wagner predice que las propiedades condicionadas de cada uno de los estímulos individuales. A y B, deberían reducirse durante la fase 2. Durante la fase inicial VA+B = VA +VB = 2λ, esto es una expectativa excesiva ya que el el EI sigue siendo una bolita de comida (discrepancia entre lo que se espera, dos bolita, y lo que se obtiene, una bolita). Los participantes encuentran que el EI es sorprendentemente pequeño. Para reducir la expectativa del EI a lo que ocurre en la fase 2, los participantes deben reducir la expectativa del EI basada en los estímulos A y B. La pérdida de valor asociativo continuará hasta que la suma de expectativas basadas en A y B sea igual a una bolita de comida. Inhibición condicionada La aplicación del modelo de Rescorla-Wagner a este procedimiento requiere que se consideren separadamente los ensayos reforzados ([EC+] > EI) y los no reforzados ([EC+ y EC- ] > no EI]). El condicionamiento excitatorio conlleva la adquisición de un valor asociativo positivo, y cesa una vez que el organismo predice el EI perfectamente en cada ensayo reforzado. Como el EI no ocurre en los ensayos no reforzados, supone una expectativa excesiva. Para predecir con exactitud la ausencia del EI en los ensayos no reforzados, los valores asociativos del EC+ y EC- tienen que sumar cero (haciendo que el valor asociativo del EC- sea negativo). El modelo de Rescorla-Wagner explica la inhibición condicionada asumiendo que el EC- adquiere un valor asociativo negativo. Extinción de la excitación y de la inhibición En el procedimiento de extinción, el EC se presenta repetidamente sin el EI. Si un Ec ha adquirido propiedades excitatorias, habrá un exceso de expectativa del EI la

[A+B] EI

A EI B EI

Page 24: Resumen aprendizaje temas 1 9

primera vez que se presente el EC sin el EI en la fase de extinción. Al continuar los ensayos la expectativa elicitada por el EC se va acercando a la línea que representa la ausencia del EI por medio de una reducción gradual del valor asociativo del EC+ hasta llegar a cero. De forma similar ocurre con el EC-, que finalmente reduce su valor asociativo negativo para terminar con una fuerza asociativa negativa. Problemas del modelo de Rescorla y Wagner Uno de los primeros problemas del modelo es que su análisis de la extinción de la inhibición condicionada es erróneo. El modelo predice que la presentación repetida de un inhibidor condicionado EC- sin el EI debería dar lugar a una pérdida de la inhibición condicionada, pero esto no sucede. Algunos investigadores han encontrado que no reforzar un EC- de forma repetida puede potenciar sus propiedades inhibitorias (no presentando el EC-). Un procedimiento de extinción consiste en extinguir las propiedades excitatorias del EC+ junto con el que se presentaba el EC- durante el entrenamiento inhibitorio. Otro problema es considerar la extinción como lo opuesto a la excitación, o la vuelta a un valor asociativo cero. Sin embargo esto no debería verse así, sino como una nueva relación entre el EC y el EI. El hecho de que un EC pueda tener tanto propiedades excitatorias como inhibitorias hace difícil incorporarlo al modelo de Rescorla-Wagner (un único valor). El modelo también tiene dificultades para explicar el efecto de aumento o contrabloqueo que se produce en los paradigmas de aversión al sabor y al olor. En estos casos un experimento similar al diseño de bloqueo da lugar a un incremento del condicionamiento del EC añadido. � Otros modelos de condicionamiento clásico Ninguna de las teorías actuales ha logrado explicar todos los fenómenos del aprendizaje de forma satisfactoria. A continuación se presentan algunas de las teorías que complementan el modelo de Rescorla-Wagner, otras son incompatibles y desplazan el debate teórico en otras direcciones. Modelos atencionales del condicionamiento El supuesto general es que para que el condicionamiento tenga lugar los sujetos deben prestar atención al EC. Se espera que los procedimientos que afectan a la tención al EC afecten también al aprendizaje. Las teorías atencionales difieren en sus supuestos sobre que es lo que determina la saliencia o perceptibilidad del EC en un ensayo. Pearce y Hall (1980) asumen que el grado de atención que un animal presta a un EC en un ensayo determinado depende del grado en el que el EI haya sido sorprendente en el ensayo anterior. Este modelo asume que un EI esperado reduce la saliencia o la atención dedicada al EC. Estos modelos asumen que la sorpresividad del EI tiene sólo un efecto prospectivo o proactivo sobre la atención y el condicionamiento. La principal diferencia con el modelo de Rescorla-Wagner es que en este la sorpresividad del EI en un ensayo en concreto determina lo que se aprende en ese mismo ensayo. Según los modelos atencionales, el bloqueo tiene lugar porque la falta de sorpresividad del EI en el primer ensayo de la fase 2 reduce la atención prestada en los siguientes ensayos al EC añadido. Sin embargo este modelo no puede explicar el bloqueo que tiene lugar en el primer ensayo de la fase 2 del experimento de bloqueo.

Page 25: Resumen aprendizaje temas 1 9

Factores temporales y respuesta condicionada Ni el modelo de Rescorla-Wagner ni los modelos de modificación del EC fueron diseñados para explicar los efectos del tiempo sobre el condicionamiento (ejemplo, intervalo EC-EI). La respuesta condicionada es inversamente proporcional al intervalo EC-EI. Sin embargo esto depende de las respuestas ligadas al EI. En el caso de búsqueda general, el nivel de respuesta es mayor con procedimientos que conllevan intervalos EC-EI mayores. En general se observa una mayor respuesta condicionada cuando se utilizan procedimientos en los que los ensayos están más separados entre si. Pero también el intervalo entre ensayos y la duración del EC interactúan a la hora de determinar la respuesta, siendo el factor crítico la duración relativa de estas dos variables temporales, más que su valor absoluto. Los experimentos demuestran que la respuesta condicionada es directamente proporcional al intervalo entre ensayos (IEE) dividido entre la duración de los ensayos (DE). Una posible explicación es la hipótesis del tiempo de espera relativo o teoría de la expectativa escalar . Esta hipótesis se basa en que el EC proporciona información acerca de la aparición del EI sólo si el sujeto tiene que pasar menos tiempo esperando al EI tras la presentación al EC que cuando está simplemente expuesto al contexto experimental. Cuando la razón IEE/DE es baja, el tiempo de espera ante el EC es similar al tiempo de espera en el contexto (el EC proporciona poca información de la aparición del EI-> poca respuesta condicionada). Si el razón IEE/DE es alta, el tiempo de espera ante el EC es mucho menor que el tiempo de espera en el contexto (EC aporta información de la aparición del EI-> fuerte respuesta condicionada). Estas ideas se han desarrollado más extensamente en la teoría de la expectativa de tasa. En la actualidad se acepta ampliamente que los organismo perciben y recuerdan los aspectos temporales de un procedimiento de condicionamiento (tales como IEE y DE) y que la respuesta condicionada depende de los procesos de decisión en lo que se comparan estas variables temporales. La hipótesis del comparador Una importante contribución de las teorías del tiempo de espera relativo es que destacan que la respuesta condicionada depende no sólo de lo que sucede durante el EC, sino también de lo que sucede en la situación experimental en general. La hipótesis del comparador tiene en cuenta estos dos factores. La hipótesis del comparador se parece a la hipótesis del tiempo de espera relativo en que asume que la respuesta condicionada depende no sólo de la asociación EC y el EI, sino también de todas las posibles asociaciones que puedan establecerse entre las claves contextuales y el EI. Una restricción de esta hipótesis es que sólo permite la formación de asociaciones excitatorias con el EI. Una respuesta condicionada que refleje excitación o inhibición dependerá de la fuerza relativa de la excitación condicionada al EC en comparación con la excitación condicionada de las claves contextuales presentes durante el entrenamiento del EC. A diferencia de la hipótesis del tiempo de espera relativo, la hipótesis del comparador hace más hincapié en las asociaciones que en el tiempo. Los organismos aprenderán tres asociaciones en el curso del condicionamiento:

1) EC crítico con EI 2) EC crítico con las claves contextuales de comparación =>

representación del estímulo comparador 3) Estímulos de comparación y EI

Page 26: Resumen aprendizaje temas 1 9

La comparación de las actividades directa e indirecta del EI determina el grado de la respuesta excitatoria o inhibitoria que tendrá lugar. Este modelo no indica como se establecen las asociaciones, sino como las asociaciones EC-EI y contexto-EI determinan la respuesta al EC crítico (teoría de ejecución, no teoría de aprendizaje). La hipótesis del comparado predice (está confirmado) que la extinción de la asociación contexto-EI después del entrenamiento del EC potenciará la respuesta al EC crítico. Sin embargo esto no puede ser explicado por las teorías de modificación del EI y las teorías atencionales. El modelo atribuye la inhibición condicionada a situaciones en las que la asociación del EC crítico con el EI es más débil que la asociación de las claves contextuales con el EI (las claves contextuales son estímulos que proporcionan el contexto excitatorio necesario para el condicionamiento inhibitorio). Esta hipótesis es la única que predice que la extinción de estos estímulos condicionados excitatorios tras el condicionamiento inhibitorio reduciría la respuesta inhibitoria. Es decir, la extinción de la inhibición condicionada se logra de forma óptima, no presentando el EC- aislado, sino extinguiendo las claves que sirven de EC+ y que proporcionan el contexto excitatorio para el condicionamiento inhibitorio del EC-. Al incrementar el valor excitatorio de las claves contextuales se puede debilitar la asociación entre el estímulo crítico y el comparador. Este modelo también predice que la extinción del estímulo bloqueador tras el entrenamiento elevará la respuesta condicionada al EC bloqueado. Esta hipótesis considera el bloqueo como un fallo en la ejecución en lugar de un fallo en el aprendizaje.

Presentación del EC crítico

Representación del estímulo

comparador

Asociación entre el EC crítico y el estimulo

comparador

Representación indirecta del EI

Representación directa del EI

Comparación Respuesta al EC

Asociación estímulo comparador--EI

Asociación crítica EC-EI

1

2

3

Page 27: Resumen aprendizaje temas 1 9

Tema 5: Condicionamiento instrumental: fundamentos En este capítulo se presenta el análisis del condicionamiento instrumental y la conducta dirigida a una meta. En este tipo de condicionamiento, las presentaciones de los estímulos dependen de la ocurrencia previa de respuestas específicas. La conducta que sucede debido a que ha servido previamente como instrumento para producir ciertas consecuencias se denomina conducta instrumental . 1. Primeras investigaciones sobre el condicionamien to instrumental Los análisis teóricos y de laboratorio del condicionamiento instrumental comenzaron formalmente con Thorndike. Para ello uso las “cajas problema” en las cuales un gato tenía que salir para conseguir la comida. Thorndike interpreto los resultados de sus estudios como el reflejo del aprendizaje de una asociación E-R. Cuando un gato se situaba inicialmente en una caja, desplegaba una variedad de respuestas típicas de una animal confinado. Algunas respuestas daban como resultado la apertura de la caja y Thorndike creía que estos escapes con éxito conducían al aprendizaje de una asociación entre los estímulos del interior de la caja problema y la respuesta de escape. La consecuencia de la respuesta exitosa -escapar de la caja- fortalecía la asociación entre los estímulos de la caja y la respuesta. En base a esto, Thorndike formuló la ley del efecto . Esta ley establece que si una respuesta en presencia de un estímulo es seguida por un suceso satisfactorio , la asociación entre el estímulo (E) y la respuesta (R) se fortalece. Si la respuesta es seguida por un suceso molesto , la asociación E-R se debilita. La consecuencia de la respuesta no es un elemento que forme parte de la asociación, sólo sirve para fortalecer o debilitar la asociación. La ley del efecto de Thorndike implica un aprendizaje E-R . 2. Aproximaciones modernas al estudio del condicion amiento

instrumental � Procedimientos de ensayo discreto Los procedimientos de ensayo discreto son similares al método de Thorndike, en el que cada ensayo del entrenamiento acaba con la retirada del animal del aparato, y al respuesta instrumental se realiza sólo una vez durante cada ensayo. Este tipo de ensayos son realizados principalmente con laberintos para ratas, existiendo dos tipos; el corredor (pasadizo recto), y el laberinto en T (una T que implica una decisión de camino a tomar). Se coloca a la rata en la caja de salida al comienzo y se permite a la rata caminar a lo largo del corredor hasta alcanzar la caja meta que contiene un reforzador (comida o agua). La conducta en el laberinto puede cuantificarse midiendo la velocidad de la carrera (normalmente aumenta con ensayos de entrenamiento repetidos). Otra medida común es la latencia , el tiempo que tarda el animal en abandonar la caja de salida y empezar a desplazarse por el pasadizo. Las latencias se hacen más cortas según progresa el entrenamiento. � Procedimientos de operante libre En el caso anterior el animal tiene limitadas oportunidades de responder, y están programadas por el experimentador. En los procedimientos de operante libre se permite al animal que repita la respuesta instrumental una y otra vez sin restricciones.

Page 28: Resumen aprendizaje temas 1 9

Skinner propuso el concepto de operante como la forma de dividir la conducta en unidades medibles con significado. Una respuesta operante , como presionar una palanca, se define a partir del efecto que produce en el ambiente. Las actividades que provocan el mismo efecto ambiental se consideran ejemplos de la misma respuesta operante. El elemento fundamental no son los músculos involucrados en la conducta, sino la forma en la que la conducta “opera” en el ambiente. Se asume que las diversas formas de presionar la palanca son funcionalmente equivalentes porque todas tienen el mismo efecto en el medio.

Entrenamiento y moldeamiento al comedero La mayoría de las ratas situadas en una caja de Skinner no presionan la palanca con frecuencia (se necesitan unos pasos preliminares). Primero tienen que aprender cuando está disponible la comida en el comedero mediante condicionamiento clásico (sonido dispensador-bolita de comida). El sonido elicita una respuesta seguimiento del signo (aproximación al comedero). Esta fase se denomina entrenamiento al comedero . Posteriormente el animal está preparado para aprender la respuesta instrumental. Para facilitar la adquisición de una nueva respuesta operante, los experimentadores inicialmente entregan comida si el animal hace algo remotamente relacionada con la respuesta deseada. Posteriormente se restringe el rango de respuesta asociadas con bolita de comida, hasta finalmente conseguir la respuesta deseada (ej. inicialmente se da comida si la rata se pone sobre dos patas, posteriormente se da comida sólo si lo hace sobre la palanca, y finalmente sólo si presiona la palanca). Esta secuencia de pasos se denomina moldeamiento . El moldeamiento incluye dos tácticas complementarias: reforzamiento de aproximaciones sucesivas a la respuesta requerida, y no reforzamiento de las formas de respuesta más tem pranas . La forma en que el organismo cumple la operación requerida en el ambiente no importa. Sin embargo, los pasos utilizados en el moldeamiento de la conducta afectan a la forma de realizar la respuesta,

Moldeamiento y nueva conducta Los procedimiento de moldeamiento sin utilizados a menudo para generar una nueva conducta; pero ¿hasta que punto son nuevas esas respuestas? Al enseñar a la rata a presionar la barra, el investigador no le está enseñando nuevos componentes de respuestas; le está inculcando como combinar respuesta familiares en una nueva actividad. El condicionamiento instrumental incluye a menudo la construcción de una nueva unidad conductual a partir de componentes de respuesta preexistentes que ya se encuentran en el repertorio del sujeto. El condicionamiento instrumental puede también utilizarse para producir respuestas que no se parecen en nada a lo que el individuo es probable que haga sin entrenamiento. En experimentos con palomas que picoteaban una tecla (con una apertura de pico diferente según el ensayo), se comprobó que se podía enseñar a las palomas a picotear la tecla con aperturas cada vez mayores premiándolas según se iba incrementando la apertura. Esta variabilidad de las respuestas ayuda a asegurar que al menos algunas de las respuestas que suceden lo hagan en la dirección en la que se quiere moldear la conducta. Por tanto, el moldeamiento aprovecha la variabilidad inherente de la conducta. Sin esta variabilidad, los procedimientos de moldeamiento no tendrían éxito. El moldeamiento puede producir nuevas formas de respuesta, nunca antes realizadas por el organismo.

Page 29: Resumen aprendizaje temas 1 9

La tasa de respuesta como medida de la conducta ope rante Los métodos de operante libre permiten al organismo determinar la frecuencia de su respuesta instrumental. Las técnicas de operante libre proporcionan una ocasión especial para observar los cambios en la probabilidad de la conducta a lo largo del tiempo. Skinner propuso que la tasa de ocurrencia de una conducta operante (frecuencia de la respuesta por minuto) se utilizase como una medida de la probabilidad de la respuesta. (las medidas de latencia y velocidad en los ensayos discretos no permiten que se repita la respuesta). 3. Procedimientos de condicionamiento instrumental En todas las situaciones de condicionamiento instrumental, el sujeto realiza una respuesta y por tanto produce una consecuencia. Una consecuencia placentera se denomina estímulo apetitivo , y una consecuencia molesta se denomina estímulo aversivo . La respuesta instrumental puede proporcionar un estímulo dando lugar a una contingencia positiva entre la respuesta y su estímulo consecuente. La respuesta instrumental puede retirar o eliminar un estímulo dando lugar a una contingencia negativa . Que el resultado de un procedimiento de condicionamiento sea un aumento o una disminución en la tasa de respuesta depende tanto de la contingencia respuesta-consecuencia como de la naturaleza de la consecuencia.

Procedimiento Contingencia respuesta-consecuencia Resultado

Reforzamiento positivo Positivo (estímulo apetitivo)

Reforzamiento (incremento de respuesta)

Reforzamiento negativo Negativo (estímulo aversivo)

Reforzamiento (incremento de respuesta)

Castigo (positivo) Positivo (estímulo aversivo)

Supresión (disminución de respuesta)

Entrenamiento de omisión (RDO)

Negativo (estímulo apetitivo)

Supresión (disminución de respuesta)

Reforzamiento positivo El reforzamiento positivo es un procedimiento en que la respuesta instrumental aproxima o produce un estímulo apetitivo. Si se da la respuesta, el estímulo apetitivo se presenta, si no se da la respuesta, el estímulo apetitivo no se presenta (contingencia positiva). El reforzamiento positivo produce un incremento en la tasa de respuesta.

Castigo En un procedimiento de castigo, la respuesta instrumental produce o aproxima un estímulo molesto o aversivo (contingencia positiva). Los procedimientos de castigo producen una disminución en la respuesta instrumental.

Reforzamiento negativo Un procedimiento en el que la respuesta instrumental finaliza o previene la entrega de un estímulo aversivo se denomina reforzamiento negativo. Hay dos tipos de procedimientos de reforzamiento negativo; escape y evitación. En el

Page 30: Resumen aprendizaje temas 1 9

escape , el estímulo aversivo se presenta pero puede ser eliminado por la respuesta instrumental (ej. apagar una radio que un hace ruido molesto, presionar una barra para apagar un ruido). La respuesta instrumental entonces es reforzada por la terminación del estímulo aversivo. La evitación implica la programación de un estímulo aversivo para ser presentado en algún momento futuro. En este caso la respuesta instrumental previene la entrega del estímulo aversivo.(ej. programar que una rata reciba una descarga al finalizar un estímulo de aviso, si la rata realiza la respuesta instrumental durante el estímulo de aviso, no se dispensará la descarga). Es importante diferenciar el castigo del reforzamiento negativo. La respuesta instrumental disminuye por el castigo y aumenta por el reforzamiento negativo. Se puede ver el reforzamiento negativo como una tortura.

Entrenamiento de omisión En el entrenamiento de omisión la respuesta instrumental previene la presentación de un estímulo apetitivo o placentero (contingencia negativa). Se está utilizando entrenamiento de omisión cuando se le dice a un niño que se vaya a su habitación después de haber hecho algo malo (se le suprime los juguetes o la tele-> contingencia negativa). Es preferido al castigo ya que no implica el uso de un estímulo aversivo. Los procedimientos de entrenamiento de omisión se denominan en ocasiones reforzamiento diferencial de otras conductas o RDO. El individuo recibe un estímulo apetitivo periódicamente a condición de que se dedique a realiza otra conducta diferente de la respuesta especificada por el procedimiento. Por tanto, el reforzamiento de omisión implica el reforzamiento de “otras” conductas. 4. Elementos fundamentales del condicionamiento ins trumental El condicionamiento instrumental consta de tres elementos claves: una respuesta, una consecuencia (el reforzador) y una relación, o contingencia, entre la respuesta y la consecuencia. � La respuesta instrumental El resultado de los procedimientos de condicionamiento instrumental depende en parte de la naturaleza de la respuesta que se esté condicionando. Algunas respuestas son más fácilmente modificables que otras. En esta sección se analizan los resultados de los procedimientos de reforzamiento positivo. Variabilidad conductual versus estereotipia Tanto Thorndike como Skinner enfatizaron que el reforzamiento incrementa la probabilidad de que la respuesta instrumental se repita en el futuro, dando lugar a la creencia de que los procedimientos de condicionamiento instrumental producían repeticiones de la misma respuesta (uniformidad o estereotipia en la conducta). Sin embargo el condicionamiento instrumental puede también verse involucrado en la producción de respuestas creativas o variables. Los organismos pueden aprender a obtener reforzamiento en una situación donde se requiere hacer algo nuevo, algo distinto de lo que hicieron en los cuatro o cinco ensayos precedentes. La variabilidad de la respuesta puede ser la base para el reforzamiento instrumental.

Page 31: Resumen aprendizaje temas 1 9

Estudios con palomas donde la respuesta es la secuencia de picoteo de dos teclas (izquierda y derecha) muestran que la variabilidad de la respuesta puede mantenerse e incrementarse por reforzamiento. La variabilidad de la respuesta puede establecerse como una operante. Los resultados también muestran que en ausencia de reforzamiento explicito de la variabilidad, la respuesta llega a ser más estereotipada con un condicionamiento instrumental continuado. Por tanto, el resultado típico del reforzamiento instrumental es una disminución en la variabilidad de la respuesta. Los procedimientos de reforzamiento se han convertido en comunes en los contextos educativos como forma de animar a los estudiantes a leer y realizar sus tareas. Un metaanálisis de 100 estudios indicó que hay poca evidencia para apoyar el argumento de que el reforzamiento elimina la motivación intrínseca o la ejecución. La única circunstancia en la que el reforzamiento socavaba consistentemente la ejecución era su la recompensa se entregaba independientemente de la conducta. El reforzamiento puede incrementar o disminuir la originalidad dependiendo del criterio de reforzamiento (si se refuerza la originalidad, la originalidad aumenta). Relevancia o pertinencia en el condicionamiento in strumental El condicionamiento instrumental puede actuar sobre componentes manifiestos de la respuesta o sobre dimensiones abstractas de la conducta (como la variabilidad). ¿Hay límites en los tipos de nuevas unidades conductuales o dimensiones de la respuesta que pueden ser modificados por condicionamiento instrumental? Las evidencias demuestran que hay importantes limitaciones. Thorndike fue el primero en observar diferencias en la facilidad de condicionamiento de varias respuestas. Thorndike intento condicionar el rascado y el bostezo, sin embargo la forma de las respuestas cambio a medida que el condicionamiento progresaba. Al principio el gato se rascaba vigorosamente para salir de la caja, pero en ensayos posteriores simplemente ponía la pata en su cuerpo, pero no realizaba una verdadera respuesta de rascado. Algo similar ocurrió con el bostezo, el gato sólo abría la boca, pero no bostezaba para salir de la caja. Thorndike propuso el concepto de pertenencia para explicar los fallos en el entrenamiento del rascado y bostezo. Las respuestas manipulatorias están relacionadas de forma natural con escapar del confinamiento, sin embargo bostezas y rascar no ayudan normalmente a los animales a escapar del confinamiento por lo que no se corresponde con escapar de una caja problema. Algo similar se ha observado en peces donde existe una relación de pertenencia entre morder y la presentación consecuente de otro macho, pero no tiene relación con la presentación de una hembra, lo que típicamente elicita cortejo en lugar de agresión. Otros experimentos similares muestran que los animales en lugar de realizar la respuesta deseada, realizan otras que se encuentran en su repertorio de respuestas naturales (en lugar de meter una moneda en una hucha, se dedican a frotarla). Esto se conoce como deriva instintiva . Sistemas de conducta y limitaciones en el condicio namiento instrumental Las limitaciones de respuesta en el condicionamiento instrumental que se han descrito son consecuentes con la teoría de los sistemas de conducta en relación con la naturaleza de la respuesta condicionada. De acuerdo a esta teoría cuando un animal está privado de comida y se encuentra en una situación donde podría encontrarla, su sistema de alimentación se activa y se dedica a actividades relacionadas con la comida. La efectividad del procedimiento para el incremento de una respuesta instrumental dependerá de la compatibilidad de esa respuesta con la organización preexistente del sistema de alimentación.

Page 32: Resumen aprendizaje temas 1 9

En un estudio con hámster, Shettleworth (1975) encontró que la privación de comida disminuía la probabilidad de respuestas de autocuidado (lavarse la cara y rascarse), pero incrementaba la probabilidad de actividades dirigidas al ambiente (cavar, rascar y erguirse sobre las patas traseras). Estos resultados sugieren que las respuestas de autocuidado no son parte del sistema de alimentación activado por el hambre. La teoría de los sistema de conducta predice que el reforzamiento de comida podría producir incrementos en actividades como cavar, escarbar y erguirse, pero no actividades como lavarse la cara o rascarse. Como se comentó en el capítulo anterior, la forma de diagnosticar si una respuesta es parte del sistema de conducta es realizar un experimento de condicionamiento clásico. Un EC llega a elicitar componentes del sistema de conducta activados por el EI. Si la deriva instintiva refleja las respuestas del sistema de conducta, las respuestas análogas a la deriva instintiva deberían ser evidentes en un experimento de condicionamiento clásico. � El reforzador instrumental Varios aspectos del reforzador determinan sus efectos sobre el aprendizaje y al ejecución de la conducta instrumental. Cantidad y naturaleza del reforzador Un cambio en la cantidad del reforzador puede también hacer al reforzador cualitativamente distinto. Experimentos con ratas muestran que ante recompensas distintas (en cantidad y sabor, normal, dulce y acido), la tasa media de presión de la palanca es mayor en aquella que la cantidad es mayor y dulce. Otros experimentos han comprobado que las ratas corren más rápido para conseguir reforzadores mayores y más sabrosos. En condiciones de operante libre los efectos de la magnitud del reforzador son más complejos y dependen del programa de reforzamiento utilizado. Cambios en la naturaleza y la cantidad del reforza dor ¿Qué pasaría si la cantidad o la naturaleza del reforzador modificaran su valor para el mismo individuo? Esta pregunta plantea la posibilidad de que la efectividad de un reforzador dependa no sólo de sus propiedades, sino también de cómo ese reforzador se compara con otros que el individuo ha experimentado. Según el modelo de Rescorla-Wagner, si el EI es mayor de lo esperado, producirá condicionamiento excitatorio, pero si el EI es menor de lo esperado, producirá condicionamiento inhibitorio. En el condicionamiento instrumental ocurre algo similar. Numerosos estudios han demostrado que los efectos de una cantidad y tipo de reforzador particular dependen de la cantidad y naturaleza de los reforzadores que el individuo ha experimentado previamente. Dicho vagamente, una recompensa favorable se trata especialmente buena tras el reforzamiento con una recompensa mala, y una recompensa desfavorable se trata especialmente mala después de una buena recompensa. Experimentos con ratas a las cuales inicialmente se las da una recompensa de comida diferente (pequeña o grande) tras recorre un corredor, muestran que después de un cambio en la magnitud de la recompensa (grande a pequeña, o pequeña a grande), la velocidad de la carrera no esta totalmente determinada por la nueva magnitud de la recompensa. Las ratas que cambiaron de una recompensa pequeña a una grande corrieron más deprisa para conseguir la recompensa grande que las ratas que siempre recibieron este premio grande. De forma idéntica, los animales que cambiaron de una recompensa grande a una pequeña corrieron más despacio para conseguir la

Page 33: Resumen aprendizaje temas 1 9

recompensa pequeña que los animales que siempre recibieron esta recompensa pequeña. El contraste positivo se refiere a una elevada respuesta por una recompensa favorable resultado de una experiencia anterior con una consecuencia menos atractiva. El contraste negativo se refiere a una respuesta disminuida por una recompensa desfavorable debido a una experiencia anterior con una consecuencia mejor. En los estudios anteriores se presentaron dos condiciones de recompensa en diferentes fases del experimento, y solo un cambio de magnitud de la recompensa en los grupos de cambio. Debido a esto los resultados se denominan contraste sucesivo positivo o negativo. Los efectos de contraste también se dan si las condiciones de recompensa se modifican una y otra ves, con una clave diferente señalando cada condición de recompensa. Estos efectos son ejemplos de contraste conductual simultaneo . Una explicación de todo esto en que en el encuentro inicial con la recompensa inesperadamente pequeña se activan respuestas exploratorias y de búsqueda que podrían conducir al encuentro de una mejor fuente de comida. El desencanto emocional se establece cuando las respuestas de búsqueda no tienen éxito y el sujeto tiene que conformarse con la recompensa pequeña. � La relación respuesta-reforzador La conducta instrumental produce y es controlada por sus consecuencias. La relación entre la conducta y sus consecuencias puede también se probabilística. Para ser eficiente, se tiene que saber cuando se debe hacer algo para obtener un reforzador y cuando el reforzador es probable que sea entregado independientemente de cualquier acción. La conducta instrumental eficiente requiere sensibilidad a la relación respuesta-reforzador. Existen dos tipos de relaciones entre una respuesta y un reforzador:

Relación temporal, que se refiere al tiempo que transcurre entre la respuesta y el reforzador. Un tipo especial de relación temporal es la contigüidad temporal (entrega inmediata del reforzador).

Relación causal o contingencia respuesta-reforzador , y se refiere al hecho de que la respuesta instrumental es necesaria y suficiente para la ocurrencia del reforzador.

Ambos factores son independientes unos de otros. Efectos de la contigüidad temporal Los psicólogos del aprendizaje han resaltado que el condicionamiento instrumental requiere proporcionar el reforzador inmediatamente después de la ocurrencia de la respuesta instrumental. El hecho recurrente es que el aprendizaje instrumental se altera demorando el reforzador tras la ocurrencia de la respuesta instrumental (el condicionamiento instrumental es posible con demoras de hasta 30seg, pero puede deteriorarse con demoras tan cortas como 0.5 seg). ¿Por qué el condicionamiento instrumental es tan sensible a la demora del reforzamiento? La conducta consiste en un flujo continuo de actividades. Cuando el reforzamiento es demorado tras la realización de una respuesta específica (R1) el organismo no para de hacer cosas (R2, R3, R4). Para asociar R1 con el reforzador, el organismo tiene que poder distinguir de alguna forma R1 de otras respuestas que realiza durante el intervalo de demora. Hay dos técnicas para resolver este problema. La primera técnica consiste en proporciona un reforzador secundario o condicionado inmediatamente después de la respuesta instrumental. Un reforzador condicionado o

Page 34: Resumen aprendizaje temas 1 9

reforzador secundario es un estímulo condicionado que ha sido previamente asociado con el reforzador (confirmación verbal como ”bueno” en adiestramiento). Los reforzadores condicionados pueden servir para “puentear” una demora entre la respuesta instrumental y la entrega del reforzador primario. Otra técnica que facilita el aprendizaje con reforzamiento demorado es marcar (procedimiento de marcado ) la respuesta instrumental criterio de alguna manera para distinguirla de otros comportamientos del organismo. En este experimento de marcado dos grupos de ratas debían elegir un camino (entre dos) para obtener el reforzador demorado, esperando en una caja de demora. El grupo de marcado cuando elegía el camino correcto era trasladado por el investigador hasta la caja de demora, mientras que el grupo de control se le dejaba desplazarse solo a la caja de demora. Si tomaban la opción incorrecta ocurría la misma secuencia de eventos, pero no eran reforzadas. El resultado fue que en el grupo de marcado se eligió el camino correcto el90% de las veces a pesar de usar un reforzador demorado. Los efectos del marcado no pueden explicarse a partir de un reforzamiento secundario o condicionado ya que el estímulo de marcado fue presentado en las elecciones correctas e incorrectas. El procedimiento de marcado permite que la rata asocie que conducta está relacionada con el reforzador, ya que en caso de no ser marcada, el continuo de conductas (conducta1,conducta2,conducta3…) hará que la rata crea que cualquiera de las conductas que ocurren en la caja de demora estén asociadas al reforzador. Tanto el reforzamiento secundario como los procedimientos de marcado se centran en conectar mejor la respuesta instrumental crítica con el reforzador secundario. Una consecuencia del reforzamiento independiente de la respuesta es el condicionamiento de claves contextuales. Si hay una demora entre la respuesta crítica y la entrega del reforzador, el reforzador ocurrirá en el contexto experimental sin ser señalado por la respuesta, permitiendo condicionar las claves contextuales. La contingencia respuesta-reforzador La contingencia respuesta-reforzador se refiere al hecho de que la entrega del reforzador es dependiente de la ocurrencia previa de la respuesta instrumental. Los estudios de demora del reforzamiento muestran que no es suficiente una relación causal perfecta entre la respuesta y el reforzador para producir una respuesta instrumental vigorosa. Datos como éstos alentaron pronto a los investigadores a concluir que la contigüidad respuesta-reforzador más que la contingencia era el factor crítico que producía el aprendizaje instrumental. Recientes investigaciones muestran que la contingencia respuesta-reforzador es también importante. El experimento de superstición de Skinner El experimento de superstición de Skinner fue un hito en el debate acerca de la contigüidad frente a la contingencia en el aprendizaje instrumental. En este experimento un grupo de palomas, en cámaras experimentales independientes, recibía comida cada 15 seg. independientemente de su conducta. El resultado fue que las palomas realizaban conductas como dar vuelta, meter la cabeza por un agujero, etc.. como si su conducta controlara la entrega del reforzador, cuando de hecho la comida era proporcionada independientemente de la conducta. Skinner denominó a esto conducta supersticiosa . El emparejamiento accidental de una respuesta con la entrega del reforzador se denomina reforzamiento accidental o adventicio (los animales siempre están haciendo algo, y una respuesta puede quedar asociada a la comida). Todo esto

Page 35: Resumen aprendizaje temas 1 9

apuntaba a que lo importante era la contigüidad temporal y no la contingencia positiva.

o Reinterpretación del experimento de superstición. La afirmación de Skinner acerca de la importancia de la contigüidad temporal con respecto a la contingencia ha sido puesta en duda posteriormente. Staddon y Simmelhag replicaron el experimento observando la frecuencia de cada respuesta de acuerdo con cuando ocurría durante el intervalo entre sucesivas entregas libres de comida. El resultado fue que algunas respuestas ocurrían de modo predominante al final del intervalo entre reforzadores sucesivos (respuestas terminales , ej: orientación hacia el comedero, picoteo del comedero). Otras sin embargo ocurrían en cualquier lugar cerca del medio del intervalo entre las entregas de comida (respuesta de ínterin ej: moverse a lo largo de la pared del comedero, dar un cuarto de vuelta). Las acciones que eran respuestas terminales y las que era respuestas de interin no variaban mucho de una paloma a otra (no encontraron evidencia de reforzamiento accidental). Las respuestas no siempre aumentaban en frecuencia simplemente porque ocurriesen de forma coincidente con la entrega de comida. La entrega de comida parecía influir sólo en la fuerza de las respuestas terminales, incluso en las fases iniciales del entrenamiento.

o Explicación de la periodicidad de las respuestas de ínterin y terminales. ¿A que se debe que se desarrollen respuestas terminales y de ínterin similares en animales expuestos al mismo programa de presentaciones de comida independientes de la respuesta? Staddon y Simmelhag sugirieron que las respuestas terminales son respuesta típicas de la especie que reflejan la anticipación de la comida. Investigaciones posteriores han favorecido aproximaciones en las cuales las respuestas terminales y de ínterin se consideran diferentes manifestaciones del mismo sistema motivacional. De acuerdo con la teoría de los sistemas de conducta, el sistema de alimentación está activado en los animales privados de comida a los que se proporciona una pequeña cantidad de comida de forma periódica. Se asume que la conducta en estas circunstancias es un reflejo de un sistema preorganizado de forrajeo típico de la especia y de conducta de alimentación. Justo después de la entrega de comida, se asume que el organismo desarrolla respuestas de búsqueda focalizadas postcomida (actividades cerca del comedero). En medio del intervalo ocurren respuestas de búsqueda general (se aleja del comedero), y según se aproxima la entrega de comida ocurren respuesta de búsqueda focalizada cerca del comedero. Se desarrollan diferentes patrones de conducta con presentaciones de comida o agua, presumiblemente debido a que la comida y la bebida activan diferentes patrones de forrajeo. Efectos de la controlabilidad de los reforzadores Una contingencia fuerte entre una respuesta instrumental y un reforzador significa que la respuesta controla el reforzador. La investigación contemporánea sobre los efectos de la controlabilidad de la estimulación aversiva en el aprendizaje se originó con los estudios pioneros de Seligman, Overmier y Maier, quienes investigaron los efectos de la exposición a una descarga incontrolable en el aprendizaje posterior escape-evitación en perros. El hallazgo más importante fue que la exposición a una descarga incontrolable dificultaba el aprendizaje posterior, fenómeno denominado efecto de indefensión aprendida. Los resultados de investigación son de mayor interés para aspectos de la psicología social y clínica que para la teoría conductual. A continuación se expone un resumen.

Page 36: Resumen aprendizaje temas 1 9

o El diseño triádico Los experimentos de indefensión aprendida se realizan normalmente utilizando el diseño triádico. El diseño incluye dos fases; exposición y condicionamiento. Durante la fase de exposición un grupo de ratas E (E de escape) es expuesto a las descargas periódicas que puede finalizar mediante la realización de una respuesta de escape. Cada sujeto del grupo A (A de acoplado) es acoplado a una unidad del grupo E y recibe la misma descargas que el compañero del grupo E, pero los animales del grupo A no pueden hacer nada para evitar las descargas. El grupo C (C de confinado) no recibe descargas en la fase de exposición y sólo es confinado en el aparato tanto tiempo como el resto de grupos. Durante la fase de condicionamiento los tres grupos reciben entrenamiento de escape-evitación. El principal hallazgo es que los efectos de la estimulación aversiva durante la fase de exposición dependen de si la descarga es o no escapable.

Grupo Fase de exposición Fase de condicionamiento Prueba

E (escape) Descarga escapable Escape-Evitación Aprendizaje rápido de evitación

A (acoplado) Descarga acoplada inescapable Escape-Evitación Aprendizaje lento de

evitación

C (confinado) Confinado al aparato Escape-Evitación Aprendizaje rápido de evitación

El hecho de que el grupo A muestre un déficit en el aprendizaje posterior en comparación con el grupo E indica que los animales son sensibles a las diferencias procedimentales entre la descarga escapable y la descarga inescapable. En consecuencia, la diferencia en la tasa de aprendizaje entre estos dos grupos muestra que los animales son sensibles a la contingencia respuesta-reforzador.

o La hipótesis de la indefensión aprendida La hipótesis de la indefensión aprendida esta basada en la conclusión de que los animales pueden percibir la contingencia entre su conducta y la entrega de un reforzador. La hipótesis de la indefensión aprendida asume que durante la exposición a descargas incontrolables los animales aprenden que las descargas son independientes de su conducta (no pueden hacer nada para controlarlas). Esta expectativa de una ausencia de control futura debilita su habilidad para aprender una nueva respuesta instrumental. El déficit de aprendizaje ocurre por dos razones; primero, la expectativa de falta de control reduce la motivación de los sujetos para realizar una respuesta instrumental. Segundo, incluso si realizan la respuesta y son reforzados en la fase de condicionamiento, la expectativa de falta de control hace más difícil para los sujetos aprender que su conducta es ahora efectiva para producir reforzamiento.

o Déficit de actividad Los investigadores se dieron cuenta de que el déficit de aprendizaje observado en el grupo A era resultado de que estos animales aprendían a ser inactivos en respuesta a la descarga durante la fase de exposición. Según esta hipótesis, en algunas situaciones la descarga inescapable produce una disminución en el movimiento motor, o persistencia de la respuesta, y a esto se deberían los posteriores déficits de actuación. Sin embargo hay situaciones en las cuales los efectos del aprendizaje no son debidos a la supresión del movimiento. La hipótesis de la inactividad aprendida no puede explicar todos los ejemplos de indefensión aprendida.

Page 37: Resumen aprendizaje temas 1 9

o Déficit atencional

¿Por qué la falta de control sobre los reforzadores podría producir un déficit en el aprendizaje si el efecto no es debido a una disminución en la actividad? Una posibilidad interesante es que la descarga inescapable provoque que los animales presten menos atención a sus acciones, por lo que tendrá dificultad para asociar sus acciones con los reforzadores en el escape-evitación. Maier consideró que un animal que no atiende a su conducta es el mismo problema que un animal que recibe reforzamiento demorado. Maier y sus colegas razonaron que la atención reducida a la conducta instrumental también podía ser aliviada mediante la introducción de una clave externa de retroalimentación de la respuesta o estímulo de marcado. En un experimento similar a la triada, se introdujo un grupo A-M con marcado de la respuesta instrumental en la fase de condicionamiento, eliminando el déficit de aprendizaje. Por tanto marcar la respuesta instrumental supera el déficit de indefensión aprendida. Este resultado sugiere que una de las fuentes del déficit de aprendizaje es una reducción de la atención a las respuestas que el animal realiza.

o Relaciones estimulares en el condicionamiento de escape Una cuestión importante es porque la exposición a la descarga no es tan dañina si el animal puede realizar una respuesta para escapar de la descarga. Realizar la respuesta de escape tiene como resultado claves internas de retroalimentación de la respuesta. Algunos de los estímulos producidos por la respuesta son experimentados al comienzo de la respuesta de escape, justo antes de que la descarga se retire, y se denominan claves de retroalimentación de la terminación de la descarga. Otros son producidos cuando el animal completa la respuesta, justo después de que la descarga se haya retirado al comienzo del intervalo entre ensayos. Estos se denominan claves de retroalimentación de al señal de seguridad. Las claves de retroalimentación de la señal de seguridad son seguidas de forma fiable por el intervalo entre ensayos, y por tanto por la ausencia de descarga. En consecuencia, estas claves contextuales llegan a convertirse en inhibidores condicionados del miedo y limitan o inhiben el miedo elicitado por las claves contextuales de la cámara experimental. Estas señales de seguridad no existen para los animales que están acoplados a la descarga inescapable ya que para ellos los periodos de descarga y no descarga no son predecibles (condicionando las claves contextuales de la cámara de experimentos). Como conclusión, la relación causal o contingencia asegura que el reforzador es entregado sólo tras la ocurrencia de la respuesta instrumental especificada. La relación de contigüidad asegura que otras actividades no se interpongan entre la respuesta especificada y el reforzador para interferir en el condicionamiento de la respuesta crítica.

Page 38: Resumen aprendizaje temas 1 9

Tema 6: Programas de reforzamiento y conducta de el ección Un programa de reforzamiento es un programa o regla que determina la forma en que se relacionan las presentaciones del reforzador con las ocurrencias de la respuesta instrumental. Los programas de reforzamiento son importantes porque determinan la tasa y el patrón de las respuestas instrumentales. Los programas de reforzamiento que incluyen relaciones similares entre los estímulos, las respuestas y los reforzadores normalmente producen patrones similares de conducta. Estos programas se interesan más por loas factores que afectan al mantenimiento de la conducta, que al proceso de adquisición de la respuesta (moldeamiento y condicionamiento inicial). 1. Programas simples de reforzamiento intermitente En los programas simples, un solo factor determina que ocurrencia de la respuesta instrumental se refuerza. � Programas de razón La característica definitoria de un programa de razón es que el reforzamiento depende solo del número de respuestas que el organismo realiza. Un programa de razón solo requiere contar el número de respuestas que han ocurrido y entrega el reforzador cada vez que se alcance el número requerido. Este tipo de programa se denomina técnicamente reforzamiento continuo (RFC) . Las situaciones en las que la respuesta se refuerza solo alguna vez involucran un reforzamiento parcial o intermitente . Razón fija En los programas de razón fija el reforzador se entrega una vez el animal ha realizado un numero de respuestas instrumental determinado, por ejemplo 10 (RF10). Un programa de reforzamiento continuo constituye también un programa de razón fija, en este tipo de programas los organismos suelen responder a una tasa constante pero moderada. Solo dan pausas breves e impredecibles. El patrón de respuestas es muy diferente cuando se encuentra en funcionamiento un programa de reforzamiento intermitente de razón fija. Se da una tasa constante y alta una vez que la conducta se ha iniciado, pero se puede tardar un tiempo antes de comenzar el número requerido de respuestas. El registro acumulativo es una forma especial de representar la forma de repetirse una respuesta a lo largo del tiempo. La pendiente de la línea trazada por el registro acumulativo representa la tasa de respuesta del sujeto. En un programa de razón fija se observa una tasa cero de respuestas justo después de la entrega del reforzador, esta pausa se denomina pausa postreforzamiento . La tasa de respuesta alta y estable que completa cada requerimiento de la razón se denomina carrera de la razón. Con mayores requerimientos de tasa, tienden a ocurrir pausas postreforzamientos más largas. La tensión de la razón ocurre cuando el requerimiento de la razón se incrementa de forma súbita (RF120 a RF500) y hace que el animal haga una pausa periódica cada vez que complete la razón requerida. Si este incremento es muy elevado, el animal puede dejar de responder. La investigación ha demostrado que la pausa postreforzamiento está controlada por el requerimiento de la razón subsiguiente (debería denominarse pausa pre-razón).

Page 39: Resumen aprendizaje temas 1 9

Razón variable Un procedimiento en el que se necesita un número de respuestas distinto para la entrega de cada recompensa se denomina procedimiento de razón variable. El valor numérico del programa de razón variable indica el número medio de respuestas requerido para conseguir el reforzador (RV10). Debido a que el número de respuestas necesario para conseguir el reforzamiento no es predecible las pausas predecibles en la tasa de respuesta son menos probables con los programas de RV que con los programas de RF. Los organismos suelen responder a una tasa claramente estable en los programas de RV. Aunque pueden darse pausas post-reforzamiento en los programas de razón variable, estas son más largas y prominentes con los programas de razón fija. La tasa global de respuesta en los programas de RF y RV es similar siempre y cuando, como promedio se requieran números similares de respuestas.

� Programas de intervalo En los programas de intervalo las respuestas son reforzadas solo si ocurren cuando ha transcurrido una cierta cantidad de tiempo. Intervalo fijo En un programa de intervalo fijo el tiempo establecido no varía de una ocasión a la siguiente. Los programas de intervalo fijo se dan en situaciones donde se requiere una cantidad fija de tiempo para dispensar el reforzador. El animal es reforzador cuando realiza la respuesta instrumental tras haber transcurrido el tiempo fijado. A medida que el tiempo para la disponibilidad del próximo reforzador se acerca, la tasa de respuesta aumenta. Este aumento en la tasa de respuesta se manifiesta como una aceleración en el registro acumulativo hacia el final del IF. El patron de respuesta que se desarrolla con los programas de reforzamiento de IF se denomina por consenso el festón del intervalo fijo (festoneado ). Este tipo de programas reflejan la precisión del sujeto para contar el tiempo. La pausa post-reforzamiento y la aceleración posterior hacia el final del intervalo reflejan una habilidad rudimentaria para contar el tiempo. Cuando se introduce una referencia temporal (como una luz que crece con el tiempo), el animal incrementa la duración de la pausa postreforzamiento y provoca que la respuesta se desplace hacia el final del IF (se incrementa la eficacia de la ejecución). El intervalo determina cuando el reforzador está disponible, no cuando se entrega (es necesario la respuesta instrumental). Intervalo variable En un programa de intervalo variable las respuestas se refuerzan si se dan tras haber transcurrido un intervalo variable desde la administración del reforzador previo (o desde el comienzo del programa). Como en los programas de intervalo fijo, el sujeto en los programa de IV tiene que realizar la respuesta instrumental para obtener el reforzador. Los reforzadores no se dan gratis se dan solo si el organismo responde tras un intervalo variable. Como los programas de razón variable, los programas de IV mantienen tasas de respuestas constantes y estables sin pausa regulares. Programas de intervalo y espera limitada En los programas de intervalo simples, una vez que el reforzador está disponible, permanece disponible hasta que se realiza la respuesta requerida, no importa cuanto

Page 40: Resumen aprendizaje temas 1 9

tiempo lleve. Si existe restricción en cuanto al tiempo que permanece el reforzador disponible se denomina espera limitada . Las restricciones de la espera limitada pueden añadirse tanto a los programas de intervalo fijo como a los programas de intervalo variable. � Comparación de los programas de razón y de interval o Existen notables similitudes entre los patrones de respuesta que se mantienen por los programas simples de intervalo y de razón. Los programas de razón fija e intervalo fijo producen una pausa postreforzamiento después de la administración de cada reforzador. Tanto los RF como los IF producen altas tasa de respuesta justo antes de la administración del siguiente reforzador. Por el contrario los programas RV e IV mantienen tasas estables de respuesta sin pausas predecibles. Sin embargo los programas de intervalo y de razón motivan la conducta de forma diferente. Los programas de intervalo y de razón activan diferentes cambios neuroquímicos en el cerebro. En un experimento con pájaros, donde la frecuencia de reforzamiento de dos programas RV e IV era la misma, se comprobó que el pájaro reforzado con el programa RV respondió a una tasa mucho más alta que el pájaro reforzado con el programa IV. El programa RV motivó una conducta instrumental mucho más vigorosa. Reforzamiento diferencial del tiempo interrespuest a Los programas de razón son capaces de producir tasas de respuesta más altas que los programas de intervalo. Parece ser que el factor crítico es el espaciamiento entre respuestas que se da justo antes del reforzamiento. El intervalo entre una respuesta y la siguiente se denomina tiempo interrespuesta o TIR. El intervalo entre sucesivas respuestas es también un parámetro conductual que puede moldearse mediante el reforzamiento. En un programa de razón no existen restricciones acerca de cuándo cuentan las respuestas para conseguir el reforzador. Cuanto más rápido complete el sujeto el requerimiento de la razón más rápido recibirá el reforzador. Un programa de razón favorece que no que se espere mucho entre las respuestas (favorece tiempo interrespuesta cortos). Contrariamente, los programas de intervalo no favorecen los tiempos interrespuesta cortos, sino una ejecución con TIRs largos. Los programas de intervalo favorecen TIRs largos, y esto deriva en tasa de respuesta más bajas que las que se observan en los programas de razón. � Programas de reforzamiento de tasas de respuesta Ni los programas de razón ni los de intervalo requieren tasa de respuestas específicas para conseguir el reforzamiento (aunque en ambos es diferente). Por el contrario, los programas de tasas de respuesta requieren específicamente que el organismo responda a una tasa particular para obtener el reforzador. En los programas de tasas respuesta, el reforzamiento de una respuesta particular depende de cuan pronto ocurra tras la respuesta precedente. Si se establece un programa en el que la respuesta se refuerza sólo si ocurre dentro de los 5 segundos siguientes a la respuesta precedente, el programa proporcionará reforzamiento si la tasa de respuesta es 12 por minuto o mayor. Este procedimiento fomenta tasas altas de respuesta. Se denomina reforzamiento diferencial de tasas altas (RDA). En los programas de RDA una respuesta se refuerza sólo si ocurre antes de que haya transcurrido cierta cantidad de tiempo tras la respuesta precedente. Si se refuerza la respuesta sólo si ocurre después de que haya transcurrido cierta cantidad de tiempo

Page 41: Resumen aprendizaje temas 1 9

desde la respuesta previo se denominaría reforzamiento diferencial de tasas bajas (RDB). 2. Conducta de elección: Programas concurrentes Históricamente la investigación sobre conducta de elección fue llevada a cabo utilizando laberintos en T. En el experimento típico, responder en cada tecla (hay dos con programas diferentes) es reforzado según algún programa de reforzamiento. Los dos programas funcionan al mismo tiempo y el sujeto es libre de cambiar de una tecla de respuesta a la otra. Este tipo de procedimiento se denomina programa concurrente . � Medidas de la conducta de elección La conducta de elección de un individuo en un programa concurrente se refleja en la distribución de su conducta entre dos respuestas alternativas. Una técnica común de medir esto es calcular la tasa relativa de respuesta de cada alternativa. La tasa relativa de respuesta en la tecla A se calcula de la siguiente forma: RA/(RA+RB), donde RA es la tasa de respuesta en la tecla A, y RB es la tasa en la tecla B. La forma en que un organismo distribuye su conducta entre las dos alternativa de respuesta está muy influida por el programa de reforzamiento que funciona para cada respuesta. Si consideramos dos programas IV 60 seg. en cada tecla, el animal responderá de igual forma ante ambos programas ya que obtiene más reforzadores, y obtendrá reforzadores con la misma frecuencia en cada lado. La tasa relativa de reforzamiento en la tecla A se calcula de la siguiente forma: rA/(rA+rB), donde rA y rB representan las tasas de reforzamiento obtenidas en cada alternativa de respuesta. Si el sujeto obtiene recompensas con la misma frecuencia en cada lado la tasa relativa de respuesta será 0.5. � La ley de igualación Herrnstein estudió la distribución de las respuestas en varios programas concurrentes I IV-IV. Lo que se obtuvo fue que las palomas distribuyeron sus respuestas de una manera altamente predecible. Los resultados indican que la tasa relativa de respuesta en una alternativa dada estaba siempre muy cercana a igualar la tasa relativa de reforzamiento logrado en esa alternativa. Por tanto, la tasa relativa de respuestas en una alternativa se iguala con la tasa relativa de reforzamiento en esa alternativa (ley de igualación ). Esto se puede expresar matemáticamente como una relación de tasas de respuesta y de reforzamiento totales:

RA/(RA+RB)=rA/(rA+rB) Otra formulación relaciona las proporciones de tasas de respuesta y de reforzamiento:

RA/RB=rA/rB Ambas relaciones representan el mismo principio básico, que las tasas relativas de respuesta se igualan con las tasas relativas de reforzamiento. Infraigualación, supraigualación y sesgo de respues ta

Page 42: Resumen aprendizaje temas 1 9

La ley de igualación indica claramente que las elecciones no se hacen de forma caprichosa, son una función ordenada de las tasas de reforzamiento. La mayoría de los ejemplos en los que la conducta de elección no se corresponde perfectamente con la relación de igualación pueden acomodarse añadiendo dos parámetros, b y s, a la ecuación de igualación. Esta forma de igualación generalizada (Baum 1974) es:

RA/RB= b (rA/rB)s El parámetro s representa la sensibilidad de la conducta de elección a las tasas relativas de reforzamiento para las alternativas de respuesta. Una tipo de desviación de la igualación perfecta incluye una sensibilidad reducida de la conducta de elección a las tasas relativas de reforzamiento (infraigualación , s<1). Si la tasa de respuestas es más sensible a la tasa relativa de reforzamiento de lo que se predice para una igualación perfecta, se denomina supraigualación (s>1). Es más probable que las elecciones muestren sensibilidad reducida a las tasas relativas de reforzamiento que sensibilidad elevada a las mismas. En general, hacer más difícil el cambio de una alternativa de respuesta a la otra incrementa el parámetro de sensibilidad; cuando cambiar es más difícil, los organismos son más sensibles a las tasas relativas de reforzamiento para las alternativas de respuesta. El parámetro representa el sesgo (bias) de respuesta. Los sesgos de respuesta influyen en la elección cuando las alternativas de respuesta son diferentes (picotear una tecla o presionar con la pata un pedal). El parámetro b también es importante cuando el reforzador proporcionado para las dos respuestas es diferente. Una preferencia (o sesgo) por una respuesta o un reforzador sobre la otra influye en el parámetro de sesgo b. La ley de igualación y el valor del reforzador Se ha encontrado que la tasa relativa de respuesta es una función de la cantidad relativa de cada reforzador, así como de la demora relativa del reforzamiento. Las tasas relativas de respuesta están determinadas por la palatabilidad de los reforzadores. Las características de un reforzador como su cantidad, palatabilidad y demora, pueden considerarse aspectos de su valor general. La ley de igualación y los programas simples de re forzamiento Según Herrnstein incluso las situaciones de respuesta única pueden involucrar una elección. La elección es entre realizar la respuesta especificada (presionar palanca) y ocuparse en otras posibles actividades (acicalarse, caminar, etc..).En un programa simple, el sujeto recibe no sólo reforzamiento explícito por realizar una respuesta operante específica, sino también recompensas intrínsecas de las otras actividades que pueda realizar. Si RO representa la tasa de las otras actividades del animal, y rO es la tasa de reforzamiento intrínseco por las otras actividades, la ley de igualación para las situaciones de respuesta única puede establecerse como sigue:

RA/(RA+RO)=rA/(rA+rO) Considerando (RA+RO)=k, es decir a una constante que no guarda relación con el reforzador utilizado, y despejando RA se obtiene:

RA=k rA/(rA+rO)

Page 43: Resumen aprendizaje temas 1 9

Esta ecuación predice que la tasa de respuesta estará directamente relacionada con la tasa de reforzamiento para esa respuesta de una forma negativamente acelerada. La tasa de respuesta disminuirá a medida que aumente la tasa de las otras fuentes de reforzamiento (rO). En base a esta ecuación, existen dos maneras de cambiar la tasa de una respuesta; mediante el cambio de su tasa de reforzamiento, o mediante el cambio de la tasa de las otras fuentes de reforzamiento. � Mecanismos de la ley de la igualación La ley de igualación describe cómo los organismos distribuyen sus respuestas en una situación de elección pero no explica que mecanismos son responsables de esta distribución de respuestas (ley descriptiva, no mecanicista). Esta ley también ignora cuando se realizan las respuestas individuales. Las teorías molares de igualación ignoran que podía ocurrir al nivel de las respuestas individuales. Las teorías molares explican agregados de respuestas y se relacionan con la distribución total de respuestas y reforzadores en las situaciones de elección. Las teorías moleculares se centran en lo que ocurre al nivel de las respuestas individuales y consideran la relación de igualación como el resultado neto de estas elecciones individuales. El mejoramiento es algo intermedio entre las dos teorías anteriores. Igualación y maximización de las tasas de reforzam iento Las explicaciones de la conducta de elección están basadas en la idea de que los organismos distribuyen sus acciones entre las alternativas de respuesta para recibir la máxima cantidad de reforzamiento posible en la situación. La idea de que los organismos maximizan el reforzamiento es utilizada para explicar la conducta de elección tanto a nivel molecular como molar. Maximización molecular Según las teorías moleculares de la maximización, los organismos siempre eligen cualquier alternativa de respuesta con mejores probabilidades de que sea reforzada en ese momento. Shimp propuso que ante dos programas A y B, el sujeto cambia del programa A al programa B a medida que la probabilidad de reforzamiento para el programa B aumenta. Según Shimp, la relación de igualación es un subproducto de una alternancia prudente cuando la probabilidad de reforzamiento en la tecla de respuesta alternativa es mayor que la probabilidad de reforzamiento en la tecla de respuesta actual. Maximización molar Las teorías molares de la maximización presuponen que el organismo distribuye sus respuestas entre las varias alternativas a fin de maximizar la cantidad de reforzamiento que consiguen a la larga. Esta teoría fue formulada para explicar la elección de programas concurrentes de componentes de razón, donde los animales siempre responden al programa con menor razón. Uno de los problemas de la maximización molar es la explicación de la conducta de elección en los programas IV-IV, que se distribuye de forma cercana a la ley de igualación. Mejoramiento

Page 44: Resumen aprendizaje temas 1 9

Los mecanismos de mejoramiento operan en una escala temporal que está entre la escala temporal de las teorías molar y molecular. El término mejoramiento se refiere a hacer algo mejor. El mejoramiento no se refiere a elegir la mejor alternativa en ese momento (maximización molecular) o a largo plazo (maximización molar). El mejoramiento se refiere a la meta más modesta de sólo hacer que la situación sea mejor. Aquí es importante el concepto de tasa local de respuesta y reforzamiento. La tasa local de una respuesta es siempre mayor que su tasa global (75 pulsaciones en 20 minutos observadas en una hora => tasa global 75pulsaciones/hora, tasa local 225pulsaciones/hora). La teoría del reforzamiento asume que los organismos cambian de una alternativa de respuesta a otra para mejorar la tasa local de reforzamiento que están recibiendo. Matemáticamente el mecanismo de mejoramiento da como resultado la igualación. 3. Elección con compromiso En un programa concurrente de reforzamiento estándar, dos o más alternativas de respuesta están disponibles al mismo tiempo, y se puede alternar de una a otra en cualquier momento. � Programas concurrentes encadenados Un programa concurrente encadenado de reforzamiento involucra al menos dos fases. Durante la primera fase, el eslabón de elección , se permite al participante elegir entre dos programas alternativos realizando una respuesta. Una vez que el participante ha realizado la elección, está comprometido con esta elección hasta el final del eslabón terminal del programa. Los programas concurrentes encadenados implican elección con compromiso . Estos estudios han mostrado que los sujetos prefieren la alternativa de razón variable (incluso si requiere en promedio más respuestas que la alternativa RF). La consecución inmediata de una respuesta en un eslabón inicial es un estímulo que está asociado con el eslabón terminal elegido. Como este estímulo está presente cuando se proporciona el reforzador primario, el estímulo del eslabón terminal se convierte en reforzador primario. Por tanto, se puede caracterizar un programa concurrente como aquel en que las respuestas al eslabón inicial se refuerzan por la presentación de un reforzador condicionado. Las diferencias en el valor del reforzador condicionado determinarán entonces la tasa relativa de cada respuesta de elección en el eslabón inicial. � Estudios de autocontrol El autocontrol suele consistir en elegir una recompensa grande demorada sobre una pequeña inmediata. Para analizar esto Rachlin y Green comprobaron la conducta en dos situaciones; en el primer caso (procedimiento de elección directa) la recompensa pequeña inmediata y la recompensa grande demorada estaban disponibles tan pronto como las palomas picotearan la tecla de elección correspondiente (las palomas no mostraban autocontrol). En el segundo caso (procedimiento concurrente encadenado) los componentes terminales del programa concurrente encadenado estaban demorados después de que las palomas realizasen su elección inicial. Si se imponía una demora suficiente antes de los componentes terminales, las palomas mostraban autocontrol; elegían principalmente la recompensa grande demorada. Explicaciones del autocontrol

Page 45: Resumen aprendizaje temas 1 9

El valor de un reforzador se reduce en función de cuanto tiempo se tiene que esperar para obtenerlo. La función matemática que describe esta disminución en el valor se denomina función descontadota del valor . El valor de un reforzador (V) está directamente relacionado con la magnitud de la recompensa (M) e inversamente relacionado con la demora de la recompensa (D), según la formula:

V=M / (1+KD) donde K es el parámetro de la tasa descontadora. Esta función se denomina función del decaimiento hiperbólico. De acuerdo con esta ecuación, si el reforzador es entregado sin demora, el valor del reforzador esta directamente relacionado con su magnitud. Cuanto más se demora el reforzador, menor es su valor. La función descontadora de valor predicen los resultados de Rachlin y Green (ver figuras del libro). Las funciones descontadotas y los problemas del au tocontrol en la adicción a la droga EL parámetro K indica con que rapidez disminuye el valor de la recompensa en función de la demora. Cuanto más acusada sea la función descontadota de la demora de una persona, más dificultad tendrá para mostrar autocontrol (seleccionado la recompensa mayo demorada) en lugar de impulsividad (seleccionado la recompensa más pequeña, pero más rápida). En un experimento relacionado con las drogas, para los adictos a la heroína el valor del dinero disminuyó muy rápido si la recepción del dinero iba a demorarse. Esta función acusada de descuento de la recompensa indica una falta de control y por tanto de impulsividad. Madden especulo que debido a que los sujetos drogodependientes mostraban un descuento más rápido del valor de la recompensa “podía ser más probable que los individuos adictos a la heroína se implicaran en actividades criminales y peligrosas”. ¿Puede entrenarse el autocontrol? Entrenar a las personas con recompensas demoradas parece tener efectos generalizados en incrementar su tolerancia a la recompensa demorada. En un experimento con niños, siempre y cuando las tareas de entrenamiento implicasen bajo esfuerzo, el entrenamiento con la recompensa demorada incremento la preferencia por la recompensa más grande demorada durante el postest. Por tanto, el entrenamiento con reforzamiento demorado producía autocontrol generalizado.

Page 46: Resumen aprendizaje temas 1 9

Tema 7: Condicionamiento instrumental: mecanismos motivacionales Este capítulo está dedicado al estudio de los procesos que motivan y dirigen la conducta instrumental. Existen dos aproximaciones en el intento de comprender por qué ocurre la conducta instrumental. Una de estas (Thorndike y Pavlov) se centra en identificar la estructura asociativa del condicionamiento instrumental. La otra (Skinner) se centra en como la conducta está regulada en vista de las limitaciones o restricciones creadas por los procedimientos de condicionamiento instrumental. La teoría de la regulación conductual describe los efectos del reforzamiento dentro del amplio contexto del repertorio conductual de un organismo (aspectos molares). La aproximación asociacionista se centra en los mecanismos moleculares y no se preocupa en la meta a largo plazo o la función de la conducta instrumental. 1. La estructura asociativa del condicionamiento in strumental La respuesta instrumental ocurre en presencia de estímulos particulares. Deben considerarse tres sucesos en el análisis del condicionamiento instrumental: el contexto estimular €, la respuesta instrumental (R) y la consecuencia de la respuesta (C), o reforzador. La concepción tradicional de cómo estos tres elementos están relacionados se presenta en la siguiente figura.

Skinner describió el condicionamiento instrumental como una contingencia de tres términos . � La asociación E-R y la ley del efecto La estructura básica de un procedimiento de condicionamiento instrumental permite el desarrollo de varios tipos diferentes de asociaciones. El primero es una asociación entre los estímulos contextuales E y la respuesta instrumental R, la asociación E-R . En la ley del efecto Thorndike considera la clave del aprendizaje instrumental. Por tanto la motivación para la respuesta instrumental era la activación de la asociación E-R mediante la exposición a los estímulos en presencia de los cuales la respuesta instrumental fue previamente reforzada. La ley del efecto asume que el único papel del reforzador es crear una asociación E-R, el reforzador en si mismo no participa en esta asociación. La ley del efecto no incluye el aprendizaje acerca del reforzador (C), o la relación entre la respuesta y la consecuencia reforzante (R-C). Este planteamiento no considera que la expectativa de recompensa pueda motivar la conducta instrumental. � Expectativa de recompensa y la asociación E-C

R

E C

Page 47: Resumen aprendizaje temas 1 9

¿Cómo se podría captar la noción de que los sujetos aprenden a esperar el reforzador durante el curso del condicionamiento instrumental? El condicionamiento pavloviano es el proceso básico del aprendizaje de señales. La especificación de una respuesta instrumental asegura que el participante siempre experimentara ciertos estímulos distintivos (E) en conexión con la realización de la respuesta. Cualquiera que sean los estímulos (claves olfatorias o visuales), el reforzamiento de la respuesta instrumental producirá inevitablemente un emparejamiento entre E y el reforzador o consecuencia de la respuesta (C). El emparejamiento E-C es la base de la expectativa de recompensa en el condicionamiento instrumental. Clark Hull explicó el papel del condicionamiento pavloviano en el condicionamiento instrumental. Durante el condicionamiento instrumental la respuesta instrumental llega a ser instigada por dos factores. Primero, la presencia de E llega a evocar la respuesta instrumental directamente por asociación con R (E-R de Thorndike). Segundo, la actividad instrumental también llega a realizarse en respuesta a la expectativa de recompensa (asociación R-C). La teoría moderna de los dos procesos Esta teoría asume que existen dos tipos de aprendizaje (pavloviano e instrumental) y están relacionados de forma especial. A través de la asociación E-, el estímulo E llega a motivar la conducta instrumental mediante la activación de un estado emocional central . La naturaleza del estado emocional o motivación dependerá de la naturaleza del reforzador (un reforzador de comida activa la expectativa de comida, lo que Mowner denominó “esperanza”). ¿Cómo se puede probar que la noción de esperanza (expectativa pavloviana) motiva la conducta instrumental? Rescorla y Solomon (1967) apuntaron que, si esto es cierto, la presentación de un estímulo condicionado pavloviano debería alterar el curso de la respuesta instrumentalmente reforzada. La implicación básica de la teoría moderna de los dos procesos es que la tasa de una respuesta instrumental será modificada por la presentación de un estímulo clásicamente condicionado. Esto es, si un EC+ pavloviano para la comida se presenta durante la ejecución de una respuesta reforzada con comida, incrementará la “esperanza” que fue creada por la contingencia instrumental e incrementará la respuesta.

Resultados consecuentes con la teoría moderna de l os dos procesos

Para estudiar la teoría modera de los dos procesos un diseño experimental denominado experimento de transferencia de control que consta de tres fases. La fase 1 incluye un condicionamiento instrumental de una respuesta operante. En la fase 2 se entrena a los participantes con un condicionamiento clásico, en el cual se asocia un EC explícito con la presencia o ausencia de un estimulo incondicionado (sin procedimiento de condicionamiento instrumental concurrente). La fase 3 es la fase de transferencia crítica. Aquí se permite a los participantes que realicen la respuesta instrumental y se presenta periódicamente el EC de la fase 2 para observar su efecto en la tasa de conducta instrumental. Este procedimiento fue presentado en capítulos anteriores para medir el miedo condicionado a través del procedimiento de respuesta emocional condicionada (REC). Esto sucede porque el EC pavloviano elicita un estado emocional (miedo) que es contrario a la emoción o expectativa (esperanza) que se establece en el condicionamiento instrumental con comida. Si lo que se presenta es comida en lugar de un EC que produce miedo, ocurre un aumento en la respuesta durante la señal

Page 48: Resumen aprendizaje temas 1 9

pavloviana.

Interacciones de respuesta en los experimentos de transferencia de control

Los estímulos condicionados clásicamente elicitan no solamente estados emocionales, sino también respuestas abiertas que pueden influir en la conducta instrumental. Los investigadores han logrado demostrar que muchos efectos de transferencia de control no están producidos por interacciones entre respuestas abiertas. Sin embargo las respuestas abiertas clásicamente condicionadas han sido importantes en algunos experimentos de transferencia de control.

¿Estados emocionales centrales condicionados o exp ectativas específicas de recompensa?

La teoría moderna de los dos procesos asume que el condicionamiento clásico media la conducta instrumental a través del condicionamiento de estados emocionales centrales como la esperanza (reforzamiento positivo) o el miedo (reforzamiento negativo). Sin embargo los animales también adquieren expectativas específicas de recompensa en lugar de estados emocionales centrales más generales durante el condicionamiento instrumental y clásico. Experimentos con EC+ específicos (o comida o agua azucarada) mostraron que son más efectivos cuando el reforzador es similar al EC+ (el EC+ de agua azucarada incrementa más la conducta instrumental si el reforzador es agua azucarada que si es comida). Por tanto, las expectativas de recompensas específicas más que un estado central emocional general determinaron los resultados. El aprendizaje de expectativa específica de recompensa (basada en el aprendizaje de una asociación E-C) es una alternativa importante a la teoría moderna de los dos procesos para explicar ciertos tipos de resultados. Las asociaciones E-C parecen ser fundamentales para la motivación de la conducta instrumental. Según Berridge (2001), a través de la asociación E-C, E llega a ser un estímulo incentivo; E en si mismo llega a ser atractivo. � Relaciones R-C y E (R-C) en el condicionamiento ins trumental Hasta ahora se han considerado dos asociaciones que pueden motivar la conducta instrumental, la asociación de Thorndike E-R y la asociación E-C, que activa una expectativa específica de recompensa o un estado emocional. Ninguna de las dos considera una conexión directa entre la respuesta R y el reforzador, o consecuencia de la respuesta, C. Por otro lado, en una situación de condicionamiento instrumental, el reforzador C no puede predecirse a partir de E solamente. Mas bien, C ocurre si el participante realiza la respuesta R en presencia de E. Evidencia de asociaciones R-C Algunas investigaciones han sugerido que el condicionamiento instrumental lleva al aprendizaje de asociaciones respuesta-consecuencia. Una técnica común incluye devaluar el reforzador después del condicionamiento para ver si esto disminuye la respuesta instrumental. En un experimento con ratas donde la presión de la palanca hacia la derecha o hacia la izquierda reforzaba con comida o agua azucara, se convirtió en aversivo el azúcar (sin el procedimiento de condicionamiento instrumental) mediante la inyección de cloruro de litio. Posteriormente se volvió a introducir el procedimiento de

Page 49: Resumen aprendizaje temas 1 9

condicionamiento instrumental, pero sin los reforzadores. El hallazgo importante fue que era menos probable que las ratas realizasen la respuesta cuyo reforzador había sido convertido en aversivo. La supresión selectiva de respuesta es difícil de explicar a partir de las asociaciones E-C o E-R que se supone que son aprendidas de acuerdo con la teoría de los dos procesos. La asociación E-R no puede producir los resultados porque el reforzador in está incluido en la asociación E-R. Los resultados no pueden explicarse con la asociación E-C porque las dos respuestas eran realizadas en el mismo sitio en presencia de los mismos estímulos. Este hallazgo indica que cada respuesta estaba asociada separadamente con su propio reforzador. Los sujetos evidentemente aprendieron asociaciones R-C independientes. Evidencia del aprendizaje de una relación jerárqui ca E-(R-C) La evidencia anterior muestra que los organismos aprenden a asociar la respuesta instrumental con su consecuencia. Sin embargo, las asociaciones R-C no pueden actuar aisladamente para producir la respuesta instrumental. Una posibilidad es que la asociación R-C sea activada por los estímulos E que están presentes cuando la respuesta es reforzada. De acuerdo con esto, E no activa directamente R, sino que activa la asociación R-C. Skinner sugirió que los tres componentes del condicionamiento instrumental están conectados a través de una relación condicional E-(R-C). 2. Regulación conductual Los análisis de regulación conductual están basados en una visión del mundo radicalmente distinta a lo expuesto anteriormente. En lugar de considerar el condicionamiento instrumental en términos de reforzamiento de una respuesta en presencia de ciertos estímulos, los análisis de la regulación conductual se centran en como las contingencias instrumentales ponen limitación a las actividades de un organismo. � Antecedentes de la regulación conductual Los reforzadores eran inicialmente considerados como tipos especiales de estímulos. Thorndike caracterizó un reforzador como un estímulo que produce un “estado satisfactorio de acontecimientos”. La teoría de la respuesta consumatoria Fred Sheffield formulo la teoría de la respuesta consumatoria . Muchos reforzadores (como la comida o el agua) elicitan respuesta incondicionadas típicas de la especie (comer, tragar, lamer). La teoría de la respuesta consumatoria atribuye el reforzamiento a estas conductas típicas de la especie, ya que son en si mismas el rasgo crítico de los reforzadores. La teoría de la respuesta consumatoria fue una innovación radical debido a que trasladó la investigación de los reforzadores desde tipos especiales de estímulos a tipos especiales de respuestas. Se consideró que las respuestas reforzadoras eran especiales porque involucraban la consumación o el completamiento de una secuencia instintiva de conducta. El principio de Premack

Page 50: Resumen aprendizaje temas 1 9

Premack apuntó que las respuestas incluidas en los reforzadores comúnmente utilizados eran actividades que es altamente probable que realicen los animales. Por el contrario, las respuestas instrumentales son actividades que normalmente ocurren a una baja probabilidad. Formalmente el principio de Premack es: Dadas dos respuestas de diferente probabilidad, A y B, la oportunidad para realizar la respuesta de alta probabilidad A después de la respuesta de baja probabilidad B tendrá como resultado el reforzamiento de la respuesta B. (B -> A => refuerza B). La oportunidad para realizar la respuesta B de baja probabilidad después de la respuesta A de alta probabilidad no dará como resultado el reforzamiento de la respuesta A. (A -> B => no refuerza A). El principio de Premack se centra en la diferencia en la probabilidad de las respuestas instrumental y reforzadora; en consecuencia, también es denominado el principio de la probabilidad diferencial . Comer reforzará la presión de la palanca porque comer es normalmente más probable que presionar la palanca. La teoría de Premack niega que exista una distinción fundamental entre las respuestas reforzadoras e instrumentales (la efectividad de un reforzador es un asunto relativo). El principio de Premack estimuló la consideración de los reforzadores como respuestas más que como estímulos. Con el principio de Premack cualquier actividad podía servir como un reforzador siempre y cuando fuera más probable que la respuesta instrumental. La hipótesis de la privación de respuesta En la mayoría de los procedimientos de condicionamiento instrumental, la probabilidad momentánea de una respuesta reforzada se mantiene a un nivel alto mediante la restricción del acceso a la respuesta reforzante. Las restricciones en la oportunidad de realizar la respuesta reforzadora sirven para aumentar su efectividad como reforzador. Timberlake y Allison (1974) abandonaron totalmente el principio de la probabilidad diferencial y argumentaron que la restricción de la respuesta reforzadora era el factor crítico para el reforzamiento instrumental. Esta propuesta es denominada la hipótesis de la privación de respuesta . Se ha encontrado que el acceso a una respuesta de baja probabilidad puede servir como un reforzador, siempre y cuando los sujetos tuvieran la restricción de realizar esa respuesta. Esto muestra que la privación de respuesta es más básica para la motivación de la conducta instrumental que la probabilidad diferencial de la respuesta. Esta hipótesis proporciona un nuevo procedimiento para crear reforzadores (restringir el acceso a la respuesta reforzadora). Los puntos de vista tradicionales sobre el reforzamiento asumen que un reforzador es algo que existe independientemente de un procedimiento de condicionamiento instrumental. La hipótesis de privación de respuesta hace explícita la idea radicalmente diferente de que un reforzador es producido por la contingencia instrumental en si misma (Premack sugirió que los reforzadores no existen en sentido absoluto). Posteriores desarrollos de las teorías de regulación conductual han establecido como las contingencias instrumentales crean los reforzadores y los efectos del reforzamiento. � Regulación conductual y el punto de deleite conduct ual

Page 51: Resumen aprendizaje temas 1 9

Las teorías de la regulación conductual asumen que existen mecanismos homeostáticos análogos respecto a la conducta. En el contexto de la regulación conductual se propone que los organismos tienen una distribución de actividades preferida u óptima que luchan por mantener frente a cambios o interrupciones. La teorías de la regulación conductual se centran en el grado en que la contingencia instrumental respuesta-reforzador rompe la estabilidad conductual y empuja al individuo fuera de su distribución de actividades preferida u óptima. Si se perturba el balance de actividades preferido u óptimo, se asume que la conducta cambiará para corregir la desviación del nivel homeostático. El punto de deleite conductual La teoría de la regulación conductual asume que si los animales son libres para distribuir sus respuestas entre las alternativas disponibles, lo harán de la forma en que sea más cómodo o en algún sentido “optimo” para ellos. Esta distribución de respuesta define el punto de deleite conductual . Este punto se asume que es estable a lo largo del tiempo y puede identificarse mediante la frecuencia relativa de ocurrencia de todas las respuestas de un organismo en una situación sin restricciones. Imposición de una contingencia instrumental La teoría de la regulación conductual establece que los organismos defenderán el punto de deleite conductual contra los cambios, exactamente como la regulación fisiológica incluye la defensa de los cambios de un punto fisiológico establecido. Una contingencia instrumental entre dos actividades (por ejemplo ver la tele y estudiar el mismo tiempo con respecto a ver más tele que estudiar) no permite volver al punto de deleite (ver más tele que estudiar). Pero no por ello el punto de deleite es irrelevante, ya que proporciona la motivación para la conducta instrumental. Staddon propuso un modelo de desviación mínima de regulación conductual para resolver el dilema de las restricciones de programa. Según este modelo, la introducción de una contingencia respuesta-reforzador provoca que los organismos redistribuyan sus conductas entre las respuestas instrumentales y contingente de manera que se minimice la desviación total de las dos respuestas con respecto al punto óptimo o de deleite. De esta forma, considerando dos conductas (ver tele vs. estudiar) si el punto de deleite es (40,10), con una contingencia 1:1 el punto de equilibrio debido a la continencia será (25,25) ya que 40-25=25-10. Explicación de los efectos del reforzamiento La regulación conductual incluye la defensa de un punto de deleite conductual frente a las restricciones de respuesta impuestas por una contingencia respuesta-reforzador. Esta defensa puede requerir establecerse en algún punto cercano pero no exactamente en el punto de deleite de la línea de base. Un efecto de reforzamiento se identifica por un incremento en la ocurrencia de una respuesta instrumental sobre el nivel de esa conducta en ausencia de la contingencia respuesta-reforzador. El aumento en la respuesta instrumental (un efecto de reforzamiento) es el resultado de mecanismos reguladores de la conducta que funcionan para minimizar las desviaciones del punto de deleite conductual.

Una visión sobre las contingencias de reforzamient o en un

Page 52: Resumen aprendizaje temas 1 9

contexto conductual más amplio

Las contingencias instrumentales no suceden en un vació conductual o un tubo de ensayo. Ocurren en un contexto de una variedad de respuestas y reforzadores que puede obtener el sujeto. Un contexto conductual más amplio puede influir significativamente en la forma en que el sujeto se ajusta a las restricciones de un programa. Así por ejemplo si un estudiante disfruta igual con la radio que con la tele, restringir el uso de la tele al numero de horas de estudio no incrementará el numero de horas de estudio. El efecto de un procedimiento de condicionamiento instrumental particular puede depender de qué fuentes de reforzamiento alternativas están disponibles para el organismo, cómo esos otros reforzadores están relacionados con el reforzador particular implicado en la contingencia instrumental, y los costes de obtener esos reforzadores alternativos. Estos aspectos han sido considerados en la aplicación de conceptos económicos al problema de la distribución de respuestas. � Conceptos económicos y distribución de respuestas Con la aproximación del punto de deleite, la cuestión fundamental de la motivación instrumental llegó a ser esta: ¿Cómo las restricciones de un procedimiento de condicionamiento instrumental producen cambios en la conducta? Bickel y colaboradores advirtieron “la economía es el estudio de la distribución de la conducta dentro de un sistema de restricciones”. En economía las restricciones en la conducta se imponen por los ingresos de un individuo y el precio de los bienes que se quiere obtener. En las situaciones de condicionamiento instrumental, las restricciones están proporcionadas por el número de respuestas que un organismo es capaz de realizar y el número de respuestas requerido para obtener cada reforzador. Demanda del consumidor Es fundamental para la aplicación de los conceptos económicos al problema del reforzamiento la relación entre el precio de una comodidad y cuanto se obtiene. Esta relación se denomina curva de demanda . El grado en el que el consumo de una comodidad está influido por el precio se denomina elasticidad de la demanda . Si el consumo de un producto depende mucho del precio, su demanda será muy elástica (la demanda de gasolina es inelástica). El concepto de demanda del consumidor se puede utilizar para analizar el reforzamiento instrumental considerando el número de respuestas como análogo al dinero. El “precio” del reforzador es el tiempo o el número de respuestas requeridas para obtener el reforzador (el precio depende del programa). La meta es comprender como la conducta instrumental (gasto) está controlada por las contingencias instrumentales (precio). Determinantes de la elasticidad de la demanda Los conceptos económicos han ayudado a identificar tres factores principales que influyen en como las restricciones de un programa moldean la redistribución de la conducta. Cada uno de estos factores determina el grado de elasticidad de la demanda, o el punto hasta el que los incrementos en el precio producen una disminución en el consumo.

Disponibilidad de sustitutos: Tal ves el factor más importante que influye en la elasticidad de la demanda es la disponibilidad de sustitutos (aumenta la sensibilidad a precios altos). El café y el te son ejemplos de

Page 53: Resumen aprendizaje temas 1 9

ello. En experimentos con babuinos se comprobó que la cocaína era un sustituto para la comida cuando el precio de esta era alto. Una fuente de reforzadores sustituible es la disponibilidad de un reforzador fuera de la sesión experimental. Si el animal, después de una sesión experimental con comida como reforzador, puede comer de forma libre en su recinto, se denomina una economía abierta . En la economía cerrada el animal no recibe comida suplementaria con posterioridad a la sesión experimental. En general la elasticidad de la demanda es mayor en situaciones de economía abierta que en economías cerradas.

Rango de precios: En general, un aumento en el precio tiene menos efecto en precios bajos que en precios altos. Por tanto, en un rango de precios bajos, la demanda de comida no es elástica.

Nivel de ingresos: En general, cuanto más salario, menos se desanimará un consumidor con los incrementos en el precio. En estudios de condicionamiento instrumental, el número de respuestas o la cantidad de tiempo disponible para responder corresponde a los ingresos. Cuanto más respuestas o tiempo tengan disponibles los animales, menos estará su conducta influida por los aumentos en el coste del reforzador.

� Problemas con las aproximaciones de regulación cond uctual Las aproximaciones de la regulación conductual están basadas en la asunción de que los individuos buscan la defensa de una combinación de actividades “óptima” (punto de deleite). Este punto de deleite se defiende mediante la redistribución de la conducta entre las respuestas instrumentales y reforzadoras u optando por sustituir los reforzadores. El punto de deleite es una característica molar de la conducta. Según la aproximación del punto de deleite conductual la distribución temporal de conducta no es importante, pero la evidencia indica que es importante como se alcanza el punto de deleite molar (se requiere información sobre las pautas de elección moleculares). Otra dificultas es que las respuestas durante un periodo de línea de base libre no siempre tienen el mismo “valor” como respuestas que ocurren como parte de una contingencia instrumental impuesta (correr por placer vs. Correr en una clase de educación física). Además, debido a que las aproximaciones de regulación conductual y económicas a la conducta instrumental no comprenden procesos conductuales moleculares, no dicen nada acerca de cómo los organismos defienden una combinación preferida de bienes o actividades. � Contribuciones de la regulación conductual Algunas de las contribuciones de la regulación conductual son:

La regulación conductual y el principio de Premack nos alejó de la consideración de los reforzadores como tipos especiales de estímulos o como tipos especiales de respuestas.

Los procedimientos de condicionamiento instrumental ya no se considera que estampan o fortalecen la conducta instrumental. La reasignación de la conducta incluye un aumento en la respuesta instrumental y una disminución en la respuesta reforzadora.

No existe una distinción fundamental entre las respuestas instrumentales y las reforzadoras.

La regulación conductual y la economía conductual aceptan la idea de

Page 54: Resumen aprendizaje temas 1 9

que los organismos responden para maximizar sus beneficios. La regulación conductual y la economía conductual han proporcionado

caminos nuevos y precisos para describir las restricciones que imponen varios procedimientos de condicionamiento instrumental en el repertorio de conducta de un organismo. Todas las opciones de respuesta del organismo que se dan en un momento dado deben ser consideradas como sistema. Las restricciones impuestas por los procedimientos instrumentales son más o menos efectivas dependiendo de la naturaleza de la restricción, la disponibilidad de sustitutos y el nivel de “ingresos” del organismo.

Page 55: Resumen aprendizaje temas 1 9

Tema 8: El control de la conducta por el estímulo Thorndike y Skinner reconocieron que las respuestas instrumentales y los reforzadores no suceden en el vació, sino en presencia de estímulo particulares. El control de la conducta por el estímulo hace referencia a la activación de la respuesta instrumental en función de estímulos externos. Los animales, por ejemplo, modifican sus hábitos de alimentación en función de los cambios estacionales. 1. Identificación y medida del control por el estím ulo ¿Cómo se puede afirmar que una respuesta instrumental está bajo el control de ciertos estímulos? � Respuesta diferencial y discriminación de estímulos En un experimento con palomas, Reynolds reforzó, mediante un programa IV, el picoteo de una tecla roja con un triangulo blanco. Posteriormente probo si la tecla completamente roja o un único triangulo blanco producía la respuesta instrumental. El resultado fue que en algunas palomas la tecla roja producía la respuesta instrumental, y en otra era el triangulo blanco. Mediante este tipo de experimentos se puede determinar si la conducta instrumental está bajo el control de un estímulo particular. El control por el estímulo de la conducta instrumental se demuestra mediante variaciones en la respuesta (respuesta diferencial) relacionadas con las variaciones en los estímulos. Las palomas trataban de forma diferente a los dos estímulos. Se dice que un organismo muestra discriminación de estímulos si responde de forma diferente a dos o más estímulos. La discriminación de estímulos y el control por el estímulo constituyen dos maneras de considerar el mismo fenómeno: una no existe sin la otra. Si un organismo no discrimina entre dos estímulos, su conducta no está bajo el control de esas claves. � Generalización de estímulos El problema central para el análisis del control por el estímulo es conocer como los organismos identifican y distinguen diferentes estímulos. Se dice que un organismo muestra generalización de estímulos si responde de forma similar a dos o más estímulos. La generalización de estímulos es lo opuesto a la discriminación de estímulos o respuesta diferencial. Guttman y Cáliz reforzaron a palomas mediante un programa IV por picotear una tecla iluminada con una longitud de onda de 580nm. Cuando se vario la longitud de onda de la tecla iluminada los pájaros también picotearon ante luces de 570 y 590nm, lo que indica que la respuesta se generalizó a estos otros estímulos. A medida que se hacia mayor o menor la longitud de onda las respuestas decrecían. El gradiente de generalización de estímulo es el gradiente de respuesta en función de la semejanza entre cada estímulo de prueba y el estímulo original de entrenamiento. � Los gradientes de generalización del estímulo como medidas del

Page 56: Resumen aprendizaje temas 1 9

control por el estímulo Los gradientes de generalización del estímulo se utilizan a menudo para medir el control por el estímulo porque facilitan información acerca del grado de sensibilidad de la conducta de un organismo ante la variación de un aspecto particular del ambiente. Si el gradiente de generalización es plano implica que el organismo no diferencia variaciones en el estímulo, como por ejemplo el color de la tecla en el experimento anterior. Lo acusado del gradiente de generalización del estímulo proporciona una medida precisa del grado de control del estímulo. Un gradiente de generalización plano demuestra que el rasgo del estímulo que se varía en la prueba de generalización no controla la conducta instrumental. 2. Factores del estímulo y la respuesta en el contr ol por el estímulo La cuestión central en el análisis del control por el estímulo es la siguiente: ¿Qué es lo que determina que una de las muchas características de una situación estimular adquiera control sobre la conducta instrumental? En esta sección se describen los factores propios del estímulo y la respuesta que determinan que claves llegan a controlar la conducta. � Capacidad sensorial y orientación El factor que determina de forma más evidente si una característica particular del estímulo llega a controlar la respuesta es la capacidad sensorial y de orientación del individuo. La presentación de estímulos con ciertas características de interés para un organismo no garantiza que otro organismo responderá a las mismas características. Los sucesos fuera del rango de lo que un organismo puede detectar con sus órganos sensoriales simplemente no existen para ese organismo. � Facilidad relativa del condicionamiento de varios e stímulos Tener los órganos sensoriales necesarios y la apropiada orientación sensorial no garantiza que la conducta del organismo llegará a estar bajo el control de un estímulo particular. La intensidad con que los organismos aprenden sobre un estímulo depende de la facilidad relativa de condicionamiento de otras claves presentes en la situación, fenómeno denominado ensombrecimiento (aprender a leer con dibujos hace que los dibujos ensombrezcan el aprendizaje de las palabras). � Tipo de reforzamiento El desarrollo del control por el estímulo también depende del tipo de reforzamiento que se utiliza. Es más probable que ciertos tipos de estímulos adquieran control sobre la conducta instrumental con reforzamiento positivo que con reforzamiento negativo. En un experimento, Foree y LoLordo entrenaron dos grupos de palomas para presionar un pedal en presencia de un estímulo compuesto por una luz roja y un tono. Para un grupo de palomas se proporcionaba reforzamiento de comida por presionar el pedal. Para el otro grupo la presión del pedal estaba reforzada por la evitación de una descarga. Ambos grupos de palomas aprendieron a responder durante el compuesto luz/tono. Los investigadores trataron de determinar cual de los dos elementos del estímulo compuesto fue el principal responsable de la conducta de presión del pedal. Las palomas que fueron entrenadas con reforzamiento de comida respondieron mucho más cuando se presentó sólo la luz que cuando se presentó sólo el tono. Ocurrió lo contrario para el otro grupo de palomas. Estos hallazgos indican que el control por el estímulo de la conducta instrumental está

Page 57: Resumen aprendizaje temas 1 9

determinado en parte por el tipo de reforzamiento utilizado. Es más probable que los estímulos visuales adquieran control sobre la conducta en situaciones apetitivas que las claves auditivas, mientras que es más probable que éstas adquieran control en situaciones aversivas (relacionado con los sistemas de conducta). � Tipo de respuesta instrumental Otro factor que puede determinar qué rasgos de un estímulo compuesto obtendrán control sobre la conducta es la naturaleza de la respuesta requerida para el reforzamiento. Los investigadores Dobrezcka, Szwejkowska y Konorski estudiaron el control de la conducta instrumental por estímulos auditivos en perros. Analizaron que aspectos de las claves auditivas (naturaleza o localización) adquiría control sobre la conducta instrumental en dos grupos donde la respuesta instrumental era diferente. En el primer grupo (levantar pata derecha/izquierda si el sonido proviene de delante/atrás con dos tipos de sonido diferente según la localización metrónomo/zumbador) los animales respondieron en su mayoría según la localización de las claves auditivas más que según su naturaleza (metrónomo/zumbador). El segundo grupo (metrónomo delante igual a levantar la pata derecha y zumbador atrás igual a no hace nada) cuando se cambio la localización de los sonidos respondieron más según la naturaleza de los sonidos que según su localización (contrario al primer grupo). Estos resultados indican que las respuestas que se diferencian por la localización (derecha/izquierda) es más probable que lleguen a estar bajo el control de la característica espacial de las claves auditivas. Si se diferencian por la naturaliza (hacer/no hacer) es más probable que lleguen a estar bajo el control de la naturaleza de las claves auditivas. Este fenómeno se denomina efecto de la naturaleza-localización . El efecto de la naturaleza-localización es una forma de asociación selectiva . El efecto del reforzamiento apetitivo-aversivo en el control por el estímulo es otro ejemplo de una asociación selectiva. Otro ejemplo visto en un capítulo anterior donde las claves relacionadas con el sabor quedaban más fácilmente asociadas con la enfermedad que las claves audiovisuales, mientras que las claves audiovisuales quedaban más fácilmente asociadas con una descarga eléctrica en las patas que las claves asociadas al sabor, es otro ejemplo de asociación selectiva. El efecto de naturaleza-localización no significa que los sujetos no puedan nunca aprender sobre la naturaleza de los sonidos o acerca de la localización en los casos donde no se producía este aprendizaje. Con un emplazamiento oportuno de las fuentes (cerca o lejos) los sujetos pueden llegar a responder a las características de localización de los sonidos en una tarea de hacer/no hacer. � Elementos del estímulo frente a claves configuracio nales en los

estímulos compuestos En el análisis anterior se asumió que los organismos tratan a los elementos del estímulo como rasgos distintivos y separados del ambiente. Esto se denomina aproximación elemental del estímulo . Esto supone que una característica particular del estímulo (la naturaleza del sonido) se percibía de la misma manera independientemente del estatus de la otra característica (localización del sonido). La aproximación de la clave configuracional presume que los organismos tratan los estímulos complejos como un todo integral que no se divide en partes o elementos. Según esta aproximación los individuos responden a un estímulo compuesto en función de la configuración única de sus elementos. Los elementos del estímulo son importantes no en cuanto a su individualidad sino en función de cómo contribuyen a la

Page 58: Resumen aprendizaje temas 1 9

configuración total de la estimulación proporcionada por el compuesto (ejemplo, orquesta vs. Instrumento sólo). De acuerdo con la aproximación de la clave configuracional, el ensombrecimiento refleja diferentes grados de decremento de la generalización desde la fase de entrenamiento a la de prueba para los grupos de ensombrecimiento y de control. Se da un considerable decremento de la generalización cuando se prueba el estímulo débil “a” en el grupo de ensombrecimiento tras el condicionamiento con el compuesto “aB”. De acuerdo con la aproximación de la clave configuracional, este mayor decremento de la generalización es la causa del efecto de ensombrecimiento. Sin embargo esta aproximación no explica por qué el control por el estímulo está en función del tipo de reforzamiento utilizado o del tipo de respuesta requerida. La conclusión más prudente es que los organismos responden a los compuestos estimulares tanto a partir de los elementos del estímulo que forman el compuesto como en función de configuraciones estimulares únicas creadas por los elementos del estímulo. 3. Factores de aprendizaje en el control por el est ímulo El hecho de que ciertos estímulos puedan percibirse no asegura que llegarán a controlar la conducta. El que ciertos estímulos lleguen a controlar la conducta a menudo depende de lo que el organismo ha aprendido acerca de esos estímulos. La generalización del estímulo se refiere al hecho de que una respuesta condicionada a un estímulo puede darse también cuando se presentan otros estímulos similares a la clave original. Lashley y Wade (1964) rechazaron la idea de que la generalización del estímulo reflejase la transferencia de aprendizaje y argumentaron que reflejaba la ausencia de aprendizaje. Propusieron que la generalización del estímulo ocurre si los organismos no han aprendido a distinguir las diferencias entre los estímulos. Esto supone que la forma del gradiente de generalización del estímulo queda determinada principalmente por las experiencias previas de aprendizaje del organismo en vez de por las propiedades físicas de los estímulos. � Entrenamiento en discriminación de estímulos El control por el estímulo puede alterarse de forma notable por las experiencias de aprendizaje. En el procedimiento de discriminación de estímulos los participantes se exponen al menos a dos estímulos diferentes, pero el reforzamiento por realizar la conducta instrumental está disponible sólo en presencia de uno de los estímulos. El estímulo que señala la disponibilidad de reforzamiento se denomina E+ o ED y el estímulo que señala la falta de reforzamiento se denomina E- o E∆. Con una exposición suficiente al procedimiento de discriminación, los participantes llegarán a responder durante el E+ y a refrenar las respuestas durante el E-. Los procedimientos de discriminación de estímulos establecen un control por los estímulos que señalan cuando está o no disponible el reforzamiento. Cuando E+ y E- han adquirido control sobre la conducta del organismo, se denominan estímulos discriminativos . A diferencia de un EC+, un E+ no es señal de que el reforzador ocurrirá inevitablemente, mas bien el E+ indica que la respuesta instrumental será reforzada. � Efectos del entrenamiento en discriminación sobre e l control por el

estímulo Jenkins y Harrison (1960) experimentaron con palomas la discriminación de estímulos usando un tono de 1000Hz como E+ y un tono de 950Hz como E-. Este estudio aportó dos conclusiones; 1) el entrenamiento en discriminación aumenta el control por el

Page 59: Resumen aprendizaje temas 1 9

estímulo de la conducta instrumental y 2) una dimensión particular del estímulo (como la frecuencia tonal) es más probable que adquiera control sobre la respuesta si el E+ y el E- difieren a lo largo de la dimensión del estímulo. � Rango de posibles estímulos discriminativos Los procedimientos de discriminación pueden ser utilizados para situar la conducta instrumental de un organismo bajo el control de una amplia variedad de estímulos (tonos, música clásica de diferentes estilos, cuadros, etc...). Los procedimientos de entrenamiento en discriminación se emplean a menudo para evaluar la capacidad sensorial de los animales. El procedimiento de discriminación ha sido usado en palomas para evaluar su capacidad de diferenciar si están bajo los efectos de una droga o no (reforzando la conducta instrumental sólo si la droga fue administrada). El hecho de que los procedimientos de discriminación del estímulo puedan utilizarse para situar la conducta bajo el control de una amplia variedad de estímulos hace que se conviertan en poderosas herramientas para la investigación de cómo los animales procesan la información. � ¿Qué se aprende en el entrenamiento en discriminaci ón? En una situación donde se refuerza la conducta instrumental si aparece una luz roja (E+) y no se refuerza si suena un tono (E-) se pueden considerar tres interpretaciones de aprendizaje; 1) aprender a responder si el E+ está presente y no aprender nada acerca del E-, 2) aprender a suprimir la respuesta durante el E-, pero no aprender nada acerca del E+, 3) aprender tanto del E+ como del E-. Teoría de Spence del aprendizaje de discriminación Según la teoría de Spence, el reforzamiento de una respuesta en presencia del E+ condiciona tendencia excitatorias de respuesta al E+. Por el contrario, el no reforzamiento de la respuesta durante E- condiciona propiedades inhibitorias al E-, lo que sirve para suprimir la conducta instrumental. Los gradientes de generalización del estímulo pueden usarse para evaluar de forma experimental la teoría de la excitación-inhibición del aprendizaje de discriminación. Si se ha condicionado una tendencia excitatoria al E+, entonces los estímulos que difieran de forma progresiva del E+ deberían ser cada vez menos efectivos en evocar la respuesta instrumental (gradiente de generalización del estímulo excitatori o). Algo similar ocurre con la tendencia inhibitoria del E-, donde los estímulos que difieran progresivamente del E- deberían ser cada vez menos efectivos en inhibir la respuesta instrumental (gradiente de generalización del estímulo inhibitori o). Esta teoría fue confirmada mediante un experimento con dos grupos de palomas uno de los estímulos (E+ para un grupo y E- para el otro) era modificado. Este experimento mostró que el entrenamiento en discriminación puede producir tanto condicionamiento excitatorio al E+ como condicionamiento inhibitorio al E-. � Interacciones entre el E+ y el E-: desplazamiento d el máximo La suposición de que lo que los sujetos aprenden sobre el E+ es independiente de que lo aprenden acerca del E- es demasiado simplista. Lo que se aprende sobre el E+ puede influir en la respuesta al E- y viceversa (sobre todo si están relacionados). Un procedimiento de entrenamiento en el que el E+ y el E- difieren sólo en términos del valor de una característica del estímulo se denomina discriminación intradimensional . La discriminaciones intradimensionales son de particular interés

Page 60: Resumen aprendizaje temas 1 9

debido a que están relacionadas con el problema de la ejecución experta (realizar distinciones sutiles). Hanson (1959) realizó un experimento con palomas en discriminación de colores, donde el era una luz de 550nm y el E- era una luz de una longitud de onda que era diferente para cada grupo (555nm, 590nm y sin luz). En los grupos donde la diferencia entre el E+ y el E- era muy pequeña se produjo un desplazamiento del máximo, dándose este alrededor de 540nm, diferente de la longitud de onda del E+. Este fenómeno se denomina desplazamiento del máximo y es el resultado del entrenamiento en discriminación intradimensional. No se da desplazamiento del máximo en el grupo de control que no ha recibido entrenamiento en discriminación. Explicación de Spence del desplazamiento del máximo El efecto de desplazamiento del máximo es importante porque muestra que el único estímulo en cuya presencia se refuerza la respuesta (E+) no es necesariamente el estímulo que evoca la tasa de respuesta más alta. Los gradientes excitatorio e inhibitorio pueden producir el fenómeno de desplazamiento del máximo. Debido a que el E+ y el E- son semejantes en las tareas de discriminación intradimensional (ambos colores por ejemplo) los gradientes de generalización de la excitación y la inhibición se superpondrán. Debido a esta superposición la inhibición generalizada del E- suprimirá la respuesta al E+, dando como resultado un efecto de desplazamiento del máximo. Ocurrirá un mayor grado de inhibición del E- al E+ si el E- está más cercano al E+, y esto producirá un efecto mayor de desplazamiento del máximo. Explicaciones alternativas del desplazamiento del m áximo Una cuestión importante que ha sido fuente de debate durante décadas es si vemos los estímulos en función de sus propiedades individuales y absolutas, o en función de su relación con otros estímulos que experimentamos. La evidencia sugiere que ambos tipos de mecanismos están implicados en la forma de responder de los organismos. El modelo de Spence de aprendizaje de discriminación es un modelo de aprendizaje absoluto del estímulo. Una aproximación alternativa asume que los organismos aprenden a responder a un estímulo basándose en la relación de ese estímulo con otras claves de la situación. Esto predice que la forma del gradiente de generalización cambiará en función del rango de los estímulos de prueba que se presenten durante la sesión de prueba de generalización. � Entrenamiento de equivalencia de estímulos El entrenamiento en discriminación aumenta sustancialmente el control de la conducta por el estimulo. ¿Hay procedimientos de aprendizaje que tengan el efecto opuesto (aumentar la generalización del estímulo)?. En un proceso de discriminación, el tratamiento diferencial o la significación de los estímulos lleva a que los organismos respondan ante ellos de forma diferente. Si dos estímulos se tratan de forma equivalente se potencia la respuesta generalizada (equivalencia de estímulos ). Se ha explorado la posibilidad de que la equivalencia funcional entre dos estímulos diferentes pueda establecerse enlazando cada una de las distintas claves con un tercer estímulo. En un experimento con ratas se emparejo un ruido y un clic con comida. En el grupo de control solo el clic fue reforzado con comida. Ambos grupos recibieron emparejamientos posteriores del ruido con una descarga. Solo en el grupo donde ruido y clic estaban emparejados con comida el miedo condicionado se generalizó al clic. Los animales entrenados en equivalencia eran más aptos para tratar de forma similar el clic y el ruido que el grupo de control.

Page 61: Resumen aprendizaje temas 1 9

El emparejamiento de estímulos diferentes con la misma consecuencia crea equivalencia funcional entre esos estímulos, con la consecuencia de que una respuesta condicionada a uno de ellos se generalizará a los otros. Se dice que existe una clase de equivalencia si sus miembros poseen tres propiedades matemáticas:

reflexividad o igualdad (A=A, B=B, C=C) simetría (si A lleva a B (A→B), B lleva a A (B→A)) transitividad (dadas las relaciones A→B y B→C, se requiere A→C )

El concepto de clase de equivalencia es particularmente importante en el análisis del lenguaje. 4. Claves contextuales y relaciones condicionales Un análisis más comprensivo de los estímulos que los organismos experimentan durante el curso del condicionamiento instrumental indica que los estímulos discriminativos discretos suceden en presencia de un fondo de claves contextuales. La investigación reciente indica que las claves contextuales pueden proporcionar una importante fuente adicional de control de la conducta aprendida. � Control por claves contextuales Las claves contextuales pueden llegar a controlar la conducta de varias formas. Akins realizó un estudio de condicionamiento sexual donde codornices eran expuestas a diferentes compartimentos que elegían ellas, considerando como EC el compartimento no preferido. Posteriormente las codornices eran introducidas en la cámara EC con una hembra sexualmente receptiva (EI). En el grupo de control las codornices tenían acceso a la hembra en sus jaulas hogar. El resultado fue que las codornices del primer grupo prefirieron el contexto definido como EC (el que no elegían inicialmente), mientras que el grupo de control no mostró preferencia hacia ningún contexto particular. Por tanto, la asociación de las claves contextuales con el reforzamiento sexual aumentó la preferencia por estas claves. ¿Llegan las claves contextuales a controlar la conducta cuando no señalan reforzamiento, cuando son verdaderos estímulos de fondo para los que al organismo se le pide que les preste atención? La respuesta es afirmativa. En un experimento, Thomas, McKelvie y Mah (1985) entrenaron a paloma en un contexto nº1 a discriminar la orientación de una línea (90º=E+, 0º=E-). Después cambiaron las claves contextuales (contexto nº2) y se invirtieron las contingencias del entrenamiento en discriminación (90º=E-, 0º=E+). Después se llevaron a cabo pruebas de generalización en los dos contextos. El resultado fue que según el contexto, el gradiente era diferente acorde a su aprendizaje en cada contexto, sin embargo sólo se les pidió que aprendieran un nuevo problema de discriminación. Los resultados ilustran que el control contextual por el estímulo puede ocurrir sin que un contexto esté más fuertemente asociado con el reforzamiento que otro. ¿Cómo llegaron a producir el contexto nº1 y el contexto nº2 diferentes tipos de respuesta? Una posibilidad es que cada contexto activase una memoria diferente. En lugar de esta asociado con un estímulo particular, cada contexto parecería estar asociado con una contingencia diferentes E+/E-. Estas asociaciones se denominan relaciones condicionales . � Control por las relaciones condicionales Las relaciones entre dos eventos (EC/EI o respuesta/reforzador) se denominan relacionales binarias . En ciertas circunstancias la naturaleza de una relación binaria

Page 62: Resumen aprendizaje temas 1 9

está determinada por un tercer suceso, denominado un modulador (en el ejemplo anterior era el contexto). La relación de un modulador con la relación binaria que señala se denomina relación condicional . Los estímulos E+ y E- son moduladores que señalan la relación entre la respuesta y el reforzador. Por tanto, los procedimientos de discriminación instrumental incluyen el control condicional de la relación entre la respuesta y el reforzador. Control condicional en el condicionamiento pavlovia no El concepto fundamental del control condicional es que un evento señala la relación entre otros dos eventos. ¿Cómo podría establecerse el control condicional sobre una relación EC (luz)-EI (comida)? Podría introducirse un estímulo auditivo en presencia del cual la luz de la tecla sería seguida por comida. El procedimiento es el siguiente:

Este procedimiento fue llevado a cabo con palomas (seguimiento del signo) por Rescorla (1985). El resultado fue que los pájaros picoteaban mucho más la tecla (EC) cuando se presentaba después de la presentación del modulador que cuando se presentaba como un elemento aislado. El modulador no elicita el picoteo, sino que aumenta la habilidad del EC para elicitar el picoteo. El modulador adquirió control condicional sobre la efectividad del EC ara elicitar la respuesta condicionada. Así como un estímulo discriminativo facilita la conducta instrumental, el modulador facilita la respuesta elicitada por el EC. En el condicionamiento pavloviano algunos investigadores han denominado al control condicional de la respuesta facilitación debido a que el modulador facilita la respuesta al EC. El modulador se denomina facilitador . En otra terminología el control condicional en el condicionamiento clásico se denomina establecimiento de la ocasión . En esta terminología el modulador se denomina establecedor de la ocasión . El procedimiento anterior es el inverso al condicionamiento inhibitorio, ya que el sonido señala la presencia del EI (en el condicionamiento inhibitorio es al revés ya que señala la ausencia). Esto ilustra que el condicionamiento pavloviano inhibitorio incluye una relación condicional. Esto sugiere que la inhibición condicionada puede ser el opuesto conceptual al de facilitación o establecimiento de la ocasión, más que lo contrario de la excitación condicionada. Distinción entre la excitación y la modulación El establecimiento de la ocasión parece involucrar mecanismos de aprendizaje diferentes de los que se han considerado previamente. Las propiedades modulatorias de los estímulos son diferentes de la excitación condicionada. La evidencia adicional para mantener la distinción entre modulación y excitación condicionada se basa en los efectos de los procedimientos de extinción. La extinción es un procedimiento en el cual un estímulo previamente condicionado se presenta repetidamente pero se omite el EI. El mismo procedimiento llevado a cabo con un establecedor de la ocasión no

Ensayos reforzados Sonido Tecla luminosa → comida

Ensayos no reforzados Ausencia de sonido Tecla luminosa → ausencia de comida

Page 63: Resumen aprendizaje temas 1 9

suele ser efectivo. Un establecedor de la ocasión señala una relación entre un EC y un EI. La ausencia del EI cuando se presenta el establecedor de la ocasión por si sólo durante la extinción no significa que la relación entre EC y EI haya cambiado. La información señalada por un establecedor de la ocasión no se prueba que sea incorrecta mediante la presentación del modulador por si mismo durante la extinción. En consecuencia la habilidad del modulador para promover la respuesta elicitada por el EC permanece intacta durante la extinción. Sin embargo, la efectividad de un modulador se reduce si se altera la relación EC-EI señalada por el modulador. En las pruebas de transferencia se determina si un estímulo que había sido condicionado para establecer la ocasión de responder a un EC crítico particular también incrementaría la respuesta a otro EC. Se ha obtenido evidencia de transferencia positiva de los efectos de un modulador a un nuevo EC crítico. Los efectos de transferencia son más probables si los nuevos estímulos críticos han servido previamente como estímulos críticos de otros estímulos moduladores. Se obtiene poca transferencia si el nuevo estímulo crítico ha servido previamente como estímulo condicionado excitatorio, o si ha tenido una historia de reforzamiento y no reforzamiento como estimulo condicionado excitatorio. Estas limitaciones en los efectos de transferencia no ocurrirían si un modulador aumentase la respuesta a un estimulo crítico porque las propiedades excitatorias del modulador se sumarian a las propiedades excitatorias del estimulo crítico (evidencia de mecanismos de aprendizaje distinto a la excitación). Modulación frente a condicionamiento configuraciona l Los organismos puede responder a un estímulo compuesto tanto en función de los elementos que forman el compuesto, como en función de la configuración del estímulo única producido por los elementos. En el procedimiento anterior de control condicional el sonido y la luz tienen que ser tratados como elementos independientes más que como una clave configuracional combinada. Por tanto, los efectos modulatorios requieren la respuesta al compuesto estimular como constituido por elementos independientes estimulares. Para promover que los organismos traten los compuestos estimulares como constituidos por elementos independientes, los investigadores han presentado los elementos uno tras otro, mas que simultáneamente, en lo que se ha denominado compuesto serial . En los ensayos reforzados, el establecedor de la ocasión es presentado normalmente primero, seguido por el EC crítico (después de 5seg.) yel reforzamiento.

Page 64: Resumen aprendizaje temas 1 9

Tema 9: Extinción de la conducta condicionada Este capítulo se centra en la extinción, un procedimiento que provoca una disminución en la respuesta. Esta sólo puede llevarse a cabo después de que haya sido establecida una respuesta o una asociación utilizando condicionamiento pavloviano o instrumental. Raramente se alcanza una verdadera reversión ya que los fenómenos como la recuperación espontánea, la renovación y el restablecimiento muestra que la extinción no elimina lo que se aprendió de forma original. La extinción parece implicar el nuevo aprendizaje de una asociación E-R inhibitoria que se superpone a lo aprendido anteriormente. La inhibición surge de los efectos frustrantes de la falta inesperada de recompensa, que da lugar a efectos paradójicos como el reforzamiento parcial o intermitente (inmuniza frente a la extinción). La extinción implica la omisión del EI o reforzador. El resultado típico es que la respuesta condicionada, sea clásica o instrumental, disminuye. En las teorías tradicionales del aprendizaje la extinción es lo contrario a la adquisición (modelo de Rescorla-Wagner), sin embargo este punto de vista sobre la extinción es incorrecto. La extinción no es lo mismo que la perdida de conducta que puede suceder debido al olvido. El olvido es una disminución de la respuesta condicionada que se da simplemente con el paso del tiempo (ausencia prolongada de experiencia con el estímulo condicionado o con la respuesta instrumental). 1. Efectos de los procedimientos de extinción Dos de los efectos conductuales de la extinción son que la respuesta disminuye cuando no vuelve a producir reforzamiento y que aumenta la variabilidad de las respuestas. En un experimento con ratas Nuringer et al. comprobaron que cuando se aplica un procedimiento de extinción y se comprobó que mientras que la tasa de respuestas se reducía, aumentaba la variabilidad de las respuestas. La extinción disminuye la tasa de respuesta e incrementa la variabilidad de la respuesta, peor no altera de otro modo la estructura de la conducta. Los procedimientos de extinción pueden producir fuertes efectos emocionales. La reacción emocional inducida por la falta de un reforzador esperado se denomina frustración . La ausencia frustrante de recompensa proporciona energía a la conducta. Si la frustración es suficientemente severa puede implicar agresiones. 2. Extinción y aprendizaje original Aunque la extinción produce importantes efectos conductuales y emocionales, no revierte los efectos de la adquisición. � Recuperación espontánea Recuperación espontánea tras el condicionamiento pa vloviano Una de las características principales de la extinción es que se disipa con el tiempo y como consecuencia la respuesta condicionada original vuelve a presentarse si el sujeto se pone a prueba. La recuperación espontánea hace referencia a la recuperación de la respuesta condicionada tras una demora que siga al procedimiento

Page 65: Resumen aprendizaje temas 1 9

de extinción. Recuperación espontánea tras el condicionamiento in strumental En el condicionamiento instrumental, al igual que en el condicionamiento pavloviano, la introducción de un periodo de descanso tras la extinción produce una recuperación sustancial en la respuesta, dando lugar al fenómeno de recuperación espontánea. � Renovación del condicionamiento excitatorio origina l Mark Boston y sus colegas identificaron el fenómeno de la renovación que se refiere a la recuperación de la ejecución propia de la adquisición que se da cuando se cambian las claves contextuales (a las originales o unas “neutras”) que estaban presentes durante la extinción. Experimentos basados en la técnica de la supresión condicionada confirman la renovación. El miedo condicionado se renovó en los sujetos, que habiendo adquirido el condicionamiento en un contexto y la extinción en otro, se volvían a introducir en el contexto original de adquisición del condicionamiento. Esto indica que la perdida de supresión evidente durante la fase de extinción no refleja el desaprendizaje de la respuesta de miedo condicionado. La renovación también puede darse si el sujeto se retira del contexto de adquisición a un contexto alternativo que no es el de la adquisición original (pero no es tan sólido como en el contexto original). La explicación basada en las propiedades excitatorias condicionadas del contexto ha sido descartada por Harris en base a sus experimentos. La mayor parte de la evidencia indica que el efecto de renovación se produce porque la memoria de la extinción es específica de las claves que estaban presentes durante la fase de extinción, por lo que un cambio en el contexto de la extinción dificulta la recuperación de la memoria de la extinción (perdiéndose la ejecución propia de la extinción). La ejecución propia de la adquisición original se generaliza más fácilmente de un contexto a otro, al revés de lo que ocurre con la ejecución propia de la extinción. Boston ha sugerido que las claves contextuales sirven para eliminar la ambigüedad del significado de un estimulo condicionado (similar al contexto semántico para suprimir la ambigüedad de una palabra). Un EC que adquiere condicionamiento excitatorio y luego se extingue también tiene un significado ambiguo, ya que podría indiciar la cercanía del EI (adquisición) o su ausencia (extinción). Esta ambigüedad permite al EC ponerse bajo control contextual de manera más fácil. Esto implica que si se supera un miedo en un contexto concreto, no será tan fácil que eso se generalice a otras situaciones. El efecto de renovación sugiere que los problemas creados por el condicionamiento tendrán efectos mucho más amplios que las soluciones o remedios para esos problemas. Un procedimiento que se muestra prometedor es llevar a cabo la extinción en diversos contextos. � Restauración de la ejecución de la extinción El efecto de renovación implica la reactivación de la memoria del condicionamiento excitatorio original mediante la retirada del sujeto de las claves contextuales presentes durante la extinción. Esta estrategia pueda aplicarse a la extinción; es decir, la ejecución propia de la extinción puede restaurarse introduciendo claves contextuales que reactiven la memoria de la extinción. Mediante la presentación de las claves que estaban presentes durante la fase de extinción puede contrarrestarse la recuperación espontánea (ya que se reactiva la memoria de la extinción). Esto confirma la hipótesis de que la recuperación espontánea se debe a un deterioro de las claves contextuales de la extinción que se

Page 66: Resumen aprendizaje temas 1 9

da con el paso del tiempo. � Restablecimiento de la excitación condicionada El restablecimiento se refiere a la recuperación de la respuesta excitatoria a un estimulo extinguido producida por exposiciones al estímulo incondicionado (EI). El condicionamiento contextual es un posible factor contribuyente al restablecimiento debido a que las presentaciones del EI que se dan durante la fase de restablecimiento pueden producir un condicionamiento de las claves contextuales de la situación experimental. Este condicionamiento contextual podría sumarse con cualquier excitación residual al EC al final de la extinción, para producir el restablecimiento de la respuesta condicionada. Como sucedía en el caso de la renovación, el papel del contexto es suprimir la ambigüedad del significado de un estímulo que tiene una historia mezclada de condicionamiento y extinción. El contexto tiene un efecto relativamente pequeño en los estimulo que tienen una historia sólo de condicionamiento. Resultados de experimentos muestran que el condicionamiento contextual facilita el efecto de restablecimiento. Bouton considera el restablecimiento como una forma de renovación. Las claves contextuales condicionadas proporcionan algunas de las claves contextuales para la respuesta excitatoria en circunstancias normales. Estas claves contextuales se extinguen cuando se presenta el EC por si solo durante la extinción. Las presentaciones de restablecimiento del EI en el contexto de prueba sirven para restaurar las propiedades excitatorias de las claves contextuales y en consecuencia permitir que esas claves sean más efectivas para reactivar la memoria del condicionamiento excitatorio del EC. � Sensibilidad a la devaluación del reforzador La persistencia del aprendizaje original a pesar de la extinción puede también investigarse analizando los efectos de la devaluación del reforzador. La devaluación del reforzador o EI en el condicionamiento pavloviana altera la ejecución de la respuesta condicionada si ésta era el producto de un aprendizaje E-E más que de un aprendizaje E-R. Si la extinción no deteriora la asociación EC-EI, entonces la devaluación del EI alterará la respuesta a un EC extinguido, como lo hace con la respuesta a un EC que no ha sido sometido a extinción (capítulo 4). Experimentos de Rescorla indican que la asociación EC-EI se mantiene a pesar de la extinción del EC. A pesar del gran efecto de la extinción en la respuesta condicionada, la manipulación de dicha extinción no redujo la sensibilidad de los sujetos a la devaluación del EI, lo que implica que la asociación EC-EI permaneció intacta. Se ha realizado experimentos similares en condicionamiento instrumental en lo que lo sujetos tienes que realizar una respuesta especifica para obtener una consecuencia reforzante (R→C). Si el procedimiento de condicionamiento instrumental da como resultado el aprendizaje de una asociación R-C, entonces la devaluación del reforzador producirá una disminución de la respuesta instrumental. Los hallazgos encontrados han fortalecido la conclusión de que la extinción no elimina las asociaciones R-C y E-C que se aprenden durante el condicionamiento instrumental. Rescorla ha señalado que las asociaciones R-C, una vez entrenadas, son relativamente impermeables a su modificación.

Page 67: Resumen aprendizaje temas 1 9

3. ¿Qué se aprende en la extinción? La extinción no implica desaprendizaje y deja las asociaciones R-C y E-C en gran medida intactas. Entonces, ¿Por qué disminuye la respuesta en los procedimientos de extinción? En el condicionamiento pavloviano las asociaciones E-E son más importantes que el aprendizaje E-R, y en el condicionamiento instrumental las asociaciones E-C y R-C son más importantes que la asociación E-R destacada por Thorndike. � Asociaciones E-R inhibitorias La extinción produce una disminución de respuesta probablemente debido a que la falta de reforzamiento produce una asociación E-R inhibitoria que sirve para suprimir esa respuesta siempre y cuando el E esté presente. Esto predice que los efectos de la extinción serán altamente específicos del contexto en el que la respuesta fue extinguida (consistente con el efecto de renovación). ¿Por qué debería la ausencia de reforzamiento producir una asociación E-R inhibitoria? La extinción implica la ausencia de reforzamiento tras una historia previa de reforzamiento (sin la historia previa es habitación). Se supone que la ausencia de reforzamiento cuando se espera recompensa desencadena una reacción frustrante aversiva incondicionada, que sirve para que se deje de responder durante el curso de la extinción mediante el establecimiento de una asociación E-R inhibitoria (Rescorla). La afirmación de que la extinción implica el aprendizaje de una asociación inhibitoria resulta controvertida frente a las teorías convencionales que consideraban la inhibición condiciona y la extinción como fenómenos diferentes. � Efectos “paradójicos” de la recompensa Si la disminución de la respuesta en la extinción se debe a los efectos frustrantes de la ausencia inesperada de reforzamiento, entonces se podría esperar una extinción más rápida tras un entrenamiento que estableciese mayores expectativas de recompensa. Un entrenamiento de reforzamiento más extenso debería producir una extinción más rápida, dando lugar al efecto del sobreentrenamiento en la extinción . Es paradójico porque representa una menor respuesta durante la extinción tras un entrenamiento con reforzamiento más extenso. Un observador podría pensar que un entrenamiento más extenso debería crear una respuesta más fuerte y más resistente a la extinción, pero sucede lo contrario, especialmente cuando el entrenamiento incluye reforzamiento continuo. En el efecto de la magnitud del reforzamiento en la extinción la respuesta disminuye más rápido durante la extinción que sigue a un reforzamiento con un reforzador mayor. (se explica en términos de los efectos frustrantes de la ausencia de recompensa). Un factor crítico que determina la magnitud de los efectos tanto conductuales como emocionales de un procedimiento de extinción es el programa de reforzamiento que opera antes de que se introduzca el procedimiento de extinción (efecto del reforzamiento parcial en la extinción, ERPE ). La característica dominante es si se reforzó de forma continua o intermitente (parcial).La extinción es mucho más lenta y produce menos reacciones de frustración si estaba en activo un programa de reforzamiento parcial en lugar de uno continuo antes de la introducción del procedimiento de extinción. En experimentos con ratas, Amsel (1992) ha concluido que la diferencia evolutiva en la emergencia del ERPE está relacionada con la rápida maduración del hipocampo durante este estadio de la vida de las crías de rata. El ERPE también ha sido demostrado en el condicionamiento pavloviano.

Page 68: Resumen aprendizaje temas 1 9

� Mecanismos del efecto del reforzamiento parcial de la extinción Tal vez la explicación más evidente del ERPE es que la introducción de la extinción es más fácil de detectar tras el reforzamiento continuo que tras el reforzamiento parcial. Si no se recibe el reforzador tras cada respuesta durante el entrenamiento, puede no notarse inmediatamente cuándo los reforzadores se omiten por completo. A esta explicación se denomina hipótesis de la discriminación . Jenkins y Theios aplicaron dos programas de reforzamiento (continuo y parcial) a dos grupos de ratas (un programa a cada grupo). Posteriormente aplicaron a ambos grupos un programa de reforzamiento continuo y seguidamente aplicaron un procedimiento de extinción. El resultado fue que el grupo entrenado en reforzamiento parcial respondía mucho más que el grupo entrenado en reforzamiento continuo. El reforzamiento parcial parece enseñar a los sujetos a no rendirse ante la ausencia del reforzador, y esta persistencia aprendida se mantiene aun cuando los sujetos posteriormente experimenten una cadena ininterrumpida de sucesos. ¿Qué aprenden los sujetos durante el reforzamiento parcial que les hace más persistentes al enfrentarse a una racha de mala suerte o de fracasos? Una explicación sería la teoría de la frustración , basada en lo que los sujetos aprenden sobre los efectos emocionales de la ausencia de recompensa durante el entrenamiento en reforzamiento parcial. La otra explicación (teoría secuencial ) está basada en lo que los sujetos aprenden sobre la memoria de la ausencia de recompensa. Teoría de la frustración Fue desarrollada por Abram Amsel y según este planteamiento, la persistencia en la extinción es resultado del aprendizaje de algo paradójico, continuar respondiendo cuando se espera no ser reforzado o ser frustrado. La teoría de la frustración asume que el reforzamiento intermitente da como resultado aprender a responder a pesar de esperar la ausencia de reforzamiento. Con el reforzamiento parcial, la respuesta instrumental finaliza siendo reforzada algunas de las veces cuando el sujeto espera ausencia de recompensa. Debido a estas experiencias, la respuesta instrumental se condiciona a la expectativa de la ausencia de recompensa. De acuerdo con la teoría de la frustración, esta es la clave de la persistencia en responder durante la extinción. Con suficiente entrenamiento, el reforzamiento intermitente da como resultado el aprendizaje de realizar la respuesta instrumental como reacción a la expectativa de ausencia de recompensa. El reforzamiento continuo no produce persistencia en la extinción ya que no hay nada que motive a los sujetos a responder cuando esperan ausencia de recompensa. Teoría secuencial La teoría secuencias de Capaldi asume que los sujetos pueden recordar si fueron reforzados por realizar la respuesta instrumental en el pasado reciente. Se asume además que durante el entrenamiento en reforzamiento intermitente, la memoria de la ausencia de recompensa llega a ser una clave para la realización de la respuesta instrumental. De acuerdo con la teoría secuencial, esto produce persistencia en la extinción y depende en gran medida de la secuencia de ensayos recompensados y no recompensados que se administran en el programa de reforzamiento intermitente. No pueden considerarse las dos teorías como correctas o incorrectas ya que se ha encontrado evidencia para ambas. Las dos teorías representan dos formas diferentes en las que el reforzamiento parcial puede influir sobre la respuesta durante la

Page 69: Resumen aprendizaje temas 1 9

extinción. Los mecanismos de memoria pueden contribuir en mayor medida cuando los ensayos de entrenamiento no estén separados por largos intervalos entre ensayos (reduciendo la dificultad de recordar el resultado del ensayo precedente). Por el contrario, el aprendizaje emocional descrito por la teoría de la frustración es menos sensible a los intervalos entre ensayos y por tanto proporciona una mejor explicación del ERPE cuando se utilizan ensayos ampliamente espaciados. 4. Resistencia a la extinción y momento conductual Otra forma de considerar la persistencia de la respuesta en la extinción es que representa la persistencia al cambio en las contingencias de reforzamiento que sucede cuando se introduce la extinción. Kevin et al. han estudiado la resistencia al cambio de forma más general y han propuesto el concepto de momento conductual . La hipótesis del momento conductual predice que la conducta que posee un momento elevado (masa*velocidad) será difícil de parar o interrumpir por las manipulaciones. El momento conductual está directamente relacionado con la tasa de reforzamiento. Una tasa más alta de reforzamiento produce una conducta que tiene un mayor momento y que es menos susceptible a la interrupción. El momento conductual no está relacionado con la tasa de respuesta. Dos conductas que dan tasas semejantes no es preciso que tengan grados similares de momento conductual. Nevin ha destacado la tasa de reforzamiento en lugar de la tasa de respuesta como el determinante fundamental del momento conductual. Otros estudios demuestran que los programas que proporcionan tasas similares de reforzamiento pero tasas diferentes de respuesta tienen similares momentos o resistencias al cambio. La primacia de la tasa de reforzamiento sobre la tasa de respuesta como determinante del momento conductual ha llevado a Kevin a tribuir el momento conductual principalmente al condicionamiento pavloviano o a asociaciones E-C.