You are on page 1of 15

L'apprentissage: les apprentissages archaques

L'apprentissage est un ensemble de changements (plus ou moins observabes) cmportemental et/ou cognitif d'un organisme rsultant d'une ou plusieurs expriences interactionnelles de ce dernier avec le milieu environnant. C'est un phnomne associatif (car il associe des rponses comportementales des stimuli environnementaux prsents antrieurement). Piaget : L'intelligence se construit par interaction avec le milieu . ATTENTION: Tous les comportements ne sont pas d l'apprentissage. Certains (comme la facult langagire chez l'humain par exemple) sont dtermins gntiquement. I.L'habituation: C'est la diminution gnrale d'une rponse comportementale d'un organisme, due la rptition d'un stimulus, ce dernier n'ayant pas d'effet (ni d'intrt particulier) sur lui. Cela permet de ne pas utiliser ses ressources attentionnelles pour rien. C'est un phnomne indispensable pour s'adapter et apprendre! Toute habituation implique bien videmment une possibilit de dshabituation. L'habituation (et donc par consquent aussi dshabituation) concerne plus gnralement les comportements sensori-moteurs. C'est galement un phnomne non-associatif: Dans toutes les procdures d'apprentissage, elles mettent en jeu soit deux ou plusieurs stimuli et rponses qui sont coupls et les apprentissages reposent sur la formation d'association (empirisme associationniste:: l'activit mentale est associative). Cette ide n'est pas envisageable pour l'habituation car lors de la prsentation du stimulus il n'y a rien d'associ avec. Il n'a aucun effet positif ou ngatif sur l'organisme. II.L'empreinte: "Marque indlbile reue au cours d'une exprience prcoce du dveloppement et fixant les caractristiques supra-individuelles (de la classe d'tres ou d'objets), laquelle le sujet rservera ultrieurement ses conduites filiales, sociales et instinctuelles (sexuelle par exemple)." C'est un phnomne qui se produit chez l'organisme jeune au cours de son dveloppement prcoce et ce phnomne a lieu pendant la priode sensible (priode courte), qui peut tre de dure variable selon les espces mais reste trs courte dans la dure de vie de chaque espce. L'empreinte ne sera efficace que si elle a lieu pendant la priode sensible. L'empreinte est une rponse comportementale un stimulus donn (ex : le petit caneton va pendant la priode sensible, se mettre suivre tout objet ou animal qui se dplace devant lui, il suit sa mre en gnral mais peut suivre aussi un leveur, ou un canard mcanique. Cette raction, quand elle dclenche des consquences sur toute la vie de l'organisme (le caneton peut suivre l'objet toute sa vie, le canard adulte va essayer de s'accoupler avec ce qu'il suit... comme ce pauvre Lorenz par exemple).

- C'est un stimulus qui dclenche l'empreinte :chez le caneton c'est le dplacement( une vitesse raisonnable). Le comportement dclench sera irrversible. (de nature non associative galement). Apparemment l'empreinte est assez rare et chez l'homme on en sait pas beaucoup de chose (pas de preuves formelles ( part quelques enfants-loup). Il y a des priodes sensibles chez L'humain (on l'infre d'aprs les expriences) mais a n'implique pas forcment des empreintes! En revanche on sait aujourd'hui que beaucoup de comptences humaines cognitives prennent leur sources dans les derniers mois de vie foetale. III.Apprentissage sensori-moteur: Ce sont des apprentissages pour laquelle la contribution des processus cognitifs suprieurs sont peu impliqus. effet de rtroaction: les informations en retour sont fournis par le systme musculaire, sensoriel etc. Ca donne des boucles de rtroaction. III.1>Exemple de la thorie du schma de Schmidt:

III.2>>Effet du dlai entre rponse et connaissances du rsultat (Greenspoon, 1956): Dans cette exprience on fait faire 50 essais d'ajustement au sujet: quand il n'y a pas de contrle rtroactif les rsultats sont mauvais mais quand il y rtroaction on a ajustement et encore mieux quand il y a dlai entre la rponse produite et l'information donne en retour : volution des performances les plus rapides. III.3>Throwbride & Casson 1932: mesure de l'erreur moyenne absolue) nature de l'information fournie:

Quand l'information fournie est quantitative il y a peu d'erreur, quand elle est qualitative les erreurs diminuent beaucoup mais se situe un niveau d'erreur plus important que le cas prcdent). III.4>Johnson & al 1982: Erreur de positionnement pour les essais conscutifs la connaissance du rsultat:

(schma de gauche: condition acquisition ) et lors d'un test de rapprentissage (schma droite: condition retention ) III.5>Transfert inter-hmisphrique:

Quand on entrane un individu de la main gauche et qu'ensuite on teste sa main droite elle a atteint un bon niveau de performances)=> Coordination sensori-motrice: ce qui est appris dans un hmisphre peut se copier dans l'autre. exemples: Labyrinthe digital, poursuite de cibles....

Apprentissage par conditionnement de type I


I.Principe Le conditionnement Pavlovien (conditionnement classique ou rpondant, de type I) est LE MODELE de

beaucoup de thories de l'apprentissage, et ce sera le prototype d'tude des psychologues pendant 70 ans. Dcouvert fortuitement par Pavlov, le conditionnement va passer dans le langage scientifique et d'ailleurs la terminologie .

Description en 4 tapes: - Un Stimulus Inconditionnel (viande) entrane une Rponse Inconditionne (rflexe de salivation automatique) RI : la salivation SI===>RI - Un stimulus neutre SN (cloche), n'entrane pas de rponse particulire. SN===> 0 - Si l'on fait prcder le stimulus inconditionnel (ou absolu) du stimulus neutre, plusieurs fois on observera que plus tard mme en l'absence du stimulus inconditionnel(la viande) alors le chien salivera quand il entendra le SN (le son). SN+SI==>R - Ainsi on peut observer aprs un conditionnement: SN devient SC (stimulus conditionnel) et donc SC===>RC (rponse conditionnelle). L'animal va apprendre que la rcompense rgulire lui est prsent dans un intervalle de temps rgulier ( horloge interne ).Il va baser son comportement sur des caractristiques temporelles. Cette acquisition d'un comportement conditionn est rversible car quand on prsente plus le son (la clochette) pendant un moment le comportement salivaire du chien diminue jusqu' extinction (mais pas totale).La rponse conditionnelle n'est pas oubli mais est du un processus actif : inhibition. Il faut un temps/dlai court entre stimulus conditionnel et inconditionnel si on veut que a marche. Mais la simultanit totale ne marche pas trs bien. Quant la prsentation partir d'un intervalle long a ne marche pas. Le stimulus absolu va devenir un agent de renforcement temporel c'est dire que la prsentation de ce type de stimulus va augmenter les caractristiques de la rponse conditionnelle. On dit que c'est un agent de renforcement. Il y a diffrents agents de renforcements de satisfaction (ou "apptitif") ou aversif (comme dans ce dernier cas lectrocuter le chien si on veut plus qu'il aboie). On peut donc jouer sur des agents positifs ou de satisfaction ou ngatif c'est dire de rpulsion/punitifs. Ces derniers peuvent faire disparatre des rponses. Peut-on apprendre sans ces agents de renforcements? Il semble que non, car l'apprentissage ncessiterait des agents de renforcement (feed back + et feed back -). II.Effet du renforcement :consquences sur le comportement Pour que ces agents jouent leur rle l'organisme doit tre "motiv". C'est dire que pour notre chien, il faut bien entendu qu'il ait faim (qu'il soit motiv ) pour obtenir un bon renforcement.

- Avec les renforateurs "apptitifs" on rencontre une limite ( un moment le chien n'a plus faim) - Avec les renforateurs "aversifs" ils conservent leur pouvoir indfiniment. S apptitif Approche + renforcement: supression puntion - : Omission, dlai du Renforcateur ou omission : S aversif vitement passif + punition chappement renforcement- : Evitement actif renforcement - :

NB (tableau): Toute procdure qui amne prsenter un S est dite positive. Toute procdure qui amne a retirer un S est dite ngative. Le renforcement est une procdure qui entrane une augmentation de la probabilit de rponse.
III.Le conditionnement (rpondant) rtrograde: On prsente d'abord le stimulus absolu (viande) et on le fait suivre d'un stimulus conditionnel (en gnral le son); on fait donc l'inverse que ce qu'on fait en gnral (SN+SI : son puis nourriture). L'ide c'est que les associations entre SC et R (si c'est uniquement une question temporelle) devraient marcher dans le sens antrograde (SC>R) ou rtrograde (R<SC). On a trouv des rsultats assez variable et mme aujourd'hui on n'est pas au clair avec l'effet de ce conditionnement. Une hypothse pertinente: Dans le conditionnement normal ou antrograde, on a un conditionnement excitateur et dans le conditionnement rtrograde, il serait inhibiteur. Pourquoi? Car dans le conditionnement classique le son est un signal qui annonce la rcompense (viande) et dans le Conditionnement rtrograde, le son au lieu d'annoncer la rcompense il annonce une priode de temps pendant lequel l'animal n'aura pas de rcompense. IV.Le conditionnement (rpondant) discriminatif Le conditionnement discriminatif consiste prsenter entre les couplages SC+SN un autre stimulus associ lui rien du tout (nouveau stimulus neutre donc). Que va-t-il se produire? Le rflexe salivaire conditionn va s'tablir en rponse au SC mais pas au SN (celui qui sert rien). Comme tous les types de conditionnement sont troitement lis dans la nature, on peut obtenir des enchanements de conditionnements successifs. Un conditionnement de second ordre est ralis en deux temps successifs; exemple ou SN est un son: - dans une premire phase on associe un son une rcompense (alimentaire) - une fois ce conditionnement tablit on va utiliser le son la place de la nourriture dans un deuxime temps: ===> le stimulus conditionnel de la phase 1 devient l'agent renforateur de la phase 2!!!

Tout a expliquerait les apprentissages humains et en particulier les apprentissages symboliques car ils ne mettent pas en jeux la plupart des renforcements. On a discut de l'hyphothse de ces enchanements de conditionnement de Pavlov , c'est trs vraisemblablement inapplicable. Probabilit que le SN soit prsent plus ou moins rgulirement la suite du SC c'est la contingence SC-SN. Dans ce cas l le renforateur n'est pas toujours la cause de la rponse. Les corrlation SC/SI ne sont pas des corrlations absolues:a ne marche pas 1OO% des cas (exemple de la sonnette). Facteurs temporels+la suite des vnements + les effets de renforcements et le rapport de frquence contingent des stimuli sont tous les facteurs principaux l'oeuvre dans les procdures d'apprentissage.

L'apprentissage instrumental (par conditionnement de type II)


I.Principe

Le conditionnement oprant (aussi appel conditionnement instrumental, apprentissage skinnerien ou conditionnement de type II) est un concept du behaviorisme qui s'intresse l'apprentissage duquel rsulte une action, tenant compte des consquences de cette dernire rendant plus ou moins probable la reproduction du comportement. Skinner distingue le conditionnement oprant du conditionnement classique (de type I ou Pavlovien) par ses consquences sur l'environnement et par le fait que la rponse ne soit pas une raction rflexe de l'organisme. I.1>Procdures exprimentales

"Bote problmes" (Thorndike) oprant" (Skinner)

"Conditionnement

I.2>Principe de l'apprentissage instrumental: - L'apprentissage s'effectue suite une rponse active de l'organisme. Par exemple pour obtenir un renforateur positif (de la nourriture, de l'affection etc) ou viter un renforateur ngatif (dcharge lectrique par exemple), l'organisme va devoir produire une rponse. Et de par ce fait, la rponse elle-mme est agent de renforcement. NB: Attention ne pas confondre renforement ngatif qui cherche entretenir une rponse de l'organisme et punition, (par exemple la fsse que l'on administre l'enfant) qui cherche faire disparatre ou diminuer un comportement.
II. Programmes de renforcement de l'apprentissage instrumental

II.1>Programme renforcement continu et constant:(CRf) C'est un programme de renforcement surtout utilis en laboratoire et donc quasiment jamais observ en situation cologique.L'agent de renforcement est constant et est dlivr de manire rgulire (programme intervalles fixes) et/ou aussi en mme proportions c'est dire proportions fixes (par exemple on rcompense toujours le pigeon quand il aura donn 5 coups de bec) Les effets c'est que cela permet l'acquisition et le maintien de la rponse instrumentale avec un dbit de rponse certes stable mais modr. Ce type de programme de renforcement est peu observ dans la nature. La plupart du temps l'agent de renforcement est intermittent (par priode et dans une certaine proportion).
-Avantage: l'organisme aprend plus vite -Inconvnient: Rponse "modre" et extinction rapide du comportement en l'absence de renforateur.

II.2>Programmes renforcement intermittent. C'est ce qui est normalement observ en situation naturelle. L'agent de renforcement n'est pas dlivr de manire continu mais irrgulire (programme intervalles variables) et en poportions variables (programme proportions variables: par exemple on va donner la rcompense au pigeon une fois pour 10 coups de becs, une autre fois pour 2, une autre fois pour 7 etc)
-Avantage: Le comportement est mieux conserv car l'organisme n'est pas toujours sur d'obtenir (ou non) rapidement (ou non) le renforateur. -Inconvnient: Le renforcement intermittent permet un apprentissage moins rapide que pour le renforcement continu.

II.3>Programme en chanes: Quand il a appris rpondre une programme, l'animal ensuite va apprendre rpondre un second programme puis il est rcompens au second. Ensuite on lui fait apprendre un troisime puis sa troisime rponse il est rcompens. Puis une quatrime programme, puis rcompens la quatrime rponse etc etc.... Du coup aprs on peut faire faire des trucs de fou aux animaux (du genre pigeon, rats...). II.4>Programme concurrents:( choix et dcision) : On donne l'animal la possibilit de rpondre sur des programmes qui fonctionnent en mme temps (par ex un levier droite et un autre gauche). Les 2 programmes se dclenchent donc en mme temps. Comment l'animal rpartir les rponses? En fonction des conditionnements sur chacun d'eux!: Sur l'un il a une rcompense une fois sur 5 et l'autre 1 fois sur 10. Les rsultats montrent que les rats utilisent les deux programmes et ils vont les utiliser de telle sorte que les renforcements obtenus sur les deux programmes soient quivalents. Soit les rats augmentent leur dbit de rponse sur le programme le plus exigeant et va un peu plus doucement sur l'autre soit ils vont passer beaucoup plus de temps sur un programme que sur l'autre ===>L'animal rpartit son temps! Il passe 2 fois plus de temps sur le programme qui est deux fois plus exigeant. l'intrt de cette stratgie est que l'nergie qu'il dpense est quivalente dans les deux cas. Pourquoi dans cette situation o les probabilits de renforcements (rcompenses) ils utilisent tout de mme les deux programmes au lieu du plus rentable? Il semble que ce soient des stratgies utiliss par les espces animales pour leur approvisionnement.....
III.Un type d'apprentissage du conditionnement oprant: l'apprentissage instrumental discriminatif

Cela consiste apprendre un organisme produire un rponse quand on prsente un stimulus et ne pas rpondre quand on lui prsente un autre stimulus. (ex: le pigeon doit appuyer sur le bouton rouge s'il veut manger mais pas sur le bouton bleu qui donne rien: il doit discriminer.).

On prsente un stimulus lumineux d'une longueur d'onde donne, le pigeon va rpondre galement des valeurs de stimuli relativement proches en longueur d'ondes. Mais petit petit lors de l'apprentissage les rponses vont se limiter progressivement la valeur plus ou moins exacte du stimulus.

Ca pourrait tre sympa de leur apprendre certains trucs aux pigeons =)

Apprentissage symbolique: (apprentissage de l'homme base sur les reprsentations).


INTRODUCTION

Ces apprentissages sont censs tre la base de la cognition. Ils sont fonds sur un codage sensoriel et symbolique. Ils rpondent souvent sur des mcanismes base de rgles. Code et reprsentation: codage symbolique et sensoriel. Acquisition de l'expertise (joueur d'chec).
I.Acquisition des habilits cognitives:

Stade cognitif: connaissances dclaratives, traitement explicite (j'apprends passer les vitesses en thorie, mais aussi tourner le volant) stade associatif: coordinations des composantes de l'habilit (pour conduire ma voiture je passe les vitesse et je tourne le volant en mme temps mais je dois encore me concentrer sur mes gestes). Stade de l'automatisme: automatisation de la tche, traitement implicite (je sais conduire ma voiture automatiquement et je peux me concentrer sur la route) ===>Compilations de connaissances et rglages fin (tuning) ===>Accroissements de la vitesse d'excution de la vitesse d'excution et de la prcision ===>L'apprentissage mne l'automatisme
II.Acquisition de l'expertise: exemple de l'chequier

Proceduralisation de l'expertise lors de l'apprentissage: passages des connaissances dclaratives l'usage de connaissances procdurales (je sais que mon cavalier doit faire 2 cases+1 case en -1 avant et je vais me servir de cela proceduralement quand je joue) Tactical learning: Apprendre des rgles spcifiques pour rsoudre des problmes spcifiques (dans tel cas il faut faire tel tactique) Strategic learning : Dveloppement de stratgies gnrales de traitement (un peu plus global que prcdemment par exemple avoir une reprsentation mentale de l'chequier). Pattern learning: Identification, reconnaissance et mmorisation de configurations des donnes (on a montr que ce qui fait la force des joueurs d'chec c'est le fait qu'ils aient mmoris la configuration de l'chquier).

Apprentissage : facteurs prendre en compte:

I.Les facteurs temporels

- Rle du dlai SC-SI ou R-Rft (Rtft= renforcement): - Plus le dlai est court, plus l'apprentissage est rapide (acquisition plus rapide donc). - L'optimum (de dlai ex: le temps entre Si la cloche et SC la viande)entre les apprentissages se situe vers 0,5 secondes. - Intervalle entre essai: Dans les procdures essais discrets (conditionnement classique) l'intervalle inter-essais (ITI) doit tre assez long (plusieurs dizaines de secondes plusieurs minutes), alors qu'en conditionnement oprant cet intervalle peut tre trs bref et ne dpend que du comportement du sujet.
II.Persistance de l'apprentissage:

L'apprentissage subit une extinction ds la suppression du renforcement. Toutefois la persistance de l'apprentissage dpend de nombreux facteurs, et, principalement de la frquence de renforcement pendant la phase d'acquisition.Si le sujet est soumis des conditions de renforcement intermittent alors la persistance de l'apprentissage est plus importante, et on observe une extinction moins rapide que dans le cas du renforcement continu.

Exemple 1 (peu thique):

Des machines sous ont t truqus dans des casinos, certaines dlivraient des sous de manire rgulire (renforcement continu) et dans un autre cas de manire rgulire (renforcement intermittent). C'est les machines qui dlivraient des renforcements intermittents qui marchaient le mieux, car ds que les machines qui dlivraient des renforcements continu ne distribuaient plus de sous, les gens s'arrtaient de jouer. Exemple 2,l'ducation:

Ainsi dans l'ducation il ne faut pas trop rcompenser car ds qu'on ne rcompense plus, il y a extinction de l'apprentissage.

III.Mmoire et oubli:

Ces effets dpendent galement du fonctionnement de la mmoire lors de l'acquisition du matriel apprendre. Ce type de matriel apprendre( la manire d'organisation des squences etc) une incidence sur la rtention du matriel appris. avant dans l'enseignement, il y avait beaucoup de par coeur .
IV.Rle des agents de renforcement:un rappel

- Le renforcement comme procdure: maintien, consolidation ou extinction des rponses. - Le renforcement comme mcanisme: loi empirique de l'effet (Thorndike) : quand un agent de renforcement a un effet favorable sur l'organisme la rponse tendance se maintenir et dans le cas inverse (dfavorable donc),la rponse tendance disparatre. - Le renforcement comme principe thorique: la loi thorique de l'effet: si une rponse un effet positif alors elle va se maintenir et si elle a un effet ngatif elle va disparatre. Les tres vivant recherchent l'hdonie et pas la souffrance/anhdonie : principe explicatif de base du contrle du comportement. - Apprentissage et rapprentissage: Aprs oubli on a un effet d'extinction et si on recommence l'apprentissage plus tard le sujet recommence un certain niveau mais n'a pas tout perdu (on dit bien que faire du vlo a ne s'oublie pas ). - Effets quantitatifs de renforcement: la quantit de la rcompense ou autre peut avoir une influence sur l'apprentissage.

- Effets qualitatifs du renforcement : les organismes ne sont pas seulement sensible la quantit mais aussi la qualit (les rats prfrent des biscuits LU plutt que de la nourriture de synthse). - Effets de la frquence du renforcement: sur l'acquisition des rponses et sur l'extinction des rponses. - Effets de la prsentation,du retrait ou de l'omission du renforcement: exemple des renforateurs aptitifs: au bout d'un moment il y a satit. exemple des renforateurs aversifs: chappement et vitement. Mais attention les agents aversifs doivent tre utiliss "prudemment" (s'ils deviennent agents de stress ils peuvent empcher des apprentissages de se produire; cf le "freezing").

V.Rle des facteurs motivationnels:

- Besoins, motivation set incitateurs (drives & incentives): Un agent de renforcement ne joue son rle seulement que si l'organisme est motiv : ex il faut que l'animal ait faim pour que la nourriture joue son rle de renforcement: si ce n'est pas le cas ce ne sera pas un renforateur! - Ncessit de la motivation? Nature de la motivation en corrlation avec la performance de rponse. Un incitateur peut donner une rponse mme en l'absence de motivation (par exemple mme quand on a pas faim et qu'on passe devant une boulangerie qui sent bon , il est probable qu'on achte une ptisserie.) Si elle est trop faible (on parle toujours de la motivation l), elle ne va pas permettre l'organisme de faire son apprentissage, si elle augmente cela va favoriser l'apprentissage, mais si on augmente trop a va donner nouveau l'effet inverse (on va gner l'apprentissage de se produire ).Donc pour des niveaux de motivations trop faibles ou trop fort a ne donne pas grand chose, il y a un niveau optimum. - Nature de la motivation et performance: Avec un renforateur apptitif (motivation apptitive donc) on a un effet de saturation rapide qu'on a pas avec un renforateur aversif. - Critique du besoin motivationnel pour l'apprentissage,l'apprentissage latent (Tolman & Honzik): On utilise 3 groupe d'animaux, des rats en gnral, (un en renforcement constant, l'autre ne reoit aucune rcompense quand ils arrivent au bout du labyrinthe et le groupe test lui ne reoit rien au dbut puis ds qu'on donne une rcompense la performance augmente de manire fulgurante).

AXE DES ORDONNES: ERREURS AXE DES ABSICCES : APPRENTISSAGE

L'interprtation: en ralit les animaux avaient appris quelque chose pendant les 10 premiers essais et que ds qu'on dclenche la motivation ce qu'ils ont appris est mis en vidence et ils arrivent faire mieux que les sujets du groupe de contrle. Contre-argumentation: le seul fait d'offir aux animaux une activit motrice.
VI.Autres facteurs de l'apprentissage:

- Niveau de dveloppement phylogntique et ontogntique (Piaget). - Equipement neurosensoriel et moteur (il y a contraintes de comportement chez une espce li son anatomie/ quipement par ex: capacit de discrimination possible chez d'autres espces mais pas possible chez l'humain) - Contraintes thologiques, cologiques et comportementales. Il y a des stimuli associables certains agents de renforcements mais pas d'autres (par ex pour les rcompenses alimentaires elles sont facilement associables des stimuli sonores ou lumineux chez certaines espces et idem pour les renforateurs aversifs.

You might also like