Professional Documents
Culture Documents
Dpartement informatique
Edu.lah.moh@gmail.com
daouic@yahoo.com
Universit Sultan Moulay Slimane Facult des
Sciences et Techniques Bni Mellal
Rsum Nous prsentons dans ce document la notion de fonctionnelle rsoudre, appel quation de Bellman.
lapprentissage par renforcement avec les diffrentes mthodes Lapprentissage par renforcement est le fruit de la rencontre
et algorithmes dapprentissage (Programmation dynamique, entre la psychologie exprimentale et les neurosciences
mthode de Monte Carlo, mthodes de diffrence temporelle). computationnelles.
Nous insistons sur des mthodes d'apprentissage bases sur les
diffrences temporelles comme le Q-learning et certaines de ses
variantes. Nous dcrirons par la suite, le robot quon a ralis II. MODLE DE LAPPRENTISSAGE PAR RENFORCEMENT
pour tester exprimentalement la validit de quelques Lapprentissage par renforcement dfinit un type
algorithmes de lapprentissage par renforcement dans le cas de d'interaction entre l'agent et l'environnement. Depuis une
la marche robotique deux pattes. Nous concluons par les situation relle s dans l'environnement, l'agent choisit et
rsultats de la comparaison entre deux algorithmes de excute une action a qui provoque une transition vers l'tat
lapprentissage par renforcement. s' . Il reoit en retour un signal de renforcement r
ngatif de type pnalit si laction conduit un chec ou positif
de type rcompense s'il laction est bnfique. L'agent utilise
Mots cls - Apprentissage, renforcement, Qlearning, Sarsa, alors ce signal pour amliorer sa stratgie, c'est dire la
robotique, programmation dynamique . squence de ses actions, afin de maximiser le cumul de ses
rcompenses futures. L'interaction entre l'agent et
I. INTRODUCTION l'environnement est reprsente par le diagramme de la figure
1:
Dvelopp depuis les annes 1980, lapprentissage par
renforcement est une mthode de contrle automatique qui ne
ncessite pas de connaitre le modle du systme, lintrt de
cette approche est de pouvoir raliser un contrleur capable
dapprendre commander un systme inconnu sans avoir
spcifier comment la tache doit tre ralise. Le contrleur
apprend par essai et erreur, cest -dire partir
dexpriences.
1
- S est un ensemble d'tats :
Les tats caractrisent les situations d'un agent et de Agorithme1 : Itration sur les valeurs - Critre -pondr
l'environnement chaque instant.
Initialiser V0 V
- A est un ensemble d'actions :
n 0
Un agent choisit une action parmi les actions possibles
chaque instant t. A chaque tat de l'espace d'tat est associ un Rpter
ensemble d'actions possibles de l'espace d'action, cette relation
est reprsente par la figure 2 suivante : Pour tout s S faire
2
de trajectoires, la moyenne des retours observs pour chaque
tat tend vers la vraie moyenne. t t +1
t 0 Pour faire
Rpter Initialiser l'tat initial s0
Emettre l'action at = (st) t 0
Observer rt et st+1 Choisir l'action mettre at en fonction de la
V (st) V (s) + [rt + V (st+1) V (st)] politique drive de Q ( -gloutonne
3
par exemple) et l'mettre
Rpter
mettre at
Observer rt et st+1
Choisir l'action mettre at+1 en fonction de
la politique drive de Q ( -gloutonne
par exemple)
Q (st, at) Q(st, at) + [rt + Q (st+1, a) Q (st, at)]
t t +1
Jusque st F Figure 4 : Le modle 5 5 de la grille ( gauche)
Fin pour et une politique de marche cyclique ( droite). Les
tats du cycle sont tiquets comme
VIII. PRSENTATION DU ROBOT
Le robot comporte 2 mains commande chacune par un
servomoteur, ce qui permet davancer en avant ou en arrire,
en changeant le sens de rotation des servomoteurs, ainsi
quune carte Arduino et un capteur ultrason.
4
40 33 En revanche, dans Q-Learning l'agent commence dans ltat
28
Nombre d'itrations
26 1, effectue laction 1 et obtient une rcompense (rcompense 1),
30 21 24 22 puis regarde et voit ce que la rcompense maximale possible
20 pour une action est en tat 2, et utilise que pour mettre jour
10 la valeur de laction d'excuter laction 1 dans ltat 1.
0 Donc, la diffrence est dans la faon dont la rcompense
Grille 7X7 Grille 10X10 Grille 15X15 future se trouve. Dans Q-Learning, il est tout simplement
l'action la plus lev possible qui peut tre pris partir de
Taille de L'environnement l'tat 2, et SARSA il est la valeur de la relle action qui a t
prise.
Q-Learning SARSA Cela signifie que SARSA tient compte de la politique de
contrle par lequel l'agent est en mouvement, et intgre que
dans sa mise jour des valeurs d'action, o Q-Learning
Figure 5 : Diffrence en nombre ditrations suppose simplement que la politique optimale est suivie.
entre SARSA et Q-learning par rapport la taille
de l'environnement X. CONCLUSION
La figure 5 reprsente la diffrence en nombre ditrations Nous avons pu voir comment fonctionne lapprentissage par
effectues avant la convergence de ces deux algorithmes, il est renforcement ses qualits comme ses dfauts. Ainsi que la
claire que lalgorithme Q-Learning apporte une rduction diffrence entre cette mthode dapprentissage et toutes les
importante du nombre ditrations. autres. Mais il ny a pas une mthode dapprentissage mieux
que les autres. Lefficacit de lapprentissage ou encore, de sa
mthode dapplication dpend essentiellement de son
utilisation et du type de traitement que lon veut grer.
XI. RFRENCES