Rapport

Rapport: Semestre de spécialisation
Madicke M’baye
1 Introduction
Le rapport présent portera sur différentes caractéristiques que présente un réseau
neuronal profond à la transition jamming. Le travail effectué avait pour but de
mettre en évidence une réponse de type avalanche que l’on attend dans un ce
type de système. Bien que les résultats obtenus n’ont pas pu montrer une telle
réponse, il n’invalident pas non plus la possibilité de cette existence, avec cer-
tains résultats additionels suggérant qu’il doit exister une telle réponse. Ici sont
donc présentés des résultats sur la dynamique d’apprentissage des patterns, ainsi
que les tentatives entreprisent pour provoquer des réponses de type avalanches
au moyen de méthodes perturbatives.
2 Setup et motivation
En utilisant la Hinge Loss P1 Σµ∈m 21 ∆2µ , où P est le nombre d’exemples, m est
l’ensemble des patterns, et ∆µ = 1 − yf avec y le label du pattern et f la
réponse du réseau. La somme étant prise sur les ∆µ positifs, le problème de
minimisation de la loss est équivalent au problème de la minimisation d’énergie
dans le cas de la compaction d’ellipsoide molle. Le point qui sépare la région où
tous les patterns sont correctement classifiés ( i.e tous les deltas sont négatifs) et
la région ou certains patterns restent incorrectement classifiés est appelé point
de jamming, ayant pour caractéristique une loss arbitrairement petite, et une
valeur de N∆ /N = 0.7 où N∆ est le nombre de pattern mal classifié et N est
le nombre de paramètre dans le réseau. Au abord de ce point, la distribution
des ∆µ positifs et négatifs se présente sous la forme de lois de puissances. Cela
suggère que le système peut avoir une réponse de type avalanche lorsqu‘il est
perturbé, c‘est à dire qu‘il peut procéder à un remaniement de grande amplitude
sous une faible perturbation, et ce comportement a déjà était observé dans le
cas de la compaction des particules.
Le réseau utilisé pour les expériences suivantes est un réseau
rectangulaire de largeur d = 50, de profondeur L = 4, fully connected, fonc-
tion d’activation de type ReLu, classifiant des patterns de longueur d de label
valant ±1. Idéalement, une dynamique de Gradient Descent aurait été utilisé
pour sa dynamique simple, malheureusement cette dynamique ne permettait
pas de classifier tous les patterns même pour un nombre de pattern P petit
et la dynamique ADAM a donc du être utilisé (voir figure 1). Ensuite grace
1
à un algorithme de dichotomie, la transition jamming a pu être situé pour un
réseau de dimension quelquonque (voir figure 2 pour un exemple de resultat de
la dichotomie).
Figure 1: (Bleu) la loss avec l’algorithme de Gradient descent, (rouge) la loss

avec l’algorithme ADAM
Figure 2: Exemple d’un point de jamming selectionné par l’algorithme de di-

chotomie
P
Une fois la transition jamming située N ≈ 3.1 différentes expériences ont
pu être conduites. A noter que plusieurs changements de learning rate ont été
effectué pour optimiser la minimisation(1e − 4 puis divisé par 10 toute les 2.5k
epochs), et ceci à été pris en compte dans les resultats dependant du temps, où
l’incrément de temps réel ∆t à été substitué par un incrément de temps effectif
(∆tef f = ∆t ∗ learningrate). Ainsi le temps total de minimisation égal à 2e6
epochs correspond à un temps total effectif de 2.7e5 epochs.
2
3 Dynamique des patterns
Au début de l’apprentissage, tous les (∆µ ) sont positifs (incorrectement classés),
et si l’on se situe au jamming et que le temps d’apprentissage est suffisament
grand, environ 80% des (∆µ ) finissent négatifs (correctement classés). Un pre-
mier résultat surprenant concerne la façon dont ces patterns change de signe.
En effet en observant uniquement le nombre de pattern positif en fonction du
temps (figure 4 ), on constate une courbe monotone et plutôt continue à la
manière de la loss (figure 3).
Figure 3: loss typique d’un point de jamming
Figure 4: Nombre de pattern positif en fonction du temps
En revanche en observant pour les patterns, le nombre total de changement

de signe d’une epoch à l’autre, on constate une courbe extremement bruité,
presentant une instabilité grandissante avec le temps paradoxalement avec le
fait que l’on atteint un minimum local de la loss et du nombre total de pattern
3
positif (figure 5). Le nombre total de changement (∼ 1700 0000 000) excedant
largement le nombre de pattern (∼ 310 000), on doit en conclure que certains
pattern présentent des instabilités et alternent de positif a négatif plusieurs fois
au cours de l’apprentissage. En comparant le nombre de changement allant
de positif à négatif et de négatif à positif (figure 6) il semble que ces deux
mouvements apparaissent de façon symétrique. Pourtant comme l’atteste le
nombre de pattern positif en fonction du temps (figure 4) ainsi que l’évolution
de la distribution des (∆µ ) (figure 8) on sait que le nombre total de pattern
positif décroit avec le temps. On doit donc en conclure que cette symmétrie
n’est qu’apparente et que le nombre de changement de signe est dominé par
des patterns instables. Sachant cela, on peut se demander si ces instabilités
touchent les patterns de façon aléatoire durant l’apprentissage ou si elles sont
localisées.
Différentes expériences ont montré qu’elles etaient effectivement localisées,
comme le montre par exemple la distribution des temps de la dernière fois
qu’un pattern change de signe (figure 7). La majorité des patterns se stabilise
en début d’apprentissage, tandis qu’une petite fraction continue de changer de
signe même en fin d’apprentissage. La présence même d’instabilité favorise
l’idée selon laquelle une réponse de type avalanche est possible.
4 Perturbations
Idéalement, l’idée était de partir d’un point de jamming avec un réseau déja
entrainé (loss = 1e − 5, N∆ /N = 0.7), choisir un type de perturbation, per-
turber le système, puis re-minimiser jusqu’a atteindre un nouveau minimum
de la loss. Répetant cette procédure plusieurs fois indépendamment, une anal-
yse statistique peut être conduite, et si le système est sujet à des avalanches,
cela se traduira par certaines réponses disproportionné par rapport aux réponses
moyenne. Au choix l’on pouvait perturbé : la position des patterns dans l’espace
a d dimension, la valeur des labels, où le vecteur des poids W . La dernière per-
turbation étant la seule qui ne modifie pas la topologie de la loss, c’est celle-ci
qui a été retenue. Ainsi la perturbation consiste à ajouter au vecteur de poids
W un vecteur de direction aléatoire et de norme dw . Des conditions parfaites
aurait requis une minimisation jusqu’à stabilisation de la loss, malheureusement
comme le montre la figure 9, la loss continue de diminuer même pour un temps
de minimisation avoisinant 1e7 . Pour des raisons de temps, il a donc était
décider de choisir le temps de minimisation le plus grand pour lequel la loss re-
vient à sa valeur initiale (avant perturbation) et la valeur 1e4 a été retenue (voir
figure 9). Pour l’analyse statistique, 3 quantités ont été observées: la différence
de loss entre la loss initiale et finale (après perturbation et minimisation), le
produit scalaire du vecteur S initial et final où le vecteur S est le vecteur des
signes des (∆µ ), et la norme des différences du vecteur W initial et final . Si
ce protocole donnait lieu à une réponse de type avalanche, une queue aurait
été observé dans au moins une des trois distributions, or on constate pour ces
trois distributions une distribution de type gaussienne, symétrique autour de la
4
valeur maximale (voir figure 10).
De ces résultats ne prouvant pas la présence d’avalanche, on peut en déduire
: soit que le nombre de points dans la statistique est insuffisant (peu probable
car elle est conduite sur 1000 pertubations différentes et aucune forme de queue
semble présente), que le système n’est pas sujet à une réponse de type avalanche
(peu probable car incohérent avec des résultats positifs conduits dans le cas des
particules et avec les arguments sur l’instabilité et les lois de puissance), que le
protocole utilisé ne permet pas de mettre en évidence ces avalanches (solution
la plus probable).
5 Conclusion
En conclusion, après avoir décidé de la dynamique d’apprentissage la plus sim-
ple permettant néanmoins de pouvoir classifier des patterns avec efficacité, cer-
taines expériences ont pu être conduites mettant en évidence un comportement
surprenant dans la dynamique d’apprentissage des patterns, et notamment des
instabilités invisibles dans la dynamique de la loss. Ces instabilités ainsi que
des arguments plus théoriques, suggèrent la présence d’avalanches qui n’a mal-
heureusement pas pu être observée, ce qui permit tout de même d’écarter le
type de protocole utilisé pour d’éventuelles expériences futures.
5
Figure 5: Nombre de changement de signe pour les ∆µ à chaque epoch avec
moyenne mobile sur 500 points (bleu clair)
Figure 6: Nombre de changement de signe de positif a négatif (en haut) de

négatif à positif (en bas) pour les ∆µ à chaque epoch avec moyenne mobile sur
500 points (bleu clair)
6
Figure 7: Distribution des temps de la dernière fois qu’un pattern change de
signe
Figure 8: Evolution de la distribution des ∆µ pour 3 epochs différentes
7
Figure 9: Evolution de la loss après perturbation d’un point de jamming (loss
initiale ∼ 1e − 5 pour différentes amplitudes de perturbation, la courbe rouge
sans pertubation présente en guise de comparaison.
8
Figure 10: (en haut) la distribution des différences de loss, (au milieu) la distri-
bution du produit scalaire du vecteur S initial et final, (en bas) la distribution
de la norme des différences du vecteur W initial et final pour une perturbation
de norme dw = 0.01
9
Figure 11: (en haut) la distribution des différences de loss, (au milieu) la distri-
bution du produit scalaire du vecteur S initial et final, (en bas) la distribution
de la norme des différences du vecteur W initial et final pour une perturbation
de norme dw = 0.001
10

Rapport

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Rapport

Uploaded by

Copyright:

Available Formats

Rapport: Semestre de spécialisation

Figure 1: (Bleu) la loss avec l’algorithme de Gradient descent, (rouge) la loss

Figure 2: Exemple d’un point de jamming selectionné par l’algorithme de di-

Figure 3: loss typique d’un point de jamming

Figure 4: Nombre de pattern positif en fonction du temps

En revanche en observant pour les patterns, le nombre total de changement

Figure 6: Nombre de changement de signe de positif a négatif (en haut) de

Figure 8: Evolution de la distribution des ∆µ pour 3 epochs différentes

You might also like