You are on page 1of 10

Rapport: Semestre de spécialisation

Madicke M’baye

1 Introduction
Le rapport présent portera sur différentes caractéristiques que présente un réseau
neuronal profond à la transition jamming. Le travail effectué avait pour but de
mettre en évidence une réponse de type avalanche que l’on attend dans un ce
type de système. Bien que les résultats obtenus n’ont pas pu montrer une telle
réponse, il n’invalident pas non plus la possibilité de cette existence, avec cer-
tains résultats additionels suggérant qu’il doit exister une telle réponse. Ici sont
donc présentés des résultats sur la dynamique d’apprentissage des patterns, ainsi
que les tentatives entreprisent pour provoquer des réponses de type avalanches
au moyen de méthodes perturbatives.

2 Setup et motivation
En utilisant la Hinge Loss P1 Σµ∈m 21 ∆2µ , où P est le nombre d’exemples, m est
l’ensemble des patterns, et ∆µ = 1 − yf avec y le label du pattern et f la
réponse du réseau. La somme étant prise sur les ∆µ positifs, le problème de
minimisation de la loss est équivalent au problème de la minimisation d’énergie
dans le cas de la compaction d’ellipsoide molle. Le point qui sépare la région où
tous les patterns sont correctement classifiés ( i.e tous les deltas sont négatifs) et
la région ou certains patterns restent incorrectement classifiés est appelé point
de jamming, ayant pour caractéristique une loss arbitrairement petite, et une
valeur de N∆ /N = 0.7 où N∆ est le nombre de pattern mal classifié et N est
le nombre de paramètre dans le réseau. Au abord de ce point, la distribution
des ∆µ positifs et négatifs se présente sous la forme de lois de puissances. Cela
suggère que le système peut avoir une réponse de type avalanche lorsqu‘il est
perturbé, c‘est à dire qu‘il peut procéder à un remaniement de grande amplitude
sous une faible perturbation, et ce comportement a déjà était observé dans le
cas de la compaction des particules.
Le réseau utilisé pour les expériences suivantes est un réseau
rectangulaire de largeur d = 50, de profondeur L = 4, fully connected, fonc-
tion d’activation de type ReLu, classifiant des patterns de longueur d de label
valant ±1. Idéalement, une dynamique de Gradient Descent aurait été utilisé
pour sa dynamique simple, malheureusement cette dynamique ne permettait
pas de classifier tous les patterns même pour un nombre de pattern P petit
et la dynamique ADAM a donc du être utilisé (voir figure 1). Ensuite grace

1
à un algorithme de dichotomie, la transition jamming a pu être situé pour un
réseau de dimension quelquonque (voir figure 2 pour un exemple de resultat de
la dichotomie).

Figure 1: (Bleu) la loss avec l’algorithme de Gradient descent, (rouge) la loss


avec l’algorithme ADAM

Figure 2: Exemple d’un point de jamming selectionné par l’algorithme de di-


chotomie
P
Une fois la transition jamming située N ≈ 3.1 différentes expériences ont
pu être conduites. A noter que plusieurs changements de learning rate ont été
effectué pour optimiser la minimisation(1e − 4 puis divisé par 10 toute les 2.5k
epochs), et ceci à été pris en compte dans les resultats dependant du temps, où
l’incrément de temps réel ∆t à été substitué par un incrément de temps effectif
(∆tef f = ∆t ∗ learningrate). Ainsi le temps total de minimisation égal à 2e6
epochs correspond à un temps total effectif de 2.7e5 epochs.

2
3 Dynamique des patterns
Au début de l’apprentissage, tous les (∆µ ) sont positifs (incorrectement classés),
et si l’on se situe au jamming et que le temps d’apprentissage est suffisament
grand, environ 80% des (∆µ ) finissent négatifs (correctement classés). Un pre-
mier résultat surprenant concerne la façon dont ces patterns change de signe.
En effet en observant uniquement le nombre de pattern positif en fonction du
temps (figure 4 ), on constate une courbe monotone et plutôt continue à la
manière de la loss (figure 3).

Figure 3: loss typique d’un point de jamming

Figure 4: Nombre de pattern positif en fonction du temps

En revanche en observant pour les patterns, le nombre total de changement


de signe d’une epoch à l’autre, on constate une courbe extremement bruité,
presentant une instabilité grandissante avec le temps paradoxalement avec le
fait que l’on atteint un minimum local de la loss et du nombre total de pattern

3
positif (figure 5). Le nombre total de changement (∼ 1700 0000 000) excedant
largement le nombre de pattern (∼ 310 000), on doit en conclure que certains
pattern présentent des instabilités et alternent de positif a négatif plusieurs fois
au cours de l’apprentissage. En comparant le nombre de changement allant
de positif à négatif et de négatif à positif (figure 6) il semble que ces deux
mouvements apparaissent de façon symétrique. Pourtant comme l’atteste le
nombre de pattern positif en fonction du temps (figure 4) ainsi que l’évolution
de la distribution des (∆µ ) (figure 8) on sait que le nombre total de pattern
positif décroit avec le temps. On doit donc en conclure que cette symmétrie
n’est qu’apparente et que le nombre de changement de signe est dominé par
des patterns instables. Sachant cela, on peut se demander si ces instabilités
touchent les patterns de façon aléatoire durant l’apprentissage ou si elles sont
localisées.
Différentes expériences ont montré qu’elles etaient effectivement localisées,
comme le montre par exemple la distribution des temps de la dernière fois
qu’un pattern change de signe (figure 7). La majorité des patterns se stabilise
en début d’apprentissage, tandis qu’une petite fraction continue de changer de
signe même en fin d’apprentissage. La présence même d’instabilité favorise
l’idée selon laquelle une réponse de type avalanche est possible.

4 Perturbations
Idéalement, l’idée était de partir d’un point de jamming avec un réseau déja
entrainé (loss = 1e − 5, N∆ /N = 0.7), choisir un type de perturbation, per-
turber le système, puis re-minimiser jusqu’a atteindre un nouveau minimum
de la loss. Répetant cette procédure plusieurs fois indépendamment, une anal-
yse statistique peut être conduite, et si le système est sujet à des avalanches,
cela se traduira par certaines réponses disproportionné par rapport aux réponses
moyenne. Au choix l’on pouvait perturbé : la position des patterns dans l’espace
a d dimension, la valeur des labels, où le vecteur des poids W . La dernière per-
turbation étant la seule qui ne modifie pas la topologie de la loss, c’est celle-ci
qui a été retenue. Ainsi la perturbation consiste à ajouter au vecteur de poids
W un vecteur de direction aléatoire et de norme dw . Des conditions parfaites
aurait requis une minimisation jusqu’à stabilisation de la loss, malheureusement
comme le montre la figure 9, la loss continue de diminuer même pour un temps
de minimisation avoisinant 1e7 . Pour des raisons de temps, il a donc était
décider de choisir le temps de minimisation le plus grand pour lequel la loss re-
vient à sa valeur initiale (avant perturbation) et la valeur 1e4 a été retenue (voir
figure 9). Pour l’analyse statistique, 3 quantités ont été observées: la différence
de loss entre la loss initiale et finale (après perturbation et minimisation), le
produit scalaire du vecteur S initial et final où le vecteur S est le vecteur des
signes des (∆µ ), et la norme des différences du vecteur W initial et final . Si
ce protocole donnait lieu à une réponse de type avalanche, une queue aurait
été observé dans au moins une des trois distributions, or on constate pour ces
trois distributions une distribution de type gaussienne, symétrique autour de la

4
valeur maximale (voir figure 10).
De ces résultats ne prouvant pas la présence d’avalanche, on peut en déduire
: soit que le nombre de points dans la statistique est insuffisant (peu probable
car elle est conduite sur 1000 pertubations différentes et aucune forme de queue
semble présente), que le système n’est pas sujet à une réponse de type avalanche
(peu probable car incohérent avec des résultats positifs conduits dans le cas des
particules et avec les arguments sur l’instabilité et les lois de puissance), que le
protocole utilisé ne permet pas de mettre en évidence ces avalanches (solution
la plus probable).

5 Conclusion
En conclusion, après avoir décidé de la dynamique d’apprentissage la plus sim-
ple permettant néanmoins de pouvoir classifier des patterns avec efficacité, cer-
taines expériences ont pu être conduites mettant en évidence un comportement
surprenant dans la dynamique d’apprentissage des patterns, et notamment des
instabilités invisibles dans la dynamique de la loss. Ces instabilités ainsi que
des arguments plus théoriques, suggèrent la présence d’avalanches qui n’a mal-
heureusement pas pu être observée, ce qui permit tout de même d’écarter le
type de protocole utilisé pour d’éventuelles expériences futures.

5
Figure 5: Nombre de changement de signe pour les ∆µ à chaque epoch avec
moyenne mobile sur 500 points (bleu clair)

Figure 6: Nombre de changement de signe de positif a négatif (en haut) de


négatif à positif (en bas) pour les ∆µ à chaque epoch avec moyenne mobile sur
500 points (bleu clair)
6
Figure 7: Distribution des temps de la dernière fois qu’un pattern change de
signe

Figure 8: Evolution de la distribution des ∆µ pour 3 epochs différentes

7
Figure 9: Evolution de la loss après perturbation d’un point de jamming (loss
initiale ∼ 1e − 5 pour différentes amplitudes de perturbation, la courbe rouge
sans pertubation présente en guise de comparaison.

8
Figure 10: (en haut) la distribution des différences de loss, (au milieu) la distri-
bution du produit scalaire du vecteur S initial et final, (en bas) la distribution
de la norme des différences du vecteur W initial et final pour une perturbation
de norme dw = 0.01

9
Figure 11: (en haut) la distribution des différences de loss, (au milieu) la distri-
bution du produit scalaire du vecteur S initial et final, (en bas) la distribution
de la norme des différences du vecteur W initial et final pour une perturbation
de norme dw = 0.001

10

You might also like