Professional Documents
Culture Documents
Ga el Varoquaux
1 Lapprentissage statistique en deux mots 2 De lactivit e des neurones ` a la pens ee 3 Scikit-learn: une boite ` a outils dapprentissage
G Varoquaux
G Varoquaux
ann ees 80
G Varoquaux
1 Une perspective historique Intelligence articielle Concevoir des r` egles de d ecision Apprentissage machine Les cr eer ` a partir dobservations ann ees 80 ann ees 90
G Varoquaux
1 Une perspective historique Intelligence articielle Concevoir des r` egles de d ecision Apprentissage machine Les cr eer ` a partir dobservations ann ees 80 ann ees 90
Apprentissage statistique ann ees 2000 Mod eliser le bruit dans les observations
G Varoquaux
1 Une perspective historique Intelligence articielle Concevoir des r` egles de d ecision Apprentissage machine Les cr eer ` a partir dobservations ann ees 80 ann ees 90
Apprentissage statistique ann ees 2000 Mod eliser le bruit dans les observations Big data Beaucoup dobservations, des r` egles simples maintenant
G Varoquaux
1 Une perspective historique Intelligence articielle Concevoir des r` egles de d ecision Apprentissage machine Les cr eer ` a partir dobservations ann ees 80 ann ees 90
Apprentissage statistique ann ees 2000 Mod eliser le bruit dans les observations Big data Beaucoup dobservations, des r` egles simples maintenant
Big data isnt actually interesting without machine learning Steve Jurvetson, VC, Silicon Valley
G Varoquaux 4
Andr e
Bernard
Charles
Didier
G Varoquaux
Andr e
Bernard
Charles
Didier
G Varoquaux
1 M ethode na ve
G Varoquaux
1 M ethode na ve
1 1er probl` eme: le bruit Donn ees non li ees ` a la variable ` a pr edire
Taux de prediction
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Niveau de bruit
G Varoquaux
Taux de prediction
G Varoquaux
1 Lapprentissage statistique Exemple: reconnaissance de visage Apprentissage ` a partir de descripteurs num eriques Dicult es: i) bruit, Andr e Bernard Charles Didier ii) nombre de descripteurs T ache supervis ee: labels connus T ache non supervis ee: labels inconnus
G Varoquaux
G Varoquaux
10
x
Quel mod` ele pr ef erer?
G Varoquaux
10
x x Probl` eme du sur-apprentissage Minimiser lerreur nest pas toujours favorable (apprentissage du bruit) Donn ees de test = donn ees dapprentissage
G Varoquaux 10
1 Apprentissage supervis e: r egression Un seul descripteur: une dimension Deux descripteurs: 2 dimensions
y
X_2 X_1
G Varoquaux
10
1 Apprentissage supervis e: r egression Un seul descripteur: une dimension Deux descripteurs: 2 dimensions
y
X_2 X_1
Plus de param` etres besoin de plus de donn ees mal ediction de la dimensionalit e
G Varoquaux 10
1 Apprentissage supervis e: classication Variable ` a pr edire cat egorielle, par ex. des chires
X2
X1
G Varoquaux 11
G Varoquaux
12
1 Apprentissage non supervis e Structure de la bourse Donn ees non lab elis ees plus courantes que les donn ees labelis ees
G Varoquaux
12
G Varoquaux
13
G Varoquaux
13
1 Lapprentissage statistique
G Varoquaux
14
Big data
Lacc` es aux donn ees limite plus que la puissance de calcul
G Varoquaux
15
1 Strat egies dapprentissage sur du big data 1 R eduction de donn ees ` a la vol ee
Une r eduction rapide, respectant les propri et es statistiques des donn ees Limite la charge m emoire + disque
G Varoquaux 15
1 Strat egies dapprentissage sur du big data 1 R eduction de donn ees ` a la vol ee 2 Algorithmes en ligne
1 Strat egies dapprentissage sur du big data 1 R eduction de donn ees ` a la vol ee 2 Algorithmes en ligne 3 Parall elisme par d ecoupage des donn ees Stratication pour suivre la structure statistique et de stockage des donn ees Taille des blocs adapt e aux unit es de calcul
G Varoquaux
15
1 Strat egies dapprentissage sur du big data 1 2 3 4 R eduction de donn ees ` a la vol ee Algorithmes en ligne Parall elisme par d ecoupage des donn ees Caching
Minimiser la latence dacc` es aux donn ees Ne pas recalculer la m eme chose
G Varoquaux
15
1 Strat egies dapprentissage sur du big data 1 2 3 4 5 R eduction de donn ees ` a la vol ee Algorithmes en ligne Parall elisme par d ecoupage des donn ees Caching Acc` es rapide aux donn ees
Repr esentation coh erente avec les motifs dacc` es Compression pour limiter la bande consomm ee
G Varoquaux 15
1 Apprentissage statistique et big data Un fort potentiel Apprendre une logique d ecisionnelle riche Des d es Statistiques
grande dimension
G Varoquaux
17
2 LIRM fonctionnelle
G Varoquaux
18
2 NeuroImagerie cognitive
2 Decodage
2 Accumulation de donn ees pour la sp ecicit e Chaque exp erience ne touche qu` a peu de domaines cognitifs m eta analyses
G Varoquaux
22
Atlas cognitif
Visual
Audio
G Varoquaux 23
Atlas cognitif
Audio
G Varoquaux 23
G Varoquaux
c Theodore W. Gray
24
D eveloppement communautaire
License BSD, contributeurs tr` es vari es
http://scikit-learn.org
G Varoquaux 25
3 Une biblioth` eque Python Une biblioth` eque, pas un programme Plus expressif et polyvalent Facile ` a integrer Python: Un langage haut niveau - interactif, - facile ` a debugger, - dapplication g en erale Ecosyst` eme tr` es dynamique
G Varoquaux
26
3 Performance computationelle scikit-learn SVM 5.2 LARS 1.17 Elastic Net 0.52 kNN 0.57 PCA 0.18 k-Means 1.34 mlpy pybrain pymvpa 9.47 17.5 11.52 105.3 37.35 73.7 1.44 1.41 0.56 8.93 0.79 mdp shogun 40.48 5.63 0.58 1.36 0.47 0.33 35.75 0.68
Optimisations algorithmiques et non bas niveau Minimiser les copies des donn ees
G Varoquaux
27
3 D eveloppement comunautaire Enormement de fonctionnalit es: b en eces dune grande equipe Croissance du projet:
Plus de 200 contributeurs 12 d eveloppeurs coeur 1 ing enieur INRIA temps plein Co ut de d eveloppement estim e: 6 millions $ Mod` ele COCOMO,
http://www.ohloh.net/p/scikit-learn
G Varoquaux 28
3 Cl es de succ` es du d eveloppement libre 1 Un march e dynamique 2 D eveloppement transparent 3 Identit e du projet non monopolis ee 4 Grande qualit e technique du projet 5 Contributeurs valoris es 6 Recrutement actif 7 Communication / marketing
G Varoquaux
29
3 Cl es de succ` es du d eveloppement libre 1 Un march e dynamique Les transparent limites du mod` ele 2 D eveloppement 3 Identit e du projet non monopolis ee Fuite des cerveaux. 4 Grande qualit e technique du ` projet Nous narrivons pas a payer assez les meilleurs d e 5 Contributeurs valoris e svelopeurs. Ils sontactif embauch es grace ` a leurs 6 Recrutement contributions mais disparaissent. 7 Communication / marketing
G Varoquaux
29
Apprentissage statistique et big data Lapprentissage conf` ere de la valeur au big data Il sappuie sur les statistiques, et linformatique th eorique et appliqu ee Toutes les disciplines connaissent un essort du big data Le logiciel est critique et le d eveloppement libre bien adapt e
@GaelVaroquaux