Professional Documents
Culture Documents
1
2
3
4
5
Rgles du dnombrement
Les n-listes
Arrangements
Combinaisons
Synthse
Principe d'inclusion-exclusion
Un bibliophile hrite de la bibliothque de son pre.
Si X dsigne l'ensemble des titres des livres du bibliophile, et Y
l'ensemble des titres des livres de son pre, sa nouvelle collection est
l'ensemble : X U Y
Connaissant le nombre des lments de X, que l'on notera card(X) et le
nombre des lments de Y, que l'on notera card(Y) peut-on calculer :
card (X U Y) ?
le nombre des lments de X U Y ?
Pour cela il faudra dterminer les titres communs aux deux bibliothques,
c'est--dire les lments de : X Y
Si on connat card(X Y), on pourra calculer card(X U Y) en utilisant le principe
d'inclusion-exclusion : card(X U Y) = card(X) + card(Y) - card(X Y)
La rgle du produit
L'administration des postes, l'occasion d'un changement de tarif, doit
faire imprimer de nouveaux timbres.
Elle dispose de 10 couleurs d'impression, de 3 figurines, et de 12 prix de
vente. Combien de types de nouveaux timbres peut-elle faire imprimer ?
Si X dsigne l'ensemble des couleurs disponibles, Y l'ensemble des
figurines et Z l'ensemble des prix de vente, un type de timbre est
caractris par une 3-liste ( x , y , z ) o x est la couleur, y la figurine et z
le prix.
On note, X x Y x Z l'ensemble de ces 3-listes.
On peut dnombrer X x Y x Z grce la rgle du rgle du produit :
card(X Y Z) = card(X) card(Y) card(Z)
La rgle des bergers
I - La rgle de la somme
Dans une association d'amateurs de bel-canto, 125 personnes aiment les
opras de Mozart et 100 personnes prfrent les opras de Verdi.
Combien y-a-t-il de membres de l'association qui apprcient Mozart ou
Verdi ?
Pouvez-vous rpondre cette question ?
LEXIQUE :
Choisissez le terme expliquer...
Arrangements de n objets :
Soit n un entier naturel, X un ensemble.
Une n-liste sans rptition d'lments de X s'appelle
arrangement de n lments pris parmi les lments de X.
aussi
un
Coefficients binomiaux :
Soit X un ensemble m lments
et n un entier naturel tel que 0 n m.
Xa
=1
la relation :
(Formule de Pascal)
qui permet de calculer de proche en proche les coefficients binomiaux.
Combinaison :
Une partie n lments d'un ensemble m lments s'appelle aussi une
combinaison de n lments de X.
Complmentaire d'une partie :
Soit A une partie d'un ensemble X,
on appelle complmentaire de A, la partie note
o X / A de X forme des x X tels que x A.
Si :
X = { 1, 2, 3, 4, 5, 6 } ,
A = { 1, 2 } ,
= { 3, 4, 5, 6 }
Conjonction de deux vnements :
Soit E une exprience alatoire, A et B deux vnements lis cette
exprience. On appelle conjonction de ces vnements, l'vnement A
et B .
tels chantillons.
parmi n objets.
Exemple : Pour connatre l'opinion de ses employs une entreprise dcide
d'interroger 40 d'entre eux. Sachant qu'il y a 1000 employs dans
l'entreprise, il y a donc
seront interrogs :
= 5 559 744 236 1071
o n = card()
EVNEMENT :
Etant donn une exprience alatoire, on appelle vnement li cette
exprience alatoire, toute assertion, qui peut tre vraie ou fausse
suivant l'issue de l'exprience.
Exemple : Si on considre l'exprience alatoire qui consiste jeter un
d, cette exprience a six issues : 1, 2, 3, 4, 5, 6 correspondant au
numro qui apparat sur la face suprieure du d lorsqu'il s'est
immobilis sur la table.
L'assertion le numro sur la face suprieure est pair est un
vnement li cette exprience alatoire.
1- Evnement certain :
Soit E une exprience alatoire et A un vnement li cette exprience
alatoire. On dit que A est un vnement certain, s'il est ralis quelle
que soit l'issue de l'exprience E.
Exemple : Soit E l'exprience alatoire qui consiste jeter un d et dont
les issues sont les numros qui apparaissent sur la face suprieure du d
aprs immobilisation.
L'vnement le numro sur la face suprieure du d est infrieur 7
est un vnement certain.
2- Evnements lmentaires :
Soit E une exprience alatoire, un vnement A li l'exprience E, est
dit un vnement lmentaire s'il n'est ralis que par une seule issue de
cette exprience.
Exemple : Soit l'exprience alatoire qui consiste jeter un d, et dont les
issues sont l'un des 6 numros figurant sur la face suprieure aprs
immobilisation du d.
L'vnement le numro sur la face suprieure du d est le 4 est un
vnement lmentaire. Il y a autant d'vnements lmentaires que
d'issues une exprience alatoire.
3- Evnement impossible :
Soit E une exprience alatoire et A un vnement li cette exprience
alatoire. On dit que A est un vnement impossible, s'il n'est pas ralis,
quelle que soit l'issue de l'exprience E.
Exemple : Soit E l'exprience alatoire qui consiste jeter un d et dont
les issues sont les numros qui apparaissent sur la face suprieure du d
aprs immobilisation.
L'vnement le numro sur la face suprieure du d est le numro 7
est un vnement impossible.
4- Evnements incompatibles :
10
}, {
, B} , {
}.
11
Une exprience alatoire est une exprience dont on ne peut pas prvoir
le rsultat.
Exemple : Si on lance une pice de monnaie, on ne peut pas prvoir sur
quelle face elle retombera.
Lancer une pice de monnaie est une exprience alatoire.
Factorielle :
Si n est un entier naturel 1, on appelle factorielle n, et on note n ! , le
produit des n premiers entiers naturels.
1!=1
2!=21=2
3!=321=6
4 ! = 4 3 2 1 = 24 , etc.
n ! est gal au nombre de permutations d'un ensemble X n lments.
12
P(Y | B) = 0.3
P(Y | C) = 0.15
D'o P( Y ) = 0.25 0.2 + 0.2 0.3 + 0.55 0.15
= 0.05 + 0.06 + 0.0825
= 0.1925
Formule de Bayes :
Soit ( , P ( ) , P) un espace probabilis fini. A , B des vnements,
P( A ) 0 , P( B ) 0.
On a P(B | A) =
P(Bi | A) =
Exemple : Une grande marque de produits laitiers fabrique les yaourts
qu'elle commercialise dans trois usines, implantes Arras, Brest et
Caen.
Arras fournit 25 % de la production, Brest 20 % et Caen 55 %. On achte
un yaourt de cette marque.
Soit A (resp. B , C ) l'vnement lyaourt est produit par Arras (resp. Brest, Caen)
P( A ) = 0.25
P( B ) = 0.2
P( C ) = 0.55
A, B, C constituent un systme complet d'vnements.
20 % des yaourts produits Arras sont aux fruits ainsi que 30 % des
yaourts produits Brest et 15 % de ceux produits Caen.
Soit Y l'vnement le yaourt est aux fruits
P(Y | A) = 0.2
P(Y | B) = 0.3
P(Y | C) = 0.15
D'o P( Y ) = 0.25 0.2 + 0.2 0.3 + 0.55 0.15
= 0.05 + 0.06 + 0.0825
= 0.1925
Sachant que le yaourt est aux fruits, quelle est la probabilit qu'il ait t
fabriqu Caen :
13
P(C | Y) =
= 0.42857
Xi
card( A ) =
(- 1)p+1
card(
Aij )
14
card( Xn ) = card( X )n
Si X a n lments, X a m lments.
n
15
On note
= n ! qui se lit factorielle n .
Exemple : 9 soldats doivent se ranger en lignes.
Il y a 9 ! Faons pour eux de le faire, soit 362 880 manires de le faire.
Principe d'inclusion-exclusion :
Si X et Y sont deux ensembles
card(X Y) = card( X ) + card( Y ) - card(X Y)
Exemple : Dans une cole :
120 tudiants tudient l'anglais
90 tudiants tudient l'espagnol
40 tudiants tudient la fois l'anglais et l'espagnol.
Il y a donc 120 + 90 - 40 = 170 tudiants qui tudient soit l'anglais, soit
l'espagnol.
Probabilit :
Soit E une exprience alatoire ayant un nombre fini d'issues. Soit
l'ensemble de ces issues. On appelle probabilit, toute application :
P : P ( ) [ 0 , 1 ]
vrifiant :
1) P ( ) = 1
2) Si A B =
P(A B) = P( A ) + P( B )
Probabilit conditionnelle :
Soit ( , P ( ) , P) un espace probabilis fini et A un vnement li cet
espace tel que
P( A) 0.
16
On considre l'application :
PA : P ( )
P(A | ) =
P( ) = 1 - P( B ) = 1 - 0.6 = 0.4
P(A ) = P( A ) - P(A U B) = 0.04 - 0.03 = 0.01
D'o P(A |
)=
= 0.025
card( Xi )
18
19
I - La rgle de la somme
Dans une association d'amateurs de bel-canto, 125 personnes aiment les
opras de Mozart et 100 personnes prfrent les opras de Verdi.
- Combien y-a-t-il de membres de l'association qui apprcient Mozart
ou Verdi ?
- Pouvez-vous rpondre cette question ?
- Si aucun membre de l'association n'apprcie la fois Mozart et
Verdi, combien y-a-t-il de membres de l'association qui apprcient
Mozart ou Verdi ?
Si X et Y sont deux ensembles disjoints : X Y =
alors : card(X Y) = card(X) + card(Y)
Cette proposition s'appelle la rgle de la somme.
Elle se gnralise n ensembles X1 , X2 , ... , Xn , deux deux disjoints.
Si Xi Xj = pour i j
card(X1 X2 .... Xn) = card(X1) + card(X2) + ... + card(Xn)
Exemple 1 : Les professeurs d'un collge
Dans un collge, il y a 3 professeurs de mathmatiques, 3 de franais, 2
d'anglais, 2 de biologie, 4 d'ducation physique, 2 d'espagnol, 2 de
physique, 3 d'histoire et gographie.
Combien y-a-t-il de professeurs dans ce collge ?
20
II - Principe d'inclusion-exclusion
Soient X et Y deux ensembles non disjoints : X Y
Soit U un ensemble contenant la fois X et Y.
Soit = U \ X , = U \ Y les complmentaires de X
et Y dans U.
Les parties X et X Y sont disjointes.
X=XU=X(Y )=(XY)(X )
D'aprs la rgle de la somme :
card(X) = card(X Y) + card(X )
De mme :
card(Y) = card(X Y) + card( Y)
D'o :
card(X) + card(Y) = 2 card(X Y) + card(X ) + card( Y)
Les parties X , Y et X Y sont deux deux disjointes
et leur union est gale X Y.
D'aprs la rgle de la somme :
card(X Y) = card(X Y) + card( Y) + card (X )
D'o :
card(X) + card(Y) = card(X Y) + card(X Y)
card(X Y) = card(X) + card(Y) - card(X Y)
Cette relation s'appelle le principe d'inclusion-exclusion.
Exemple 1 : Les entiers infrieurs 1000 divisibles par 2, 3 ou 5.
- Soit U l'ensemble des entiers naturels infrieurs ou gaux 1 000.
- Soit X l'ensemble des nombres de U qui sont divisibles par 2.
card(X) =
Soit Y l'ensemble des nombres de U qui sont divisibles par 3.
card(Y) =
card(X Y) =
Soit maintenant Z l'ensemble des lments de U qui sont divisibles par 5.
card(Z) =
Combien y-a-t-il d'lments de U qui soient divisibles par 2 ou par 3 ou
par 5 ?
On veut dnombrer X Y Z
On pose A = Y Z
card(X Y Z) = card(X A) = card(X) + card(A) - card(X A)
card(A) = card(Y Z) = card(Y) + card(Z) - card(Y Z)
XA =X (YZ)=(XY)(X Z)(XY)(X Z)=XYZ
card(X A) = card(X Y) + card(X Z) - card(X Y Z)
D'o :
card(X Y Z) = card(X) + card(Y) + card(Z) - card(Y Z) - card(X Z) card(Y Z) + card(X Y Z)
card(X Z) =
21
card(Y Z) =
card(X Y Z) =
et card(X Y Z)
=
Exemple 2 : Les tudiants en mathmatiques
Des tudiants en mathmatiques, en deuxime anne de matrise, doivent
choisir entre diffrents certificats. Ils se rpartissent ainsi :
Analyse numrique : 60
Probabilits : 30
Informatique : 14
Mcanique : 20
Certains tudiants ont choisi deux matires.
Analyse numrique et Probabilits : 28
Analyse numrique et Informatique : 12
Analyse numrique et Mcanique : 16
Probabilits et Informatique : 4
Il n'existe aucun autre choix de deux matires simultanment.
Chaque tudiant est inscrit au moins l'une des quatre matires.
Deux tudiants seulement en tudient trois, il s'agit de l'Analyse
Numrique, des Probabilits et de l'Informatique.
Soit X (resp, Y , Z , T ) l'ensemble des tudiants apprenant l'Analyse
Numrique (resp. les Probabilits, l'Informatique, la Mcanique).
Combien y-a-t-il d'tudiants en tout ?
D'aprs ce que l'on sait :
card(X Y Z T) = 0
De mme
card( Y Z T) = card(X
Or : card(X Y T) = 2
et : card(X Y Z T) = 0
calculer :
card(X Y Z
card(X Y) = 28
Z T) = card(X Y
T) = 0
)=
calculer : card(X Y
card(X Z) = 12
)=
calculer : card(X
card(X T) = 16
)=
calculer : card(X
card(Y Z) = 4
)=
calculer : card( Y Z ) =
Il n'existe pas d'autre choix de deux matires.
22
card( Y
card(X) = 60
T) = card(
calculer : card(X
card(Y) = 30
calculer : card(
card(Z) = 14
calculer : card(
card(T) = 20
Z T) =
)=
)=
)=
calculer : card( T) =
Enfin : card( ) = 0
On vient de dnombrer les 16 intersections possibles de quatre
ensembles, construites en prenant soit les ensembles X , Y , Z ou T, soit
leurs complmentaires.
Ces 16 parties sont deux deux disjointes et leur runion est gale E.
En additionnant le nombre des lments de chacune de ces
intersections de quatre parties ou de leurs complmentaires on obtient
le nombre total des tudiants :
4 + 10 + 26 + 16 + 2 + 2 + 6 = 66
On aurait pu l'obtenir aussi en gnralisant 4 ensembles la formule
donnant le nombre des lments d'une runion de 3 ensembles.
On a :
card(X Y Z T) = card(X) + card(Y) + card(Z) + card(T) - card(X Y) - card(X
Z) - card(X T) - card(Y Z) - card(Y T) - card(T Z) - card(Y Z T) + card(X
Z T) + card(X Y T) + card(X Y Z) - card(X Y Z T)
Formule de Poincar
D'o : card(E) = 60 + 30 + 4 + 20 - ( 28 + 12 + 16 + 4 ) + 2 = 66
III - La rgle du produit
Une socit de vente par correspondance a choisi un modle de
chemisier. Elle propose ce chemisier dans 6 tailles et en 2 coloris.
Combien de codes distincts doit-elle prvoir pour que les clientes
puissent remplir correctement leurs bons de commande ?
Soit X l'ensemble des tailles :
X = { 38, 40, 42, 44, 46, 48 }
et Y l'ensemble des coloris :
Y = { bleu, rouge }
Chaque cliente doit choisir une taille x et un colori y. Son choix consiste
donc en un couple ordonn (x , y ) dont le premier lment x est dans X,
le second y dans Y.
L'ensemble de ces choix est le produit cartsien X Y des ensembles X et
Y.
On peut dresser la liste des lments de X Y par une arborescence.
XYa
lments
23
On vend habituellement les boutons sur des plaques de carton o ils sont cousus.
Combien de boutons contient une plaque contenant cinq ranges de quatre boutons ?
Soit X l'ensemble des lignes de la plaque et Y l'ensemble des colonnes de la plaque.
En numrotant les lignes de 1 5, on tablit une bijection entre X et { 1 , 2 , 3 , 4 , 5 }.
En numrotant les colonnes de 1 4, on tablit une bijection entre Y et { 1 , 2 , 3 , 4 }.
A chaque bouton on peut associer un couple ( x , y ) constitu du numro x de sa ligne, et du
numro y de sa colonne, ce qui tablit une bijection entre l'ensemble des boutons et
l'ensemble produit { 1 , 2 , 3 , 4 } { 1 , 2 , 3 , 4 , 5 }.
Le nombre des boutons est donc :
4 + 4 + 4 + 4 + 4 = 4 5 = 20
On ajoute cinq fois 4 , ce qui revient multiplier 4 par 5, car il y a cinq lignes de 4 boutons.
Si X et Y sont des ensembles finis
card(X Y) = card(X) card (Y)
Ce rsultat s'appelle la rgle du produit
Exemple 1 : les immatriculations
Dans un dpartement donn la plaque d'immatriculation d'un vhicule est compose de quatre
chiffres au plus, suivis d'une ou deux lettres, qui toutefois doivent tre diffrentes de O et I , et
ces deux lettres ne devant pas tre ni TT, ni WW.
Combien de vhicules peut-on immatriculer de cette manire ?
Soit X l'ensemble des nombres que l'on peut utiliser :
card(X) =
Soit Y l'ensemble des couples de deux lettres utilisables :
card(Y) =
Combien y-a-t-il d'immatriculations possibles ?
24
Gnralisation :
Soit X1 , X2 , ... , Xn , n ensembles non vides.
Les n-listes ( x1 , x2 , ... , xn) o x1 X1 , x2 X2 , ... , xn Xn constituent l'ensemble
X1 X2 ... Xn
On dmontre par rcurrence sur le nombre d'ensembles que
card(X1 X2 ... Xn)
= card(X1) card(X2) ... card (Xn).
Exemple 2 : les quipes pdagogiques
Dans un collge, il y a 3 professeurs de mathmatiques, 3 professeurs de
franais, 2 professeurs d'anglais, 2 professeurs de biologie, 4 professeurs
d'ducation physique, 2 professeurs de musique, 2 professeurs de
physique, 3 professeurs d'histoire et gographie.
Un lve qui rentre en 6e doit avoir un professeur dans chacune de ces
matires.
De combien de manires peut tre compose l'quipe des professeurs de
sa classe ?
25
26
I - Rgle de la somme
Si X et Y sont deux ensembles disjoints, c'est--dire si :
XY=
card(X Y) = card(X) + card(Y)
( Rgle de la somme )
Une bibliothque contient 1253 livres crits en franais et 851 livres
crits en anglais.
Elle contient en tout : 1 253 + 851 = 2 104 livres
Si X1 , X2 , ... , Xn sont n ensembles deux deux disjoints,
c'est--dire tels que Xi Xj = si i j
card(X1 X2 ... Xn) =
card ( Xi )
Une bibliothque contient :
- 1253 livres crits en franais
- 851 livres crits en anglais
- 258 livres crits en russe
- 928 livres crits en allemand
- et 155 livres crits en italien
Elle comprend en tout : 1 253 + 851 + 258 + 928 + 155 = 3 445 livres
II - Principe d'inclusion-exclusion
Si X et Y sont des ensembles finis
card(X Y) = card(X) + card(Y) - card(X Y)
( Principe d'inclusion-exclusion )
Un marchand de voitures d'occasion propose la vente
- 12 voitures fonctionnant au gazole
- 8 voitures climatises
- 3 voitures fonctionnant au gazole et climatises.
Il propose donc : 12 + 8 - 3 = 17 voitures fonctionnant au gazole ou
climatises.
III - Formule du crible ou de Poincar
Pour 3 ensembles X , Y , Z on a :
card(X Y Z) = card(X) + card(Y) + card(Z) - card(Y Z) - card(X
Z) - card(X Y) + card(X Y Z)
Pour 4 ensembles X , Y , Z , T, on a :
card(X Y Z T) = card(X) + card(Y) + card(Z) + card(T) - card(X
Y) - card(X Z) - card(X T) - card(Y Z) - card(Y T) - card(Z
T) + card(Y Z T) + card(X Z + card(X Y Z) - card(X Y
Z T)T) + card(X Y T)
( Formule du crible ou de Poincar )
27
IV - Rgle du produit
Soit X , Y deux ensembles non vides. Les couples ordonns ( x , y ) avec x
X et y Y, constituent l'ensemble produit X Y.
card(X Y) = card(X) card(Y)
( Rgle du produit )
Une personne a le choix entre 3 destinations pour partir en week-end :
Barcelone, Nice et Paris. Elle a le choix entre quatre moyens de transport
: le train, la voiture, l'avion ou le bus.
- X = {Barcelone, Nice, Paris}
- Y = {Train, Voiture, Avion, Bus}
On peut construire X Y l'aide d'une arborescence.
card(X Y) = card(X) card(Y) = 3 4 = 12.
Cette personne a 12 manires de prparer son voyage.
V - Rgle des Bergers
Soit X un ensemble.
A1 , A2 , ... , An , n parties de X non vides, deux deux disjointes,
et dont l'union est gale X.
A1 , A2 , ... , An constituent une partition de X .
Si toutes les parties Ai ont le mme nombre d'lments p, alors
card(X) = n p
( Rgle des bergers )
Une mnagre a achet 12 botes de sucre en morceaux. Chaque bote contient 130
morceaux de sucre.
Elle dispose donc de : 12 130 = 1 560 morceaux de sucre.
28
1
2
3
4
5
Vocabulaire usuel
Tableaux et graphiques
Paramtres statistiques
Liaisons entre variables
Exemples de synthse
29
Qu'est-ce
que
la
Statistique
Descriptive ?
Nous avons l'habitude de rencontrer, dans des domaines trs divers, ce
que l'on appelle des statistiques :
Ainsi, afin de dcrire le climat en un endroit du globe, il est habituel de
construire des schmas et de calculer des moyennes annuelles ou des
totaux.
Ci-dessus, ce sont les mesures de prcipitations (en mm) et de
temprature Brest, sur une anne. Le total annuel des prcipitations est
de 1126 mm, la temprature moyenne annuelle de 10.8C.
Ce schma, ainsi que les moyennes, ont t tablis partir de
nombreuses mesures, des donnes statistiques provenant de relevs de
prcipitations et de tempratures sur un grand nombre d'annes.
De mme, les graphiques ci-dessous permettent de visualiser de faon
simple les traits principaux du budget de la rgion Languedoc-Roussillon
pour l'anne 1997.
30
31
32
et la moyenne des yi
33
Classe modale :
C'est la classe correspondant au maximum de l'histogramme, dans le cas
d'une distribution continue unimodale.
Classes :
Intervalles de valeurs d'une variable continue, l'ensemble des classes
formant une partition de l'ensemble des valeurs possibles de la variable.
Par exemple, si tous les salaires des employs d'une entreprise se situent
entre 750 et moins de 3 000, on peut construire (par exemple) les
classes :
[ 750 - 900 [ , [ 900 - 1 500 [ , [1 500 - 2 250 [ , [2 250 - 3 000 [
Chaque valeur observe de la variable doit appartenir une classe et une
seule.
Coefficient de corrlation (linaire) :
Le coefficient de corrlation entre deux variables statistiques X et Y sur
les mmes individus est le nombre :
o :
cov ( X , Y ) est la covariance entre X et Y,
et sX sY les carts-types de X et Y.
Ce coefficient est toujours compris entre -1 et + 1.
S'il est proche de + 1 ou - 1 , X et Y sont bien corrles, c'est--dire
qu'elles sont lies entre elles par une relation presque affine ; le nuage de
points est presque align le long d'une droite (croissante si r = + 1,
dcroissante si r = - 1). S'il n'y a aucun lien entre X et Y, ce coefficient est
nul, ou presque nul.
Exemples :
34
35
Courbe de rgression :
Si X et Y sont 2 variables quantitatives, la courbe de rgression de Y en X
est la courbe reprsentant les moyennes conditionnelles de Y, X fix.
La courbe de rgression de X en Y reprsente les moyennes
conditionnelles de X, Y fix.
Exemples :
Covariance
On appelle covariance de deux variables statistiques X et Y sur les mmes
n individus le nombre :
=
Moyenne des produits moins le produit des moyennes
Ce nombre est positif si X et Y ont tendance varier dans le mme sens,
et ngatif si elles ont tendance varier en sens contraire.
Si les donnes sont groupes en ( xi , yi ) d'effectifs ni ,
Dciles :
36
Diagramme en btons
Diagramme reprsentant la distribution d'une variable quantitative
discrte : les valeurs sont places en abscisse, les effectifs (ou
frquences) en ordonne, au moyen de segments verticaux.
Exemple :
37
Dispersion :
Un paramtre statistique est dit de dispersion s'il s'agit d'un nombre cl
rsumant la plus ou moins grande disparit des observations, leur plus ou
moins grande variabilit de part et d'autre de la tendance centrale :
tendue, cart-type sont des paramtres de dispersion.
Distribution :
38
Effecti Frquenc
fs
es
12
14
16
n1
n2
n3
n4
f1
f2
f3
f4
20
Total
n
1
Distribution conditionnelle :
La distribution conditionnelle d'une variable Y, pour X fix, ( X gal x i ,
modalit ou valeur, ou X appartenant une classe donne) est la
distribution statistique des valeurs de Y, en se limitant aux individus pour
lesquels X est gal xi (ou appartient une classe donne).
Exemple : 1) Distributions conditionnelles de l'ge, pour la catgorie X
fixe :
Catgorie
Age (annes)
A
32 ; 35 ; 40 ; 42 ; 43 ; 43 ; 49 ; 50 ; 55 ; 58
22 ; 26 ; 27 ; 27 ; 29 ; 30 ; 31 ; 31 ; 33 ; 34 ;
36 ; 36 ; 38 ; 39 ; 39 ; 42 ; 44 ; 46 ; 51 ; 53
20 ; 20 ; 21 ; 22 ; 23 ; 24 ; 24 ; 24 ; 26 ; 27 ;
28 ; 28 ; 28 ; 29 ; 29 ; 30 ; 32 ; 33 ; 33 ; 35 ;
38 ; 41 ; 43 ; 45 ; 45
39
Distribution marginale :
Distribution d'une variable statistique, obtenue dans la marge d'un
tableau de contingence, en ajoutant les effectifs, ligne par ligne, ou
colonne par colonne.
Donnes brutes (Donnes statistiques brutes) :
Ensemble de mesures ou d'observations concernant l'tat ou l'volution
d'un phnomne. Ce sont les valeurs prises par une ou plusieurs variables
sur un certain nombre d'individus.
Donnes statistiques :
Sries de mesures, d'observations, d'une
statistiques sur un ensemble d'individus.
ou
plusieurs
variables
Ecart interquartile :
C'est la diffrence entre le 3me et le 1er quartile, amplitude de
l'intervalle interquartile :
Q3 - Q1
Ecart-type :
C'est la racine carre de la variance :
pour des donnes groupes.
Une distribution aura un cart-type d'autant plus faible (proche de 0)
qu'elle sera ramasse autour de la moyenne, avec des valeurs trs peu
diffrentes les unes des autres.
Effectif :
Nombre d'individus pour lesquels une variable statistique a pris une
valeur donne. Si, sur 150 familles, 50 ont 2 enfants, on dira que l'effectif
ni correspondant la valeur xi = 2 de la variable nombre d'enfants ,
est 50.
Effectifs cumuls :
Rsultat de l'addition, de proche en proche, des effectifs d'une
distribution observe,
soit en commenant par le 1er :
40
2
14
23
24
18
9
6
Total :
96
2
16
39
63
81
90
96
96
94
80
57
33
15
6
Effectif total :
C'est le nombre d'observations, d'une srie statistique brute, nombre
d'individus de la population tudie.
Il est gal la somme des effectifs associs aux diffrentes modalits,
valeurs ou classes :
K
n ni
i
Etendue :
Diffrence entre la plus grande et la plus petite des observations d'une
srie statistique. C'est un paramtre de dispersion.
Fonction de rpartition :
C'est le trac de la fonction N qui tout x associe N ( x ) = nombre
d'observations x. Il s'obtient au moyen des effectifs cumuls croissants.
Dans le cas discret on a une fonction en escalier, dans le cas continu une
fonction continue, affine par morceaux.
Si on raisonne en frquences (au lieu d'effectifs), on a le trac de la
fonction de rpartition.
F ( x ) = proportion d'observations x
Fractiles :
On appelle fractiles des valeurs F1 , F2 , ... , Fk-1 divisant une srie en k
parties d'effectifs gaux.
On a autant de valeurs F1 que de valeurs comprises entre F 1 et F2 , ou
entre F2 et F3 , etc.
Pour k = 4, ce sont les 3 quartiles Q1 , Q2 , Q3 (Q2 tant la mdiane).
41
50
= 0.33 soit 1/3 ou 33.33 %
150
Frquences cumules :
Rsultat de l'addition, de proche en proche, des frquences d'une
distribution observe,
soit en commenant par le 1er :
F1 = f1 , F2 = f1 + f2 , ... , Fi = f1 + f2 + ... + fi (frquences cumules
croissantes),
soit en commenant par le dernier :
F'K = fK , F'K-1 = fK + fK-1 , ... , F'i = fK + fK-1 + ... + fi
cumules dcroissantes).
(frquences
Exemple :
Nombre
d'appels
Frquences en
%
Frquences
cumules
croissantes
Frquences
cumules
dcroissantes
0
1
2
3
4
5
6
2.08
14.58
23.96
25.00
18.75
9.38
6.25
2.08
16.66
40.62
65.62
84.37
93.75
100
100
97.92
83.34
59.38
34.38
15.63
6.25
Histogramme
Graphique permettant de reprsenter une distribution continue
regroupe en classes : rectangles juxtaposs dont les bases sont les
classes, et les surfaces sont proportionnelles aux effectifs (ou frquences)
associs.
Si les classes sont de mme amplitude a i , on place en ordonne les
effectifs ni (ou les frquences fi ). Si les amplitudes ai sont diffrentes, on
place
n
a
i
i
(ou
f
a
).
Exemples
42
Indpendance :
2 variables statistiques X et Y sont dites indpendantes si la distribution
conditionnelle de Y , pour tout x , est constante (c'est--dire ne dpend
pas de x). Cela signifie que les lignes du tableau de contingence sont
proportionnelles, ou de faon quivalente que les colonnes du tableau de
contingence sont proportionnelles, et donc que la distribution
conditionnelle de X, pour tout y, est constante.
Exemple :
Y
Clibatai Mari
Divorc
Veufs
Total
res
s
s
X
homme
20
10
36
femme
30
15
54
Total
50
25
10
90
sexe et situation
indpendantes.
matrimoniale
sont
ici
deux
variables
43
Mdiane :
La mdiane M d'une srie statistique range par ordre croissant
x(1) < x(2) <.... <x(n) est la valeur "du milieu", soit x (p+1) si n est impair et
vaut 2 p + 1, ou
si n est pair et vaut 2 p
M est l'abscisse du point d'intersection des courbes cumulatives,
d'ordonne
n
en effectifs ou 0.5 en frquences.
2
Modalit :
Les modalits d'une variable qualitative sont les diffrentes valeurs que
peut prendre celle-ci.
Par exemple les modalits de la variable situation familiale sont :
clibataire, mari, veuf, divorc.
Les modalits de la variable sexe sont : fminin, masculin (pouvant
tre codes par exemple 0 et 1).
Moyenne arithmtique :
C'est le quotient de la somme d'une srie d'observations par leur
nombre.
Pour une srie brute x1 , x2 , .... , xn ,
44
Paramtres statistiques :
Ce sont quelques nombres permettant de rsumer numriquement les
traits principaux d'une distribution statistique.
Par exemple : la moyenne, l'cart-type, l'tendue sont des paramtres
statistiques.
Population statistique :
Une population statistique est l'ensemble sur lequel on effectue des
observations.
Exemples : ensemble de personnes interroges pour une enqute
ensemble de parcelles cultives sur lesquelles on mesure un
rendement
ensemble de pays pour lesquels on dispose de donnes
gographiques ou conomiques, etc.
Position :
Un paramtre statistique est dit de position s'il s'agit d'un nombre cl
permettant de prciser o se rpartit une certaine fraction des
observations ainsi les quartiles permettent de situer le 1/4 infrieur, la
moiti, le 1/4 suprieur des observations.
Profils :
Ce sont les distributions conditionnelles, crites en frquences et non en
effectifs.
On peut les reprsenter graphiquement par :
45
Quartiles :
Les quartiles Q1 , Q2 , Q3 divisent une srie statistique en 4 parties
d'effectifs gaux : 25 % des valeurs sont Q1 , 25 % comprises entre Q 1 et
Q2 ; 25 % entre Q2 et Q3 , et 25 % suprieures Q3 .
Q1 , Q2 , Q3 sont respectivement l'abscisse des points d'ordonnes 0.25 ;
0.5 ; 0.75 sur la courbe cumulative croissante. Q2 est gal la mdiane.
Rang :
Si X est une variable ordinale mesure sur n individus, le rang de
l'individu i pour X est le numro d'ordre de i, si on range toutes les
valeurs xi par ordre croissant.
Exemple : si les xi obtenus sont : O R D R E ; le rang de l'individu n 3,
pour l'ordre alphabtique, est 1 ; le rang de l'individu n 5 est 2, etc.
Rapport de corrlation :
C'est
coefficient compris entre 0 et 1 mesurant la part plus ou moins grande de
la variabilit d'une variable Y qui peut tre explique par les variations
d'une autre variable X, qualitative, discrte, ou continue dcoupe en
classes.
Srie statistique (ou distribution observe) :
Ensemble des modalits, valeurs, ou classes d'une variable, avec les
effectifs observs correspondants.
Exemples :
Modalits
Effectifs
Clibataire
Mari
Divorc
Veuf
Nombre
d'enfants xi
30
80
20
20
Effectif ni
46
0
1
2
3
4
6
4
5
2
1
Effectifs
moins de 160
[160 - 165 [
[165 - 170 [
[170 - 175 [
175 et plus
1
5
21
29
4
Divorcs
7
10
Tendance centrale :
Un paramtre statistique est dit de tendance centrale s'il s'agit d'un
nombre cl autour duquel les observations sont rparties : mode,
mdiane, moyenne sont des paramtres de tendance centrale.
Tri plat d'une srie statistique brute :
C'est l'inventaire des modalits ou valeurs rencontres dans la srie, avec
les effectifs correspondants.
47
Situatio
Nombre
de
n
personnes dans
familial
cette situation
e
Clibatai
re
mari
Divorc
veuf
150
120
10
80
Nombr
Nombre de
e
personnes ayant
d'enfan
ce nombre
ts
d'enfants
0
1
2
3
4
5
103
115
95
35
10
2
Tri crois :
A partir de 2 variables X et Y mesures sur les mmes individus,
dcompte des effectifs correspondant chaque couple ( x i , yj ) : nombre
d'individus pour lesquels X = xi et Y = yj
Unimodale :
Une distribution est unimodale si elle prsente un maximum marqu,
correspondant une valeur appele mode.
48
49
( xi -
( xi) - ou
ni xi) -
Par exemple : la variance de la srie : 8 9 10 10 12 14 14 16, qui a pour
moyenne = 11.625 est :
s = [ (8 - 11.625) + (9 - 11.625) + 2 (10 - 11.625) + (12 - 11.625) +
2 (14 - 11.625) + (16 - 11.625) ]
=
i) -
Variance rsiduelle :
C'est la moyenne des variances des distributions conditionnelles,
pondres par les effectifs. Si Y est quantitative, et si X subdivise
l'ensemble des individus en K classes d'effectifs n 1 , n2 , ... , nK telles que
la moyenne de Y sur chaque classe est :
1
, ... ,
51
Exemple 1 :
Pour tudier la rpartition des terres agricoles d'une rgion, on peut faire
l'inventaire des exploitations agricoles (soit n leur nombre), et noter pour
chacune d'elles sa taille (en hectares).
L'ensemble des n exploitations s'appelle la population statistique
tudie ; chacune des exploitations est un individu, ou une unit
statistique. La taille (en ha) est la variable statistique (ou caractre)
tudie.
Le but de l'tude est de voir comment cette variable varie sur la
population : les tailles des exploitations sont elles comparables ou trs
diffrentes, et dans quelle mesure ?
Le rsultat de la mesure de la variable taille sur les individus
exploitations est un ensemble de n nombres, appel srie statistique
brute.
Sur la mme population, on aurait pu s'intresser d'autres variables
telles l'ge du chef d'exploitation, la culture dominante, etc.. On
remarquera que le rsultat de l'observation peut tre exprim sous forme
littrale (bl, etc.) ou numrique.
On prsente alors souvent les rsultats sous forme d'un tableau
individus variables .
N
Exploitatio
n
Taille
(ha)
Age du chef
d'exploitation
(annes)
Culture
dominante
Nombre de
personnes
employes
50
50
bl
50.5
45
vigne
52
35
38
orge
62.1
25
bl
20
65
vigne
10
57
vigne
...
...
...
...
...
...
...
...
...
...
630
56
45
bl
53
STATISTIQUE DESCRIPTIVE
La Statistique Descriptive est l'ensemble des mthodes et techniques
permettant de prsenter, de dcrire, de rsumer, des donnes
nombreuses et varies.
Il faut prciser d'abord quel est l'ensemble tudi, appel population
statistique, dont les lments sont des individus ou units statistiques.
Chaque individu est dcrit par une ou plusieurs variables, ou
caractres statistiques.
Chaque variable peut tre, selon le cas :
Quantitative : ses valeurs sont des nombres exprimant une quantit, sur
lesquels les oprations arithmtiques (somme, etc.) ont un sens.
La variable peut alors tre discrte ou continue selon la nature de
l'ensemble des valeurs qu'elle est susceptible de prendre (valeurs isoles
ou intervalle).
Qualitative : ses valeurs sont des modalits, ou catgories, exprimes
sous forme littrale ou par un codage numrique sur lequel des
oprations arithmtiques n'ont aucun sens.
DE BL
54
55
Exercice 2 : CHIFFRES
D'AFFAIRES DE SUPERMARCHS
2) On compare
d'affaires
aux
Dc. 95
disponibles,
et
variable
St Jean de
35 850
vaut
SUP", B.
INF
selon Prades / V. 25 650
augment,
est
60 000
ou a diminu Trifouilly
Vienna
55 000
dates.
Cette
variable St Mathieu 50 000
En
est-il
de
75 000
-1, 0, 1 selon Lyonny
.
.
chiffre ?
.
.
les
chiffres
Evolutio deux
dates
Dc. 96
n
on
dfinit
la
"volution" qui
60 000 SUP
STABLE ,
que le chiffre a
11 125 INF
rest identique
60 000 STABLE entre les deux
45 500 INF
est-elle ?
55 000 SUP
mme si on note
76 000 SUP
l'volution
du
.
.
.
56
Exercice 3 : L'EUROPE
Le
contient un certain nombre de donnes socio-conomiques
sur les 48 pays d'Europe fin 1996.
Quels sont les individus que l'on veut dcrire ?
De combien de variables dispose-t-on ?
Ces variables sont-elles toutes quantitatives ?
Les variables quantitatives sont-elles toutes continues ?
Exercice 4 : Enqute consommateurs
Un distributeur de boissons alcoolises effectue une enqute concernant
les prfrences des consommateurs en matire de whisky.
Voici le
propos :
Ces questions sont-elles des individus statistiques :
57
Nombre de personnes
dans cette situation
clibataire
150
mari
120
veuf
10
divorc
80
Nombre
d'enfants
Nombre de personnes
ayant ce nombre
d'enfants
103
58
115
95
35
10
Salaire ( )
Nombre de personnes
dont le salaire est
dans cet intervalle
[ 750 - 900 [
110
[900 - 1 500
[
90
[1 500 - 2
250 [
80
[2 250 - 3
000 [
60
plus de 3
000
20
Age (ans)
Nombre de
personnes dans
cette tranche
d'ge
20 30
100
59
30 40
40 50
50 65
150
90
20
60
61
I - LES TABLEAUX
I.1 - TRI PLAT, EFFECTIFS
On a not la situation familiale des 150 employs d'une entreprise.
On ne s'intresse pas la situation personnelle de M. Martin ou de M.
Dupont, mais la rpartition du caractre "situation familiale" dans la
population des 150 employs.
Pour cela il faut, pour chacune des modalits de la variable, dterminer
l'effectif correspondant, c'est--dire le nombre de personnes ayant cette
modalit : il faut dnombrer le nombre de clibataires, le nombre de
maris, etc...
Situation de
famille
Mari
Veuf
Marie
Clibataire
Divorc
Mari
Divorc
Divorce
Clibataire
Mari
Veuf
Marie
...
Noms
M. Martin
M. Durand
Mme Dupont
Melle Fabre
M. Garcia
M. Petit
M. Bertrand
Mme Rmy
Melle Pons
M. Hubert
M. Clment
Mme Vidal
...
Cela peut se rsumer par :
Modalit
Effectifs
Clibataire
30
Mari
80
Divorc
20
Veuf
On notera x1 , x2 , ... , xk les diffrentes modalits, et n1 , n2 , ... , nk les
effectifs associs. Dans le tableau ci-dessus, x2 = "mari",
n2 =
K=
La somme des effectifs vaut :
La variable que nous venons de voir est :
On aurait pu tout aussi bien prsenter les rsultats sous la forme cicontre, par exemple.
Par contre, s'il s'agit d'une variable ordinale, les modalits sont toujours
prsentes dans l'ordre :
62
x1 x2 ... xk ,
Modali
ts
Divorc
Mari
Clibat
aire
Veuf
Effect
ifs
20
80
30
20
Effectifs = Nombre de
personnes
de cette taille
XS
10
25
40
32
XL
23
XXL
20
Nombre d'enfants
Chardin
Esteller
Martin
Durand
Dupont
Garcia
Bastide
Jourdan
Lelivre
Fleury
Fournier
Averos
63
Bastien
Brunet
Delenne
Saumade
Bertrand
Blundo
Effectifs
0
1
2
34
******
****
*****
**
*
ni = n , effectif total
Pour ce qui est des variables continues, on peut faire de mme. Voyons
l'exemple d'une srie brute de 60 tailles (en cm), et le tableau des
effectifs obtenus. L'inconvnient est que, comme on aura toujours un
grand nombre de valeurs diffrentes, on obtiendra un grand nombre de
petits effectifs, ne rsumant finalement pas grand-chose !
64
Taille
(cm)
Effectifs
Taille
(cm)
Effectifs
159
169
160
170
161
171
162
172
163
173
164
174
165
175
166
176
167
177
168
Total :
60
65
Taille
(cm)
Effectifs
Taille
(cm)
Effectifs
159
169
160
170
161
171
162
172
163
173
164
174
165
1
7 1 166
5 167
1 168
72
6
1
71
7
175
176
177
Total :
60
moins de 160
[165 - 168 [
[160 - 165 [
[168 - 171 [
20
[165 - 170 [
21
[171 - 174 [
20
[170 - 175 [
29
[174 - 177 [
[177 - 179 [
175 et plus
Exemple 1
Exemple 2
Dans l'exemple 1 : K =
Le choix des classes est parfois dlicat. A priori tout choix tel qu'on ait
des classes contiges recouvrant l'ensemble des valeurs est correct :
chaque individu appartient une classe et une seule ;
66
67
Clibatair
e
30
20
Mari
80
Divorc
20
Veuf
20
Effectif
total :
150
0.2
Plus de 75
ans
70 - 74 ans
65 - 69 ans
60 - 64 ans
55 - 59 ans
50 - 54 ans
45 - 49 ans
40 - 44 ans
35 - 39 ans
30 - 34 ans
25 - 29 ans
20 - 24 ans
15 - 19 ans
10 - 14 ans
5 - 9 ans
1 - 4 ans
moins de 4
ans
4.1
1.1
1.6
1.9
1.9
2
2.3
3.4
4.6
5.7
6.5
8.3
11.5
14.7
12.5
15.4
2.5
fi = 1
( fi 100 ) = 100
Compltez le tableau ci-dessous :
Classes de taille Effecti
Frquence
(en cm)
f
Frquence en %
Moins de 160
1.67
[160 - 165 [
0.0833
[165 - 170 [
21
0.35
35
[170 - 175 [
29
175 et plus
0.0667
6.67
Total :
60
100
68
0.0208
2.08
14
0.1458
14.58
23
0.2396
23.96
24
0.2500
25.00
18
0.1875
18.75
0.0938
9.38
0.0625
6.25
Total :
96
1
100
Quelle est la proportion de jours o le nombre d'appels a t de 2 ?
et infrieur ou gal 3 ?
Quelle est la proportion de jours o le nombre d'appels a t suprieur
3?
Quel est le pourcentage de jours o le nombre d'appels a t suprieur
2?
Plus gnralement, si { ( xi , ni ) , i = 1 , ... , K } est la distribution
observe d'une variable discrte, n1 + n2 + ... + ni = Ni est le nombre
d'individus pour lesquels la variable a t infrieure ou gale xi.
On peut calculer Ni de proche en proche : N1 = n1 , N2 = N1 + n2 , N3 = N2
+ n3 , etc.
Ainsi sur l'exemple ci-dessus :
N3 =
N4 =
N6 =
Les Ni sont les effectifs cumuls croissants.
69
Effectifs
cumuls
croissants
Effectifs
cumuls
dcroissants
96
14
16
94
23
39
80
24
63
57
18
81
33
90
15
96
Nombre Nombre
d'appels de jours
0
1
De mme
ni + ni+1 + ... + nk = N'i
2
est le nombre d'individus
3
pour lesquels la variable a
4
t suprieure ou gale
xi.
5
Il peut se calculer de
6
proche en proche :
Total :
N'k = nk , N'k-1 = nk + nk-1 ,
etc. Ici :
N'5 =
96
N'3 =
N'1 =
Les N'i sont les effectifs cumuls dcroissants.
On peut dfinir de mme :
Fi = f1 + f2 + ... + fi , frquences cumules croissantes obtenues de
proche en proche par
Fi+1 = fi+1 + Fi
et les : F'i = fi+1 + fi+2 + ... + fk , frquences cumules dcroissantes
obtenues de proche en proche par F'i = F'i+1 + fi
Fi et F'i peuvent s'exprimer aussi en pourcentage (en multipliant tout par
100).
Compltez le tableau :
Frquences
Nombre Frquenc
Frquences cumules
cumules
d'appels es en %
dcroissantes
croissantes
Dans
2.08
2.08
14.58
16.66
23.96
25.00
65.62
18.75
84.37
9.38
93.75
6.25
97.92
83.34
59.38
15.63
6.25
Dans
% des cas, il y a eu plus de 3 appels.
Les dfinitions d'effectifs et de frquences cumuls restent les mmes
dans le cas d'une variable continue.
Soit par exemple la rpartition des surfaces agricoles d'une petite
rgion :
Compltez le tableau :
Classes de Effectifs
Effectifs cumuls
Effectifs cumuls
70
surfaces
(ha)
croissants
Moins de 3
830
830
[3-5[
615
1445
[ 5 - 10 [
510
[10 - 20 [
92
[20 - 30 [
63
30 ou plus
15
Total :
2125
Il y a
dcroissants
1295
680
2047
78
2125
15
Il y a
exploitations d'au moins 5 ha.
Classes de
Frquences
surfaces
Frquences
cumules
(ha)
croissantes
Moins de 3
0.3906
0.3906
[3-5[
0.2894
[ 5 - 10 [
0.2400
0.9200
[10 - 20 [
0.0433
0.9633
[20 - 30 [
0.0296
0.9929
30 ou plus
0.0071
Total :
Frquences
cumules
dcroissantes
1
0.6094
Il y a
Il y a
0.080
0.0071
71
II - LES GRAPHIQUES
Pour visualiser une distribution statistique, il est gnralement plus
parlant d'utiliser un graphique, la place ou en complment du tableau.
II.1 - VARIABLE QUALITATIVE
Dans le cas d'une variable qualitative, les modalits ne peuvent pas tre
reprsentes sur un axe, selon une chelle donne, car elles ne sont pas
numriques.
On utilise surtout dans ce cas des diagrammes circulaires (ou
camemberts ) : chaque modalit est reprsente par un secteur
circulaire dont l'angle (et donc la surface) est proportionnel son effectif.
Le rayon du cercle est arbitraire.
Situation
familiale
Effectifs
Clibataire
30
Mari
80
Divorc
20
Veuf
20
Total :
150
3
3
de l'effectif total, soit ni =
n, sera reprsent par
5
5
3
3
un angle au centre de
360 = 216 et donc par les
de la surface du
5
5
camembert , etc.
Ainsi, pour la modalit clibataires l'angle est de :
30
360 = 72
150
72
Situation
familiale
Effectif Frquen
%
s
ces
Clibataire
30
0.2000
20.00
Mari
80
0.5333
53.33
Divorc
20
0.1333
13.33
Veuf
20
13.33
Total :
150
0.1333
1
100
0.2000
20.00
Mari
80
0.5333
53.33
Divorc
20
0.1333
13.33
Veuf
20
0.1333
13.33
Total :
150
100
73
De mme que pour les diagrammes circulaires, les modalits sont ainsi
reprsentes par des surfaces proportionnelles aux effectifs
correspondants. Ici aussi, reprsenter les effectifs ou les frquences
conduit au mme graphique, la diffrence d'chelle prs.
Dans le cas particulier d'une variable ordinale, il faut toujours placer les
modalits dans l'ordre : modalit 1 < modalit 2 < ... < modalit K
Les graphiques ci-dessous vous semblent-ils corrects ?
Graphique 1 :
Graphique 2 :
Graphique 3 :
Graphique 4:
Il existe aussi des diagrammes figuratifs, o chaque modalit est
reprsente par une figure dont la taille est proportionnelle l'effectif.
74
75
0.33
0.22
0.28
0.11
0.06
Total :
18
Le fait d'avoir des btons spars les uns des autres permet de voir
l'aspect ponctuel et discontinu des valeurs de la variable sur lesquelles
l'effectif total est rparti.
Chaque individu est reprsent par un segment de longueur 1 unit.
Si on place en ordonne les frquences f i au lieu des ni, aura-t-on le mme
graphique ?
En fait, on verra leon 4 que la
Effectif
reprsentation des frquences est
Nombr
s
Effectifs
utile surtout pour comparer plusieurs
Effectif cumul cumuls
sries d'effectif total diffrent, ainsi e
d'enfan
s ni
s
dcroissa
que pour comparer une distribution
croissa nts N'i
observe
une
distribution ts xi
nts Ni
thorique
(voir
le
module
VARIABLES ALEATOIRES)
0
6
6
18
1
10
12
On
appelle
courbe
cumulative 2
croissante le trac de la fonction N 3
qui tout x rel associe
4
N ( x ) = nombre d'observations x.
Pour l'exemple ci-contre :
N(2)=
15
N(3)=
17
N ( 2.5 ) =
Si x est < 0,
15
17
18
76
N(x)=
N(0)=
N ( 0.3 ) =
N(1)=
N ( 1.5 ) =
Si 0 x 1 , N( x )
6
=
Si 1 x 2 , N ( x ) =
Si 2 x 3 , N ( x ) = 15
Si 3 x 4, N ( x ) = 17
Si x 4, N ( x ) =
Plus gnralement, pour toute variable discrte de distribution ( xi , ni ) i
= 1 , ... , K, la courbe cumulative croissante est une fonction "en escalier"
(constante par morceaux), croissante de 0 n telle que :
N ( x ) = 0 si x x1 , N ( x ) = Ni si xi x xi+1 ,
N ( x ) = n si xk x
18
10
12
15
17
18
77
Si x est 0 , N' ( x ) =
Si 0 x 1, N' ( x ) =
Si 1 x 2, N' ( x ) = 8
Si 2 x 3, N' ( x ) =
Si 3 x 4, N' ( x ) = 1
Si 4 x , N' ( x ) = 0
Plus gnralement, c'est une fonction en escalier , dcroissante de n
0, telle que
N' ( x ) = n - N ( x )
Les ordonnes des marches d'escalier sont les effectifs cumuls
dcroissants.
Les 2 courbes cumulatives sont-elles symtriques ?
On peut de mme reprsenter les frquences cumules croissantes et
dcroissantes :
F(x) = proportion d'observations x =
de rpartition (empirique)
Frquences
Frquence
Nombre Frquen
cumules
s cumules
d'appels ces en %
dcroissante
croissantes
s
0
2.08
2.08
100
14.58
16.66
97.92
23.96
40.62
83.34
25.00
65.62
59.38
18.75
84.37
34.38
9.38
93.75
15.63
6.25
100
6.25
des
78
%
Quel est le % de jours o le nombre a t suprieur 3 ?
%
F est-elle toujours croissante, de 0 1 ?
Les 2 courbes sont symtriques par rapport un axe d'ordonne
Ici aussi, il est quivalent de reprsenter les effectifs ou les frquences
cumuls ( un changement d'chelle prs),
mais le trac en frquences permet de comparer plusieurs distributions.
II.2.3 - Dans le cas d'une variable continue, on a vu que si l'on
compte les effectifs par valeur on risque souvent d'avoir un trop grand
nombre de valeurs diffrentes, avec de trop faibles effectifs, et qu'il
convient de regrouper les donnes en classes.
Il existe souvent un moyen simple d'effectuer simultanment un tri plat
des donnes et un graphique : c'est le diagramme tige-feuilles : les
tailles ci-dessous se situent entre 159 et 177. Les deux premiers chiffres
sont 15, 16, ou 17 (la tige) et les suivants diffrencient les valeurs (ce
sont les feuilles).
On place ainsi une par une les observations, en crivant le chiffre des
units en face de sa tige .
En groupant de 10 en 10 on n'aurait que 3 classes ici, on regroupera de 5
en 5 pour en avoir plus.
79
On peut ordonner ensuite les valeurs pour mieux voir la rpartition des
feuilles sur chaque tige.
L'avantage est que, tout en visualisant l'allure de la distribution, on
conserve toutes les donnes initiales. Mais cela n'est possible que si n
n'est pas trop important !
Compltez le tableau ci-dessous :
Classes de tailles (en cm)
Effectifs
[ 155 - 160 [
[ 160 - 165 [
[
[ 170 - 175 [
[ 175 - 180 [
80
1.75 [
ai = fi
81
Surface Effecti
Amplitu
Frquen
s (ha)
fs ni
de ai
ces fi
fi/ai
[0-3[
830
0.3906
0.13
[3-5[
615
0.2894
0.14
[ 5 - 10 [
510
0.2400
0.048
[ 10 - 20
[
92
0.0433
10
0.004
[ 20 - 30
[
63
0.0296
10
0.003
[ 30 - 50
[
15
0.0071
20
0.000
4
Total :
2 125
Effectifs
Taille
(cm)
Effectifs
159
169
160
170
161
171
162
172
163
173
164
174
165
175
166
176
167
177
168
Total :
60
82
% d'exploitations de moins de 15 ha et
% de plus de 12 ha
Quelle est l'ordonne du point d'intersection des deux courbes ?
Ce rsultat est-il toujours vrai ?
83
RESUM
I - CAS
Modalit
Frquenc
Effectifs
s
es
modalit
1
n1
f1 =
...
...
...
modalit
i
ni
...
...
modalit
K
nk
fk =
Total :
fi =
:
Modalit Effecti Frquen
s
fs
ces
Clibata
ire
30
0.200
20.0
0
Mari
80
0.533
53.3
3
Divorc
20
0.133
13.3
3
fk 100
Veuf
20
0.133
13.3
3
100
Total :
150
100
f1 100
...
fi 100
...
...
(Si la variable est ordinale, crire les modalits dans l'ordre : modalit 1
modalit 2 ... modalit k ).
Graphiques : diagrammes circulaires, diagrammes en barres, ou
imags.
(Les modalits d'une variable ordinale sont toujours places dans l'ordre).
On visualise ainsi le "poids" des diffrentes modalits dans la population
tudie.
II - CAS
Valeurs
Effecti Frquen
de la
fs
ces
variable
Nombr
Nombre
e
Frquenc % fi
de jours
d'appel
es fi
100
ni
s xi
0
0.0208
2.08
...
14
0.1458
14.58
fi 100
23
0.2396
23.96
24
0.2500
25.00
...
...
18
0.1875
18.75
nk
fk
fk 100
0.0938
9.38
100
0.0625
6.25
Total :
96
100
x1
n1
f1
f1 100
...
...
...
xi
ni
...
...
xk
Total :
fi =
diagrammes en btons
frquences, ou %) pour visualiser
distribution statistique.
84
85
Effectifs
10
Effectifs cumuls
croissants
4
3
12
13
18
3
21
24
25
15
86
Effectifs
[ 500 - 1 000 [ 30
[ 1 000 - 1 500
[
[ 1 500 - 2 000
[
[ 2 000 - 2 500
[
[ 2 500 - 3 000
[
[ 3 000 - 3 500
[
[ 3 500 - 4 000
[
[ 4 000 - 5 000
[
[ 5 000 - 6 000
[
[ 6 000 - 8 000
[
87
Total :
1 000
0.17
[ 72 - 74 [
0.17
[ 74 - 76 [
0.04
[ 76 - 78 [
15
0.32
[ 70 - 72 [
[ 78 - 79 [
3) L'histogramme ci-contre est incomplet.
Quelle est la hauteur des rectangles manquants ?
88
graduati
ons
graduati
ons
89
Diagramme 1
Diagramme 2
Diagramme 3
3) Complter :
Age
Frquences cumules
croissantes
[ 45 - 50 [
[ 50 - 55 [
[ 55 - 60 [
[ 60 - 65 [
90
[ 65 - 70 [
[ 70 - 75 [
[ 75 - 80 [
4) Quelle est l'abscisse du point d'ordonne 50 % sur la courbe
cumulative croissante ?
5) Rectifier le tableau prcdent en tenant compte des prsidents rlus :
Jules GREVY 78 ans, Albert LEBRUN 68 ans, Charles de GAULLE 75
ans, Franois MITTERRAND 72 ans.
Age
Frquences cumules croissantes
[ 45 - 50 [
[ 50 - 55 [
[ 55 - 60 [
[ 60 - 65 [
[ 65 - 70 [
[ 70 - 75 [
[ 75 - 80 [
Que devient dans ce cas la rponse la question 4 ) ?
91
QU'APPELLE-T-ON
PARAMTRES STATISTIQUES
92
93
I - PARAMTRES DE TENDANCE
CENTRALE
I. 1 - LA MOYENNE ARITHMTIQUE d'une
srie brute numrique x1 , x2 , ... , xn est le
quotient de la somme des observations
par leur nombre :
Soit :
Famille
Nombre
d'enfants
Chardin
Esteller
Martin
Durand
Dupont
Garcia
Bastide
Jourdan
Lelivre
Fleury
Fournier
Averos
Bastien
Brunet
Delenne
Saumade
Bertrand
Blundo
pour une srie groupe, o les xi sont les valeurs diffrentes de la srie,
et les ni les effectifs associs.
Total :
n = 18
La moyenne est
donc
fonction
des
Nombre
Frquenc
valeurs
observes xi, et de
d'appels
% fi x 100
es fi
leurs frquences
fi.
xi
0
0.0208
2.08
0.1458
14.58
0.2396
23.96
0.2500
25.00
0.1875
18.75
0.0938
9.38
0.0625
6.25
Total :
100
94
de
Une seule valeur (sur 100) peut donc beaucoup modifier la moyenne.
La nouvelle moyenne est de :
La moyenne arithmtique est sensible aux
valeurs extrmes.
Voyons un autre type de calcul de la moyenne : Pensez-vous que la
densit moyenne au km des 15 pays de l'Union Europenne soit gale
la moyenne des 15 densits de ces pays, soit 149.2 hab/km ?
Superficie
Poids pi =
Densit xi
Pays
(milliers de superficie/tota
(hab / km)
km)
l
Allemagne
229.13
357
.1103
Autriche
95.238
84
.0259
Belgique
325.81
31
.0096
Danemark
120.93
43
.0133
Espagne
78.614
505
.1550
Finlande
15.134
337
.1041
France
106.01
549
.1695
Grce
79.545
132
.0408
Irlande
51.429
70
.0216
Italie
190.03
301
.0930
Luxembourg
200
.0006
Pays-Bas
380.49
41
.0127
Portugal
106.52
92
.0284
Royaume-
239.34
244
.0754
96
Uni
Sude
19.556
Total :
Quel est le nombre total d'habitants ?
450
.1390
3238
milliers d'habitants
La superficie totale est de 3 238 milliers de km.
La densit moyenne est donc :
hab/km
Cette densit peut s'crire sous la forme :
(ici n = 15)
on dira que
97
Effectifs
ni
10
5
3
18
Centre de
classe xi
175
300
400
= 175 g
On calcule dans ce cas
par :
Centre de
classe
[ e 1 - e2 [
n1
x1
[ e 2 - e3 [
n2
x2
...
...
...
[ ei - ei+1 [
ni
xi = (ei + ei+1 ) /
2
...
...
...
[ eK - eK+1 [ nK
xK
Total :
Ici aussi le choix des classes est dlicat et peut conduire un manque de
prcision certain, aussi il vaut mieux dans la mesure du possible calculer
la moyenne arithmtique partir des donnes brutes initiales.
99
I.2 - LA
MDIANE
:M
Si la srie brute des valeurs observes est trie par ordre croissant : x(1)
x(2) ... x(n) ,
la mdiane M est la valeur du milieu, telle qu'il y ait autant
d'observations "au-dessous" que "au-dessus".
c'est--dire que si n est impair, soit n = 2 p + 1 ,
M = x(p+1)
Si n est pair, soit n = 2 p, toute valeur de l'intervalle mdian
[ x(p) ; x(p+1) ] rpond la question.
Afin de dfinir M de faon unique, on choisit souvent ,
soit le centre de l'intervalle mdian.
Par exemple, la mdiane de la srie de tailles ci-contre est :
M=
(m)
Aurait-elle t diffrente si on avait not par erreur la plus petite taille
0.55 m au lieu de 1.55 ?
En est-il de mme pour la moyenne ?
La mdiane des salaires ci-contre est :
M=
Aurait-elle t diffrente si 1 500 avait t not par erreur 10 500 ?
En est-il de mme pour la moyenne ?
100
Famille
Nombre
d'enfants
Chardin
Esteller
Martin
Durand
Dupont
Garcia
Bastide
Jourdan
Lelivre
Fleury
Fournier
Averos
Bastien
Brunet
Delenne
Saumade
Bertrand
Blundo
18
10
12
15
17
18
Total :
18
Il y a
il y en a
familles, soit
, soit
% sans enfant ;
% ayant au plus 1 enfant.
101
familles, soit
, soit
102
(ou 50 %) et F(ei+1)
(ou 50 %)
M ei + , avec
/ ( ei+1 - ei ) =
M ei + ( ei+1 - ei )
partir des effectifs cumuls
M ei + ( ei+1 - ei )
partir des frquences cumules
Dterminons par exemple une valeur approche de la surface mdiane
(exemple de la Leon 2).
Frquences
Frquences
Classes de
Frquence
cumules
cumules
surfaces (ha)
s
croissantes
dcroissantes
moins de 3
0.3906
0.3906
[3 - 5 [
0.2894
0.68
0.6094
[5 - 10 [
0.2400
0.9200
0.32
[10 - 20[
0.0433
0.9633
0.080
[20 - 30[
0.0296
0.9929
0.0367
30 ou plus
0.0071
0.0071
Total :
1
Avec les notations prcdentes, M se situe entre :
ei =
ei+1 =
ha et
ha
103
104
ans environ
Le 1e dcile est : D1 =
ans environ
cela signifie que les 10 % plus jeunes accidents ont moins de D1.
De mme, D9 =
ans environ
les 10 % plus gs ont plus de D9 .
105
106
107
Il n'est pas toujours bien dfini dans le cas d'une variable continue, le
dcoupage en classes peut tre trompeur ; la classe modale est la classe
pour laquelle l'histogramme passe par un maximum.
Quelle est la classe modale pour la distribution suivante ? (cliquer sur la
bonne case) :
Classes Effectifs
3
10
20
0
Si la distribution prsente 2 ou plus maxima relatifs, on dit qu'elle est
bimodale ou plurimodale. Cela signifie que la population est
htrogne du point de vue de la variable observe.
La population est compose de plusieurs sous-populations ayant des
caractristiques de tendance centrale diffrentes.
POSITIONS
108
109
110
111
Nombre
d'enfants xi
Nombre de
familles ni
Total :
n = 18
( ni) ( xi -
s = [
( ni) xi ] -
de calculer :
enfants
Effectifs
[0-3[
830
[3-5[
615
[ 5 - 10 [
510
[ 10 - 20 [
92
[ 20 - 30 [
63
[ 30 - 50 [
15
Total :
2125
ha
ha
La connaissance de la moyenne et de l'cart-type peut nous permettre
d'appliquer l'ingalit de Bienaym-Tchbichev :
Pour toute population de moyenne et d'cart-type s , la proportion
d'individus appartenant des intervalles de la forme : [ - k s ; + k s ]
est suprieure ou gale 1 - 1/k , pour tout k 1.
Par exemple, avec k = 2, on en dduit qu'au moins
112
%
des observations appartiennent l'intervalle : [ - 2 s ; + 2 s ]
Ainsi, au moins 75 % des salaris de l'entreprise ALPHA ont un salaire
situ entre
et
Pour au moins les 8/9 d'entre eux, le salaire se situe entre
et
Ceci quelle que soit l'allure de la distribution, mme trs dissymtrique
ou plurimodale.
113
RSUM
En plus des tableaux et graphiques, on rsume l'observation d'une
variable quantitative par un petit nombre de paramtres.
I - Tendance centrale
- la moyenne (arithmtique), ventuellement pondre :
- la mdiane : M est insensible aux valeurs aberrantes, mais se prte
moins bien aux calculs que la moyenne si le nombre de donnes est
important.
- le mode dans le cas particulier d'une distribution unimodale.
La comparaison de ces trois paramtres donne des indications sur la
symtrie de la distribution.
II - POSITION
- les fractiles (quartiles, dciles, centiles) : ils subdivisent la srie
ordonne en un certain nombre d'intervalles (4 , 10 , 100) contenant
environ le mme nombre de valeurs observes chacun.
III - DISPERSION
- tendue
- variance et cart-type : calculs gnralement en complment de la
moyenne, pour mesurer la plus ou moins grande dispersion autour de
celle-ci.
- intervalle interquartile : sa longueur, l'cart-interquartile mesure la
dispersion des 50 % valeurs les plus centrales.
114
115
Montant
loyers
Effectifs
[ 500 - 1 000 [
30
[ 1 000 - 1 500 [
60
des
1 500 - 2 000 [
80
2 000 - 2 500 [
90
2 500 - 3 000 [
150
3 000 - 3 500 [
180
3 500 - 4 000 [
150
4 000 - 5 000 [
140
[ 5 000 - 6 000 [
80
[ 6 000 - 8 000 [
40
Total :
1 000
= (103 ) =
( )
De mme, l'cart-type des loyers vaut :
s = (103 ) =
( )
3) Quel pourcentage des loyers se situe, approximativement, dans
l'intervalle
[
-s;
+s]?
116
ans
Et des quartiles ?
Q1 =
ans
Q3 =
ans
Peut-on dire que 50 % des Europens ont une esprance de vie infrieure
Q2 ?
La moyenne des 47 valeurs d''Esprance de vie" est de 73.134 ans.
Peut-on dire que c'est l'esprance de vie moyenne des Europens :
Exercice 4 : PNB EN EUROPE
1) A partir des donnes sur le PNB par habitant de 44 pays d'Europe, on a
construit l'histogramme ci-contre :
La mdiane est :
Q2
117
Pays
Populati
on
(millions
)
PNB / hab
Allemagne
81.8
27620
Autriche
26730
10.1
24820
5.2
30300
39.7
13740
5.1
20740
58.2
25060
10.5
8180
Irlande
3.6
15050
Italie
57.2
19200
Luxembour
g
0.4
43480
Pays-Bas
15.6
23700
Portugal
9.8
9780
RoyaumeUni
58.4
18950
Sude
8.8
23120
Total :
372.4
Belgique
Q2 ?
Danemark
et
Espagne
Q3 ?
5 ) A partir du tableau ci-contre, Finlande
calculez le PNB moyen par habitant
France
dans l'Union Europenne :
Grce
118
50
50
bl
50.5
45
vigne
35
38
orge
62.1
25
bl
20
65
vigne
10
57
vigne
...
...
...
...
...
198
56
45
bl
2
Nous pouvons maintenant dcrire chacun des caractres, un par un :
TAILLE
AGE
119
CULTURE
Modalit
Frquence
Effectifs
s
120
0.61
Bl
68
0.34
Autres
10
0.05
Total
198
Vigne
EMPLOYS
Mais ceci ne nous permet pas de mettre en vidence les liens existant
peut tre entre la taille et l'ge : les jeunes exploitants ont-ils des
surfaces comparables, infrieures, suprieures celles de leurs ans ?
De mme, le type de culture pratiqu est-il le mme quelle que soit la
surface ? Le nombre d'employs est-il fonction du type de culture, etc.
Taille
Age du chef
(ha)
d'exploitation
(annes)
50
50
50.5
45
35
38
62.1
25
20
65
120
10
...
56
57
...
45
Individus Variable X
Variable Y
---
---
---
---
...
...
...
...
...
...
---
---
individus.
121
122
cm
=
kg
Pour mesurer la dispersion du nuage autour de G on utilise les x i yi - :
xi - est l'cart entre l'abscisse de Mi et celle de G
yi - est l'cart entre l'ordonne de Mi et celle de G
et les
cm
De mme la dispersion des poids se mesure par l'cart-type :
kg
124
( si sX 0 et sY 0 )
Ce coefficient, symtrique en X et Y, indpendant des units choisies pour
X et Y, et de l'origine, est toujours compris entre - 1 et 1.
-1r1
Il vaut 1 si et seulement si le nuage est form de points aligns le long
d'une droite croissante, de la forme :
yi = a xi + b , avec a 0 .
Il vaut - 1 si et seulement sils sont le long d'une droite dcroissante :
yi = a xi + b , avec a 0
r sera donc proche de 1 si le nuage est trs allong selon une direction
croissante : si X augmente, Y augmente aussi de faon proportionnelle et
presque systmatique.
Si r est proche de - 1, lorsque X augmente, Y diminue de faon
proportionnelle, et presque systmatique.
125
126
r = 0.04
r = - 0.9
1966
310.5
251
1967
352.9
296
1968
395.3
358
1969
436.8
362
1970
475.6
476
1971
496.8
535
1972
512.4
553
1973
533.6
515
1974
558.2
514
1975
592.0
690
1976
602.7
727
1977
615.9
850
1978
617.8
911
1979
623.5
838
1980
643.4
867
reprsente alors par des points plus ou moins gros. Les donnes se
prsentent sous forme groupe par exemple :
Age xi
Taille yi
Effectifs ni
x1
y1
n1
x2
y2
n2
...
...
...
xK
yK
nK
Total n
Dans ce cas :
Age
(annes)
X
8
8
8
9
9
9
10
10
10
10
11
11
11
Taille
(m)
Y
Effectifs
1.25
1.26
1.27
1.29
1.30
1.31
1.32
1.33
1.34
1.35
1.36
1.38
1.40
3
2
1
4
2
2
4
3
3
1
2
2
1
Total :
30
128
sY =
r ( X ,Y )
=
Tout ce qui concerne le coefficient de corrlation sera vu de manire plus
approfondie dans le module "Ajustement Linaire"
En vous connectant sur le site anglophone de l'Universit de Leuven vous
pouvez voir une illustration interactive du calcul de coefficients de
corrlation pour des distributions normales. On peut afficher
simultanment plusieurs exemples avec new window et modifier les
paramtres
de
chacun
avec
settings
:
http://www.fltbw2.rug.ac.be/iloapp/Applets/Ap7.html
129
1:
130
2:
3:
mme,
quelle
que
131
individus
Graphiquement, peut-on dire qu'il y a des diffrences dans l'ge, selon les
catgories ?
On verra plus loin comment mesurer ces diffrences.
Rpondre la question b) (comparaison de la rpartition des catgories
selon l'ge) ncessite une tude spare de X (catgorie) pour chaque
tranche d'ge : ce sont les distributions conditionnelles de X selon Y :
on doit donc reprsenter de faon comparable plusieurs distributions de
variable qualitative : diagrammes en barres ou secteurs par exemple.
Ici les angles des secteurs manquants, dans la tranche 50-60 ans, sont (en
d)
A:
B:
C:
On peut faire des diagrammes de surface proportionnelle l'effectif :
132
On peut reprer les effectifs de A, B, C, au sein d'un histogramme global des ges : pour les
rectangles manquants, les hauteurs sont :
A:
B:
C:
Pour comparer les rpartitions en
frquences par tranche d'ge, appeles Catgo
profils des trois catgories, on peut aussi
rie
Age (annes)
faire des graphiques, en portant le centre
32 ; 35 ; 40 ; 42 ; 43
des classes d'ge en abscisse ( condition
A
43 ; 49 ; 50 ; 55 ; 58
d'avoir pour l'ge des classes assez fines)
22 ; 26 ; 27 ; 27 ; 29
et les frquences cumules en ordonne
30 ; 31 ; 31 ; 33 ; 34
B
36 ; 36 ; 38 ; 39 ; 39
42 ; 44 ; 46 ; 51 ; 53
;
;
;
;
133
, calcule sur
nB =
individus,
est de
ans,
avec sB =
De mme, nC = 25 ,
= 29.92 et sC = 55.67.
La moyenne des variances des 3 catgories est :
=
Si l'on remplace chaque catgorie par sa moyenne d'ge, et que l'on
calcule la variance de la srie :
134
Moyenne
d'ge
44.7
35.7
29.92
Effectif
10
20
25
Nombre de pices
4 4 5 5 5 6 6 6 6
7
2 3 3 3 3 3 4 4 4
4 4 4 4 4 5 5 5
5 6 6
1 1 1 2 2 2 2 2 2
3 3 3 3 3 3 3 3
3 4 4 4 4 5 5 5
135
136
Mais cette comparaison (entre les eY/X ) n'est possible que parce qu'il
s'agit de la mme variable X, et des mmes individus.
Nous verrons ceci plus en dtail dans le module Tests .
137
5.5
5.1
5.1
5.0
5.8
5.5
4.5
4.1
5.7
5.3
4.7
4.3
4.9
4.8
8
4.8
4.5
Ces notes sont diffrentes ; Y est globalement plus svre que X ,
mais tous les deux ont plac le n 3 en premier, le n 5 en deuxime, le n
1 en troisime, etc
le n
en dernier.
le n
5.5
5.1
5.1
5.1
5.0
5.3
5.8
5.5
4.3
4.5
4.1
5.9
5.7
5.3
4.6
4.7
4.3
5.8
4.9
4.8
5.5
4.8
4.5
5.7
est premier,
le n
est deuxime
le n 3 dernier.
Ce qui compte ici, ce n'est pas la note dans l'absolu, mais le rang du
concurrent, c'est--dire sa position dans le classement, par rapport aux
autres, soit pour notre exemple :
138
Numro
concurrent
RX
RY
RZ
8
6
6
3
Afin de mesurer la concordance plus ou moins grande entre jugements de
ce type, on calcule le coefficient de corrlation entre les rangs, appel
coefficient de corrlation des rangs de Spearman :
rS ( X , Y ) = r ( RX , RY )
Comme tout coefficient de corrlation, il est compris entre - 1 et 1. Pour
notre exemple :
rS ( X , Y ) =
ce qui correspond une concordance parfaite
rS ( X , Z ) =
ce qui correspond une totale discordance
Un coefficient nul signifie que les deux jugements sont indpendants.
Par exemple, pour le juge T, les rangs sont :
Numro
de
concurr
ent
rang rT
Numro
concurrent
Juge X
RX
Juge T
5.5
5.3
5.1
5.5
5.8
5.8
4.5
4.6
5.7
5.7
4.7
4.9
4.9
5.0
4.8
5.2
3
4
8
On a :
=
=
cart-type de RX =
cart-type de RT =
covariance (RX , RT ) =
coefficient de Spearman entre X et T : rS ( X , T
)=
139
o di est la diffrence, pour l'individu i , entre son rang pour X et son rang
pour Y.
Complter le tableau ci-dessous :
Numro
RT
di = RX - RT
concurrent
RX
1
-1
On a ici :
di =
et donc :
rS ( X , T ) =
ce qui est bien la valeur trouve prcdemment.
Par contre, s'il y a des ex-quo la formule prcdente n'est plus valable.
On calcule le coefficient de corrlation en assignant aux valeurs
identiques un rang gal la moyenne des rangs attribus si elles taient
lgrement diffrentes.
Ainsi pour le juge U, le concurrent n 1 et n 5 tant 2me ex-quo, soit
la place du 2e et du 3e, leur rang est 2.5.
Numro
Juge U
RU
concurrent
RX
1
5.7
2.5
5.5
5.8
5.5
5.7
2.5
5.0
5.5
4.9
140
rS ( X , U ) =
En
vous
connectant
sur
http://www.nimitz.mcs.kent.edu/~blewis/stat/spearman.html vous pourrez
calculer interactivement le coefficient de Spearman pour des donnes
que vous introduisez vous-mme.
III.2 - CAS GNRAL : VARIABLES NOMINALES
X et Y prennent des modalits non numriques, et non ordonnes.
Par exemple, le sexe et la situation matrimoniale :
Individu
Sexe X Etat matrimonial Y
Clmence
Marie
Stphane
Veuf
Edwige
Veuve
Bndicte
Clibataire
Agathe
Clibataire
Pierre
Divorc
Jacques
Clibataire
Aurlie
Divorce
Julien
Mari
Thierry
Mari
Christophe
Clibataire
Marc
Mari
Mari
Veuf
Divorc
X Homme
Femme
C'est ce qu'on appelle un tableau de contingence.
Supposons que cette tude, portant sur un plus grand nombre
d'individus, ait conduit au tableau de contingence ci-dessous :
Y
Clibataire
X
Mari
Veuf
Divorc
Homme
30
20
Femme
40
25
10
141
On a au total 60 hommes et :
femmes
Soit
Cette distribution de la variable sexe , obtenue en ajoutant les effectifs
ligne par ligne, est appele distribution marginale de X : c'est la
distribution de X, toutes valeurs de Y confondues.
Modalit
Effectif
Homme
60
Femme
80
Distribution marginale de X
De mme, la distribution marginale de Y s'obtient en ajoutant les effectifs,
colonne par colonne :
Clibataire
Effectif
Mari
70
Veuf
45
Divorc
Total
17
140
Total
(%)
Clibatai
re
50
50
50
Mari
33.33
31.25
32.14
Veuf
6.25
5.71
Divorc
11.67
12.5
12.14
Total
100
100
100
Veuf
(%)
Divorc
(%)
Total
(%)
Homm
42.86
e
37.5
41.18
42.86
Femm
57.14
e
62.5
58.82
57.14
Sexe
Clibataire
Mari (%)
(%)
142
Total : 100
100
100
100
100
143
soit
ou
nij =
144
Clibataire Mari
Veuf
Divorc
Total
Homme
30
20
60
Femme
40
25
10
80
45
17
140
Total :
70
Effectifs observs
Y
Clibataire
X
Homme 30
Divorc
Total ni.
Mari
Veuf
19.286
3.429 7.286 60
Femme
4.571 9.714 80
Total n.j 70
45
8
17
140
Effectifs thoriques
Afin de mesurer de faon synthtique l'cart entre ces deux tableaux, et
donc l'cart entre le lien liant X et Y et l'absence totale de lien
(indpendance) on utilise un coefficient appel (se prononce kideux )
O obs effectif observ nij
tho = effectif thorique
Les marges du tableau effectifs thoriques sont-elles toujours gales
celles du tableau effectifs observs ?
soit ici : =
On peut montrer que ce nombre est aussi gal :
=n(
-1)=
Y
Clibatai
re
Mari
X
Veuf
Divorc
Homme
0.714
- 0.429
- 0.286
Femme
- 0.714
0.429
0.286
"Obs - tho"
145
146
IV - COMPLMENT
Si X est discrte, K valeurs distinctes, ou bien continue, avec un
intervalle de valeurs subdivis en K classes, elle peut tre traite, pour
les calculs, comme une variable qualitative K modalits.
Mme chose pour Y, avec L valeurs ou classes.
Il est alors possible de construire un tableau de contingence entre
variables quantitatives, partir duquel on pourra calculer la fois
r(X,Y)
eY/X , eX/Y ,
,
Les moyennes et variances :
distributions marginales.
Total
10
14
20
15
Total
23
12
50
avec un cart-type de : sY =
La covariance se calcule ici par :
147
=
Ce qui donne comme coefficient de corrlation :
r(X,Y)=
=
Les distributions conditionnelles du nombre Y de personnes, pour
chaque valeur xi , s'obtiennent en lisant le tableau ligne par ligne. Elles
permettent de calculer les moyennes conditionnelles :
Ainsi pour xi = 1 ,
de mme
2
3
4
=
=
= 4.2
=
= 1.87
= 2.67
= 3.29
148
et la courbe de rgression de X en Y
La variance de Y explique par X est la variance des moyennes
conditionnelles :
( ( 1.6 ) 10 + ... + ( 4.2 ) 5 ) - ( 2.6 )
Donc : eY/X =
Inversement , la variance de X explique par Y est la variance des
Soit
donc e X/Y =
Est-ce que eX/Y = eY/X ?
RAPPELS
j
ni.
sy =
1.08
= 2.6
1.6
10
2.2
20
3.267
15
4.2
Total : 50
sx = 0.81
= 2.3
n.j
1.2
1.87
23
2.667
12
3.29
3.667
Total
50
149
Catgori
e
Age (annes)
32 ; 35 ; 40 ; 42 ;
43 ; 43 ; 49 ; 50 ;
55 ; 58
22
29
33
38
44
;
;
;
;
;
26
30
34
39
46
;
;
;
;
;
27
31
36
39
51
;
;
;
;
;
27
31
36
42
53
;
;
;
;
20
23
26
28
32
38
45
;
;
;
;
;
;
20
24
27
29
33
41
;
;
;
;
;
;
21
24
28
29
33
43
;
;
;
;
;
;
22
24
28
30
35
45
;
;
;
;
;
;
150
151
variance rsiduelle
(moyenne des variances
intragroupes)
152
175.6
73.5
Profession intermdiaire
174.4
74.2
173.9
75.3
Employ
173.2
73.4
Agriculteur
172.4
74.2
Ouvrier
171.9
72.8
162.8
57.8
162.2
59.3
Profession intermdiaire
162.2
59.6
Agriculteur
161.9
60.5
Employ
161.5
61.3
FEMMES
Ouvrier
160.8
62.5
"La Gazette" n 510 - Janvier 1998
1) De quelle nature sont les variables statistiques releves pour
construire le tableau ci-dessus ?
Sexe :
Milieu :
Taille :
Poids :
2) Quels graphiques pourrait-on faire pour rendre compte de tout ou
partie de ces chiffres ?
3) Peut-on calculer partir de ces chiffres :
- une corrlation entre la taille et le poids ?
- un rapport de corrlation taille/sexe ?
- un rapport de corrlation taille/milieu ?
- un ?
- des coefficients de Spearman ?
4) Le titre vous parat-il justifi ?
Exercice 2 : IMPORT - EXPORT
1) Le tableau ci-dessous donne le montant des changes de la France
avec ses principaux partenaires commerciaux, en 1996 (en milliards de
Francs).
153
Fournisse
Clients
urs
Allemagne
245
251
BelgiqueLuxembourg
118
123
Espagne
97
115
Etats-Unis
111
88
Italie
142
135
Japon
45
27
Pays-Bas
73
66.5
Royaume-Uni
118
137
Suisse
35
56.5
(milliard de francs)
En ordonne :
(milliard de francs)
Quel pays en est le plus proche ?
Calculer la covariance :
et le coefficient de corrlation :
Peut-on dire que le montant des importations est bien corrl, en ce qui
concerne ces 9 pays, avec le montant des exportations ?
2) Gnralement, plutt que le montant des changes, on considre le
rang des principaux partenaires commerciaux.
Compltez le tableau ci-dessous
Rangs
Fournisseurs
Clients
Allemagne
BelgiqueLuxembourg
Espagne
Etats-Unis
Italie
Japon
Pays-Bas
Royaume-Uni
Suisse
9
8
Comme il n'y a pas d' ex-quo , on peut calculer le coefficient de
Spearman au moyen de la formule :
154
2.15
Masculi
n
1.90
Fmini
n
1.75
Masculi
n
1.20
Sexe
Cholestr
ol
Fminin
1.97
Masculin
1.89
Fminin
1.89
Masculin
1.98
Masculin
1.51
Fminin
1.88
Masculin
1.55
Masculin
1.57
Fminin
1.94
Masculin
1.51
Masculi
n
2.10
Masculi
n
1.90
Masculi
n
1.68
Masculin
1.56
Fmini
n
Fminin
1.78
2.85
Fminin
2.27
Masculi
n
Masculin
1.37
2.28
Masculin
1.94
Fmini
n
1.62
Fminin
1.99
Fminin
1.90
Masculi
n
1.70
Masculin
2.16
Masculi
n
Masculin
2.32
1.75
Masculin
1.49
Masculi
n
Fminin
1.31
1.90
Masculin
1.39
Fmini
n
1.93
Masculin
2.12
Masculin
1.91
Masculi
n
2.09
Fminin
1.79
155
Masculi
n
2.12
Fmini
n
1.72
Masculi
n
1.57
Masculi
n
1.58
Masculi
n
1.79
Fmini
n
1.73
Fmini
n
2.11
Fmini
n
1.66
Masculi
n
2.11
Fmini
n
1.93
Sexe Masculin
Cholestrol
Sexe Fminin
Cholestrol
156
2.15
1.90
1.20
2.10
1.90
1.68
2.28
1.70
1.75
1.90
2.09
2.12
1.57
1.58
1.79
2.11
1.89
1.98
1.51
1.55
1.57
1.51
1.56
1.37
1.94
2.16
2.32
1.49
1.39
2.12
1.91
1.75
2.85
1.62
1.93
1.72
1.73
2.11
1.66
1.93
1.97
1.89
1.88
1.94
1.78
2.27
1.99
1.90
1.31
1.79
157
nologues
Vin
10
10
10
10
10
entre Dupont et
Dupond :
entre Dupont et
Durand :
entre Dupond et
Durand :
Quel nologue se distingue le plus des deux autres ?
Est-ce parce qu'il n'a mis que de "bonnes" notes ?
Exercice 5 : TAUX DE RUSSITE AU CNAM
Le tableau ci-dessous donne le nombre d'inscrits, de prsents l'examen,
et de reus pour un module du CNAM, dans 5 centres d'examen, en 1997.
prsent
inscrits
reus
s
Bagnols/Cz
e
Bziers
13
Montpellier
30
12
Nmes
22
20
Perpignan
68
44
21
1) S'agit-il d'un tableau de contingence ?
2) On se propose de comparer les rsultats des diffrents centres l'aide
des graphiques ci-dessous.
reus recals absents
Bagnols/Cz
e
Bziers
Montpellier
18
Nmes
11
Perpignan
21
23
24
recals
absents
Bagnols/Cze
Bziers
Montpellier
Nmes
Perpignan
Est-ce que le total de chaque ligne reprsente le nombre d'inscrits ?
4) Remplir le tableau des effectifs "thoriques " : (si les profils des
diffrents centres taient identiques)
reus
recals
absents
Bagnols/Cze
Bziers
Montpellier
Nmes
Perpignan
5) Calculer le
=
Quel centre se distingue le plus des
autres ?
absents Total
6) Pour comparer les diffrents
reus
+
des
centres du point de vue du nombre
recals inscrits
de reus par rapport aux inscrits, Bagnols/Cz
5
4
9
on se base sur le tableau :
e
ici =
Bziers
5
8
13
Peut-on comparer cette valeur
Montpellier
8
22
30
celle calcule en 5) ?
Nmes
9
13
22
Perpignan
21
47
68
Total :
48
94
142
159
reus
Total
absent
recals
des
s
inscrits
Bagnols/Cz
5
e
Bziers
13
Montpellier 8
18
30
Nmes
11
22
Perpignan
21
23
24
68
Total :
48
40
54
142
Exercice 6 : AGRICULTEURS
A partir des donnes sur la taille des exploitations agricoles et l'ge de
l'exploitant vues en prsentation, on a construit le tableau ci-dessous :
Taille (ha) / ge
18 - 25 25 - 35 35 - 45 45 - 55 55 - 65 Total
(ans)
15
18
37
32
96
5 10
12
20
10
52
10 20
14
20
35
20 30
30 150
33
80
65
198
Total :
2
18
En dduire des valeurs approches :
de la taille (en ha)
moyenne :
de l'ge moyen (en
annes) :
de l'cart-type de la taille
:
de l'cart-type de l'ge :
de la covariance :
du coefficient de
corrlation :
ha
160
ans
Pour 5 10 ha :
ans
Pour 10 20 ha :
ans
Pour 20 30 ha :
ans
Pour 30 150
ha :
ans
Donc :
=
Quelle serait la valeur minimale de (s'il y avait indpendance totale) ?
Quelle serait sa valeur maximale ?
On peut donc considrer qu'on est "proche" de l'indpendance.
(Ceci devrait en fait tre confirm par un test , voir module "Tests")
161
Jusqu' maintenant nous avons vu, tape par tape, comment procder en
statistique descriptive :
1 - A partir des donnes brutes, identification des individus, des
variables, de leur nature, de ce que l'on cherche dcrire.
2 - Rsums sous forme de tableaux et de graphiques, pour voir
l'allure de la distribution de chaque variable, et les liens pouvant exister
entre elles.
3 - Calcul des paramtres caractristiques, pour quantifier les traits
principaux de chaque caractre, et ventuellement les relations entre les
variables, prises deux deux.
162
163
Exercice 1 : L'AFRIQUE
164
de 200 moins
de 300
de 300 moins
de 400
de 400 moins
de 600
de 600 moins
de 1 000
de 1 000 4 000
Total :
38
Frquences
cumules
croissantes
moins de 200
0.184
0.184
de 200 moins de
300
0.184
0.368
165
de 300 moins de
400
0.184
0.552
de 400 moins de
600
0.132
0.684
de 600 moins de
1 000
0.132
0.816
de 1 000 4 000
0.184
Total :
38
Q2 =
166
Q1 =
Q3 =
Donner par ordre croissant les PNB les plus "aberrants " :
167
r(X,Y)=
r(Y,Z)=
Peut-on en dduire qu'avoir beaucoup d'enfants fait mourir plus jeune ?
5) L'histogramme ci-contre vous parat-il correct ?
Pensez-vous que la rgion puisse expliquer une part non
ngligeable de la variance de esprance de vie ?
Pour la rgion (a), soit na = 8 pays, la moyenne de l'esprance de vie est
a
ans
avec un cart-type de sa =
ans
la
=
ans
avec un cart-type
n
de sn =
ans
168
Exercice 2 : LYCENS
Le tableau "Lycens" donne les moyennes de 36 lycens d'une classe de
1re dans toutes les matires, ainsi que leur sexe et leur ge.
1) La variable ge est-elle ici :
Complter le tableau :
Age
Effectifs
Frquences
Total :
36
170
Q1 =
Q3 =
la moyenne :
Quel pourcentage de notes est suprieur la moyenne, soit 11.25 ?
%
L'histogramme est-il juste ?
Les botes ci-contre permettent de reprsenter globalement toutes les
matires.
Quelle matire prsente la plus grande dispersion ?
Dans combien de matires l'lve Olivier fait-il partie du premier
quart de la classe ?
Dans combien de matires fait-il partie du dernier quart ?
Ces diagrammes permettent-ils de voir si les notes des diffrentes
matires sont bien corrles ?
4) On voudrait savoir si les notes d'EPS (Education Physique et Sportive)
sont comparables pour les garons et les filles, car ils ont deux
professeurs diffrents.
Aprs avoir tri les notes d'EPS par calculer les paramtres suivants :
Garons
Filles
Garons et filles
Mdiane
1er
quartile
3me
quartile
Moyenne
Effectif
20
16
36
16
17
18
19
Total
Masculin
Fminin
Total :
Quels effectifs "thoriques" aurait-on si les deux lignes taient proportionnelles, avec
les mmes marges ?
16
17
18
19
Masculi
n
Fminin
Calculer le entre l'ge et le sexe :
Peut-on dire que la rpartition des ges est trs diffrente pour les
garons et les filles ?
6) Peut-on considrer les notes comme des variables ordinales ?
Calculer, pour les garons, le coefficient de corrlation des rangs entre
Maths et Physique :
172
Maths
Physique
.477
Biologie
.205
.315
Franais
.224
.45
.31
.282
.168
LV1
.103
.491
.529
.48
.164
LV2
-.066 .128
.178
.27
.145
.46
EPS
.235
-.047
.03
-.371
-.151 -.135 1
.215
Maths
Physique
.487
Biologie
.178
.328
Franais
.184
.376
.307
.25
.154
LV1
.135
.505
.547
.498
.127
LV2
-.065 .058
.142
.342
.135
.421 1
EPS
.217 .117
-.087
.058
-.399
-.173 -.167 1
Les valeurs au-dessus de la diagonale s'obtiennent par symtrie puisque :
r ( X , Y ) = r ( Y , X ).
A-t-on toujours des 1 sur la diagonale ?
Exercice 2 : LYCENS
173
Effectifs
Total :
36
Pour trier le tableau :
Le diagramme en btons ci-contre est-il correct ?
Les courbes cumulatives sont-elles correctes ?
Courbes 1 :
Courbes 2 :
Frquences
174
20
16
36
175
17
18
19
Total
Masculin
Fminin
Total :
Quels effectifs "thoriques" aurait-on si
proportionnelles, avec les mmes marges ?
16
17
les
18
deux
lignes
taient
19
Masculi
n
Fminin
Calculer le entre l'ge et le sexe :
Peut-on dire que la rpartition des ges est trs diffrente pour les
garons et les filles ?
6) Peut-on considrer les notes comme des variables ordinales ?
Calculer, pour les garons, le coefficient de corrlation des rangs entre
Maths et Physique :
puis entre Maths et EPS :
176
HistoireGo.
Maths
Physique
.477
Biologie
.205
.315
Franais
.224
.45
.31
.084
.282
.168
Histoire-Go. -.011
LV1
.103
.491
.529
.48
.164
LV2
-.066
.128
.178
.27
.145
.46
EPS
.235
.215
-.047
.03
-.371
-.151 -.135
Maths
Physique
.487
Biologie
.178
.328
HistoireGo.
177
Franais
.184
.376
.307
Histoire-Go. -.006
.054
.25
.154
LV1
.135
.505
.547
.498
.127
LV2
-.065
.058
.142
.342
.135
.421
EPS
.217
.117
-.087
.058
-.399
-.173 -.167 1
Les valeurs au-dessus de la diagonale s'obtiennent par symtrie puisque :
r ( X , Y ) = r ( Y , X ).
A-t-on toujours des 1 sur la diagonale ?
178