Professional Documents
Culture Documents
Srie statistique
Introduction
Fonction de probabilit
Distribution de rparation
Proprets de la variance
Loi de probabilits
Loi binomiale
Loi de poisson
Loi continue
Infrence statistique
Dfinition de lhypothse
Test dhomognit
o Comparaison des moyennes avec le test dhomognit
o Comparaison des % avec le test dhomognit
Rgression simple
Test de corrlation
Rgression multiple
Les variables mesures ou saisies : Cest par exemple, une humidit, une teneur en
matire sche, un poids parcellaire, les poids dun poids dun animal diffrentes
dates ou encore ses consommations .
Les variables labores ou calcules : Ce sont des variables calcules partir des
prcdentes, par exemple, le rendement par hectare une humidit de rfrence, le
gain de poids dun animal entre deux dates.
1 facteur contrl, le facteur bloc. On veut liminer son influence sur la ou les
variables analyss.
Un bloc est
o Bloc : Cest un ensemble dunits exprimentales homognes.
Il peut tre dfini par :
Niveaux,
variantes
ou
modalits
dun
facteur :
Chaque
facteur
dune
Modles croiss :
Dans le cas de lanalyse de variance 2 facteurs, le modle est dit crois quand les 2
Modles hirarchiss : Le modle est dit hirarchis quand les 2 facteurs sont
subordonns lun lautre.
Et un facteur est hirarchis un autre si ses niveaux sont spcifiques lintrieur de
lun des niveaux de lautre.
Par exemple le facteur bloc est hirarchis au facteur lieu.
Modle mixte : Il sagit du cas o lun des facteurs est fixe et lautre alatoire. (non
soumis un risque derreur car non mesur ..).
Dans les exprimentations de plein champ, les facteurs tudis sont gnralement
considrs comme fixes. Cest le cas dans lexemple du facteur varit et du
facteur produit fongicide ; cela signifie que les conclusions de lexprimentation ne
seront applicables quaux seules varits et aux seuls produit fongicides tudis.
Modle alatoires : Cas o le facteur est alatoire cest le cas, par exemple, du facteur
lieu dans le regroupement des essais dune rgion, ceci signifie que les conclusions
de lexprimentation sappliqueront lensemble de la rgion dont les lieux dessais
sont reprsentatifs, ce qui suppose que lieux ont t tirs au hasard, c'est--dire de
manire alatoire.
La distinction Fixe Alatoire nest pas toujours vidente !!!
Conseils utiles :
Une fois que vous avez choisi le thme de votre travail de mmoire de fin dtudes, et
avant de se lancer dans lexprimentation, comme il se fait gnralement, il faut tout dabord
faire une ou des rencontres avec votre promoteur pour dfinir :
-
Les moyens et matriels utiles et disponibles pour raliser un tel objectif afin de
pallier au manque ventuel de ces moyens au dbut de lanne de
lexprimentation,
Le lieur de votre exprimentation, les gens avec les quels vous allez travailler,
Si non, si vous faites comme on le fait le plus souvent, en allant directement sur terrain
sans dfinir un dispositif exprimental appropri, on rcolte alors des donnes qui ne seront
jamais cohrentes pour une analyse de variance.
Une fois le dispositif exprimental est dfinitivement fix, il ne vous reste maintenant
que de linstaller sur terrain, et l il faut veiller sa bonne installation, en respectant
lhomognit des blocs, sil y en a, en redressant par exemple la pente du terrain, de telle
faon que les parcelles des blocs se trouvent dans les mmes conditions dinstallation pour
viter certains problmes de ruissellement en cas dirrigation ; ou migration des engrais ou
produits phytosanitaires en cas de traitement ect, bref, il faut veiller minimiser au
maximum leffet bloc qui doit tre bien contrle.
Le dispositif tant compltement install (bloc, .. ect) il faut effectuer des visites
continues hebdomadaires, voire journalire fin de bien contrler toutes les conditions du
droulement de votre exprience. A cet effet, il est prfrable davoir un carnet de note o
vous devez mentionner chaque visite la date (et mme lheur sil le faut), tat du climat
(pluie, sens du vent, sirocco ), tat du dol (humide, sec*, tass ou non .. etc), tat du
vgtal (couleur, croissance .) prsence dinsectes ou non, bref, il faut noter tout et
surtout la date et mme lheur, car au temps correspond un stade vgtatif dune culture, ou
phase dun cycle pour un animal et la prsence dun insecte particulier peut tre une
indication dune maladie quelconque.
Vous allez voire que tous ces relevs peuvent vous servir dans linterprtation de vos
rsultats, surtout en cas danomalie ou de rsultats aberrant.
Pour effectuer des mesures (ou observations) sur des variables, veiller ce quelles
doivent tre faites dans lobjectivit, cela veut dire dutiliser des instruments de mesure
adquats, bonne rgle si vous mesurez des longueurs, une balance fiable pour la pese des
poids, un bon comptage .. et surtout un bon chantillonnage qui doit tre au hasard. En
effectuant plusieurs mesures (des rptitions de mesure) sur le mme paramtre ; cela vous
permettra de minimiser le risque derreur de mesure.
Les relevs des observations (ou de mesures) doivent tre prsents dans un tableau
bien organis de telle sorte quil vous sera trs facile par le suite de le traiter pour lanalyse
statistique, et utilisez pour cela comme jai dj indiqu, des carnets et viter les feuilles
volantes que vous risquez de prendre . !
Une fois que vous aurez rcolte toutes vos donnes, il faut maintenant les prsenter sous
forme de tableaux refltant exactement votre dispositif exprimental.
Il est trs utile parfois de faire des reprsentations graphiques (histogramme, courbe
.etc) pour voir la nature de leur volution.
Mais pour savoir la prcision de votre essai, ainsi que leffet des facteurs tudis sur les
variables fixes comme objectifs il faut procder lanalyse de variance.
Pour cela, il faut revenir la salle dinformatique de votre institut et consulter encore
une fois le logiciel STATIT CF , mais cette fois ci en utilisant votre fichier initial o vous
avez stock votre dispositif exprimental, pour procder au calcul de lanalyse de variance.
Il faut noter que vous pouvez utiliser dautres logiciels tel que ANOVA, NDMS,
STATGRAF, STATISTICA. qui sont disponibles linstitut.
Parfois on souhaite connatre sil existe des corrlations entre 2 ou plusieurs variables,
dans ce cas on doit faire des rgressions simples ou multiples.
Aprs que vous tirez (sur imprimante) vos rsultats danalyse de variance, et vos
rsultats de rgression, et certains graphes si vous en avez fait ce moment l, vous
allez confronter tous ceux-ci la partie bibliographique pour trouver des interprtations
agronomique mais surtout scientifiques et objectifs et noubliez pas dutiliser et de consulter
votre carnet de notes pour trouver certaines explications certaines anomalies.
Statistique descriptive
Il peut tre discret (discontinu) quand il prend des valeurs isoles (bien fini) ex : nbre
denfants dans une famille.
Ou bien continu sil peut prendre toute valeur appartenant un intervalle de variation
ou lorsque les valeurs possibles de ce caractre sont des nbres rels ] -, + [ ex : la
taille dun nouveau-n.
Ex : supposant quon va faire une tude sur les tudiants de luniversit de Tiaret pour
connatre le sexe, lge au 1er septembre, la taille, la masse.
Solution :
Population : Tous les tudiants de luniversit de Tiaret.
Individu : Tout tudiant inscrit au 1er septembre.
Caractres :
X = sexe.
Y = ge au 1er septembre.
U = Taille (cm).
V = masse (kg).
Modalits :
X = {masculin, fminin}.
Y = {18, 19, 30}.
U = [130, 210].
V = [40, 120].
Modalit (xi)
0,5
Mari (x1)
20
0,27
Clibataire (x2)
11
0,15
Divorce (x3)
0,07
Veuf (x4)
n
fi = i
N
=1
i =1
Pourcentage = fi 100.
Ex : On a rparti 150 grenouilles suivant le nbre de parasiter quelles hbergent.
nbre de parasite/grenouille
Frquence relative fi
11
0,07
22
0,14
45
0,30
40
0,26
19
0,12
11
0,07
0,01
150
Classe
Limites de la classe
Entre de classe
Effectif fq absolue
fr relative fi
[2,2 2,5[
2,350
0,031
3,1
[2,5 2,8[
2,650
11
0,068
6,8
[2,8 3,1[
2,950
24
0,148
14,8
[3,1 3,4[
3,250
40
0,248
24,8
[3,4 3,7[
3,550
42
0,259
25,9
[3,7 4[
3,850
20
0,124
12,4
[4,0 4,3[
4,150
13
0,080
[4,8 4,6[
4,450
0,037
3,7
161
100
Groupe sanguin xi
Frquence absolue ni
Frquence relative fi
40
0,40
40
43
0,43
43
12
0,12
12
AB
0,05
100
100
ni
45
40
22
19
11
2
0
xi
Cest un ensemble de bton ayant pour abscisse les valeurs x1, x2, x3, du caractre
et en chacun des points dabscisse xi correspond une cordonne proportionnelle leffectif ni
de xi.
a-2. Polygone des frquences : On obtient le polygone des frquences en joignant par des
segments droits les extrmits des btons, cest un graphe linaire passant par des points ayant
pour abscisse xi et pour coordonns ni.
ex : le mme exemple des grenouilles.
ni
45
40
22
19
11
2
0
xi
ni
ni cumule
fi
fi cumule
11
11
0,07
0,07
22
33
0,14
0,21
45
78
0,30
0,51
40
118
0,26
0,77
19
137
0,12
0,89
11
148
0,07
0,96
150
0,01
0,97
Effectif
cumule
150
148
137
118
78
53
11
0
xi
b. Caractre continu :
b.1. Histogramme : Cest un ensemble de rectangles ayant pour largeur lamplitude (tendu)
de la classe et pour hauteur leffectif de la classe.
Ex : Prnoms lexemple de poids des nouveaux-ns.
ni
42
40
24
20
11
6
5
1,9
2,2
2,5
2,8
3,1
3,4
3,7
4,3
4,6
4,9 xi
si x(si)
S
X
si
2(si)
Autrement dit cest un processus par le quel on associe tout lment de S un nombre rel.
Ex : on lance une pice de monnaie 3 fis daffils, alors la variable alatoire (VA) X
reprsentant le nbre de cot face obtenu.
fff
ffp
fpf
pff
fpp
pfp
ppf
ppp
R
3
2
1
0
On dit alors que X est une VA pouvant prendre les valeurs 0, 1, 2, 3, il est possible dimaginer
dautres VA de la pratique.
Ex :
Caractre
VA associe
Elve de classe
Taille
Taille en Cm
Etudiants
Sexe
Sexe cod 0 et 1
Participation au marathon
Rythme cardiaque
f : R (Xi, p)
Ex : lexemple prcdent
f(x = 0) = p(X=0) = 1/8
Xi
F(Xi)
1/8
3/8
3/8
1/8
Distribution de probabilit :
Si X prend x1, x2, x3, .. xn et pour chaque Xi on a une probabilit P [0, n] donc le
tableau des couples f(xi) = p(X=xi) forme ce quon appelle la distribution de la probabilit
(tableau I)
f(xi)
3/8
2/8
1/8
xi
f(xi)
Polygone de probabilit
xi
Ceci conduit dfinir une distribution de probabilit cumule que lon appelle
fonction de rpartition.
Si X est une VA discrte ayant une fonction f(xi), on dfinie une fonction de
rpartition
xi
f(xi)
F(Xi)
1/8
1/8
3/8
4/8
3/8
7/8
1/8
8/8
F(xi)
1
3/8
2/8
1/8
xi
f(a) = 0
si
f(a) = 1
si
Exemple :
Dans lexprience alatoire consistant lancer 2 ds, on considre la VA X : somme des
rsultats des 2 ds.
Construire un tableau de distribution de probabilit ?
Trouver la fonction F(xi)
Tracer la courbe de distribution de probabilit cumule
Trouver les probabilits suivante : p(4 < x 8), p(2 x < 5), p(x 9).
Solution :
Lensemble de ralisations de x = {2, 3, ... 12}.
f(2) = p(x = 2) = p ({1,1}) = 1/36
f(3) = p(x = 3) = p ({1,2},{2,1}) = 2/36
.
.
.
f(12) = p(x = 12) = p ({6,6}) = 1/36
xi
F (xi)
F(xi)
1/36
1/36
2/36
3/36
3/36
6/36
4/36
10/36
5/36
15/36
6/36
21/36
5/36
26/36
4/36
30/36
10
3/36
33/36
11
2/36
35/36
12
1/36
F(xi)
1
35/36
33/36
30/36
26/36
21/36
15/36
10/36
6/36
3/36
1/36
0
10
11
12
26 6 20
=
36 36 36
1
2
3
6
+
+
=
36 36 36 36
P(x 9) = p(x = 9) + p(x = 10) + p(x = 11) + p(x = 11) + p(x = 12) =
4
3
2
1 10
+
+
+
=
36 36 36 36 36
Ou :
P(x 9) = 1 - p(x 8) = 1- F(8) = 1
26 10
=
36 36
xi
Esprance mathmatique : (moyenne) est la valeur moyenne dune VA x que lon note
E(X) ou est dfinie par :
E(X) = xi f(xi)
Exemple prcdent :
Mo = 7
Me = 7
E(X) = 7
Thorme II :
Si X est une VA et si = E(X)
E(X N) = 0 E(X - E(X)) = 0
Thorme III :
Si X et y 2 Va associes une mme exprience alatoire
E(X+y) = E(X) + E(y)
Thorme IV :
Si X et y sont des VA indpendantes c--d pour tout i, p(X = xi) ,
y = yi = p(X = xi) p(y= yi)
E(Xy) = E(X) E(y)
Thorme V :
Si y = g(x) fonction dune VA X alors y est aussi une VA dont
E(y) = E(g(x)) = g(xi) f(xi)
b- Paramtre de dispertion :
Etendu : est la diffrence entre la plus grande et la plus petite ralisation de X.
Ecart moyen : dune VA X est Em
Em = (xi E(n)) f(xi)
(x
E (X)) .f (x i )
2
Q 3 Q1
2
Proprets de la variance :
Thorme I :
Var(X) = E(X) E(X)
Thorme II :
Si y = ax + b transformation linaire de VA x
Alors Var(y) = a Var(X)
Thorme II :
Si X et y sont des VA
Var(X + y) = Var(X) + Var(y)
Xn
Lois de probabilits
I- VA discrte : Parmi les loi de probabilit dune VA discrte, les plus importantes sont : la
loi binomiale, la loi de poisson chacune delles correspond un modle dexprience simple.
On appelle une preuve de Bernoulli, une exprience alatoire qui ne comporte que 2
ralisations possibles, une appele succs et lautre appeles chec.
On note la probabilit dun succ p et lautre q
p + q = 1 q = 1- p.
Si on rpte n fois et dans les mmes conditions lpreuve de Bernoulli de sorte que la
ralisation de chaque preuve soit indpendante de la ralisation des autres preuves, alors la
VA x correspondant en nbre des succs enregistrs lors de ces preuves suit une loi Binomiale.
X (n, p)
Ex : Soit lpreuve A qui consiste jeter une monnaie 3 fois successives
VA x = nbre de pille obtenu
p : pile (succ)
q : face (chec)
VA x nbre de pille
Evnement
FFF
PFF
1
FPF
FFP
Loi binomiale :
p = (X = K ) = C Kn p K q n K
qqq = q3 = C3 p q3
pqq = pq
qpq = pq = 3 pq = C3p1q
qqp = pq
PFP
ppq = pq
qpp = pq = 3 pq = C3pq1
pqp = pq
PPP
PPF
2
Probabilit
FPP
Xi
..
qn
C1n pq n 1
C 2n pq n 2
..
C Kn pq n K
C nn pq o
(p + q )n = C Kn p K q n K
K=0
Ex :
(p + q)3 = p3 + 3pq2 + 3 p2q + q3.
et que
= npq = np(1 p)
ex : Un vendeur dautomobiles estime que le nbre dautomobiles vendu chaque semaine suit la
distribution de probabilit suivante :
si son salaire hebdomadaire est de 50 + une commission de 100 par automobile vendu.
Solution :
nbre dautomobiles vendu par semaine
Probabilit f(xi)
xi . f(xi)
x i
xi. f(xi)
0,05
0,07
0,07
0,07
0,08
0,16
0,32
0,09
0,27
0,81
0,16
0,64
16
2,56
0,20
25
5,00
0,15
0,9
36
5,40
0,10
0,7
49
4,90
0,05
0,4
64
3,20
0,04
0,36
81
3,24
10
0,01
0,1
100
1,00
E(X) = xi . f(xi)
E(y) = a E(X) + b
= 100 (4,6) + 50
= 510
Loi de poisson :
Dfinition : Une VA discontinue valeur K dont N suit la loi de poisson de paramtre
quand :
p(X = K ) =
K K
e
K!
>0
Cest une fonction qui dpend seulement de , cette loi nest quune approximation de la loi
binomiale quand :
n +
et
p 0.
p0
(n , p) p( )
E(X ) = np =
loi de poisson.
En pratique on considre sue p() est une approximation de la loi binomiale quand n 50 et
p< 0,1
0 < n p 10
Ex : on extrait 520 fois une carte dun jeu de 52 cartes.
Quelle est la probabilit dextraire 9 fois 1 (ase de pic) sur ces 520 fois preuves.
Solution :
N = 520
1
< 0,1
52
np = 10
p=
p ( X = 9) =
10 9 10
e 0,125
9!
tre expliqu que par une loi continue, la loi la plus connue cest la loi importance
considrable en statistique, elle est dfinie par une quation :
y = f (x) =
1
2
(X m)2
2 2
1
2
m-
m+
1
2
quand X = m,
est = 1,
Comme cette loi est dfinie par m et donc la forme de la courbe dpend de m et .
- Si m charge la courbe se dplace horizontalement.
m1 < m2
1 = 2
m1
m2
m1 = m2
1 < 2
1
2
m
1
2
( X m )
2
Cependant ces valeurs changent dune courbe normale une autre selon m et (impossible
davoir une infinit de table).
Pour contourner ce problme on a pens la loi normale centre rduit, en ramenant toutes
les courbes une seule.
(0,1)
Xm
m = 0, = 1
a m X m b m
p(a < X < b) = p
<
<
b m
a m
= p
<Z<
f(x)
f(x)
b m
a m
p
<Z<
P(a<X<b)
am bm
a b m
X
(m, )
Z
(0,1)
f(x)
a b
am bm
On remarque que la trs grande partie de laire comprise entre cette courbe et laxe horizontal
stal entre les points dabscisse 3 et + 3 en consquence on peut ngliger toute surface
correspondant des valeurs Z lextrieur de cette intervalle.
-3 -2 -1 0 +1 +2 +3
0,6826
0,9544
0,9974
Conclusion : Pour valuer une probabilit en terme de surface sous la courbe de loi normale
centre rduire, on se sert dune table construite a cette fin .cette table donne exclusivement la
surface sous cette courbe a gauche de la valeur Z non ngative.
Elle donne la probabilit de Z dans un intervalle ] - , Z]
P(Z) ] - , Z]
Ex : Z = 1,35.
P(Z 1,35) = fZ (1,35) = 0,9115.
Z
Z
Aire gauche de Z
are totale
Z
aire gauche de Z
Z symtrie de Z(Z= -Z)
P(Z< z) = 1 p(Z Z)
Ex : Z = -2,13
P(Z -2,13) = FZ (-Z) = 1- FZ(2,13) = 1 0,9834 = 0,0166.
p( Z > z ) = 1 p(Z z)
Aire droite de Z
Ex :
aire totale
aire gauche de Z
Si Z < 0
Z
Aire droite de Z
Z
aire gauche de Z
Z1
Z2
Z2
Z1
(m, )
au plus 60 filles.
Exactement 55 filles.
Solution :
X : nbre de fille parmi les 100
X
(100, )
n p = 100 = 50 > 10
loi normale.
= n p q = 100 = 25
60,5 50
p(X 60) = FX (60,5) = FZ
= F(2, 1) = 0,9821
55,5 50
54,5
p(X = 55) = p (54,5 X 55,5) = p
Z
5
p (0,9 Z 1,1) = 0,0484
Infrence statique
Nous sommes arrivs au stade o la statistique doit enfin servir claircir les dcisions
qui peuvent tre prise dans diffrents domaines, et ceux avec le plus de prcision possible.
Pour rpondre des questions de dcision il faut utiliser une procdure permettant
lacceptation ou le rejet dhypothse pose.
Cette procdure sappelle test dhypothse.
La confirmation ou linformation dune hypothse est toujours fait avec une certains
probabilit que lon voudra aussi forte que possible.
accepte lorsque H0 est rejete. Cest une hypothse qui amne un changement et qui
implique une action entreprendre H1 dans lexemple X est coupable.
H0 est vraie
H0 est fausse
Bonne dcision
Bonne dcision
Dans 2 de ces situations on prend une bonne dcision, on doit donc chercher faire en
sorte que les probabilits que ces 2 situations se produisent soit grande ou minimiser la
probabilit de commettre des erreurs.
On dit quon commet une erreur de 1re espce si on rejte H0 et que H0 est vraie, on
note par la probabilit de commettre une erreur de 1re espce.
On dit quon commet une erreur de 2me espce si on accepte H0 et que H0 est fausse,
on note par la probabilit de commettre une erreur de 2me espce.
Cette probabilit sappelle le niveau de signification du teste (seuil de
signification).
Gnralement est fixe lavance suivant la nature du problme (generalement on
prend = 5%)
(O
C i )
Ci
Oi : effectif observ ;
Ci : effectif thorique.
On calcul .
a- observ thorique
H0 est rejete.
H0 est accepte.
Remarque :
Pour appliquer , leffectif thorique par classe doit > 5 ; Ci > 5.
Ex : On a crois 2 races de plantes diffrentes ayant comme caractre A et B.
La 1re gnration est homogne
La 2me gnration fait apparatre 4 phnotypes : AB, Ab, aB, ab
Si les caractres se transmettent selon les lois de Mendel les proportions thoriques de
4 phnotypes sont :
9/16, 3 /16, 3/16, 1/16 mais , une exprience sur un chantillon de 160 plantes a
donne :
AB : 100
Ab : 18
aB : 24
ab : 18.
Cette rpartition est elle conforme aux lois de Mendel un seuil cde signification de
5% ?
Solution :
H0 : La rpartition observe est conforme aux lois de Mendel = 0,05.
Phnotype
AB
Ab
aB
ab
Total
9/16
3/16
3/16
1/16
Effectif
9/16 . 160
3/16 . 160
3/16 . 160
1/16 .160
thorique Ci
90
30
30
10
100
18
24
18
Proportion
thorique
Effectif
observ Oi
2
observ
=
2
observ
(O
C i )
Ci
160
160
= 12,51
ddl = K 1 = 4 1 = 3
= 0,05
02, 05;3 = 7,815 (thorique, lu sur la table de ).
2
observ
> 2thorique H 0 est rejete au seuil de signification = 5%
p p0
au seuil de signification 5 %.
p0q 0
n
Solution :
0,34 020
0,2 0,8
100
=3,50
Pas de tumeur
total
Effectif thorique Ci = np
20%
80%
100%
Effectif observe Oi
34%
66%
100%
% thorique P
20%
80%
100%
2
0 , 05
(O
Ci)
Ci
= 0,841
lu
= t
0 , 05
3,841 = (1,96)
En effet la mthode de comparaison par lcart rduit et le test du sont absolument
superposables.
population
N (m,
N(0,1)
t=
Xm
(variable de student)
n
H0 : m = m0
( = 5%)
Solution :
X = 36, m 0 = 40
t=
X m 36 40
=
= 2,22
18
n
t> 1,96
100
la diffrence est significative.
Pour pouvoir conclure que 2 populations sont identiques entre elles, il faut comparer
les paramtres qui les caractrisent tel que : la moyenne, la variance, %
X1 =
i1
i =1
n1
n2
i2, i = 1,2,3,..,n2
X2 =
i2
i =1
n2
ech1
n1 1
et
X 2 t
ech 2
n2 1
5 % t = 1,96
1 % t = 2,58
n 30 (petit chantillon)
IC : X1 t
ech1
n1 1
et
X 2 t
ech 2
n2 1
X1
X
X21
On conclue quil y a une diffrence signification entre les moyennes des 2 populations.
IC (m1) IC (m2) = 0
X2
X1 IC(m 2 )
X 2 IC(m1 )
Dans ce cas on conclue que la diffrence entre les 2 moyennes des 2 populations nest
pas significative.
IC(m1 ) IC(m 2 ) 0
X1
X2
X1 IC(m 2 )
X 2 IC(m1 )
Dans ce cas pour pouvoir conclure si les 2 moyennes des 2 populations nest pas
significative possde au test de comparaison des moyennes (utiliser le test de lcart
rduit )
IC(m1 ) IC(m 2 ) 0
n1 et n2 > 30
1- H0 : m1 = m2
Les 2 chantillons proviennent de la mme population
2- =
X1 X 2
2
ech
2
1
+ ech 2
n1
n2
3- Conclusion : au seuil de 5 %
1,96
on rejete H0.
< 1,96
on accepte H0.
X1 = 51g
12 = 256g .
Echantillon 2 : n2 = 50
X1 = 45g
12 = 144g .
Solution :
H0 : m1 = m2
-
IC (m1) ?
X1 1,96
51 1,96
1
n1 1
16
m1 X1 + 1,96
m1 51 + 1,96
49
m1 [46,4;56,6]
1
n1 1
16
49
IC (m2) ?
X 2 1,96
45 1,96
2
n2 1
12
m 2 X 2 + 1,96
m 2 45 + 1,96
49
m1 [41,6;48,4]
12
49
2
n2 1
X1
45,6
X2
46,4
48,4
56,6
X1 IC(m 2 )
X 2 IC(m1 )
51 45
256 144
+
50
50
= 2,48
H0 est rejete.
n1 et n2 < 30
(X
S =
X1 ) + (X 2i X 2 )
n2
n1
1i
(n 1 1)(n 2 1)
2
2
n 1 ech
1 + n 2 ech 2
n1 + n 2 2
X1 X 2
t=
S
1
1
+
n1 n 2
Ex : Dans les effets danesthsi, on compare les effets de 2 somnifres, on not les
dures de sommeil en minute qui ont suivi les injections dune dose bien dfinie.
Somnifre 1 : 170, 175, 187, 190, 165, 175, 174, 173, 181.
Somnifre 2 : 155, 160, 164, 150, 160, 159, 154, 156, 160, 167, 153, 158.
Solution :
X1 = 177
, n 1 = 10.
X 2 = 158
, n 2 = 12
t=
S = 38,4
177 - 158
= 7, 2
1
1
38,4
+
10 12
= 5%.
ddl = n 1 + n 2 2 = 10 + 12 2
(t t )
t 2,09
La diffrence est significative : H0 est rejete donc le somnifre 1 est efficace que le
somnifre 2.
K
K1
et p 2 = 2 .
n1
n1
Peut on considrer que ces 2 chantillons sont extrait dune mme population
H0 : p1 = p2
Comme dans le cas de test de comparaison des moyennes on tudie dabord lintersection des
intervalles de confiances des 2 chantillons.
IC : p1 t
p1 (1 p1 )
n1
= 5%
t = 1,96
= 1%
t = 2,6
p2 t
p 2 (1 p 2 )
n2
p population
, p chatillon
a. IC disjoints :
p1
IC(p1 ) IC(p 2 ) = 0
p2
b. IC non disjoints :
p1
p2
p1 IC(p 2 )
p 2 IC(p1 )
IC(p1 ) IC(p 2 ) 0
p1 =
K1
n1
K 1 = n 1 p1
p2 =
K2
n2
K 2 = n 2p2
p=
n 1 p1 + p 2 n 2
n1 + n 2
1. H 0 : p 1 = p 2
2. =
p1 p 2
1
1
p(1 p ) +
n1 n 2
3. Conclusion : = 5%.
Solution :
Echantillon 1 : n1 = 300
p1 =
K1 = 243.
K2 = 152.
K 1 243
=
= 0,81
n 1 300
Echantillon 2 : n2 = 200
p2 =
K 2 152
=
= 0,76
n 2 200
IC(p1 ) = ?
0,81 1,96
IC(p 2 ) = ?
0,81 0,19
0,81 0,19
p1 0,81 + 1,96
300
300
0,76 0,24
0,76 0,24
p 2 0,76 + 1,96
200
200
IC(p 2 ) = [0,70;0,82]
0,76 1,96
p1
0,70
0,77
p2
082
0,85
p=
=
K 1 + K 2 152 + 243
=
= 0,79
n1 + n 2
500
0,81 0,76
1
1
0,79 0,21
+
300 200
= 1,35
Conclusion :
= 5%
< 1,96 H0 est accepte, les 2 tests ont un pouvoir de dtection sensiblement gal.
p1 =
K1
K
K
, p1 = 1 ,.........., p m = m
n1
n1
nm
q1 =
n1 K1
n K2
n Km
,q2 = 2
,.........., q m = m
n1
n2
nm
Prsence caractre A
Absence du caractre A
Total
Echantillon 1
K1
n1 - K1
n1
Echantillon 2
K1
n2 K2
n2
K1
nm Km
nm
.
.
.
.
Echantillon m
p0 =
K 1 + K 2 + ........... + K m
n 1 + n 2 + .......... + n m
Ci = n i p 0
ech 1 C1 = n 1 p 0
M
ech m C m = n m p 0
Prsence caractre A
Absence du caractre A
Total
Echantillon 1
C1 = n1p0
n1 C1
n1
Echantillon 2
C2 = n2p0
n2 C2
n2
Echantillon m
Cm = nmp0
nm C m
nm
Le problme pos peut tre ramen un test de conformit dune rpartition exprimentale
une rpartition thorique.
Effectif exprimental : K1, K2,., Km.
Effectif thorique : C1, C2,., Cm.
A partir de a on peut calculer le .
ddl = m 1
(K
C i )
Ci
(m : nbre dchantillon)
= 5%.
Ex :
Une maladie est traite dans 4 hpitaux, en appliquant dans chaque hpital un
traitement diffrent, on a trouv les observations suivantes :
Cas de gurison
Cas de non
gurison
malades traits
% de gurison
Hpital 1
123
28
151
81,4
Hpital 2
95
19
114
83,3
Hpital 3
152
63
215
70,6
Hpital 4
132
53
185
71,3
total
502
163
665
75,6
502
= 0,756
665
Cas de gurison
Cas de non
gurison
malades traits
% de gurison
C i = ni p0
ni - C i
Hpital 1
144
37
151
75,6
Hpital 2
86
28
114
75,6
Hpital 3
162
53
215
75,6
Hpital 4
140
43
185
75,6
total
502
163
665
75,6
(123 144) + (95 86) + (152 162) + (132 140) + (28 37) + (19 28) + (63 53)
144
(53 48)
+
48
= 11,11
86
162
140
37
28
53
m = 4 1 = 3
02, 05;3 7,82
2 <
1-
=5%
=1%
2- T1 T2 T3 T4
3- T2 > T1 > T4 > T3
Fobs =
Fobs
12
22
12 =
(x
SCE 1
n 1
= 1
SCE 2
n2
X )
SCE
(chantillon )
n
2- Test de Bartlett :
H 0 : 12 = 22 = .............. = 2p
2
obs
=
i =1
1+
1
1
1
3(p 1) i =1 n i 1 n p
SCE
np
SCE i
i2 =
ni 1
V- Test dindpendance :
(Analyse bivarie, statistique bivarie).
5.1 Variable alatoire caractre qualitatif :
5.1.1 Comparaison de plusieurs rparations observes :
Dans les tests prcdents le consistait gnralement trouver si une distribution
observe differt dune distribution thorique connue.
Nous allons utiliser le test pour comparer entre elles, des distributions relatives
plusieurs chantillons afin de dterminer si les diffrences observes sont significatives.
Dans ce cas les donnes figurent en gnral dans un tableau double entre (r,l).
Ce tableau constitue une distribution deffectifs associs 2 variables.
Classes
Echantillons
Classe 1
Classe 2 .. Classe r
Total
Ech 1
O11
O12
O1r
n1
Ech 2
O21
O22
O2r
n2
Ech l
Ol1
Ol2
Olr
nl
Total
ni n j
n
O ij C ij
(
=
C ij
ddl = (l 1)(r 1)
Il faut lire le dans la table
H0 est rejete : il y a une dpendance entre les variables.
< H0 est accepte : il y a une indpendance entre les variables.
AB
Total
Homme
25
215
200
60
500
Femme
15
207
194
60
476
Total
40
422
394
120
976
Sexe
Solution :
H0 : il existe une indpendance entre les groupes sanguins et le sexe.
G.S
Sexe
AB
Total
Homme
500
Femme
19,50
205,8
476
Total
40
422
192,15 58,52
394
120
976
2
2
2
2
2
(
(
(
(
(
25 20,49)
215 216,9)
200 201,84)
60 61,47)
15 19,51)
=
+
+
+
+
20,49
(207 205,81)
205,81
216,9
(194 192,15)
192,15
201,84
(60 58,52)
61,47
19,51
58,52
= 2,154
ddl = (4 1)(2 1) = 3
< H0 est accepte entre les G.S et le sexe il existe une indpendance.
5.1.2 VA quantitative :
Dans ce cas ltude statistique porte simultanment sur 2 ou plusieurs variables caractre
quantitatif, le problme est de dterminer sil existe une liaison (corrlation) entre les
variables pour un m^me individu.
Les variables pour un mme individu.
(Lobjectif est de trouver cette corrlation).
Dterminer une corrlation entre 2 VA revient caractriser leur egr de dpendance par
un coefficient numrique.
x
Liaison non fonctionnelle linaire
(x de dpendance)
y = ax + b
x
Liaison fonctionnelle
exprimentale
Rgression simple
On chercha trouver une liaison mathmatique entre la variable y et x.
y=ax+b
model dterministe.
y = a x + b+
= 0
X = {x1, x2, ., xi}
Y = {y1, y2, ., yi}
= {1, 2, .., i}
Dterminer le modle revient dterminer les constantes a et b cest lobjectif de la
rgression simple.
Remarque : Elle est dite simple parce que Y est expliqu par un seul caractre (Variable)
X.
y
y=ax+b
yi
yi*
xi
e = y i y *i = 0
(y
)
(y y ) = 0
i
(y
y*i
*
i
ax i b ) = 0
y ax b = 0
i
a x i Nb = 0
a x i = Nb b =
N : taille de lchantillon
N
b = y aX
X : moyenne de la variable X
Y : moyenne de la variable Y
(y
) (y
y *i =
axi b)
(y axi y + ax )
= [(y y) a (x x )]
i
a=
(y y)(x x )
(x x )
(y y)(x x )
i
a=
N
(x i x )
Cov(x , y )
Var (x )
N
Ex : soit un chantillon avec la distribution suivante :
xi
10
12
14
yi
11
14
18
20
23
(x x ) (x x )(y y)
[ (x x )] N (x x)
(x x )(y y)
b=
(x x )
C=
a=
N.C
(x i x )
corrlation
y
y = -ax + b
y = ax + b
r=
Cor (x , y )
Var (x ).Var (y )
(x
(x
x )(y i y )
x ).(y i y )
Cor (x , y )
x . y
r : Coefficient de corrlation vaut +1, -1 dans le cas dune liaison fonctionnelle, il vaut 0
dans le cas contraire donc il y a une indpendance entre X et Y pas de corrlation
r = 1, r = -1 il y a une dpendance entre X et y de liaison.
Remarque : Dans la pratqieu on utilise non pas le r mais r dans ce cas r est positive
[0,1] par fois r est appel coefficient de dtermination.
Ex : Trouver pour lexemple prcdent :
r=
Cor (x , y)
r = 0,99
Celui la veut dire que 99% de la variation y est explique par la variation de X ou bien, on
peut dire que 99% de la variation de X est explique par le model de rgression suivant
Y= 1,32 x + 4,5.
Les 2 variables x, y sont corrles mais attention cette corrlation doit subit le test de
signification pour quelle soit accepte.
Une bonne corrlation nimplique pas toujours un bien de causalit.
Teste de corrlation :
H0 : r = 0
Notre objectif est de tester si le r retrouv differt significativement d 0 .
A laide de t =
r
1 r2
n2
Solution :
H0 : r = 0
ddl = 37 2 = 35
A partir de la table 6 et a = 5% avec ddl = 35 on a lu r = 0,3246
r < r (0,28 < 0,32) H0 est accepter r nest pas significatif pour conclure une
dpendance entre les 2 variables.
Les 2 variables sont compltement et ne peuvent tre corrles mme = 1% r = 0,41.
Remarque :
-
Pour avoir une bonne corrlation qui est significative il faut que lchantillon soit
grand.
On peut utiliser la table 6 pour avoir la taille minimale n qui doit avoir
lchantillon afin darriver une corrlation significative pour quelconque.
(1 + r )
Ln (1 + r ) Ln (1 r ) 1
= Ln
(1 r )
2
2
2
1+ r
et Z = 1,1513Log
1 r
Z = Arg thr
Z=
1
0,
.
N 3
En choisissant un risque derreur , on peut dterminer un intervalle Z [ Z/2, Z1-/2].
1
0,
N 3
Z
Z/2
Liaison
fonctionnelle
Z1-/2
Pas de liaison
fonctionnelle
Liaison
fonctionnelle
pas de corrlation.
liaison fonctionnelle
r = 0,97.
Z0
Z0
Z = t S
=
1
S
n3
si = 5% t = 1,96 Z[ 1,96;+1,96]
t=
si = 1% t = 2,58 Z[ 2,58;+2,58]
Prcision de la corrlation :
Lvaluation de la prcision dune corrlation consiste dterminer lintervalle de
confiance (IC) des valeurs estimes par y par le model de rgression (Ex : y = a x + b)
avec un risque derreur .
IC se calcul comme suit :
y = y i t VR
VR =
1- r
y)
N2
1 - r y i Ny
2
VR =
(y
(VR : varience)
N2
P(yi-y) = p(E)
cart de la corrlation
N(0, VR )
y
1,96 VR
+ 1,96 VR
= 5% y
+ 1,96 VR
Y=a x + b
1,96 VR
obs =
Z1 Z 2
1
1
+
n1 3 n 2 3
obs =
Z1 Z 2
n3
2
obs =
Z2 = 1,1784
0,364 1,178
7
2
[tabule].
= 1,52
(n
= (n i 3)(Z i Z)
p
2
obs
avec Z =
i =1
i =1
p
(n
3)Z i
i
3)
i =1
2
On rejet lhypothse nulle lorsque obs
est trop lev
2
2
obs
> ddl
avec
ddl = p 1
i =1
r2 = 0,827
r3 = 0,667
, r4 = 0,807
Solution :
H0 : r1 = r2 = r3 = r4
Z = 0,8666
Z1 = 0,3643
Z2 = 1,1784
Z3 = 0,8054
Z4 = 1,1183
2
obs
= (n 3)SVE Z = (10 3).0,4166 = 2,92
dll = 4 1 = 3
et
= 5%
= 7,81
2
2
02, 05;3 > obs
H0 est accepte au seuil de 5%.
Remarque importante :
Quand une hypothse dgalit de 2 ou plusieurs coefficients de corrlation est
accepte des problmes peuvent se poser tel que la recherche dune estimation
commune de coefficient de corrlation et des limites de confiance correspondante. La
meilleure estimation est obtenu par lintermdiaire de la moyenne pondre des
valeurs transformes Z .
r =
e 2Z 1
e 2Z + 1
1
n 3p
Z1 = Z
1
n 3
on utilise
t
n 3p
Z2 = Z +
t
n 3p
r =
Rgression multiple
NB : Lorsque H0 est rejete donc on doit faire la comparaison multiple des moyennes.
Ex : r1 r2 r3 r4, lorsque H0 est rejete et on a r1 et r2 on prend r le plus lev.
Dans le cadre dune rgression on a vu la corrlation se fait entre 2 variables mais en
pratique cela ne suffit pas car la majorit des variables dpendent de plus dun facteur
ou dune variable.
Si on dsigne par y le rendement agricole dune culture y = R dt il est vident que ce
rendement dpend de plus dun facteur dont on peut citer : les engrais (X1), eau (X2),
climat (X3), .Xn
y = 0 + 1X1 + 2X2 + .+ nXn
X1, X2, X3, .., Xn : variable
0, 1, 2, .n : coefficient de rgression.
Le principe consiste dterminer 0, 1, 2, .n la dtermination de coefficient
de rgression (i) se fait sur la base des donnes empriques des variables tudies par
la mthode des moindres carrs.
Ex :
X : ge de la mre
y : poids du bb la naissance.
Z : rang de la naissance.
On doit fixer par exemple Z pour trouver la relation entre Z, y, X on peut fixer
nimporte quelle variable X, y ou Z.
rXy = 0,24
ryZ = 0,28
rXZ = 0,60
nest pas ncessaire de recourir de telle srie car on peut partir de 3 coefficient de
corrlation rXy, rXZ, ryZ estimer les coefficient corrlation partielles par les formules
suivantes :
1- Matrice de corrlation :
X
rXy
rXZ
rXy
rXZ
rXZ
rXy
ryZ,X =
(r r .r )
(1 r )(1 r )
yZ
yX
2
yX
XZ
2
ZX
rZX , y =
(r r .r )
(1 r )(1 r )
ZX
Zy
2
Zy
Xy
2
Xy
rXy , Z =
(r r .r )
(1 r )(1 r )
Xy
XZ
2
XZ
yZ
2
yZ
rXy,Z est par exemple une estimation de la relation fonctionnelle entre X et y pour Z
constant .
Solution :
rXy , Z =
rZX , y =
ryZ,X =
0,24 (0,60.0,28)
(1 0,60)(1 0,28)
0,60 (0,28.0,24)
(1 0,28)(1 0,24)
0,28 (0,24.0,60)
(1 0,24)(1 0,60)
= 0,09
r
1 r
n3
Exemple prcdent :
H0 : r = 0
t=
0,09
200 3
1 0,09
t = 1,26
ddl = 197 et =5% 1,26 < 1,96 le test nest pas significative au seuil de 5% H0 est
accepte.
Pour ryZ,X = 0,18 t =
0,18
1 0,18
200 3 = 2,56
ddl = 197 et =5% 2,56 > 1,96 le test est significative H0 est rejete.
travers cet exemple on peut citer les rsultats suivants :
-
Par contre pour une srie de naissance de rang donn il ny a pas de relation
significative entre le poids et lge (soit elle nexiste pas ou elle est faible).
Conclusion :
La mthode de corrlation partielle qui est gnralisable un plus grand nbre de
variables apporte dons un moyen dinvestigation original et puissant
Z = 0 v + 1 X 1 + 2 X 2
2Xy , Z
R = 1 2
Z
avec
2
Z
(Z
=
Z)
SCE Z
n
2
Xy , Z
SCE Z
=
n3
2
2
rXZ
+ ryZ
2rXy rX ryZ
1
2
1 rXy
Remarque :
Pour chaque coefficient de corrlation on doit calculer IC.
Lanalyse de la variance
ANOVA
Introduction : Lorsquon fait une exprience, on fait souvent affecter des facteurs quon
appelle souvent traitement ou objets (par exemple : dose dazote, dose derrigation..).
On veut donc savoir leffet de ces facteurs sur 1 ou plusieurs variables de ces units
exprimentales, ces variables peuvent tre par exemple dans le cas de la production vgtale
les composantes du rendement (poids de mille graines, nbre de pieds par m.) et dans le cas
de la production animale les performances zootechniques de la production (poids, production
laitire).
Ex : Dans chacune des 3 rgions agricoles, on cultive 4 varits de tomate en utilisant 2 sortes
dengrais.
Lordre dvaluation de la production des 3 rgions aprs 1 anne, on pose les 4 questions
suivantes :
1- y a t il une diffrence significative entre les productions.
2- Si oui quel facteur est elle de.
3- Peut on estimer linfluence de chacun des facteurs.
4- Y a-t-il une influence qui est de la combinaison des facteurs.
Sur la base de votre plan dexprience (dispositif exprimental) il ny a que lANOVA qui
peut vous rpondre.
La moyenne gnrale
Fobserv
Fa = Fa =
CM a
CM b
CM ab
; Fb =
; Fab =
CM r
CM r
CM r
ddl
SCE
CM
Fobs
Variabilit factorielle
SCEa, SCEb
CMa, CMb
Fa,Fb
Variabilit de linteraction
SCEab
CMab
Fab
Variabilit du bloc
SCEi
CMi
Fi
Variabilit rsiduelle
SCEr
CMr
Fr
Variabilit totale
Si Fobserv < Fthorique cela veut dire que les facteurs nont pas deffet et dans ce cas
on doit sassurer de la prcision de lessai pour accepter un tel rsultat.
Qui sont indpendantes et qui nont aucun lien de dpendance ou corrlation, cela
veut dire que lerreur commise sur parcelle ne doit pas tre lie lerreur faite sur la parcelle
voisine.
Qui ont la mme variance (mme dispersion) dans tous les traitements et dans tous
les blocs, cela veut dire que les erreurs doivent tre de mme ordre de grandeur ou presque
quelque soit le bloc ou le traitement.
le coefficient dasymtrie 1 =0
le coefficient dasymtrie 2 =3
Lindpendance des donnes est dtecte par une reprsentation graphique des
rsidus sur le plan mme de lessai tel quil a t mis en place.
Lensemble des rsidus est divis en quatre tranches dont chacune est reprsente par un
symbole.
Tant que la rpartition de ces symboles sur lessai est purement alatoire et n donne aucun
schma structur, on peut dire que les rsidus ou les observations tudies sont indpendantes.
Il faut dire que cette solution est subjective et arbitraire.
Lgalit des variances qui est donne sous forme dune hypothse H0 est teste
par la mthode de Bartlet qui consiste calculer un paramtre qui suit une loi de ddl gal
au nbre de traitement ou au nbre de bloc moins 1 (K 1) avec une probabilit de calculer p.
(bien sr un risque derreur gnralement gal 5% ou 1%)
Si p > on conserve lhypothse H0 (galit des variances).
Si p < on rejette H0 (les variances sont ingal).
1-1.
A2
Aj
Ak
y11
y12
y1j
y1K
E2
Y21
Y22
Y2j
y2K
Ei
Yi1
Yi2
Yij
yiK
En
yn1
yn2
ynj
ynk
Moyenne
y1
y2
yj
yK
Variance
S12
S22
S j2
SK2
E1
y1 =
j1
n j1
n
y
y=
ij
i =1 j=1
ni
(y
S =
2
j
yc
variance de la production laitire des vaches qui ont consomm laliment
n j 1
Aj.
(y
n
S =
ij
i =1 j=1
n 1
1-2.
Estimation du modle :
Variabilit totale = Va + Vr
) (
)
(y y) = (y y) + (y y )
(y y) = (y y) + (y
(y y) = n (y y) (y
y ij y = y j y + y ij y j
ij
ij
ij
ij
ij
ij
)
y )
yj
j
Et une SCE rsiduelle (SCE entre les chantillons) SCEr en divisant les SCE sur
les ddl respectifs, on obtient ce quon appelle les carrs moyens qui serviront de base pour
rejeter ou accepter H0.
SCE b
ddl
SCE a
CM a =
K 1
SCE r
CM r =
nK
CM t =
Fobs =
CM a
CM r
une valeur observe dune variable F de Fischer Sendecor qui est lu partir
1-3.
Tableau de lANOVA :
Source de variation
ddl
SCE
CM
K-1
SCEa
CMa
Variation rsiduelle
nK
SCEr
CMr
Variation totale
n-1
SCEt
Si Fobs F
K 1, n K
Fa =
CM a
CM r
K 1, n K
A1
A2
A3
38
42
30
40
45
32
41
43
41
35
44
34
36
39
33
Tester lhypothse que les aliments nont aucun effet sur la production laitire des vaches.
Solution : = 5%
1) y1 = 38,00 ; y 2 = 42,60 ; y 3 = 34,00 ; y = 38,20
2)
3)
CM a =
SCE a 185,2
=
= 92,60
K 1 3 1
CM r =
SCE r 117,2
=
= 9,77
n K 15 3
4) Fobs =
CM a 92,60
=
= 9,48
CM r
9,7
Source de variation
Variation entre facture
Variation rsiduelle
Variation totale
F
= 3.89
Fobs > F
DDL
2
12
14
SCE
185.2
117.2
302.4
CM
92.60
9.77
ET
CV
9.48
0.0035
3.13
8.2 %
On remarque que F obs est suprieur F thorique (ou la probabilit P = 0.0035 < 5 ce qui
indique que lalimentation bien un effet sur la production litire )dans ce cas , on dit que le
traitement est signification , il est mme hautement signification puisque P est aussi infrieur
1% et le F obs est largement suprieur F thorique mais la question qui reste est quel aliment
A1, A2, A3, qui donne la meilleur production laitires , cest pour ce la quon doit passer la
comparaison multiple des moyennes C M M pour rpondre une telle question .
Il faut remarquer aussi lcart type rsiduel qui est lerreur globale de lessai.
D habitude cest le 1er paramtre voir car il indique la prcision de lexprience,
apparemment notre essai est assez prcis pour accepter les rsultats de l ANOVA puisque
ET = 3.13 qui est une valeur assez faible.
{ge entre 3 et 5}
B2 :
{ge entre 5 et 9}
bre
de traitement c--d
On fait la mme chose aux 2 autres blocs et cest pour ce la quon parle du dispositif
Si on constituer
units
exprimentales.
2-1 Prsentation des donnes :
BLOC1
T1
y11
T2
y12
BLOC 2
y21
y22
.
.
.
.
.
.
.
.
.
.
.
.
BLOC i
y i1
y i2
.
.
.
.
.
.
.
.
.
.
.
.
BLOC n0
yno1
yno2
y1.
y2.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
TJ
y1j
y2j
.
.
.
.
y noj
.
.
.
.
ynoj
yj.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
TK
y1k.
y.1
y2k
y.2
.
.
.
.
.
.
.
.
ynok
y.no
.
.
.
.
.
.
.
.
ynok
y.no
yk.
n0 : nbre de bloc
K : nbre de traitement
n + noK
1
y ij
n
1
y i = y i = moyenne par bloc i.
K
1
y j =
y j = moyenne par traitemlent j.
n0
y=
(y
y = n 0 y j y + K y j y + y ij y C y j + y
2
ij
SCE t
n 1
SCE a
CM a =
K 1
SCE G
CM G =
n0 1
CM t =
CM r =
SCE r
(n 0 1)(K 1)
n 0 : bloc
, K : traitement
On peut caculer
Fa =
CM a
CM r
FG =
CM G
CM r
DDL
K- 1
n0-1
(K-1) (n0-1)
n-1
SCE
SCE a
SCEG
SCEr
SCEt
CN
CMA
CMg
CMR
CMt
F
Fa
FG
F
F k1(k1)(no-1)
F NO-15K-15NO-1)
EX :
Les rsultas suivants relatifs la teneur en cendre (exprim en %) ont t obtenus par
lintermdiaire dun essai en bloc alatoire complet des tir comparer linfluence de la
fumure diffrente sur une mme varit du tabac.
En fonction de ce rsultat doits on conclure lexistence des diffrences significative
due au fumure ?
Fumures
BLOC 1
BLOC 2
01
02
03
04
05
06
07
21.3
18.3
19.1
19.9
19.3
19.8
19.0
2204
19.9
22.6
24.6
23.0
22.2
22.2
BLOC 3
20.4
20.0
19.8
19.3
19.9
19.1
20.2
Solution :
H 0 : Y1 = Y2 = .............. = Y7
Y1 = Y2 = Y3
Y1 = 21,36 ; Y2 = 19,4 ; Y3 = 20,5 ; Y4 = 21,26 ; Y5 = 20,73 ; Y6 = 20,52
Y7 = 20,6
Y1 = 19,52 ; Y 2 = 22,41 ; Y3 = 19,81
Y = 20,58
SCE t = (21,3 20,58) + ................................. + (20,2 20,58) = 53,03
2
[
= 7[(19,52 20,58)
SCE G
SCE a 7,66
=
= 1,277
3 1
6
SCE G 35,45
CM G =
=
= 17,7289
3 1
6
SCE r
9,9155
CM r =
=
= 0,8262
(7 1)(3 1) 12
SCE t
53,038
CM t =
=
= 4,8216
[(7 1)(3 1) 1] 11
CM a
Fa =
= 1,546
CM r
CM a =
FG =
CM G
= 21,458
CM r
Source de variable
Variable factorielle
Variable du bloc
Variable rsiduelle
Variable totale
ddl
6
2
12
20
SCE
7.6647
35.4578
9.9155
53.038
CM
F
1.277
1.546
17.7289
0.8262 21.456
F
3.00
3.89
Puisque Fobs = 1.54 < Ftheo = 3 les fumures sont identiques et quil ny a aucune
diffrence entre elles.
On remarque aussi que les blocs sont htrogne et nont pas t bien contrls car
21.45 > 3.89 donc il y a effet bloc.
er
me
critre (race).
Si les traitements sont reprsents par A, B , C on peut rsumer le carr latin par le
tableau suivants :
Race
Age
y11(1)
y12(2)
.
.
.
y ij(j)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
BH
i
.
.
.
r
.
.
.
y ij(I+j)
..
r
yir (r)
.
.
.
.
.
.
yi1(1)
yi2(I+2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
yr1(r)
yn2(r)
.
.
.
ynj(r)
.
.
.
.
.
.
yir(1)
.
.
.
y2r(r-1)
y11(1) : cellule (1,1) qui a utilis le traitement 1 ou traitement 1 figurant dans le BH1 et BV 1
On calcul de ce tableau les quantits suivantes :
La moyenne des B H : y j =
1
y ijK
r jK
La moyenne des B V : y j =
1
y ijK
r jK
La moyenne totale : y =
1
y ijK
r
1
y ijK
r jK
SCE t = y ijK y
SCE a = r (y K y)
SCE BH = r (y i y )
SCE BV = r y j y
= y ij y i y K y j + 2 y
SCE a
r 1
SCE BH
CM BH =
r 1
SCE BV
CM BV =
r 1
SCE t
CM t =
r 1
SCE r
CM r =
(r 1)(r 2)
3-3 Tableau de lANOVA :
CM a =
Source de variable
Variable inter traitement
ddl
R-1
SCE
SCEa
CM
CMa
R-1
SCEBH
CMBH
R-1
SCEBV
CMBV
(r-1)(r-2)
r2 - 1
SCEr
SCEt
CMr
CMt
Variable rsiduelle
Variable totale
F
CM a
Fa =
CM r
CM BH
FBH =
CM r
CM BV
FBV =
CM r
Ex :
20
80
15
25
185
242
177
214
15
25
20
209
30
238
117
229
3M
30
20
25
15
200
200
222
154
3M
25
15
30
218
174
247
20
205
6M
Un essai de chauffage du sol ralis en serre sur une varit dcorative de ficus
elastica R.
Les tempratures du sol prises en considration sont 15.20 .25 et 30 C 12cm de
profondeurs les autres condition de
exprimentales sont des par celles de 9 plantes cultives en pots enfoncs enterre, on mesure
laccroissement moyen en hauteur de la plante en mm faites les analyses ?
Solution :
BV
BH
1
2
3
4
y j
185
117
200
218
180
2
242
229
200
174
211.25
3
177
209
222
247
213.75
4
214
238
154
205
164.3125
H 0 taritemeent : y 1 = y 2 = y 3 = y 4
contole
BH : y1 = y 2 = y 3 = y 4
BV : y 1 = y 2 = y 3 = y 4
CM BH
220
=
= 2,08
CM r
105,5
FBV =
CM BV
944
=
= 8,94
CM r
105,5
y i
204.5
198.25
194
211
Y=201.9375
Source de variable
Temperature
ddl
3
SCE
13616
CM
4539
F OBS
43
F tho
4.76
BH
661
220
2.09
4.76
BV
variable rsiduelle
Totale
3
6
15
2833
633
177743
944
105
8.94
4.76
Puisque F obs > F tho Ho est rejete (elle supposait lgalit des 4 temprature)
Cela veut dire que la diffrence entre ces moyennes est hautement significative ce
qui indique que le facteur temprature a une influence trs marqu sur laccroissons de la
plante tudie.
Mais la question qui se pose toujours est quelle temprature est la plus significative ?
- Concernant les blocs horizontale on remarque que 2.09 > 4.76 cela traduit le bon contrle de
BH.
- Concernant les blocs verticaux on remarque que 8.94 > 4.76 cela traduit le mauvais contrle
des B V , apparemment ce mauvais contrle est due la position des 2 sries.
Si
Fobs < Ftho H0 est accepte et on dit que le traitement est nom signification et
Facteur B 1
Facteur A
1
y11/1
y12/1
y1j/1
y11/2
y12/2
y1j/2
y11/k
y12/k
y1j/k
yi1/1
yi2/1
yij/1
yi1/2
yi2/2
yij/2
yi1/k
yi2/k
yij/k
yij/k = Kme production de la par celle qui a utilis le niveau du facture A et le niveau J du
.
facture B.
.
etc
Gnralement, on calcule les quantits suivantes :
1 K
y ij k
K 1
1
y ij k
JK j k
La moyenne gnrale : y =
1
y ij k
IJK i j k
avec I J K = n
on a dj dit que :
SCEt = SCEa + SCEb + SCEab + SCEr
avec :
SCE t = y ij y n 1ddl
k
i
j
k
I
SCE a = JK (y i y) I 1 de ddl
i
SCE b = IK y j y J 1 de ddl
j
SCE ab = K y ij y i y j y
i
(I 1) (J 1)de ddl
= y ik y ij IJ (K 1) de dll
i
CM t =
CM ab
CM a
CM r
Fa =
1-1
, Fb =
CM b
CM r
, Fab =
CM ab
CM r
Tableau de l ANOVA :
Source de variabilit
- V. facteur A
- V . facteur B
- Interaction A B
- V . rsiduelle
V . Totale
ddl
I1
J1
(I - 1) (I -1)
IJ ( K 1 )
n-1
SCE
SCEa
SCEb
SCEab
SCEr
SCEt
CM
CMa
CMb
CMab
CMr
CMt
F
Fa
Fb
Fab
P
Pa
Pb
Pab
= 5 ou = 1% pour V1 = J 1 et V2 = IJ (K 1)
= 5 ou = 1% pour V1 = (I 1)(J 1) et V2 = IJ (K 1)
SCE r = y ijk y = (1 1) = 0
C
et
SCE t = SCE a + SCE b + SCE ab
Facteur B
Facteur A
1
2
.
.
.
.
I
y11
y12
.
.
.
.
y1I
y12
Y22
.
.
.
.
YI2
y1J
.
.
.
.
.
yIJ
SCE
I1
CM
SCEa
F
CMa
V. facteur B
J1
SCEb
CMb
V. facteur AB
Variation total
(I-1)(J-1) SCEab
n-1
CM a
CM ab
CM b
Fb =
CM ab
Fa =
CMab
Notons bien ici que le test de signification des facteurs se fait par rapport
linteraction (CMab) puisquil nexiste pas le CMr (CMr). Ici on ne peut pas tudier
linteraction des 2 facteurs par manque dobservation.
A cet effet et pour ce genre de dispositif, il est trs conseill de faire plusieurs
observations (rptitions) dans les cellules (i,j) pour bien apprcier leffet des facteurs et
surtout leffet de linteraction.
Il faut noter que pour la comparaison des moyennes par PPDS et en PPAS et
pour ce genre de situation (K = 1) il faut utiliser le CMab au lieu de CMr comme carr moyen
de comparaison (voir chapitre de comparaison multiple des moyennes).
3- Dispositif en blocs alatoires complets avec par celles divises (ou split splot) 2
facteurs :
Supposons quon a
I niveaux du facteur A.
et
J niveau du facteur B.
et
K bloc
Le principe du split splot consiste en une rpartition des facteurs en deux tapes.
La 1re tape est une rpartition classique des I niveau ou variantes du facteur A au
sein des K blocs, conduisant la dlimitation de I K parcelles ou unit du premier degr aussi
appeles grandes parcelles.
La 2me tape consiste ensuite en une rpartition alatoire et indpendante des J
niveaux ou variantes du facteur B lintrieur des I K grandes parcelles, de manire
constituer I J K sous parcelles ou petites parcelles ou unit de 2me degr.
Bloc 1
Bloc 2
Petite
parcelle
Grande
parcelle
variation de grande par celle, petite parcelle, leur interaction avec les
Mais il faut que dans le split splot , on a souvent remarqu que le facteur affect dans
les grandes parcelles est dot dun risque derreur important par rapport au facteur affect
dans les petites parcelles .
Cest pour cette raison quil faut toujours affecter aux petites parcelles le facteur dont
on veut savoir leffet direct sur les variables analyss c-- d le facteur le plus important.
Quand on fait lANOVA, et on arrive trouver un Fobserv trop grand par rapport au
Fthorique ou P < on peut conclure que notre traitement est significatif, cela veut dire tout
simplement quon rejette lhypothse de dpart H0, qui suppose lgalit des moyennes.
Rejeter HO rejette revient dire que :
m1 m2 . mn
Mais le problme maintenant est de savoir quelles sont les moyenne (ou traitement)
qui sont effectivement diffrentes c-a-d quel niveau la diffrence est significative; autrement
dis quelles sont les causes qui nous ont conduire ho, et par consquent quel est le traitement le
plus efficace parmi les autres pour cela on va faire la comparaison multiple des moyennes est
ce niveau, on a 2cas aborder :
1/ un cas ou on a labsence dun tmoin c--d que les facteurs ou traitements tudis
jouent le mme rle ; et sont placs au mme pied dgalit , dans ce cas on utilis souvent
pour la comparaison des moyennes :
Le teste de la PPDS
Le test de la PPAS.
2/ quand parmi les traitements tudis, on la prsence dun tmoin ou dune
Le test de PPES
des moyennes chaque fois que la diffrence entre 2 moyenne m i m i ' est
Dans il suffit uniquement de calculer la PPDS et faire la diffrence entre les moyennes
(2 2), et toute diffrence (m1, m2) qui est gale ou suprieure la PPDS est considre
comme significative (DS), et toute diffrence (m1, m2) qui est infrieure la PPDS est
considre comme non significative (NS) ce la veut dire que ces 2 traitements sont identiques,
mme sils donnent 2 rsultats diffrents.
Mais maintenant comment calculer cette PPDS ?
PPds = t
1
2
2CM r
n
avec :
CMr, carr moyen rsiduel (il est indiqu sur le tableau de lANOVA )
n : nbre dobservation qui interviennent dans chacune des moyennes.
t
PPds = t
1
2
2CM ab
q.n
q : nbre de blocs .
P : nbre de traitements
CMab : carr moyen de linteraction .
A 2 Test de la PPAS :
Ce test est celui de NEWMAN (1952) et KEULS (1939), il est bas sur la
comparaison des amplitudes observes pour des groupes de 2, 3,..K
moyenne, avec
PPAS = q 1
CM r
n
Avec :
n : nbre dobservation par unit exprimentale ( par par celle )
CMr : carr rsiduel
q1- : valeur de NEWMAN et KEULS qui doit tre lu partir de la table de
NEWMAN KEULS et ( = 5 ou = 1%) ddl K et P.
P : nber de moyennes considres.
K : ddl du CMr,
Comme pour la PPDS pour les autres dispositifs 2 facteurs et plus (bloc s alatoires
par exemple).
Il faut remplacer CMr par CMab qui a servit de comparaison.
PPAS = q 1
CM ab
n
et la
PPES = d
2CM r
n
Dans dautre dispositif, il faut remplacer le CMr par le CMab qui a servi de base de
comparaison.
Dans ce test de comparaison de moyennes, tout est dclar suprieur (infrieur) au
tmoin ( cd diffrent du tmoin).
moyennes par la mthode de la PPAS (NEWMAN KEULS) en vous cassant les traitements
en groupes homognes nots A,B, .D, en fonction de la comparaison des PPAS de ces
groupes de moyennes.
Alors non diffrent c--d que les traitements correspondants ce groupe sont
identiques.
Dbut
Vrification H0
m1 = m2 = .. = mn
Calcul de lANOVA
yi
y=
n
SCE
CMa, CMb
CM a
CM r
CM a
F=
CM r
H0 est accept
m1 = m2 = = mn
H0 est rejete
m1 m2 mn
Tester la puissance de
lessai
Comparaison des
moyennes
Fin
Organigramme de lANOVA
Dune ligne de variation inter factorielle ou enter traitement (interaction entre facteur
1 et facteur 2 .).
Notons quun fur et mesure que Fobs augmente, la probabilit P sera petite. Mais
gnralement, on fait la comparaison suivante :
Si P < on dira
Si par exemple, la probabilit L, dans un essai, est gale 0.0001, cela signifie quil y
a une chance pour 1000 dobserver des moyennes de traitement aussi diffrentes que celles
obtenues dans lessai si lhypothse H0 est vraie.
Une telle probabilit amnera rejeter cette hypothse pour conclure : il y a des
diffrences hautement significatives entre traitements.
Mais si, dans un quatre essai, la probabilit est de 0,30 on ne pourrez alors que
conserver lhypothse qui suppose lgalit des moyennes des tranement s. Ce pendant il y a
matire porter ce niveau une petite discussion dans la mesure ou 2 cas sont possibles.
1re cas : ou bien les traitement sont effectivement identiques et la conclusion est
correcte (vous pouvez en confrontant votre essai dautre essais similaires, voir sil rejoint les
mme conclusion ou non ).
2me cas : ou bien les traitement sont diffrents mais lessai nest pas assez puissant pur
pouvoir mettre en vidence ces diffrences ( nbre de blocs est insuffisant , cart type rsiduel
trop lev etc.).
Le Ftho doit tre lue (ici) dans la table de snedecor au seuil avec le ddl de la variation
inter factorielle (interaction) et le ddl rsiduel.
Si le Fobs est grand (ou P < ), cela veut dire quil existe une interaction entre les 2
facteurs. Dans ce cas les 2 facteurs dpendent lun de lautre.
Si par contre le Fobs est petit (ou P > ) linteraction est absente , et que les 2 facteurs
peuvent tre traiter sparment .
Fbloc < 1 : Non efficacit de ce facteur (soit que le terrain est parfaitement
homogne, soit que les blocs sont mals disposs )
Fbloc > 1 : le contrle est satisfaisant, plus le F est lev meilleur est lefficacit du
contrle.
N. B : toute fois, il faut se mfier dun F trop lev : si les blocs sont trs diffrents, il y a
risque quils soient en interaction avec les traitement s !!!!.