You are on page 1of 26

FIIFO 3

PROBABILITES - STATISTIQUES

LES TESTS DHYPOTHSE

1.

GNRALITS
1.1. PRINCIPE DUN TEST DHYPOTHSES

Les tests dhypothse constituent un autre aspect important de linfrence statistique. Le principe gnral dun test dhypothse peut snoncer comme suit : On tudie une population dont les lments possdent un caractre (mesurable ou qualitatif) et dont la valeur du paramtre relative au caractre tudi est inconnue. Une hypothse est formule sur la valeur du paramtre : cette formulation rsulte de considrations thoriques, pratiques ou encore elle est simplement base sur un pressentiment. On veut porter un jugement sur la base des rsultats dun chantillon prlev de cette population.

Il est bien vident que la statistique (cest--dire la variable dchantillonnage) servant destimateur au paramtre de la population ne prendra pas une valeur rigoureusement gale la valeur thorique propose dans lhypothse. Cette variable alatoire comporte des fluctuations dchantillonnage qui sont rgies par des distributions connues. Pour dcider si lhypothse formule est supporte ou non par les observations, il faut une mthode qui permettra de conclure si lcart observ entre la valeur de la statistique obtenue dans lchantillon et celle du paramtre spcifie dans lhypothse est trop important pour tre uniquement imputable au hasard de lchantillonnage. La construction dun test dhypothse consiste en fait dterminer entre quelles valeurs peut varier la variable alatoire, en supposant lhypothse vraie, sur la seule considration du hasard de lchantillonnage. Les distributions dchantillonnage dune moyenne, dune variance et dune proportion que nous avons traites dans un chapitre prcdent vont tre particulirement utiles dans llaboration des tests statistiques.

J-P LENOIR

Page 97

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

1.2.

DFINITION DES CONCEPTS UTILES A LLABORATION DES TESTS DHYPOTHSE Hypothse statistique

Une hypothse statistique est un nonc (une affirmation) concernant les caractristiques (valeurs des paramtres, forme de la distribution des observations) dune population. Test dhypothse Un test dhypothse (ou test statistique) est une dmarche qui a pour but de fournir une rgle de dcision permettant, sur la base de rsultats dchantillon, de faire un choix entre deux hypothses statistiques. Hypothse nulle (H0) et hypothse alternative (H1) Lhypothse selon laquelle on fixe priori un paramtre de la population une valeur particulire sappelle lhypothse nulle et est note H0. Nimporte quelle autre hypothse qui diffre de lhypothse H0 sappelle lhypothse alternative (ou contre-hypothse) et est note H1. Cest lhypothse nulle qui est soumise au test et toute la dmarche du test seffectue en considrant cette hypothse comme vraie. Dans notre dmarche, nous allons tablir des rgles de dcision qui vont nous conduire lacceptation ou au rejet de lhypothse nulle H0. Toutefois cette dcision est fonde sur une information partielle, les rsultats dun chantillon. Il est donc statistiquement impossible de prendre la bonne dcision coup sr. En pratique, on met en oeuvre une dmarche qui nous permettrait, long terme de rejeter tort une hypothse nulle vraie dans une faible proportion de cas. La conclusion qui sera dduite des rsultats de lchantillon aura un caractre probabiliste : on ne pourra prendre une dcision quen ayant conscience quil y a un certain risque quelle soit errone. Ce risque nous est donn par le seuil de signification du test. Seuil de signification du test Le risque, consenti lavance et que nous notons de rejeter tort lhypothse nulle H0 alors quelle est vraie, sappelle le seuil de signification du test et snonce = P( rejeter H 0 H 0 vraie) . en probabilit ainsi : A ce seuil de signification, on fait correspondre sur la distribution dchantillonnage de la statistique une rgion de rejet de lhypothse nulle (appele galement rgion critique). Laire de cette rgion correspond la probabilit . Si par exemple , on choisit = 0.05 , cela signifie que lon admet davance que la variable dchantillonnage peut prendre, dans 5% des cas, une valeur se situant dans la zone de
J-P LENOIR Page 98 CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

rejet de H0, bien que H0 soit vraie et ceci uniquement daprs le hasard de lchantillonnage. Sur la distribution dchantillonnage correspondra aussi une rgion complmentaire, dite rgion dacceptation de H0 (ou rgion de non-rejet) de probabilit 1 . Remarques : 1. Les seuils de signification les plus utiliss sont = 0.05 et = 0.01 , dpendant des consquences de rejeter tort lhypothse H0. 2. La statistique qui convient pour le test est donc une variable alatoire dont la valeur observe sera utilise pour dcider du rejet ou du non-rejet de H0. La distribution dchantillonnage de cette statistique sera dtermine en supposant que lhypothse H0 est vraie. Exemple de formulation dun test : Supposons que nous affirmions que la valeur dun paramtre dune population est gale la valeur 0 . On sintresse au changement possible du paramtre dans lune ou lautre direction (soit > 0 soit < 0 ). On effectue un test bilatral.
H : Les hypothses H0 et H1 sont alors : 0 H1 : = 0 0

On peut schmatiser les rgions de rejet et de non-rejet de H0 comme suit :

Si, suite aux rsultats de lchantillon, la valeur de la statistique utilise se situe dans lintervalle [c , c ] , on acceptera H0 au seuil de signification choisi. Si, au
1 2

contraire, la valeur obtenue est suprieure c ou infrieure c , on rejette H0 et on


2 1

accepte H1. Remarque : Si on sintresse au changement du paramtre dans une seule direction, on opte pour un test unilatral, en choisissant comme hypothse H1

J-P LENOIR

Page 99

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

soit > 0 soit < 0 . La rgion critique est alors localise uniquement droite ou uniquement gauche de la rgion dacceptation. Dans un souci de simplification, nous nous intresserons dans ce cours essentiellement aux tests bilatraux.

2.

TESTS PERMETTANT DE DTERMINER SI UN CHANTILLON APPARTIENT A UNE POPULATION DONNE


2.1. TESTS SUR UNE MOYENNE : COMPARAISON DUNE MOYENNE EXPRIMENTALE A UNE MOYENNE THORIQUE DANS LE CAS DUN CARACTRE QUANTITATIF

Nous voulons dterminer si lchantillon de taille n dont nous disposons appartient une population de moyenne m0 au seuil de signification . Nous allons dans tous les tests travailler de la mme faon, en procdant en quatre tapes.

1re tape : formulation des hypothses Lchantillon dont nous disposons provient dune population de moyenne m. Nous voulons savoir si m = m0. H : m = m0 On va donc tester lhypothse H0 contre lhypothse H1 : 0 . H 1 : m m0

2me tape :

Dtermination de la fonction discriminante du test et de sa distribution de probabilit.

On dtermine la statistique qui convient pour ce test.. Ici, lestimateur de la moyenne m, cest--dire X , semble tout indique. On dtermine la loi de probabilit de X en se plaant sous lhypothse Ho. Deux cas peuvent se produire : Premier cas : population Lchantillon est de grande taille ( n 30) ou bien la est normale de variance pop 2 connue.

X suit alors une loi normale de moyenne m0 (puisquon se place sous H0) et pop pop X m0 dcart-type : X > N(m0, ). On pose T = . pop n n n T mesure un cart rduit. T est aussi appele fonction discriminante du test. T > N(0,1).

J-P LENOIR

Page 100

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

Deuxime cas : Lchantillon est de petite taille ( n < 30) prlev au hasard dune population normale de variance pop 2 inconnue. Dans ce cas la fonction discriminante du test sera : T = Ici 3me tape : T > Tn-1 (loi de Student (n-1) degrs de libert).
X m0 ech n 1

Dtermination des valeurs critiques de T dlimitant les zones dacceptation et de rejet

On impose toujours la zone dacceptation de H0 concernant lcart rduit dtre centre autour de 0. Il nous faut donc dterminer dans la table la valeur maximale t de lcart rduit
2

imputable aux variations dchantillonnage au seuil de signification , cest--dire vrifiant : P( t T t ) = 1 .


2 2

4me tape :

Calcul de la valeur de T prise dans lchantillon et conclusion du test

On calcule la valeur t0 prise par T dans lchantillon. Si la valeur t0 se trouve dans la zone de rejet, on dira que lcart-rduit observ est statistiquement significatif au seuil . Cet cart est anormalement lev et ne permet pas daccepter H0. On rejette H0. Si la valeur t0 se trouve dans la zone dacceptation, on dira que lcartrduit observ nest pas significatif au seuil . Cet cart est imputable aux fluctuations dchantillonnage. On accepte H0.

2.2.

TESTS SUR UNE PROPORTION

Nous nous proposons de tester si la proportion p dlments dans la population prsentant un certain caractre qualitatif peut tre ou non considre comme gale une valeur hypothtique p0. Nous disposons pour ce faire de la proportion dlments possdant ce caractre dans un chantillon de taille n. Nous allons procder comme au paragraphe prcdent, en quatre tapes.

J-P LENOIR

Page 101

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

1re tape : formulation des hypothses

Lchantillon dont nous disposons provient dune population dont la proportion dlments prsentant le caractre qualitatif est p. Nous voulons savoir si p = p0. H 0 : p = p 0 On va donc tester lhypothse H0 contre lhypothse H1 : . H : p p 1 0

2me tape :

Dtermination de la fonction discriminante du test et de sa distribution de probabilit.

On dtermine la statistique qui convient pour ce test. Ici, lestimateur de la proportion p, cest--dire F, semble tout indique. On dtermine la loi de probabilit de F en se plaant sous lhypothse Ho. On suppose que lon dispose dun grand chantillon ( n 30) et que p nest pas trop petit (de manire que lon ait np 15 et n(1 - p) 15) . F suit alors une loi normale de moyenne p 0 (puisquon se place sous H0) et p 0 (1 p 0 ) p 0 (1 p 0 ) dcart-type : F > N(p0, ). n n On pose T = . T mesure un cart rduit. p 0 (1 p 0 ) n T est aussi appele fonction discriminante du test. T > N(0,1). 3me tape :
F p0

Dtermination des valeurs critiques de T dlimitant les zones dacceptation et de rejet

On impose toujours la zone dacceptation de H0 concernant lcart rduit dtre centre autour de 0. Il nous faut donc dterminer dans la table la valeur maximale t de lcart rduit
2

imputable aux variations dchantillonnage au seuil de signification , cest--dire vrifiant : P( t T t ) = 1 .


2 2

J-P LENOIR

Page 102

CHAPITRE 6

FIIFO 3 4me tape :

PROBABILITES - STATISTIQUES

Calcul de la valeur de T prise dans lchantillon et conclusion du test

On calcule la valeur t0 prise par T dans lchantillon. Si la valeur t0 se trouve dans la zone de rejet, on dira que lcart-rduit observ est statistiquement significatif au seuil . Cet cart est anormalement lev et ne permet pas daccepter H0. On rejette H0. Si la valeur t0 se trouve dans la zone dacceptation, on dira que lcartrduit observ nest pas significatif au seuil . Cet cart est imputable aux fluctuations dchantillonnage. On accepte H0. Nous tudierons ces sortes de tests sur des exemples en travaux dirigs.

3.

RISQUES DE PREMIRE ET DE DEUXIME ESPCE


3.1. DFINITIONS

Tous les rgles de dcision que nous avons dtermines acceptaient un risque qui tait le risque de rejeter tort lhypothse H0, cest--dire le risque de rejeter lhypothse H0, alors que H0 est vraie. Ce risque sappelle aussi le risque de premire espce. La rgle de dcision du test comporte galement un deuxime risque, savoir de celui de ne pas rejeter lhypothse nulle H0 alors que cest lhypothse H1 qui est vraie. Cest le risque de deuxime espce. Les deux risques peuvent se dfinir ainsi : = P( rejeter H 0 H 0 vraie) = probabilit de comm ettre une erreur de premire espce = P( ne pas rejeter H 0 H 1 vraie) = probabilit de comm ettre une erreur de deuxime espce Le risque de premire espce est choisi priori. Toutefois le risque de deuxime espce dpend de lhypothse alternative H1 et on ne peut le calculer que si on spcifie des valeurs particulires du paramtre dans lhypothse H1 que lon suppose vraie.

Les risques lis aux tests dhypothses peuvent se rsumer ainsi :

SITUATION VRAIE H0 EST VRAIE H1 EST VRAIE La probabilit de La dcision probabilit de dcision prendre cette est prendre cette est dcision avant dcision avant exprience exprience
Page 103

J-P LENOIR

CHAPITRE 6

FIIFO 3 Accepter H0 Conclusion du test Rejeter H0 Fausse Bonne


1

PROBABILITES - STATISTIQUES

Fausse

(risque de deuxime espce) 1-

(risque de premire espce)

Bonne

Remarque : La probabilit complmentaire du risque de deuxime espce (1- ) dfinit la puissance du test lgard de la valeur du paramtre dans lhypothse alternative H1. La puissance du test reprsente la probabilit de rejeter lhypothse nulle H0 lorsque lhypothse vraie est H1. Plus est petit, plus le test est puissant.

J-P LENOIR

Page 104

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

3.2.

SCHMATISATION DES DEUX RISQUES DERREUR SUR LA DISTRIBUTION DCHANTILLONNAGE

A titre dexemple, regardons ce quil se passe propos dun test sur la moyenne. On peut visualiser sur la distribution dchantillonnage de la moyenne comment sont relis les deux risques derreur associs aux tests dhypothses. Les zones dacceptation de H0 (m= m0) et de rejet de H0 se visualisent ainsi :

Donnons diverses valeurs m (autres que m0) que lon suppose vraie et schmatisons le risque de deuxime espce . Hypothse vraie : m = m1 (m1 < m0) La distribution dchantillonnage de X en supposant vraie m = m1 est illustre en pointill et laire hachure sur cette figure correspond la rgion de non-rejet de H0. Cette aire reprsente par rapport la valeur m1.

Hypothse vraie : m = m2(m2 > m0)

Hypothse vraie : m = m3 (m3 > m0)

J-P LENOIR

Page 105

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

Cette schmatisation permet dnoncer quelques proprits importantes concernant les deux risques derreur :

J-P LENOIR

Page 106

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

1. Pour un mme risque et une mme taille dchantillon, on constate que, si lcart entre la valeur du paramtre pose en H0 et celle suppose dans lhypothse vraie H1 augmente, le risque diminue. 2. Une rduction du risque de premire espce (de = 0.05 = 0.01 par exemple) largit la zone dacceptation de H0. Toutefois, le test est accompagn dune augmentation du risque de deuxime espce . On ne peut donc diminuer lun des risques quen consentant augmenter lautre. 3 . Pour une valeur fixe de et un dtermin, laugmentation de la taille dchantillon aura pour effet de donner une meilleure prcision puisque ( X) = n diminue. La zone dacceptation de H0 sera alors plus restreinte, conduisant une diminution du risque . Le test est alors plus puissant.

4. T E S T S P E R M E T TA N T D E DTERMINER S I DEUX CHANTILLONS APPARTIENNENT A LA MME POPULATION


4.1. INTRODUCTION

Il existe de nombreuses applications qui consistent, par exemple, comparer deux groupes dindividus en regard dun caractre quantitatif particulier (poids, taille, rendement scolaire, quotient intellectuel,....) ou comparer deux procds de fabrication selon une caractristique quantitative particulire (rsistance la rupture, poids, diamtre, longueur,...) ou encore de comparer les proportions dapparition dun caractre qualitatif de deux populations (proportion de dfectueux, proportion de gens favorisant un parti politique,...). Les variables alatoires qui sont alors utilises pour effectuer des tests dhypothses (ou aussi calculer des intervalles de confiance) sont la diffrence des moyennes dchantillon, le quotient des variances dchantillon ou la diffrence des proportions dchantillon. 4.2. ON TUDIE UN CARACTRE QUANTITATIF

4.2.1. Comparaison de deux moyennes dchantillon : test T

Nous nous proposons de tester si la moyenne de la premire population (m1) peut tre ou non considre comme gale la moyenne de la deuxime population (m2). Nous allons alors comparer les deux moyennes dchantillon x1 et x 2 . Il est vident que si x1 et x 2 diffrent beaucoup, les deux chantillons nappartiennent pas la mme population. Mais si x1 et x 2 diffrent peu, il se pose la question de savoir si lcart

J-P LENOIR

Page 107

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

d = x1 x 2 peut tre attribu aux hasards de lchantillonnage. Afin de donner une rponse rigoureuse cette question, nous procderons encore en quatre tapes.

J-P LENOIR

Page 108

CHAPITRE 6

FIIFO 3 1re tape : formulation des hypothses

PROBABILITES - STATISTIQUES

Le premier chantillon dont nous disposons provient dune population dont la moyenne est m1. Le deuxime chantillon dont nous disposons provient dune population dont la moyenne est m2. Nous voulons savoir si il sagit de la mme population en ce qui concerne les moyennes, cest--dire si m1 = m2. H 0 : m1 = m 2 On va donc tester lhypothse H0 contre lhypothse H1 : . H : m m 1 1 2

2me tape :

Dtermination de la fonction discriminante du test et de sa distribution de probabilit.

On dtermine la statistique qui convient pour ce test. Ici, la diffrence D = X1 X2 des deux moyennes dchantillon, semble tout indique. On dtermine la loi de probabilit de D en se plaant sous lhypothse Ho. On suppose que lon dispose de grands chantillons ( n1 30 et n 2 30) et que les deux variances dchantillon ech1 2 et ech2 2 sont connues.

X1 suit alors une loi normale de moyenne m1 et dcart-type peut sans problme estimer par
X1 > N(m1,

pop1 n1

que lon

ech1 n1 1 ech1

(car n1 30 ). ).
pop 2 n2

n1 1

De mme X2 suit alors une loi normale de moyenne m2 et dcart-type que lon peut sans problme estimer par
X2

ech 2 (car n 2 30 ). n2 1

> N(m2,

ech 2 ). n2 1

On en dduit, puisque X1 et X2 sont indpendantes que D = X1 X2 suit galement une loi normale.
E( D) = E( X1 ) E( X2 ) = m1 m2 = 0 puisquon se place sous H0.

J-P LENOIR

Page 109

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

V( D) = V( X1 ) + V( X2 ) =

ech12 ech 2 2 + puisque les variables sont indpendantes. n1 1 n 2 1

J-P LENOIR

Page 110

CHAPITRE 6

FIIFO 3 On pose T = . ech1 ech 2 2 + n1 1 n 2 1 T est la fonction discriminante du test.


2

PROBABILITES - STATISTIQUES

T mesure un cart rduit.

T > N(0,1).

3me tape :

Dtermination des valeurs critiques de T dlimitant les zones dacceptation et de rejet

On impose toujours la zone dacceptation de H0 concernant lcart rduit dtre centre autour de 0. Il nous faut donc dterminer dans la table la valeur maximale t de lcart rduit
2

imputable aux variations dchantillonnage au seuil de signification , cest--dire vrifiant : P( t T t ) = 1 .


2 2

4me tape :

Calcul de la valeur de T prise dans lchantillon et conclusion du test

On calcule la valeur t0 prise par T dans lchantillon. Si la valeur t0 se trouve dans la zone de rejet, on dira que lcart-rduit observ est statistiquement significatif au seuil . Cet cart est anormalement lev et ne permet pas daccepter H0. On rejette H0. Si la valeur t0 se trouve dans la zone dacceptation, on dira que lcartrduit observ nest pas significatif au seuil . Cet cart est imputable aux fluctuations dchantillonnage. On accepte H0. Remarque : Si on travaille sur de petits chantillons, si la loi suivie par la grandeur est une loi normale et si on ignore les carts-type des populations, on doit utiliser la loi de Student. 4.2.2. Comparaison de deux variances dchantillon : test F 1re tape : formulation des hypothses Le premier chantillon dont nous disposons provient dune population dont lcart-type est pop1 . Le deuxime chantillon dont nous disposons provient dune population dont lcart-type est pop2 . Nous voulons savoir si il sagit de la mme population en ce qui concerne les carts-type, cest--dire si pop1 = pop 2 .

J-P LENOIR

Page 111

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

On va donc tester lhypothse H0 contre lhypothse H1 : 2me tape :

H 0 : pop1 = pop 2 . H : 1 pop1 pop 2

Dtermination de la fonction discriminante du test et de sa distribution de probabilit.

On dtermine la statistique qui convient pour ce test.. Ici, la variable alatoire dont S12 2 2 F = on connat la loi est le rapport 0 2 o S1 et S 2 sont les variables alatoires S2 variances dchantillon. On dtermine la loi de probabilit de F0 en se plaant sous lhypothse Ho. On suppose ici que les deux populations dont nous avons tir les chantillons sont normales. Il en dcoule que :
( n 1 1)S1 2 suit la loi du khi-deux (n1 - 1) ddl. pop1 2 ( n 1)S2 2 De mme 2 suit la loi du khi-deux (n2 - 1 ddl). pop 2 2

On considre alors le quotient F0 =

S12 pop12 S2 2 pop 2 2

qui est distribu suivant la loi de

Fisher avec 1 = n 1 1 et 2 = n 2 1 degrs de libert.

S1 2 qui suit la S2 2 loi de Fisher avec 1 = n 1 1 et 2 = n 2 1 degrs de libert puisque pop1 = pop 2 .

Lorsquon se place sous lhypothse H0, cest le rapport : F0 =

Ici la fonction discriminante du test est F0. 3me tape :

Dtermination des valeurs critiques de F0 dlimitant les zones dacceptation et de rejet

On impose maintenant la zone dacceptation de H0 concernant le quotient des deux variances dchantillon dtre centre autour de 1. On dtermine dans les tables les deux valeurs F / 2 , , et
1 2

1 , 1 , 2 2

telles que : P( F / 2 ,

1 , 2

<

F0

<

) 1 , 1 , 2 2

= 1 .

On rejettera H0 si la valeur f0 prise par F0 dans lchantillon


Page 112

J-P LENOIR

CHAPITRE 6

FIIFO 3 se trouve lextrieur de lintervalle [ F / 2 , Remarque :


1 , 2

PROBABILITES - STATISTIQUES

,F

1 , 1 , 2 2

].

On notera que pour obtenir la valeur critique infrieure de F0, on doit 1 = utiliser la relation : F 1 ,1 , 2 F / 2, , 2
2 1

me

tape :

Calcul de la valeur de F0 prise dans lchantillon et conclusion du test

On calcule la valeur f0 prise par F0 dans lchantillon. Si la valeur f0 se trouve dans la zone de rejet, on dira que la valeur observe pour F est statistiquement significative au seuil . Ce quotient est loign de 1 et ne permet pas daccepter H0. On rejette H0. Si la valeur f0 se trouve dans la zone dacceptation, on dira que la valeur observe pour F nest pas significative au seuil . Lcart constat par rapport la valeur 1 attendue est imputable aux fluctuations dchantillonnage. On accepte H0.

4.3.

ON TUDIE UN CARACTRE QUALITATIF : COMPARAISON DE DEUX PROPORTIONS CHANTILLON

Il y a de nombreuses applications (chances lectorales, exprimentations mdicales...) o nous devons dcider si lcart observ entre deux proportions chantillonnales est significatif o sil est attribuable au hasard de lchantillonnage. Pour rpondre cette question, nous procderons comme dhabitude en quatre tapes. 1re tape : formulation des hypothses Le premier chantillon dont nous disposons provient dune population 1 dont les lments possdent un caractre qualitatif dans une proportion inconnue p 1. Le deuxime chantillon dont nous disposons provient dune population 2 dont les lments possdent le mme caractre qualitatif dans une proportion inconnue p2. Nous voulons savoir si il sagit de la mme population en ce qui concerne les proportions, cest--dire si p1 = p2. H 0 : p1 = p 2 On va donc tester lhypothse H0 contre lhypothse H1 : . H : p p 1 1 2

2me tape :

Dtermination de la fonction discriminante du test et de sa distribution de probabilit.

J-P LENOIR

Page 113

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

Nous traiterons uniquement le cas o nous sommes en prsence de grands chantillons. On dtermine la statistique qui convient pour ce test. Ici, la diffrence D = F1 F2 des deux proportions dchantillon, semble tout indique, puisque F1 est un estimateur sans biais de p1 et F2 un estimateur sans biais de p2.. On dtermine la loi de probabilit de D en se plaant sous lhypothse Ho. p (1 p1 ) F1 suit alors une loi normale de moyenne p1 et dcart-type 1 n1 De mme, F2 suit alors une loi normale de moyenne p 2 et dcart-type p 2 (1 p 2 ) n2 On en dduit, puisque F1 et F2 sont indpendantes que D = F1 F2 suit galement une loi normale.
E( D) = E( F1 ) E( F2 ) = p 1 p 2 = 0 puisquon se place sous H0.

p(1 p) p(1 p) + puisque les variables sont n1 n2 indpendantes. Ici, on a pos p1 = p2 = p puisque lon se place sous H0. V( D) = V( F1 ) + V( F2 ) =

Mais comment trouver p puisque cest justement sur p que porte le test ? Puisque nous raisonnons en supposant lhypothse H0 vraie, on peut considrer que les valeurs de F1 et F2 obtenues sur nos chantillons sont des approximations de p. De plus , plus la taille de lchantillon est grande, meilleure est lapproximation (revoir le chapitre sur les intervalles de confiance). Nous allons donc pondrer les valeurs observes dans nos chantillons par la taille respective de ces chantillons. n f + n 2 f2 $ 11 On approchera p dans notre calcul par : p n1 + n 2 On pose T =
D 1 1 $ (1 p $ ) + p n1 n 2

T mesure un cart rduit.

T est la fonction discriminante du test.

T > N(0,1).

3me tape :

Dtermination des valeurs critiques de T dlimitant les zones dacceptation et de rejet

J-P LENOIR

Page 114

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

On impose toujours la zone dacceptation de H0 concernant lcart rduit dtre centre autour de 0.

Il nous faut donc dterminer dans la table la valeur maximale t de lcart rduit
2

imputable aux variations dchantillonnage au seuil de signification , cest--dire vrifiant : P( t T t ) = 1 .


2 2

me

tape :

Calcul de la valeur de T prise dans lchantillon et conclusion du test

On calcule la valeur t0 prise par T dans lchantillon. Si la valeur t0 se trouve dans la zone de rejet, on dira que lcart-rduit observ est statistiquement significatif au seuil . Cet cart est anormalement lev et ne permet pas daccepter H0. On rejette H0. Si la valeur t0 se trouve dans la zone dacceptation, on dira que lcartrduit observ nest pas significatif au seuil . Cet cart est imputable aux fluctuations dchantillonnage. On accepte H0.

5.

UNE DISTRIBUTION STATISTIQUE OBIT-ELLE A UNE LOI DE PROBABILIT DONNE ? : TEST DAJUSTEMENT DE DEUX DISTRIBUTIONS (TEST DU KHI-DEUX)
5.1. INTRODUCTION

Dans le chapitre 1 de ce cours, nous avons trait de diverses distributions exprimentales dans lesquelles on prsentait la rpartition des frquences (absolues ou relatives) pour divers caractres. Lorsque nous avons accumul suffisamment de donnes sur une variable statistique, on peut alors examiner si la distribution des observations semble sapparenter une distribution thorique connue (comme une loi binomiale, de Poisson, normale...). Un outil statistique qui permet de vrifier la concordance entre une distribution exprimentale et une distribution thorique est le test de Pearson, appel aussi le test du Khideux. On cherche donc dterminer si un modle thorique est susceptible de reprsenter adquatement le comportement probabiliste de la variable observe, comportement fond sur les frquences des rsultats obtenus sur lchantillon. Comment procder ?

J-P LENOIR

Page 115

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

Rpartitions exprimentales On rpartit les observations suivant k classes (si le caractre est continu) ou k valeurs (si le caractre est discret); On dispose alors des effectifs des k classes : n1, n2,....., nk. On a bien sr la relation :

n
i =1

i= k

= N (N = nombre total dobservations effectues).

Remarque : Dans la pratique, on se placera dans le cas o N 50 et o chaque ni est suprieur ou gal 5. Si cette condition nest pas satisfaite, il y a lieu de regrouper deux ou plusieurs classes adjacentes. Il arrive frquemment que ce regroupement seffectue sur les classes aux extrmits de la distribution. k reprsente donc le nombre de classes aprs regroupement.

J-P LENOIR

Page 116

CHAPITRE 6

FIIFO 3 Rpartitions thoriques

PROBABILITES - STATISTIQUES

En admettant comme plausible une distribution thorique particulire, on peut construire une rpartition idale des observations de lchantillon de taille N en ayant recours aux probabilits tabules (ou calcules) du modle thorique : p1, p2, ...., pk. On obtient alors les effectifs thoriques n t en crivant : n t = p i N . On doit disposer
i i

galement de la relation :

n
i =1

ti

= N.

Lcart entre les deux distributions Dfinition de lcart Pour valuer lcart entre les effectifs observes ni et les effectifs thoriques nti, on utilise la somme des carts normaliss entre les deux distributions, savoir : ( n1 n t ) 2 ( n 2 n t ) 2 (n k n t ) 2 1 2 k 2 = + +.......+ . nt nt n t k1
1 2

Plus le 2 ainsi calcul est grand, plus la distribution tudie diffrera de la distribution thorique. Quelques considrations thoriques propos de cet cart : Le nombre dobservations ni parmi lchantillon de taille N susceptible dappartenir la classe i est la ralisation dune variable binomiale Ni de paramtres N et p i (chacune des N observations appartient ou nappartient pas la classe i avec une probabilit pi). Si N est suffisamment grand (on se place dans le cas dchantillons de taille 50 minimum) et pi pas trop petit (on a effectu des regroupements de classes pour quil en soit ainsi), on peut approcher la loi binomiale par la loi normale, cest--dire B(N, p i) par N(Npi, Np i (1 p i ) ). Or Np i (1 p i ) = Np i Np i 2 Np i . N i Np i Donc Ti = suit la loi N(0, 1). Np i Lorsquon lve au carr toutes ces quantits et quon en fait la somme, on obtient une somme de k lois normales centres rduites indpendantes. Nous avons vu au chapitre 3 que cette somme suivait une loi du khi-deux. Mais quel est le nombre de degrs de libert de cette variable du khi-deux ? Il y a k carrs indpendants, donc priori k degrs de libert. Mais on perd toujours un degr de libert cause des restrictions sur les probabilits pi :

p
i =1

= 1.

J-P LENOIR

Page 117

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

On peut perdre dautres degrs de libert si certains paramtres de la loi thorique doivent tre estims partir de lchantillon. 1 . Si la distribution thorique est entirement spcifie, cest--dire si on cherche dterminer si la distribution observe suit une loi dont les paramtres sont connus avant mme de choisir lchantillon, on a (k - 1) degrs de libert (k carrs indpendants moins une relation entre les variables). 2. Sil faut dabord estimer r paramtres de la loi partir des observations de lchantillon (par exemple on cherche si la distribution est normale mais on ne connat davance ni sa moyenne ni son cart-type), il ny a plus que (k - 1 - r) degrs de libert. Dans un cas gnral, on dira que la loi du khi-deux suivie par lcart entre les deux distributions a ( k - 1 - r) degrs de libert lorsquon a estim r paramtres de la loi thorique partir des observations de lchantillon (avec la possibilit pour r de valoir 0). 5.2. LE TEST DAJUSTEMENT DE PEARSON

Il nous faut maintenant dcider, laide de cet indicateur quest le 2 , si les carts entre les effectifs thoriques et ceux qui rsultent des observations sont significatifs dune diffrence de distribution ou si ils sont dus aux fluctuations dchantillonnage. Nous procderons comme dhabitude en quatre tapes. 1re tape : formulation des hypothses On va donc tester lhypothse H0 contre lhypothse H1 : H0 : Les observations suivent la distribution thorique spcifie. H1 : : Les observations ne suivent pas la distribution thorique spcifie 2me tape : Dtermination de la fonction discriminante du test et de sa distribution de probabilit.

On utilise la variable alatoire (N1 n t ) 2 (N 2 n t ) 2 ( N k n t ) 2 1 2 k 2 = + +.......+ nt nt nt


1 2 k

3me tape :

Dtermination des valeurs critiques de 2 dlimitant les zones dacceptation et de rejet

On impose la zone dacceptation de H0 concernant la valeur du 2 dtre un intervalle dont 0 est la borne infrieure (car un 2 est toujours positif). Il nous faut donc dterminer dans la table
J-P LENOIR Page 118 CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

la valeur maximale 2 , de lcart entre les deux distributions imputable aux variations dchantillonnage au seuil de signification , cest--dire vrifiant : P( 2 > 2 , ) = . 2 , reprsente donc la valeur critique pour un test sur la concordance entre deux distributions et le test sera toujours unilatral droite.

4me tape :

Calcul de la valeur de 2 prise dans lchantillon et conclusion du test.

On calcule la valeur 0 2 prise par 2 dans lchantillon. Si la valeur 0 2 se trouve dans la zone de rejet, on dira que lcart observ entre les deux distributions est statistiquement significatif au seuil . Cet cart est anormalement lev et ne permet pas daccepter H0. On rejette H0. Si la valeur 0 2 se trouve dans la zone dacceptation, on dira que lcartrduit observ nest pas significatif au seuil . Cet cart est imputable aux fluctuations dchantillonnage. On accepte H0.

6.

PLUSIEURS DISTRIBUTIONS SONT-ELLES COMPARABLES ?: TEST DHOMOGNIT DE PLUSIEURS POPULATIONS


6.1. INTRODUCTION

On prlve au hasard k chantillons de taille n1, n2,...., nk de k populations. Les rsultats du caractre observ dans chaque population sont ensuite classs selon r modalits. Dans ce cas, les totaux marginaux (les ni) associs aux k chantillons sont fixs et ne dpendent pas du sondage. Il sagit de savoir comparer les k populations entre elles et de savoir si elles ont un comportement semblable en regard du caractre tudi (qualitatif ou quantitatif). On rassemble les donnes dans un tableau double entre appel tableau de contingence :

CARACTRE OBSERVE SELON r MODALITS

POPULATIONS CHANTILLONNES j=1 j=2 ... j ... i=1 n11 n12 n1j i=2 n21 n22 n2j ... i ni1 ni2 nij ...

j=k n1k n2k nik

J-P LENOIR

Page 119

CHAPITRE 6

FIIFO 3 i=r nr1 nr2

PROBABILITES - STATISTIQUES

r r n1 = n i1 n 2 = n i 2
i =1 i =1

r n j = n ij
i =1

nrj

r n k = n ik
i =1

nrk

6.2.

TEST DHOMOGNIT

Il sagit de comparer les effectifs observs pour chaque modalit du caractre avec les effectifs thoriques sous lhypothse dun rpartition quivalente entre les k populations et ceci pour chaque modalit du caractre. Si nous notons p ij la probabilit thorique pour quune unit statistique choisie au hasard dans la population j prsente la modalit i du caractre tudi, on peut alors prciser les hypothses de la faon suivante :

1re tape : formulation des hypothses H0 : p i1 = pi2 = ...= pik pour i = 1, 2, ...., r Soit encore : les proportions dindividus prsentant chaque modalit du caractre sont les mmes dans les k populations.

H1 : : p ij1 p ij2 pour au moins un i parmi 1, 2, ..., r et pour au moins deux ji1 et ji2 diffrents choisis parmi 1, 2, ..., k Soit encore : les proportions dindividus prsentant chaque modalit du caractre ne sont pas identiques pour toutes les populations pour au moins une modalit du caractre.

2me tape :

Dtermination de la fonction discriminante du test et de sa distribution de probabilit.

Sous lhypothse dhomognit des populations, on doit comparer les effectifs observs aux effectifs thoriques. Pour calculer les effectifs thoriques, il nous faut dterminer p i. la proportion dindividus associe la modalit i et que lon suppose identique dans les k populations. On obtiendra une estimation de cette proportion en utilisant lensemble des donnes collectes.

n
On choisit donc : p i.
j=1 k j=1

ij

On en dduit les effectifs thoriques de chaque


n t = p i. n j .
ij

n j

classe grce la relation :

J-P LENOIR

Page 120

CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

Pour comparer les carts entre ce quon observe et ce qui se passe sous lhypothse H0, on considre la somme des carts rduits de chaque classe, savoir la quantit :
=
2 i =1 j=1 r k

( N ij n t ) 2
ij

nt

ij

Cette variable alatoire suit une loi du khi-deux (voir paragraphe prcdent), mais quel est donc son nombre de degrs de libert ? Calcul du nombre de degrs de libert du khi-deux : A priori, on a kr cases dans notre tableau donc (kr) degrs de libert. Mais il faut retirer cette valeur, le nombre de paramtres estims ainsi que le nombre de relations entre les diffrents lments des cases. O n a e s t i mr p r o b a b i l i t t h s o r i q u e s l a i dd e e sv a l e u rd sut a b l e a u (p1., p2., ...., pr. ), mais seulement (r - 1) sont indpendantes puisquon impose la restriction :

p
i =1

i.

= 1 . Par ces estimations, on a donc supprim

(r - 1) degrs de libert. Les effectifs de chaque colonne sont toujours lis par les relations :

n
i =1

ij

= n j (puisque les nj sont imposs par lexprience) et ces relations

sont au nombre de k. Finalement, le nombre de degrs de libert du khi-deux est : = kr ( r 1) k = ( r 1)( k 1) 3me tape : Dtermination des valeurs critiques de 2 dlimitant les zones dacceptation et de rejet

On impose la zone dacceptation de H0 concernant la valeur du 2 dtre un intervalle dont 0 est la borne infrieure (car un 2 est toujours positif). Il nous faut donc dterminer dans la table la valeur maximale 2 , de lcart entre les deux distributions imputable aux variations dchantillonnage au seuil de signification , cest--dire vrifiant : P( 2 > 2 , ) = .

4me tape :

Calcul de la valeur de 2 prise dans lchantillon et conclusion du test.

On calcule la valeur 0 2 prise par 2 dans lchantillon. Si la valeur 0 2 se trouve dans la zone de rejet, on dira que lcart observ entre les k distributions est statistiquement significatif au seuil . Cet
J-P LENOIR Page 121 CHAPITRE 6

FIIFO 3

PROBABILITES - STATISTIQUES

cart est anormalement lev et ne permet pas daccepter H0. On rejette H0 : les populations nont pas un comportement homogne. Si la valeur 0 2 se trouve dans la zone dacceptation, on dira que lcartobserv nest pas significatif au seuil . Cet cart est imputable aux fluctuations dchantillonnage. On accepte H0. CONCLUSION : Nous avons appris effectuer un certain nombre de tests. Il en existe dautres. Tous fonctionnent sur le mme principe. Si vous avez compris ce qui prcde, vous serez capables de les apprhender correctement lorsque vous les rencontrerez : suivez le modle.

J-P LENOIR

Page 122

CHAPITRE 6

You might also like