You are on page 1of 76

PROBABILITES et STATISTIQUES Cours et exercices

C. Reder

IUP2-MIAGE Bordeaux I 2002-2003


1

SOMMAIRE
I- Le modle probabiliste 1- Evnements 2- Loi de probabilit, espace de probabilit 3- Le cas o les vnements lmentaires sont quiprobables 4- Exercices II- Probabilits conditionnelles 1- Dfinition 2- Deux rsultats de dcomposition 3- Evnements indpendants 4- Exercices III- Variables alatoires : gnralits 1- Dfinitions 2- Variables alatoires discrtes, variables alatoires densit 3- Couples de variables alatoires 4- Variables alatoires indpendantes 5- Exercices IV- Caractristiques numriques des variables alatoires 1- Esprance 2- Variance, covariance 3- Exercices V- Variables alatoires usuelles 1- Loi de Bernoulli (p) 2- Loi binomiale (n, p) 3- Loi uniforme 4- Loi exponentielle 5- Loi de Poisson ( ) 6- Loi normale ( , ) 7- Exercices VI- Somme d'un grand nombre de variables alatoires indpendantes 1- L'ingalit de Tchebychev 2- Loi des grands nombres 3- Thorme central-limite 4- Exercices VII- Echantillonnage 1- Description des donnes statistiques sur un caractre 2- Echantillons alatoires, statistiques, estimateurs 3- Estimateurs les plus usuels 2

a) Moyenne de l' chantillon b) Variance de l'chantillon c) Fonction de rpartition de l'chantillon 4- Un exemple de comparaison de l'efficacit de deux estimateurs 5- Statistiques issues d'une loi normale a) Lois issues de la loi normale b) Moyenne et variance d'un chantillon de loi normale VIII- Tests d'hypothses sur les valeurs des paramtres d'une variable alatoire 1- Valeur de l'esprance d'une variable normale de variance connue 2- Valeur de l'esprance d'une variable normale de variance inconnue 3- Valeur de la variance d'une variable normale 4- Valeur de la probabilit d'un vnement 5- Valeur de l'esprance d'une variable alatoire de loi quelconque 6- Intervalle de confiance pour l'estimation d'un paramtre 7- Exercices IX- Tests portant sur l'galit des esprances de plusieurs variables alatoires 1- Egalit des esprances de deux variables normales a) variables normales de variances connues b) variables normales de mme variance inconnue c) variables normales de variances inconnues 2- Egalit de deux probabilits 3- Egalit des esprances de plusieurs variables normales : mthode de la variance 4- Exercices X- Tests d'hypothses non-paramtriques sur la loi d'une variable alatoire 1- Egalit de la loi de l'chantillon et d'une loi spcifie a) Test du khi-deux b) Test par simulation 2- Cas o certains paramtres ne sont pas spcifis 3- Egalit des lois de plusieurs chantillons 4- Indpendance de deux caractres alatoires 5- Test des signes 6- Exercices Textes d'examens Tables 3

I- Le modle probabiliste
Voici les premires phrases d'un manuel (1): "La thorie des probabilits est une science mathmatique tudiant les lois rgissant les phnomnes alatoires. Un phnomne est alatoire si, reproduit maintes fois, il se droule chaque fois un peu diffremment, de sorte que le rsultat de l'exprience change d'une fois l'autre d'une manire alatoire, imprvisible." L'usage mme du mot exprience sous-entend que le phnomne alatoire est observ par le biais d'un critre bien dfini, et que le rsultat de cette observation peut tre dcrit sans ambigut. L'exprience peut aussi tre rpte, et on suppose que chacun des rsultats possibles est observ avec une certaine frquence dont la valeur se stabilise si on rpte l'exprience maintes et "maintes fois". C'est cette "loi" que prsuppose l'existence d'un modle probabiliste. Ce premier chapitre est une rapide prsentation du cadre formel des modles probabilistes. 1- Evnements Etant donne une exprience alatoire, on note l'ensemble de tous les rsultats possibles de cette exprience. Un singleton de est appel vnement lmentaire. Un sous-ensemble A de est appel un vnement . Un vnement A est donc un ensemble constitu de rsultats possibles de l'exprience. Si le rsultat d'une exprience est dans A, on dit que A est ralis. Exemple 1-1 : On dtermine le sexe d'un nouveau-n. On posera : = {g, f} Le rsultat g signifie que le nouveau-n est un garon et f que c'est une fille. Exemple 1-2 : Sept tudiants doivent passer un oral d'examen. On leur distribue un numro d'ordre. On pose : = {tous les alignements des sept lettres a, b, c, d, e, f, g} Le rsultat cfabdeg signifie que l'tudiant c est le premier, a le second, .... L'ensemble des arrangements qui commencent par cf est un vnement.

1 H.Ventsel : Thorie des probabilits. (Ed.MIR, traduction franaise 1973).

Exemple 1-3 : L'exprience consiste dterminer la dose d'ansthsique minimale (exprime en ml) administrer un patient pour l'endormir. On choisit : = ] 0, +[ L'vnement ] 2, 3] est ralis si la dose minimale administrer est comprise entre 2 et 3, c'est--dire si une quantit suprieure ou gale 3 suffit endormir le patient, mais une quantit infrieure 2 est insuffisante. Dans le cadre de la thorie des probabilits, un vnement est gnralement dfini comme l'ensemble des rsultats ayant une proprit donne. La plupart du temps, l'ensemble A est not comme la proprit qui le dfinit. Donnons quelques exemples de telles assimilations : : vnement certain A B A B Ac A B= : : : : : vnement impossible vnement (A ou B) vnement (A et B) (non A), vnement contraire de A les vnements A et B sont incompatibles

Exercice 1-1 : Soit l'ensemble des rsultats possibles d'une exprience alatoire, et soient A, B et C des vnements. Traduire en termes ensemblistes les vnements : a) les trois vnements A, B et C sont raliss b) aucun des vnements A, B ou C n'est ralis c) au moins un des vnements est ralis d) deux au plus des vnements est ralis 2- Loi de probabilit, espace de probabilit On tire une boule dans une urne contenant 2 boules blanches, 1 noire, 4 vertes, 5 rouges, et on regarde sa couleur. Si on rpte cette exprience, la frquence avec laquelle on obtient une boule rouge se stabilise peu peu sur une valeur, gale ici 5/12. On dit couramment qu'on a 5 chances sur 12 de tirer une boule rouge. Dans le cadre d'un modle mathmatique de cette exprience alatoire, on dira que l'vnement "tirer une boule rouge" a la probabilit 5/12. Plus gnralement, dans un modle probabiliste, chaque vnement est pondr par un nombre compris entre 0 et 1, sa probabilit. Ces probabilits doivent respecter certaines rgles de compatibilit, naturelles si on les interprte en termes de "nombre de chances sur 100". L'additivit est la principale de ces rgles. Applique un cas particulier dans notre exemple, elle exprime simplement que, puisqu'on a 5 chances sur 12 de tirer une boule rouge et 2 chances sur 12 de tirer une 5

blanche, on a 5+2 chances sur 12 de tirer une boule soit rouge soit blanche. L'autre rgle dit seulement que si on tire une boule, on a 100% de chances de tirer une boule Dfinition 1-1 : Soit un ensemble. Une loi de probabilit P sur est une fonction qui tout vnement A associe un nombre rel P(A), et qui a les trois proprits : a) 0 P(A) 1, b) P () = 1 c) Pour toute famille finie ou dnombrable (An)nI d'vnements deux deux disjoints : P(
nI

An) = P(An) .
nI

(, P) s'appelle un espace de probabilit. Exemple 1-4 : On lance un d et on observe la face du dessus. On posera : = {1, 2, 3, 4, 5, 6} et on supposera que le d est parfaitement quilibr, de sorte que la probabilit de chaque face est la mme : 1 P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) = 6 . Remarquons qu'alors, la probabilit de tout vnement est calculable en utilisant la proprit c) de la dfinition. Par exemple, comme {1, 3, 4} est la runion des trois ensembles 2 2 incompatibles {1}, {3} et {4}, on a : 1 1 1 3 1 P({1, 3, 4}) = P({1}) + P({3}) + P({4}) = 6 + 6 + 6 = 6 = 2 . Plus gnralement, soit un ensemble fini : = { 1, 2, ...., n} Dfinir une loi de probabilit P sur revient se donner n rels positifs ou nuls p 1, p2, ...., pn tels que
k=1

pk = 1, et poser, pour tout indice k, P({ k }) = pk . La loi de

probabilit sur est alors compltement dtermine car, tant donn un vnement A, P(A) est calculable en additionnant les probabilits pk de chacun des vnements lmentaires {k} qui composent A. Il en est de mme si est un ensemble dnombrable, les sommes finies sont alors remplaces par les sommes de sries. Exercice 1-2 : Soit (, P) un espace de probabilit. Rpondre aux questions en utilisant la dfinition 1-1 : a) Si A est un vnement de probabilit P(A) connue, que vaut P(Ac) ? b) Si A B, comparer P(A) et P(B). c) Calculer P(A ou B) en fonction de P(A et B), P(A) et P(B). 6

d) Montrer que P(A ou B) P(A)+P(B). Gnraliser cette ingalit un nombre fini d'vnements. On pourrait aussi dmontrer les proprits suivantes : Proposition 1-1 : a) Pour toute famille finie ou dnombrable (An)nI d'vnements : P( An ) P(An) .
nI nI

b) Si (An)n c) Si (An)n

est une suite croissante d'vnements : P( An ) = lim P(An )


n n+

une suite dcroissante d'vnements : P(


n

An ) =

n+

lim

P(An )

3- Le cas o les vnements lmentaires sont quiprobables Soit ( , P) un espace de probabilit correspondant une exprience alatoire dont l'ensemble des rsultats possibles est fini : = { 1, 2, ...., n} Supposons que chaque rsultat "a autant de chances d'tre ralis qu'un autre", soit, en termes probabilistes, que P est telle que : P({1}) = P({2}) = ... = P({n}) Comme la somme de ces n nombres est 1, leur valeur commune est gale 1/n . Soit maintenant un vnement A. Sa probabilit est : 1 card(A) P(A) = P({k}) = card(A) . n = card() k / k A Cette loi de probabilit est souvent appele loi uniforme sur . Calculer des probabilits par une mthode directe dans ce cas revient donc dnombrer des ensembles. Exercice 1-3 : Un jeune enfant qui ne sait pas lire prend les 6 jetons d'un jeu de Scrabble qui composaient le mot "CARTON". Il raligne ces jetons au hasard. Avec quelle probabilit recompose-t-il ce mot ? Mme question s'il a pris les 8 jetons qui composaient le mot "INSTITUT". Exercice 1-4 : 20 sujets sont au programme d'un oral d'examen. Le candidat tire au sort 3 de ces sujets et traite l'un de ces trois. Combien doit-il avoir rvis de sujets pour avoir au moins 9 chances sur 10 de pouvoir traiter un sujet qu'il a rvis ? Remarque sur le choix du modle probabiliste Comme dans tout problme de modlisation, il n'y a pas d'automatisme qui permette d'associer un espace de probabilit une exprience alatoire "concrte". Mme dans des 7

cas d'cole, il n'y a jamais un seul "bon" choix : reprenons l'exemple de l'urne introduisant le paragraphe 2. Deux modles peuvent tre considrs comme naturels : - On peut distinguer les 12 boules contenues dans l'urne en posant : = {B1, B2, N, V1, V2, V3, V4, R1, R2, R3, R4, R5} On munit alors de la probabilit uniforme. - On peut aussi choisir de ne reprsenter que la couleur de la boule tire, en posant : = {B, N, V, R} et en dfinissant P par : P({B}) = 2/12 P({N}) = 1/12 P({V}) = 4/12 P({R}) = 5/12 . Il est clair cependant qu'il est difficile de justifier le deuxime modle sans faire appel l'ide d'quiprobabilit des tirages, ide qui par contre est clairement exprime dans le premier modle. Un autre exemple, celui-l clbre, est du type de celui de l'aiguille de Buffon : quelle est la longueur moyenne d'une corde d'un cercle de rayon r, comment reprsenter le tirage au hasard d'une telle corde ? Dans des cas concrets de modlisation, les hypothses sur lesquelles reposent la dfinition du modle doivent tre clairement nonces, de telle sorte qu'elles puissent tre commentes et ventuellement remises en question, soit directement, soit par leurs implications thoriques, soit par une confrontation avec des donnes exprimentales. 4- Exercices Exercice 1-5 : Soit (, P) un espace de probabilit, et soient A et B deux vnements. Montrer que si P(A) = P(B) = 0,9 , alors, P(A B) 0,8 . Dans le cas gnral, montrer que P(A B) P(A)+ P(B) - 1 . Exercice 1-6 : Deux personnes sont tires au sort dans un groupe de 30 compos de 10 femmes et 20 hommes. Avec quelle probabilit ces deux personnes sont-elles des hommes ? Avec quelle probabilit sont-elles des femmes ? Exercice 1-7 : Deux amis font partie d'un groupe de n personnes, auxquelles on a distribu au hasard des numros d'ordre pour constituer une file d'attente. a) Avec quelle probabilit sont-ils les deux premiers ? b) Avec quelle probabilit sont-ils distants de r places, c'est--dire spars par r-1 personnes. Reprsenter ces probabilits par un diagramme en btons. Exercice 1-8 : Un tiroir contient en vrac les 20 chaussettes de 10 paires diffrentes. On en sort au hasard 4 chaussettes. Avec quelle probabilit obtient-on : a) 2 paires b) au moins une paire 8

II- Probabilits conditionnelles


1- Dfinition Lanons un d parfaitement quilibr. Un bon modle probabiliste en est donn par : = { 1, 2, 3, 4, 5, 6 } muni de la loi de probabilit P uniforme. Notons A l'vnement "le d donne au moins 4 points" et B l'vnement "le rsultat est impair". Supposons qu'on ne retienne le rsultat du lancer que s'il est dans B. Dans cette nouvelle exprience, l'vnement A est ralis quand on obtient un 5, et c'est avec la P({5}) 1/6 probabilit relative P({1, 3, 5}) = 3/6 = 1/3. Plus gnralement la probabilit relative P(A et B) de A sous la condition que B est ralis est P(B) . On l'appelle aussi probabilit de A sachant que B, ou probabilit conditionnelle de A relative B, etc Dfinition 2-1 : Soit ( , P) un espace de probabilit, et soit B un vnement tel que P(B) 0. La probabilit de A sachant que B est note P(A | B), et est dfinie par : P(A B) P(A | B) = P(B) Exercice 2-1 : a) Soit B un vnement tel que P(B) 0. Montrer que l'application qui A associe P( A | B ) est une loi de probabilit sur . b) Donner une proprit de A qui implique P(A | B) = 1, qui implique P(A | B) = 0, qui P(A) implique P( A | B ) = P(B) . Exercice 2-2 : Un couple a deux enfants. Sous l'une des conditions suivantes : a) l'an est un garon, b) l'un des enfants est un garon, avec quelle probabilit le couple a-t-il un fils et une fille ? 2- Deux rsultats de dcomposition Les deux rsultats de ce paragraphe utilisent " l'envers" la dfinition 2-1, c'est--dire donnent un moyen de calcul de probabilits connaissant des probabilits conditionnelles. Ils sont trs utiles dans la pratique.

Exemple 2-1 : Une urne contient deux boules blanches et une boule noire. Une personne tire une boule et la garde, une deuxime personne tire une boule. Avec quelle probabilit les deux boules tires sont-elles blanches ? On peut rpondre cette question en utilisant la dfinition 2-1. En effet, notons A l'vnement "la premire personne a tir une boule blanche" et B l'vnement "la deuxime personne a tir une boule blanche". D'aprs la dfinition, P(A et B) = P(B | A) P(A). Mais P(A) est connue, c'est 2/3. P(B | A) est aussi connue : c'est 1/2 car, la premire personne ayant tir une boule blanche, la deuxime personne tire une boule au hasard dans une urne qui contient une boule blanche et une boule noire. Ainsi, P(A et B) vaut (2/3).(1/2) = 1/3 . La proposition suivante, parfois appel "thorme des probabilits composes", gnralise ce procd de calcul : Proposition 2-1 : Soit ( , P) un espace de probabilit, et soient A1 , A2 ,, An des vnements. On a : P(An et An-1 et et A1) = = P(An | An-1 et et A1) P(An-1 | An-2 et et A1) P(A2 | A1) P(A1). Cet nonc est constamment utilis dans le contexte des "chanes de Markov", qui interviennent naturellement dans les problmes concrets o A 1, A2,, An reprsente une succession (temporelle) d'vnements, la probabilit de ralisation du n-ime vnement An tant conditionne par "le pass" (probabilit sachant que A1 et et An-1 ont eu lieu). En voici un exemple simple : Exercice 2-3: On sait que si le flash d'un appareil photo n'a pas eu panne durant les n premiers dclenchements (n entier positif ou nul), la probabilit pour qu'il fonctionne au (n+1)-ime est gale p (0 < p <1 ). a) Quel est la probabilit pour qu'il n'ait pas de panne au cours des 100 premiers dclenchements ? b) Sachant qu'il a fonctionn n fois, avec quelle probabilit fontionnera-t-il au moins 100 fois de plus ? Soient C1 , C2 , , Cn n vnements deux deux disjoints et dont la runion est l'ensemble de tous les rsultats possibles . En termes ensemblistes, {C1, C2, , Cn} est donc une partition de ; en termes probabilistes, on l'appelle un systme complet d'vnements . Soit A un vnement. On a bien sr : A = (A C1) (A C2) (A Cn) et les ensembles (A C1), (A C2), , (A Cn) sont deux deux disjoints. Ainsi : P(A) = P(A C1) + P(A C2) + + P(A Cn) 10

et en utilisant la dfinition 2-1, on obtient le rsultat : Proposition 2-2 : Soit ( , P) un espace de probabilit, et soit {C1 , C2 , , Cn } un systme complet d'vnements. Soit A un vnement. On a : P(A) = P(A | C1) P(C1) + P(A | C2) P(C2) + + P(A | Cn) P(Cn) (Remarquons sans dmonstration que ce rsultat se gnralise un systme complet dnombrable d'vnements.) Exercice 2-4 : En mars 1994 (enqute sur l'emploi INSEE 1994), la population active en France comprend 44,7% de femmes. Le taux de chmage chez les hommes est 10,8% ; il est chez les femmes 14,3% . On tire au sort une personne parmi les actifs. a) Avec quelle probabilit est-elle au chmage ? b) Sachant qu'elle est au chmage, avec quelle probabilit est-ce une femme ? 3- Evnements indpendants Il est naturel de poser que, du point de vue de leur probabilit de ralisation, deux vnements A et B sont indpendants si le fait de savoir que B est ralis n'apporte pas d'information sur les chances de ralisation de A, c'est--dire si la probabilit de A sachant que B est gale P(A), et donc si P(A B) = P(A) P(B). Posons pour dfinition plus gnrale la suivante : Dfinition 2-2 : Soit ( , P) un espace de probabilit, et soit (Ai) i I une famille d'vnements. On dit que ces vnements sont indpendants dans leur ensemble si, quelle que soit la partie finie J de I, P(
jJ

Aj ) = P(Aj).
j J

Exercice 2-5 : a) Montrer que si A et B sont indpendants, A et Bc, Ac et B, Ac et Bc le sont aussi. Gnraliser cette remarque au cas d'une famille finie d'vnements indpendants dans leur ensemble. b) Deux vnements A et B incompatibles sont-ils indpendants ? c) Par un diagramme donner un exemple d'vnements A, B, C deux deux indpendants mais qui ne sont pas indpendants dans leur ensemble. Remarque : Lanons deux ds, chacun parfaitement quilibr. L'ensemble des rsultats possibles est : = { (i, j), 1 i 6, 1 j 6 } = {1, , 6} {1, , 6}

11

Notons A l'vnement "le premier d donne 4". Comme le premier d est parfaitement quilibr, la probabilit de A est 1/6. Notons B l'vnement "le deuxime d donne 6". Comme le deuxime d est parfaitement quilibr, la probabilit de A est 1/6. De plus, nous pouvons sans difficult supposer que les vnements A et B sont indpendants. Donc, la probabilit de (A et B), c'est--dire de l'vnement lmentaire (4, 6), est gale (1/6).(1/6) = 1/36, et de mme bien sr pour tout autre couple (i, j). Ce raisonnement confirme le choix de la loi uniforme sur pour reprsenter l'exprience alatoire du lancer de deux ds. Exercice 2-6 : On lance deux ds. Avec quelle probabilit la somme des points obtenus est-elle gale 11 ? 10 ? Plus gnralement, considrons une exprience alatoire dont ( , P) est un modle probabiliste. Si cette exprience est rpte n fois de faon indpendante, on choisira ~ = n , qu'on munira de la probabilit produit ~ comme ensemble de rsultats P, c'est-dire telle que, quels que soient les sous-ensembles A1, A2,, An de : ~ P(A1 A2, An) = P(A1) P(A2) P(An) . 4- Exercices Exercice 2-7 : Avec quelle probabilit une famille de 3 enfants comporte-t-elle au moins un garon ? Exercice 2-8 : Dans un groupe de 20 personnes, quelle est la probabilit pour qu'il n'y ait jamais plus d'un anniversaire par jour ? Et dans un groupe de 50 personnes ? (on fera comme si toutes les annes avaient 365 jours). Exercice 2-9 : Une exprience est conduite pour tudier la mmoire des rats. Un rat est mis devant trois couloirs. Au bout de l'un d'eux se trouve de la nourriture qu'il aime, au bout des deux autres, il reoit une dcharge lectrique. Cette exprience lmentaire est rpte jusqu' ce que le rat trouve le bon couloir. Sous chacune des hypothses suivantes : (H1) le rat n'a aucun souvenir des expriences antrieures, (H2) le rat se souvient de l'exprience immdiatement prcdente, (H3) le rat se souvient des deux expriences prcdentes, avec quelle probabilit la premire tentative russie est-elle la k-ime ? Reprsenter graphiquement les rponses.

12

Exercice 2-10 : Pour dcider d'un traitement thrapeutique, on utilise un test qui est positif 99 fois sur 100 si une personne est effectivement malade. Mais si une personne n'est pas malade, le test est positif une fois sur 100. On sait par ailleurs que 5 personnes sur 100 ont cette maladie. a) Si le test d'une personne est positif, avec quelle probabilit cette personne est-elle effectivement malade ? b) Si le test d'une personne est ngatif, avec quelle probabilit cette personne n'est-elle effectivement pas malade ? Calculer ces probabilits quand on sait que 5 personnes sur 1000 ont cette maladie. Exercice 2-11 : La probabilit de fermeture du relai i des circuits dcrits ci-dessous est p i. Tous les relais fonctionnent indpendamment. Dans chacun des cas suivants, quelle est la probabilit pour que le courant passe entre A et B ? a) A et B sont spars par n relais relis en srie. b) A et B sont spars par n relais relis en parallle. c)
1 A 3 4 2 B

d)
1 A 3 5 4 2 B

Exercice 2-12 : On transmet un message compos de n symboles binaires '0' ou '1'. Lors de la transmission, chaque symbole est perturb avec la probabilit p et se transforme alors en symbole oppos. Par prcaution, le message est transmis deux fois. Si les deux messages transmis concident, l'information est considre comme correcte. a) Avec quelle probabilit le i-ime symbole du premier message transmis est-il identique au i-ime symbole du deuxime message transmis ? b) Avec quelle probabilit les deux messages transmis sont-ils identiques ? c) Trouver la probabilit pour que, malgr la concidence des deux messages, l'information s'avre errone. (Application numrique : n = 100 p = 0,001 ).

13

Exercice 2-13 : Un candidat d'un jeu tlvis amricain est face trois portes. Derrire l'une d'elles se trouve le prix, - une voiture -. Le candidat se place devant la porte de son choix. Le prsentateur de l'mission, qui lui sait o se trouve la voiture, ouvre alors l'une des deux autres portes et indique au candidat que la voiture ne s'y trouve pas. Le candidat peut son tour ouvrir une porte. S'il dcouvre la voiture, il la gagne. Un candidat dcide d'adopter l'une des trois stratgies suivantes : a) ouvrir la porte devant laquelle il s'est plac l'issu de son premier choix, b) ouvrir l'autre porte, c) tirer pile ou face et, s'il obtient pile, ouvrir la porte devant laquelle il s'est plac l'issu de son premier choix, ouvrir l'autre porte s'il obtient face. L'une de ces trois stratgies est-elle prfrable aux autres ?

14

III- Variables alatoires : gnralits


1- Dfinitions Dans beaucoup de situations, le dtail du rsultat d'une exprience alatoire ne nous intresse pas, mais seulement une valeur numrique fonction de ce rsultat. Par exemple, on peut se demander quel est le nombre de pannes d'un ordinateur sur une dure d'un an, sans tre intress par les dates auxquelles ont lieu ces pannes. Etudions un exemple plus simple : Exemple 3-1 : On lance deux ds, et on regarde la somme des points obtenus. On choisit pour modle probabiliste du lancer des deux ds : = { (i, j) , 1 i 6 , 1 j 6 } muni de la loi de probabilit P uniforme, qui affecte chaque vnement lmentaire (i, j) la probabilit P{(i, j)} = 1/36. Avec quelle probabilit la somme des points obtenus estelle gale, par exemple, 5 ? C'est la probabilit de l'ensemble des vnements lmentaires (i, j) qui ralisent cette condition. Introduisons l'application S de dans , qu'on dira tre unevariable alatoire , dfinie par : (i, j) S(i, j) = i + j La question pose est le calcul de la probabilit de l'vnement { (i, j) / S(i, j) = 5 }, c'est--dire de l'vnement { (1, 4), (2, 3), (3, 2), (4, 1) }. On notera cet vnement, de faon simplifie, { S = 5 }. On trouve : P({ S = 5 }) = P({ (i, j) / S(i, j) = 5 }) = P({ (1, 4), (2, 3), (3, 2), (4, 1) }) = 4/36 . Remarquons que S prend ses valeurs dans {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} et que, par consquent :
12 k=2

P({ S = k }) = P(

k{2,,12}

{ S = k } ) = P() = 1 .

Abordons maintenant le cas gnral, dans lequel l'ensemble des valeurs prises par une variable alatoire n'est pas forcment fini ou dnombrable : Dfinition 3-1 : On appellevariable alatoire une application X dfinie sur un espace de probabilit (, P) et valeurs relles. La fonction de rpartition F d'une variable alatoire X est la fonction de dfinie, pour tout rel x, par : F(x) = P({ Xx }) dans

15

Exercice 3-1 : Reprsenter la fonction de rpartition de la variable alatoire S de l'exemple 3-1. Exercice 3-2 : Soit X une variable alatoire, et soit F sa fonction de rpartition. Pour a et b rels (a < b), exprimer en fonction de F : P( X > a ), P( a < X b ), P( X < a ) (utiliser la proposition 1-1-b), P( X a), P( X = a ), P( a X < b ), Cet exercice montre que la connaissance de la fonction de rpartition F d'une variable alatoire X permet de calculer, pour n'importe quel intervalle I de , la probabilit P({ XI }). On peut dmontrer qu'elle permet aussi, - en principe tout du moins -, de calculer la probabilit P({ XB }) pour n'importe quel sous-ensemble B de . On dit en rsum que la fonction de rpartition de X dtermine la loi ou la loi de probabilit de X. (Le vocabulaire est justifi par le fait que l'application qui un sous-ensemble B de associe P({ XB }) est une loi de probabilit sur ). On peut montrer sans difficult que, si F est la fonction de rpartition d'une variable alatoire : a) F est croissante, b) F est continue droite en tout point, c) lim F(x) = 0 lim F(x) = 1.
x- x+

et inversement, mais la dmonstration n'est pas lmentaire, qu'une fonction F de dans qui vrifie les proprits a), b) et c) est la fonction de rpartition d'une variable alatoire. Exercice 3-3: Soit X une variable alatoire. On suppose que sa fonction de rpartition F est donne par : F(x) = 0 si x<0 1 2 = 3 + 3 (1- e-x ) si x0 a) Dessiner le graphe de F. b) Calculer : P( X > -2 ), P( X]1-1/n, 1] ), P( X = 1 ), P( X] -1/n, 0] ), P ( X = 0 ) 2- Variables alatoires discrtes, variables alatoires densit - Une variable alatoire X qui prend ses valeurs dans un sous-ensemble fini ou dnombrable { xi , iI } de est dite discrte. Notons : pi = P(X=xi). Les pi sont des rels de [0, 1] et tels que pi = 1.
iI

16

La donne des pi dfinit la loi de la variable alatoire X, puisque pour tout sous-ensemble A de : P(XA) =
i / xi A

pi .

La fonction de rpartition F de X s'exprime, pour tout a rel, par : F(a) = pi


i / xi a

Nous avons vu sur un exemple (exercice 3-1) que, tout du moins quand il n'y a qu'un nombre fini de xi par intervalle born, F est constante par morceaux, et que ses discontinuits sont situes aux points d'abscisse xi, la hauteur du saut correspondant tant p i. - On dit qu'une variable alatoire X est densit s'il existe une fonction f de positive ou nulle, et telle que, pour tout sous-ensemble B de : P( X B ) = f(x) dx .
B

dans

On appelle cette fonction f la fonction de densit de probabilit de la variable alatoire X. Exercice 3-4 : On fait tourner une aiguille autour d'un axe et on repre la position sur laquelle elle s'arrte par un angle de [0, 2[. a) Quelles valeurs proposer pour P( 0 < ), P( < 2 ), P( /2 < 3/2 ) ? Et pour P(I) lorsque I est un sous-intervalle de [0, 2[ ? b) Peut-on proposer une fonction f qui soit la densit de la loi de ? Remarquons que si X est une variable alatoire densit, la densit f vrifie ncessairement :
+ -

f(x) dx = 1.

De plus, quels que soient a et b ( a < b ) : P( X = a ) = 0 P( a < X < b) = P( a X < b) = P( a < X b) = P( a X b) = f(x) dx
a b

La fonction de rpartition F de X est donne par : F(a) = f(x) dx


- a

et elle est continue. Exercice 3-5 : Soit X une variable alatoire densit f dfinie par : f(x) = c x si 1x4 =0 sinon 17

a) Calculer la valeur de c. b) Que vaut P( 1 X 2 ) ? c) Calculer et reprsenter graphiquement la fonction de rpartition de X. - Concluons ce paragraphe en signalant qu'une variable alatoire peut n'tre ni discrte, ni densit, mais mixte : Exercice 3-6 : Reprendre l'exemple de l'exercice 3-3, et montrer qu'on peut crire : P( X B ) = f(x) dx
B

si si

0 B 0 B ,

1 = 3 + f(x) dx B o f est une fonction dterminer. 3- Couples de variables alatoires

Soit (, P) un espace de probabilit, et soient X et Y deux variables alatoires dfinies sur cet espace. Le couple (X, Y) dfinit ce que l'on peut appeler une variable alatoire valeurs dans 2 : tout de , il associe en effet le vecteur (X(), Y()). La loi de (X, Y), souvent appele loi conjointe de (X, Y), est dtermine par la donne, pour tout sous-ensemble C de 2, de la probabilit P({ (X, Y) C }). On montre que la loi conjointe de (X, Y) est dtermine ds qu'on connat P(XA et YB ) pour tout couple (A, B) de sous-ensembles de . On montre aussi qu'il suffit pour cela de connatre la fonction de rpartition F du couple (X, Y) qui est dfinie par : (x, y) 2 F(x, y) = P({ Xx et Yy }) . Remarquons que si la loi conjointe de (X, Y) est connue, on en dduit les lois de X et de Y, appeles dans ce contexte lois marginales. En effet, pour tout sous-ensemble A de : { XA } = { XA et Y } = { (X, Y) A }, et on tire : P ( XA ) = P ( (X, Y) A ).

Exercice 3-7 : Soient (X, Y) un couple de variables alatoires dont la loi est telle que, si i 1 et j sont deux entiers tels que 0 i 2 et -i j i, P{ (X, Y) = (i, j) } = 9 . a) Reprsenter graphiquement les valeurs prises par le couple (X, Y). b) Quelle sont les lois marginales de X et Y ? 18

4- Variables alatoires indpendantes Dfinition 3-2 : Soient X et Y deux variables alatoires dfinies sur un espace de probabilit (, P). On dit qu'elles sont indpendantes si pour tout couple (A, B) de sousensembles de , les vnements { XA } et { YB }sont indpendants, c'est--dire si : P ( XA et YB ) = P( XA ) P( YB ) Exercice 3-8 : a) Soient (X, Y) un couple de variables alatoires de loi donne par : P{ (X, Y) = (-1, 0) } = P{ (X, Y) = (1, 0) } = 1 = P{ (X, Y) = (0, -1) } = P{ (X, Y) = (0, 1) } = 4 . X et Y sont-elles indpendantes ? b) mme question avec les donnes de l'exercice 3-7. Exercice 3-9 : Supposons X et Y discrtes, et plus prcisment que X prend ses valeurs dans le sous-ensemble fini ou dnombrable { xi , iI } de , et que Y prend ses valeurs dans le sous-ensemble fini ou dnombrable { yj , jJ }de . Montrer que X et Y sont indpendantes si et seulement si pour tout couple (i, j) de I J : P(X=xi et Y=yj) = P(X=xi ) P(Y=yj). Dans le cas gnral, on montre la proposition : Proposition 3-1 : Soient X et Y deux variables alatoires dfinies sur un espace de probabilit (, P), de fonctions de rpartitions FX et FY. X et Y sont indpendantes si et seulement si, pour tout couple (x, y) de rels : P( X x et Y y ) = FX(x) FY(y) Le rsultat suivant est utile : Proposition 3-2 : Soient X et Y deux variables alatoires dfinies sur un espace de probabilit ( , P). Soient et deux applications de dans . Si X et Y sont indpendantes, alors, (X) et (Y) sont des variables alatoires indpendantes. Enonons enfin une extension de la dfinition : Considrons une famille (X i) i I de variables alatoires dfinies sur un espace de probabilit (, P).

19

On dit que c'est une famille de variables alatoires indpendantes si pour toute famille (Ai)iI de sous-ensembles de , les vnements {XiAi} (iI) sont indpendants dans leur ensemble, autrement dit si pour tout sous-ensemble fini J de I : P( jJ XjAj ) = P(XjAj).
j J

On dmontre que si (Xi)iI est une famille de variables alatoires indpendantes, et si J et K sont deux parties finies et disjointes de I dcrites par : J ={j1, , jr} K ={k1, , ks} , r si une fonction de dans et une fonction de s dans , alors, (Xj1,, Xjr) et (Xk1,, Xks) sont indpendantes. Et on peut gnraliser ce rsultat plusieurs parties finies de I deux deux disjointes. 5- Exercices Exercice 3-10 : On quipe un local souterrain de 5 ampoules lectriques. On suppose que les dures de vie de ces ampoules sont des variables alatoires indpendantes, et de mme densit f donne par : 200 f(x) = 2 si x > 200 x = 0 sinon . On contrle l'tat des ampoules aprs 300 heures d'utilisation. Avec quelle probabilit deux (exactement) des ampoules sont-elles hors d'usage. Exercice 3-11 : Une bote contient 5 transistors, dont on sait que 3 sont dfectueux. On teste l'un aprs l'autre les transistors et on les met de ct, jusqu' avoir trouv les dfectueux. On note N1 le nombre de tests effectus pour trouver le premier transistor dfectueux, et N2 le nombre de tests complmentaires effectus pour trouver le deuxime. Dcrire la loi conjointe de N1 et N2. Exercice 3-12 : Soient X1,, Xn des variables alatoires indpendantes et suivant toutes la loi uniforme sur [0, 1]. On pose : M = max (X1,, Xn) a) Quelle est la fonction de rpartition de M ? Quelle est la densit de la loi de M ? b) Mmes questions avec min (X1,, Xn).

20

IV- Caractristiques numriques des variables alatoires


1- Esprance Soit X une variable alatoire sur un espace de probabilit ( , P). L'esprance E(X) de X est la valeur moyenne des valeurs prises par X, pondres par leur probabilit de ralisation. Les mathmaticiens disposent d'une thorie, la thorie de la mesure, dans laquelle l'intgrale X() dP() a un sens. Ils dfinissent E(X) par cette intgrale. Si

est fini ou dnombrable, cette intgrale est simplement la somme

X( ) P({} ),

mais le cas gnral est plus complexe. Ici, nous nous restreignons aux deux cas particuliers des variables alatoires discrtes ou densit, et nous utiliserons comme dfinition de l'esprance les caractrisations suivantes : - Si X est discrte et prend ses valeurs dans un sous-ensemble fini ou dnombrable { x i , i I } : E(X) = x i P ( X = x i )
i I

- Si X est densit f : E(X) =

x f(x) dx

Exercice 4-1 : Quelle est l'esprance de la variable alatoire qui reprsente le nombre de points obtenus en lanant un d ? Exercice 4-2 : Quelle est l'esprance de la variable alatoire de l'exercice 3-4 ? Exercice 4-3 : Dans chacun des deux cas suivants, calculer E(X), dcrire la loi de X 2 et calculer E(X2) : a) P( X = -2 ) = 0,1 P( X = 1 ) = 0,6 P( X = 2 ) = 0,3 b) X densit f dfinie par : f(x) = 1/2 si -1 x 1 =0 sinon . Pour calculer l'esprance X 2 ou plus gnralement d'une fonction (X) de X, on peut viter la dtermination de la loi de (X) en utilisant le rsultat suivant :

21

Proposition 4-1 : Soit X une variable alatoire et soit une fonction de

dans

- Si X est discrte et prend ses valeurs dans un sous-ensemble fini ou dnombrable { x i , i I } : E((X)) = - Si X est densit f : E((X)) =
i I

(x i ) P( X = x i )
+

(x) f(x) dx

Exercice 4-4 : Reprendre les exemples de l'exercice 4-3 et calculer E(X 2) en utilisant la proposition 4-1. L'nonc suivant sera trs utilis par la suite : Proposition 4-2 : Soient X et Y deux variables alatoires sur un espace de probabilit (, P), et soient a et b deux rels. Alors : E(aX+b) = aE(X) + b E(X+Y) = E(X) + E(Y) Exercice 4-5 : Montrer la deuxime galit de cette proposition dans le cas o les lois de X et Y sont discrtes. Exercice 4-6 : On lance deux ds, et on note S la variable alatoire qui reprsente la somme des points obtenus. Quelle est l'esprance de S ? 2- Variance, covariance Exemple 4-2 : Considrons les quatre variables alatoires : X1 = 0, c'est--dire la variable "alatoire" constante et nulle, X2 de loi uniforme sur [-1, 1] X3 de loi uniforme sur [-100, +100] X4 telle que P(T=-3000) = 1/2 P(T=2000) = P(T=4000) = 1/4 Elles ont toutes quatre pour esprance 0, mais leurs lois sont clairement diffrentes. Une caractristique qui les distingue est l'talement, la dispersion, des valeurs qu'elles prennent autour de leur valeur moyenne E(X i) = 0. Une faon de mesurer cette dispersion est de regarder la valeur moyenne de la distance entre X i et E(Xi). Pour des raisons pratiques, on prfre choisir la valeur moyenne du carr de la distance entre X i et E(Xi), qu'on appelle la variance. 22

Dfinition 4-1 : Soit X une variable alatoire sur un espace de probabilit ( , P). La variance (X) de X est : (X) = E[ (X-E(X))2 ] L'cart-type (X) de X est : (X) = (X) (Remarquons que si l'unit de mesure dans laquelle X est exprim est, par exemple, le mtre, (X) est en m2 et (X) en mtre). De l'galit : [X-E(X)]2 = X2 - 2 E(X) X + [E(X)]2 on dduit : (X) = E[ X2 - 2 E(X) X + (E(X))2 ] = E( X2 ) -2 E(X) E(X) + [E(X)]2 et finalement : (X) = E( X2 ) - [E(X)]2 Cette galit est souvent utile dans le calcul effectif de variances. Exercice 4-7 : Calculer les variances des variables alatoires X i de l'exemple 4-2. Exercice 4-8 : On lance un d, et on note X la variable alatoire qui reprsente le nombre de points obtenus. Quelle est la variance de X ? Proposition 4-3 : Soit X une variable alatoire. a) La variance de X est nulle si et seulement si il existe un rel c tel que P( X=c ) = 1. On dit alors que X est presque srement constante. b) Soient a et b deux rels. Alors : (aX+b) = a2 (X) (aX+b) = a (X) Dans le cas o X n'est pas presque srement constante, on remarquera que la variable X - E(X) alatoire a son esprance nulle, et un cart-type gal 1. Elle est ce qu'on (X) appelle la variable alatoire centre rduite associe X. Le passage de l'une des variables l'autre se fait tout simplement par un changement d'origine et d'unit dans l'ensemble des valeurs prises par X. L'expression de la variance d'une variable alatoire n'est manifestement pas linaire. De fait, si X et Y sont deux variables alatoires sur ( , P), en gnral, la variance de la somme X+Y n'est pas gale la somme des variances de X et de Y :

23

Exemple 4-3 : Soit par exemple X une variable alatoire de variance non nulle, - c'est-dire qui n'est pas presque srement constante -. On a : (X + (-X)) = (0) = 0 et (X) + (-X) = 2(X) 0 . Calculons dans le cas gnral (X+Y). Comme : (X+Y) - E(X+Y) = (X - E(X)) + (Y - E(Y)) , on a : [ (X+Y) - E(X+Y) ]2 = [X - E(X)]2 + [Y - E(Y)]2 + 2 [X - E(X)] [Y - E(Y)] d'o : (X+Y) = (X) + (Y) + 2 E[ (X - E(X)) (Y - E(Y)) ] Introduisons la dfinition de la covariance de X et Y : cov(X, Y) = E[ (X - E(X)) (Y - E(Y)) ] Ce terme n'est en gnral pas nul. Cependant : Proposition 4-4 : Soient X et Y deux variables alatoires sur ( , P). Si X et Y sont indpendantes, alors : cov(X, Y) = 0 (X+Y) = (X) + (Y) . Pour montrer ce rsultat, on commence par montrer que si X et Y sont indpendantes, E(XY) = E(X) E(Y), et conlut en remarquant que sous cette mme hypothse, les variables alatoires (X - E(X)) et (Y - E(Y)) sont indpendantes, ou encore en montrant l'galit cov(X, Y) = E(XY) - E(X) E(Y). Exercice 4-9 : Dmontrer la proposition dans le cas o les lois de X et Y sont discrtes. Exercice 4-10 : On lance deux ds, et on note S la variable alatoire qui reprsente la somme des points obtenus. Quelle est la variance de S ? Une caractristique souvent utilise en statistiques est un coefficient appel coefficient de corrlation de deux variables alatoires X et Y. C'est par dfinition, - et si ni X ni Y n'est presque srement constante - : cov(X, Y) (X, Y) = . (X) (Y) Remarquons que c'est un coefficient sans dimension. On peut montrer par des mthodes classiques en analyse que : -1 (X, Y) 1 (X, Y) = 1 si et seulement si il existe a > 0 et b rel tel que Y = aX + b 24

(X, Y) = -1

si et seulement si il existe a < 0 et b rel tel que Y = aX + b.

Mfions-nous cependant : le fait que le coefficient de corrlation de X et Y est nul ne signifie pas du tout que X et Y sont indpendantes (qu'il n'y a pas de corrlation entre X et Y). Prenons par exemple une variable X de loi symtrique par rapport 0 (par exemple de loi uniforme sur [-1, 1]), et posons Y = X2 . La loi de XY = X3 est aussi symtrique par rapport 0. Ainsi, E(XY) = 0 = E(X) E(Y), et donc (X, Y) = 0. Pourtant, X et Y ne sont pas (du tout) indpendantes, puisqu'au contraire, la donne de la valeur prise par X dtermine compltement la valeur prise par Y. 3- Exercices Exercice 4-11 : Calculer l'esprance et la variance de la variable alatoire M de l'exercice 3-12. Exercice 4-12 : Les transistors fournis par une usine sont dfectueux dans la proportion p. On teste un transistor aprs l'autre jusqu' en obtenir un bon. On note N le nombre de tests effectus. Quelle est la loi de N ? Calculer l'esprance de N. Exercice 4-13 : Une machine est constitue de n sous-units identiques. Elle fonctionne si toutes ses sous-units fonctionnent. Le procd de construction des sous-units est tel qu'elles sont dfectueuses dans la proportion p, et indpendamment les unes des autres. Pour construire une machine sans dfaut, deux procds sont envisags : a) On construit une sous-unit, on la teste, si elle est bonne, on la monte, sinon, on la jette, etc On continue jusqu' avoir mont les n sous-units de la machine. On suppose pour simplifier qu'il n'y a pas de problme de montage. La machine ainsi construite est donc bonne. b) On construit et monte sans les tester n sous-units, et on teste la machine ainsi constitue. Si elle ne marche pas, on la jette, et on recommence jusqu' obtenir une bonne machine. On note : cu le cot de construction d'une sous-unit, tu le cot du test d'une sous-unit, tm le cot du test d'une machine, et on suppose pour simplifier que le cot d'assemblage des units est nul. 1) On note C le cot de construction d'une bonne machine. Calculer l'esprance de C dans les deux cas a) et b). cu 2) On suppose tu = tm = 2 , et n = 10 (puis n = 100). Suivant la valeur de p, quel est le procd de fabrication qui est prfrable ? 25

V- Variables alatoires usuelles


Voici une liste de dfinitions et proprits de quelques lois connues. On pourra trouver beaucoup d'autres lois classiques dans la "littrature" : les lois gomtrique (exercice 412), hypergomtrique, multinomiale, gamma, etc, et nous en introduirons d'autres dans la partie "statistiques" de ce cours. 1- Loi de Bernoulli (p)

Soit A un vnement de probabilit p. Introduisons la variable alatoire X telle que : X() = 1 si A, =0 sinon . On dit que X suit la loi de Bernoulli de paramtre p. Plus gnralement, soit p dans [0, 1]. X suit la loi de Bernoulli (p) si : P( X=1) = p et P( X=0) = 1 - p . E(X) = (X) = 2- Loi binomiale (n, p)

Exercice 5-1 : On lance 4 fois un d. On note X le nombre de fois o on obtient 6. a) Pour k = 0, 1, 2, 3, 4, calculer P(X = k). b) On note Xi la variable de Bernoulli qui vaut 1 si on tire un 6 au i-ime lancer, 0 si on ne tire pas 6 ce lancer. Ecrire X en fonction des X i , et en dduire la valeur de E(X) et de (X). Plus gnralement, la loi binomiale (n, p) est la loi d'une somme X de n variables alatoires indpendantes suivant chacune la mme loi de Bernoulli (p). C'est aussi le nombre de ralisations d'un vnement A lors de l'excution de n expriences alatoires indpendantes, le rsultat de chacune ralisant A avec la probabilit p. On a : P (X = k) = ( k = 0, 1, , n ) E(X) = (X) = 3- Loi uniforme La loi uniforme sur intervalle [a, b] de est la loi de densit f : 1 f(x) = b-a si a x b = 0 sinon . 26

a+b E(X) = 2

(X) =

(b-a)2 12

Exercice 5-2 : Soit X une variable alatoire de loi uniforme sur [0, 1]. a) Calculer directement E(X) et (X). b) On pose Y = a + (b-a) X . Que valent E(Y) et (Y) ? Quelle est la loi de Y ? Qu'en conclut-on ? 4- Loi exponentielle Soit un paramtre strictement positif. La loi exponentielle de paramtre est la loi de densit f dfinie par : f(x) Si X suit cette loi : E(X) = 1 (X) = 1 2 = e-x =0 si x 0 sinon .

On peut remarquer aussi que pour tout t positif ou nul : P( X t+x | X t ) = P( X x | X 0 ) Cette galit permet d'interprter X comme la dure de vie d'un appareil "sans vieillissement" ; en effet, tant donn un instant t, si l'appareil n'est pas tomb en panne auparavant (si X t ), la probabilit pour qu'il marche encore sans problme durant la priode de temps x ( X t+x ) ne dpend pas d'instant t. (Nous avons tudi dans l'exercice 2-3 une situation analogue mais dans le cas discret). Nous ne dtaillerons pas davantage les conditions d'utilisation de cette loi, ni de la loi de Poisson dfinie dans le paragraphe suivant : ce serait plutt du ressort d'un cours sur les processus stochastiques. 5- Loi de Poisson ( ) () si X

Soit un paramtre strictement positif. On dit que X suit la loi de Poisson prend ses valeurs dans et :

k P(X = k) = e - k! ( k = 0, 1, 2, ) Cette loi dcrit le nombre d'vnements intervenant dans un intervalle de temps de longueur 1, lorsque les laps de temps sparant deux vnements sont indpendants et de mme loi exponentielle de paramtre . On a : E(X) = 27 (X) =

6- Loi normale

( , ) (0,1) est la loi de densit f dfinie par : x2 1 f(x) = e- 2 . 2 (X) = 1 X- suit ( , ), quelles sont les esprance, (, ) si

La loi normale centre rduite

Si X suit

(0,1) : E(X) = 0

Exercice 5-3 : On dit qu'une variable alatoire X suit la loi normale la loi normale centre rduite. Si X suit la loi variance, densit de la loi de X ?

On peut montrer que la primitive de la fonction e - 2 ne peut pas s'exprimer l'aide de fonctions usuelles. La fonction de rpartition d'une variable normale se calcule donc point par point et numriquement (voir la table en fin de polycopi) : Exercice 5-4 : a) Soit X une variable alatoire de loi (0,1). Que valent : P( X -1 ) P( -1 < X < 2 ) ? b) Soit X une variable alatoire de loi (1,4). Que vaut P( X > 5) ? On montre le rsultat important suivant : Proposition 5-1 : Soient X et Y deux variables alatoires indpendantes et de lois normales. Alors X+Y suit une loi normale. Plus prcisment, si X suit la loi (1, 1) et Y suit (2, 2), alors X+Y suit la loi ( , ). 7- Exercices Exercice 5-5 : On a constat que les disquettes produites dans une usine sont dfectueuses avec une probablit 0,01 indpendamment les unes des autres. L'usine conditionne ses disquettes par botes de 10, et offre l'acheteur le remboursement d'une bote ds qu'au moins deux des 10 disquettes sont dfectueuses. Dans quelle proportion les botes sontelles renvoyes ? Si quelqu'un achte 3 botes, avec quelle probabilit renvoit-il exactement une bote ? au moins une bote ? Exercice 5-6 : On a constat que le nombre N de clients visitant par jour le magasin d'un tapissier suit une loi de Poisson de paramtre 4, et que chaque client passe une commande 28

x2

avec la probabilit 0,1 . On note C le nombre de commandes passes par jour. Quelle est la loi de C ? Enoncer un rsultat plus gnral. Exercice 5-7 : Le diamtre (exprim en cm.) des tomates livres une usine d'emballage amricaine suit une loi normale (7, ), o est inconnu. Un tri automatique rejette toutes les tomates dont le diamtre n'est pas compris entre 6cm et 8 cm. a) On constate que 10% des tomates livres sont rejetes par ce procd de tri. Calculer l'cart type . b) Le directeur veut rduire 5% le pourcentage de tomates rejetes lors du tri. Ne pouvant agir sur les livraisons, il installe un systme de tri qui rejette les tomates de diamtre infrieur (7-s) ou suprieures (7+s). Calculer s. Exercice 5-8 : On a constat qu'en absence d'pidmie, la variable alatoire qui reprsente le poids d'un poulet de 81 jours pris au hasard dans un levage des Landes suit une loi normale ( 1,8 , 0,2 ), et que les poulets se dveloppent indpendamment. On note X la moyenne arithmtique des poids de 100 poulets pris au hasard. Avec quelle probabilit a-t-on ( 1,79 < X < 1,81 ) ? Mme question en remplaant 100 par 1000 poulets.

29

VI- Somme d'un grand nombre de variables alatoires indpendantes


1- L'ingalit de Tchebychev Soit X une variable alatoire d'esprance E(X) et de variance (X), et soit a un rel positif. Notons Y la variable alatoire dfinie par : Y() = a2 si = 0 On a bien sr : Y [ X - E(X) ]2 , et donc : E(Y) E[ ( X - E(X) )2 ] . De plus : E(Y) = a2 P{ | X- E(X) | a } On a ainsi obtenu l'ingalit de Tchebychev : P{ | X- E(X) | a } (X) . a2 sinon .

| X() - E(X) | a

Cette ingalit n'a bien sr pas d'intrt lorsque les probabilits P( | X - E(X) | a ) peuvent tre calcules explicitement et exprimes simplement. Elle est par contre utile dans le cas contraire, condition bien sr de connatre l'esprance et la variance de X. Comme la dfinition mme de (X), l'ingalit de Tchebychev met en vidence l'intrt de la variance comme mesure de l'talement des valeurs prises par X autour de la valeur moyenne E(X). Exercice 6-1 : On lance n fois un d, et on note M la moyenne arithmtique des points obtenus. a) Calculer E(M) et (M). b) Combien de fois suffit-il de lancer un d pour que, avec une probabilit suprieure 0,9 , la moyenne arithmtique des points obtenus soit comprise entre 3,4 et 3,6 ? 2- Loi des grands nombres

30

Considrons n variables alatoires X1,, Xn, toutes suivant la mme loi d'esprance et d'cart-type , et intressons-nous la moyenne arithmtique M de ces variables alatoires : X 1+ + Xn . n Un calcul simple donne l'esprance et la variance de M : M= 2 (M) = n Si a est strictement positif, on a, en vertu de l'ingalit de Tchebychev : 2 P{ | M - | a } 2 . na On en dduit le thorme connu sous le nom de loi faible des grands nombres : E(M) = Thorme 6-1 : Soit (Xn)n une suite de variables alatoires indpendantes et de mme loi, d'esprance et d'cart-type . Alors, pour tout a strictement positif : X + + Xn lim P { | 1 n - | > a } = 0. n + X + + Xn On dit que la suite ( 1 n )n converge en probabilit vers . Exemple 6-1 : Excutons une suite d'expriences alatoires indpendantes, le rsultat de chacune ralisant un vnement A avec la probabilit p. Pour dcrire cette exprience, introduisons les variables alatoires X 1,, Xn, dfinies par : Xi = 1 si le rsultat de la i-ime exprience est dans A, = 0 si le rsultat de la i-ime exprience n'est pas dans A. Ces variables alatoires sont indpendantes, et suivent toutes la mme loi de Bernoulli X 1+ + Xn (p), dont l'esprance est p. La variable alatoire reprsente la n frquence de ralisation de A au cours des n premires expriences. On conclut de la loi des grands nombres que, lorsque n est grand, cette frquence est, dans le sens prcis par l'nonc, proche de p. Or, p n'est autre que la probabilit de ralisation de A lors d'une exprience. Ainsi, on a construit la thorie mathmatique des probabilits en partant de la dfinition intuitive de la probabilit d'un vnement A comme frquence de ralisation de A sur un grand nombre d'expriences, et, par une dduction interne au cadre formel mathmatique, on dmontre cette mme proprit. 3- Thorme central-limite Soit (Xn)n une suite de variables alatoires indpendantes et de mme loi, d'esprance et d'cart-type . On a alors : E(X1+ + Xn) = n , (X1+ + Xn) = n 2 , 31

et la variable alatoire centre rduite associe la somme X 1+ + Xn est : X + + Xn - n Yn = 1 n Remarquons que lorsque la loi des Xn est la loi normale (, ), la loi de Yn est la loi normale centre rduite (0, 1). Le thorme central-limite affirme que dans le cas gnral, la loi (0, 1) est une bonne approximation de la loi de Yn , sous rserve que n soit assez grand. Plus prcisment : Thorme 6-2 : Soit (Xn)n une suite de variables alatoires indpendantes et de mme loi, d'esprance et d'cart-type . Alors, quel que soit le rel x : X 1+ + Xn - n lim P { n + n On dit que
t2 1 x }= e - 2 dt . 2 - x

X 1+ + Xn - n converge en loi vers la loi normale n

(0, 1).

Dans la pratique, cet nonc rigoureux est interprt assez librement : on considrera souvent par exemple que sous les hypothses du thorme, pour des valeurs de n assez grandes, on peut remplacer dans les calculs la loi de X 1+ + Xn par un loi normale (et donc par la loi normale (n , n) ). Exemple 6-2 : On repre la position d'un point matriel sur une droite par son abscisse. On se donne aussi un rel positif h "petit". Partons de l'abscisse 0. Lanons une pice. Si on obtient pile, avanons le point d'une distance h, si on obtient face, reculons le point d'une distance h. Et recommenons C'est un exemple de marche alatoire . Notons Xn la variable alatoire dfinie par : Xn = 1 si on obtient pile au n-ime lancer de la pice = -1 Remarquons que : E(Xn) = 0 (Xn) = 1 A l'issu du n-ime lancer, le point est situ l'abscisse Un = h (X1 ++ Xn ) . On a : E(Un) = 0 (Un) = nh2 Du thorme central-limite, on dduit que, pour des valeurs de n assez grandes, la loi de Un est approche par la loi normale ( 0, nh2 ). On peut reprsenter graphiquement l'volution de la densit de probabilit de prsence du point : si on obtient face au n-ime lancer de la pice.

32

4- Exercices Exercice 6-2 : Rsoudre l'exercice 6-1 en utilisant le thorme central-limite, et comparer les rsultats obtenus. Exercice 6-3 : 60 personnes veulent retirer de l'argent au guichet d'une poste. La somme moyenne demande par chaque personne est de 400F, avec un cart type de 200F. Les sommes demandes par chaque personne sont indpendantes (et de mme loi). Combien d'argent doit avoir le guichet sa disposition pour que, avec une probabilit suprieure 0.95, les 60 personnes retirent la somme qu'elles souhaitent ? Exercice 6-4 : Une caftria d'entreprise fournit chaque jour n repas, et propose chaque jour 2 plats du jour. Le cuisinier a remarqu que lorsqu'il propose saucisse-lentilles et poisson pan-riz, chaque client souhaite le plat de saucisses avec la probabilit p = 0,6 et le plat de poisson avec la probabilit 1-p , et que les choix des clients sont indpendants. Pour tenter de satisfaire sa clientle, il prpare np+ s plats de saucisses, et n(1-p)+ s plats de riz. On supposera successivement n = 100 et n = 1000. Quelle est la valeur minimale de s telle que, avec une probabilit suprieure 0,95 , tous les clients aient le plat qu'ils souhaitent ? Pour cette valeur, quelle est le pourcentage de plats non consomms compar aux plats prpars ? Exercice 6-5 : Le nombre de visiteurs potentiels de la Foire de Bordeaux est v=100000. Les visiteurs viennent indpendamment les uns des autres et avec la probabilit p ( 0 < p < 1). On note Y le nombre de personnes qui visitent la foire. a) Trouver la loi de Y. Quelle sont l'esprance, la variance de Y ?

33

b) Soit x le prix d'entre ( x 0 ) et R la recette correspondante. Quelle est l'esprance de R ? En supposant p et x relis par la relation p = e -cx , o c est une constante positive, trouver le prix d'entre qui maximise E(R). Quelle est alors la valeur de E(R) ? c) Dterminer le nombre maximal n tel que, avec une probabilit suprieure ou gale 0.8, il y aura au moins n visiteurs.

34

VII- Echantillonnage
1- Description des donnes statistiques sur un caractre On considre ici une population , c'est--dire un ensemble d'individus. On s'intresse un caractre particulier des individus de cette population, qu'on suppose, pour chaque individu, quantifiable par un nombre rel. On suppose qu'on a mesur exprimentalement la valeur du caractre de n individus et qu'on a trouv les nombres x 1, , xn . Exemple 7-1 : La population est l'ensemble des cbles fabriqus dans une usine donne, le caractre est la charge de rupture d'un cble. On a mesur la charge de rupture de 12 de ces cbles et obtenu la liste : 1440 1410 1520 1470 1430 1490 1455 1445 1472 1455 1470 1430 Exemple 7-2 : La population est l'ensemble des jeux de pile ou face effectus avec une pice de monnaie donne, le caractre est gal 1 si on obtient face et 0 si on obtient pile. On a lanc la pice 10 fois et obtenu la liste : 0 0 1 0 0 1 0 1 1 0 Nous rappelons dans ce paragraphe les outils les plus courants de description des proprits des listes de rsultats x1, , xn obtenues dans ce contexte exprimental. On peut reprsenter l'ensemble de ces nombres graphiquement par : - la fonction de rpartition empirique : l'ordonne du point d'abscisse a est gale card{j / x j a } . n - le diagramme en btons des frquences : la hauteur du bton d'abscisse a est gale card{j / xj = a}). Cette reprsentation n'a d'intrt que s'il y a des rptitions dans la liste x1, , xn. - un histogramme des frquences : la surface du rectangle de base l'intervalle card{j / x j I } born I est gale . Un tel histogramme dpend de la faon dont on n dcoupe en intervalles l'ensemble des valeurs du caractre. On peut aussi en calculer des tendances centrales : _ - la moyenne arithmtique x : _ x = i=1n 35 xi ,
n

- la mdiane m : si les xj sont rnumrots de telle sorte que x(1) x(n) , m = x(k) si n = 2k-1 1 = 2 ( x(k) + x(k+1) ) si n = 2k (les quartiles , les dciles , et plus gnralement les s-quantiles sont dfinis de faon analogue en rpartissant les x(i) en 4, 10 ou s groupes, au lieu de 2 pour la mdiane). - le mode : la valeur a (ou l'une des valeurs) qui maximise card{j / xj = a}. On peut en dcrire la dispersion par : - le rang : diffrence entre la plus grande et la plus petite valeur des x i, - l'cart entre certains quantiles : par exemple, diffrence entre le troisime et premier quartile, n _ | xi - x | - l'cart moyen : i=1 n , - la variance empirique : s2 = i=1 n - 1 etc Exercice 7-1: Pour l'exemple 7-1, reprsenter un histogramme de frquences. Calculer la _ moyenne x , la mdiane, la variance empirique s2. _ Exercice 7-2 : Pour l'exemple 7-2, calculer la moyenne x , la variance empirique s2. Exercice 7-3 : Proposer une formule rcursive pour le calcul conjoint des moyenne et variance empiriques. On remarque que pour faire ces descriptions, on a au plus besoin d'outils informatiques simples, dans le cas o la liste de donnes est trop longue pour tre traite " la main". La situation est diffrente si on s'intresse plusieurs caractres simultanment car les reprsentations graphiques brutes des donnes exprimentales sont en gnrales inexploitables car illisibles (on n'y repre aucun ordre, aucune structure). L'objet de l'analyse des donnes est de proposer des mthodes pour reprsenter et exploiter de telles donnes statistiques multivaries. 2- Echantillons alatoires, statistiques, estimateurs
n _ ( x i - x )2

36

Reprenons l'exemple 7-1. S'il ne veut pas faire faillite, le fabricant des cbles ne peut pas mesurer la charge de rupture de tous les cbles qu'il fabrique, puisque cette mesure les dtruit. La valeur moyenne de la charge de rupture qu'il a calcule en testant 12 cbles reflte-t-elle bien la valeur moyenne de la charge de rupture de l'ensemble des cbles ? La fonction de rpartition empirique obtenue est-elle une bonne approximation de celle qu'on obtiendrait aprs le test de tous les cbles ou de 1200 de ces cbles ? L'objet de la thorie des statistiques est de rpondre des questions de ce type, c'est--dire d'estimer la pertinence de la gnralisation des caractristiques de l'chantillon exprimental la population toute entire. La dmarche choisie est celle de la modlisation probabiliste. On assimile le caractre numrique, dont x 1, , xn est un chantillon observ, une variable alatoire X dont la loi est inconnue, ou dont le type est connu mais certains des paramtres sont inconnus. Par exemple, il se peut qu'on sache, pour des raisons thoriques ou en consquence d'expriences antrieures, que la charge de rupture d'un cble suit une loi normale (, ) de paramtres et inconnus ; mais on peut aussi n'avoir aucune ide a priori sur le type de sa loi. On reprsente l'exprience de l'chantillonage par n variables alatoires X 1, , Xn, indpendantes et de mme loi que X, et on considre que la liste (x1, , xn) est un rsultat possible de cet exprience, c'est--dire une valeur particulire prise par le vecteur alatoire (X1, , Xn). Nous allons dans ce cours voir comment l'chantillon exprimental peut tre utilis pour estimer la loi de X ou certaines de ses caractristiques, et donner des moyens de mesurer la validit de ces estimations. Prcisons le cadre de modlisation : Dfinition 7-1 : Si X1, , Xn sont des variables alatoires indpendantes qui suivent toutes la mme loi , on dit qu'elles constituent un chantillon alatoire . Dfinition 7-2 : Soit X1, , Xn un chantillon alatoire. Une statistique est une variable alatoire de la forme (X1, , Xn), o est une fonction dterministe de n dans . Sa valeur ne dpend que des valeurs prises par (X 1, , Xn) et non de paramtres de la loi des Xi. Exemple 7-3 : Un mois avant un rfrendum, on sonde 1000 personnes inscrites sur les listes lectorales sur leur intention d'aller voter. Les 1000 personnes ont t tires au hasard (avec remise) dans la population des inscrits. On obtient 650 intentions favorables. Si on tire une personne au hasard et l'interroge, on peut reprsenter sa rponse par une variable alatoire X qui vaut 1 si elle a l'intention d'aller voter, et 0 sinon. La loi de X est 37

une loi de Bernoulli de paramtre p, inconnu, gal la proportion dans la population des inscrits des personnes ayant l'intention d'aller voter. On peut reprsenter l'exprience du sondage en introduisant 1000 variables alatoires X 1, , X1000 , indpendantes car les 1000 personnes ont t tires au hasard (avec remise), et qui suivent la loi (p). X1, , X1000 est un chantillon alatoire de loi (p). Le sondage a donn des valeurs exprimentales de cet chantillon, x1, , x1000 , telles que X 1 + + X 1000 x 1 + + x1000 = 650 . Une statistique usuelle est . Elle est bien 1000 indpendante de l'inconnue p. Sa valeur exprimentale est 0,65 : c'est la proportion parmi les inscrits sonds de personnes ayant l'intention d'aller voter. On tudiera dans la suite du cours dans quelle mesure cette valeur 0,65 peut tre considre comme une approximation de p. Dans l'exemple prcdent, la statistique paramtre p de la loi X 1+ + X1000 est utilise pour estimer le 1000 (p) de l'chantillon X1 , , X1000 . On dira que c'est un

estimateur de ce paramtre p. Plus gnralement, considrons un chantillon alatoire X 1, , Xn dont la loi dpend d'un paramtre rel (ou vectoriel) inconnu et qu'on veut estimer. Un estimateur du paramtre est tout simplement une statistique dont la valeur exprimentale est utilise comme estimation de . Un estimateur peut tre de plus ou moins bonne qualit, suivant la fiabilit de l'estimation de qu'il fournit. Les proprits qu'on va dfinir maintenant permettent de cerner la qualit d'un estimateur. Considrons un estimateur n = n (X1 , , Xn ) de , o n est une fonction dterministe de n dans (ou dans l'espace vectoriel o se trouve ). - On dira qu'il est convergent si n converge en probabilit vers . Une traduction de cette condition est qu'il suffit de choisir n assez grand pour que la loi de n soit aussi resserre que l'on veut autour de la valeur . - On peut dfinir l'efficacit de l'estimateur par une mesure du resserrement de la loi de n autour de , qu'on appelle l'erreur totale : E( ( n - )2 ). Plus cette erreur est petite, - ou converge vite vers 0 - , plus l'efficacit de l'estimateur est grande. - Par un calcul simple, on montre : 38

E( ( n - )2 ) = (n) + [E(n) - ]2 On appelle (E(n) - ) le biais de l'estimateur. Un estimateur est dit sans biais si son biais est nul. L'efficacit d'un estimateur sans biais est d'autant plus grande que sa variance est petite, - ou converge vite vers 0 -. - Par une dmonstration semblable celle de l'ingalit de Tchebychev, on montre aussi que si E( n ) tend vers et ( n ) tend vers 0 quand n tend vers l'infini, n est un estimateur convergent de . 3- Estimateurs les plus usuels Dans ce paragraphe, X 1 , , Xn dsigne un chantillon alatoire dont la loi a pour fonction de rpartition F, dsigne l'esprance des Xi et 2 leur variance. a) Moyenne de l' chantillon _ Dfinition 7-3 : La moyenne de l'chantillon X1, , Xn est la variable alatoire X : _ X + + X n X= 1 n Nous avons dj vu (ingalit de Tchebychev et loi des grands nombres) que : _ _ 2 E(X) = (X) = n _ La statistique X est donc un estimateur sans biais et convergent de l'esprance de la loi de X. b) Variance de l'chantillon Dfinition 7-4 : La variance de l'chantillon X1, , Xn est la variable alatoire S2 dfinie par : S2 = i=1 n - 1 L'cart-type de l'chantillon est la variable alatoire S = S 2 . Exercice 7-4 : a) Montrer que : _ n (n-1) S2 = (Xi - )2 - n ( X- )2
i=1

_ n ( X i - X )2

39

(On a aussi :

_ n (n-1) S2 = Xi2 - n X2
i=1

Cette formule peut tre utile pour les calculs " la main", mais est numriquement peu fiable. Utiliser l'algorithme de l'exercice 7-3 est prfrable pour les calculs sur machine). b) En dduire que S2 est un estimateur sans biais de la variance 2 de l'chantillon, puis, en utilisant la loi des grands nombres, que cet estimateur est convergent. Exercice 7-5 : Si l'esprance des Xi est connue, montrer que i=1 estimateur sans biais et convergent de la variance 2 des Xi . c) Fonction de rpartition de l'chantillon Dfinition 7-5 : La fonction de rpartition Fn de l'chantillon X1, , Xn est dfinie, pour tout x dans , par : card { i / X i x } F n (x) = n Remarquons que pour x fix, Fn(x) est une variable alatoire relle. F n est donc une fonction alatoire de dans . Exercice 7-6 : Soit x un rel. Quelle est la loi de nFn(x) ? Que vaut E(Fn(x)) ? Montrer que Fn(x) est un estimateur sans biais et convergent de F(x), o F est la fonction de rpartition des Xi . (indication : introduire les variables alatoires I i dfinies par : Ii () =1 si Xi () x =0 sinon. ) ( Xi - )2 n est un
n

On pourrait de mme dfinir un histogramme de l'chantillon, etc 4- Un exemple de comparaison de l'efficacit de deux estimateurs Supposons ici que la loi de l'chantillon X1, , Xn est la loi uniforme sur [0, 2], o est le paramtre estimer. - Premier estimateur : _ Rappelons que si X suit la loi uniforme sur [0, 2], E(X) = . Ainsi, X est un estimateur sans biais et convergent de . Sa variance est : _ (X) 2 (X) = n = 3n . 40

- Deuxime estimateur : Considrons l'estimateur : max (X 1 , , X n ) . 2 La densit d de sa loi (voir l'exercice 3-12) est donne par : n xn-1 d(x) = si n n = = 0 et donc : n E(n) = n+1 (n) = n 2 (n+2)(n+1)2 n est donc un estimateur convergent de . n+1 En posant n = n n, on obtient un estimateur sans biais et convergent de , et qui vrifie : 1 (n) = n(n+2) 2 _ On constate que, quel que soit n, il est plus efficace que l'estimateur X. Ainsi, dans le cas des lois uniformes sur [0, 2 ], il est plus efficace, pour estimer _ l'esprance de la loi, d'utiliser un autre estimateur que l'estimateur usuel X. Mais pour des lois d'un autre type, ce n'est pas forcment le cas. De fait, une mthode de construction d'estimateurs, connue sous le nom de mthode du maximum de vraisemblance , produit, pour chaque type de loi et de dpendance par rapport au paramtre, un estimateur de ce paramtre qui est (presque) toujours le plus efficace des estimateurs. On pourra trouver un expos de cette mthode dans la plupart des manuels de statistiques. 5- Statistiques issues d'une loi normale a) Lois issues de la loi normale Dfinition 7-6 : Soient Z1, , Zn n variables alatoires indpendantes, qui suivent toutes la loi normale (0, 1). La loi du khi-2 n degrs de libert, note 2 n, est par dfinition 2 2 la loi de Z1 + + Zn . Exercice 7-7 : Soit X une variable alatoire qui suit la loi 2 n. Calculer son esprance. Exercice 7-8 : a) Soit X une variable alatoire qui suit la loi 2 6. Que vaut P( 3 X 9) ? b) Soient X et Y deux variables alatoires indpendantes, X suivant la loi 2 3, Y suivant la 2 loi 6. Que vaut P( X+Y 10 ) ? 41

0x,

sinon ,

Dfinition 7-7 : Soient Z et X deux variables alatoires indpendantes, Z suivant la loi normale (0, 1), et X suivant la loi 2 n. La loi de Student n degrs de libert, note tn, Z est par dfinition la loi de . X/n On montre qu'une variable alatoire de Student a une densit symtrique par rapport 0. Son esprance est donc nulle. Exercice 7-9 : a) Soit X une variable alatoire qui suit la loi de Student t12. Que vaut P( X 1,4) ? b) Expliquer pourquoi, pour n 30 , les valeurs donnes dans la table de la loi de Student sont celles que donnerait l'usage de la table de la loi normale (0, 1) ? Dfinition 7-8 : Soient X et Y deux variables alatoires indpendantes, X suivant la loi 2, Y suivant la loi 2 . La loi de Fischer n et m degrs de libert, note F n m n m, est par X (n ) dfinition la loi de . Y ( m ) b) Moyenne et variance d'un chantillon de loi normale _ ( , ), X et S2

Proposition 7-1 : Soit X1 , , Xn un chantillon alatoire de loi dsignent les moyenne et variance de cet chantillon. Alors : _ a) X et S2 sont indpendantes _ n (X - ) b) suit la loi (0 ; 1) (n-1) S2 2 c) suit la loi n-1 2 _ n (X - ) d) suit la loi de Student tn-1 S

Exercice 7-10 : On admet les parties a) et c) de l'nonc. Montrer les autres assertions.

42

VIII- Tests d'hypothses sur les valeurs des paramtres d'une variable alatoire
Dans ce chapitre, X1, , Xn dsigne un chantillon alatoire d'une loi qui dpend d'un paramtre rel inconnu . Considrons l'hypothse sur le paramtre : (H) : = 0 o 0 est un valeur explicite. On veut construire un test qui utilise un chantillon exprimental (x 1 , , xn ) pour prouver cette hypothse. On procde de la faon suivante. On choisit un estimateur du paramtre . On note e sa valeur exprimentale. On se donne une variable alatoire discriminante de la forme D = (X1, , Xn, 0), o est une fonction dterministe valeurs relles. On fait en sorte que sa valeur exprimentale de = (x1, , xn, 0) permette de comparer les valeurs 0 et e, en en refltant par exemple la distance. On se donne aussi une zone de rejet R ( R dcide : - de rejeter l'hypothse (H) si de R ), et on

- de considrer que l'exprience ne contredit pas (H) sinon En prenant cette dcision, on court un risque de se tromper. Si on est dans la deuxime situation, la formulation de la conclusion est tellement molle qu'on ne court pas grand risque de se tromper. (Ce qui ne veut pas dire pour autant que considrer qu'une exprience ne contredit pas (H) est toujours anodin. Supposons par exemple que (H) signifie "Le fonctionnement de la centrale nuclaire de Blaye est normal"...) Si on est dans la premire des situations, il se peut que le paramtre soit vraiment gal 0, et que le fait que de soit dans la zone de rejet R soit un fait de hasard. Si c'est le cas, le test nous fait rejeter (H) tort, et plus prcisment, si 0 est la vraie valeur de , en utilisant ce test, on se trompera dans la dcision (environ) 100 fois sur 100, o : = P{ D R }. Ce nombre , ou le pourcentage (100 )%, s'appelle le niveau de risque du test . Pour pouvoir calculer ce risque, il faut donc choisir la fonction discriminante D de telle sorte que sa loi soit connue lorsque (H) est vraie. Par la suite, pour construire un test de (H), on fixera en gnral ds le dpart le niveau de risque , et on dfinira la zone de rejet R de sorte que P{ D R } = . 1- Valeur de l'esprance d'une variable normale de variance connue

43

Soit X1, , Xn un chantillon alatoire de loi (, ), o est connu et inconnu. On suppose qu'on dispose d'une valeur exprimentale (x1, , xn) de cet chantillon. Fixons 0 , et soit tester l'hypothse : (H) : = 0 Construisons le test. _ _ On utilise l'estimateur X du paramtre . On note x sa valeur exprimentale. Fixons (0 < < 1) le niveau de risque du test. (Comme mesure un risque de se tromper, on choisit "petit", par exemple = 0,05 ou 0,1). _ n (X - 0 ) Si l'hypothse (H) est vraie, la variable alatoire D = suit la loi (0 ; 1). Nous choisirons cette variable alatoire comme variable discriminante. Remarquons que _ _ n (x - 0 ) sa valeur exprimentale de = reflte bien la distance entre x , la valeur exprimentale du paramtre , et 0, la valeur tester. Dfinissons t/2 par : et la zone de rejet : R = { d La construction du test est acheve. La mise en uvre de ce test au niveau de risque consiste dcider de : _ n (x - 0 ) - rejeter l'hypothse (H) si | | > t/2 , - considrer que l'exprience ne contredit pas (H) sinon . Exercice 8-1 : On suppose que lorsqu'un signal de valeur est mis d'un point A, la valeur du signal reu au point B est bruite et suit une loi normale ( , 2). Une personne au point B s'attend ce que le signal mis ait la valeur 8. Or, le mme signal est mis 5 fois du point A, et la valeur moyenne reue au point B est 9,5. Cette personne doit-elle remettre en cause son hypothse ? L'hypothse ( = 0 ) dont nous venons de dcrire le test est ce qu'on appelle une hypothse simple, car, sous cette hypothse, la loi de l'chantillon est compltement dtermine. Soit maintenant tester l'hypothse composite : 44 / |d| > t/2 }

P( Y < - t/2 ) = P( Y > t/2 ) = /2 ,

Y suivant la loi

(0 , 1).

(H) : 0 o 0 est une valeur explicite du paramtre. Construisons-en un test de niveau (0 < < 1). _ On utilise l'estimateur X du paramtre . _ On dcidera de rejeter (H) lorsque la valeur de x est trop grande par rapport 0, ou, ce _ n (x - 0 ) qui revient au mme, lorsque de = > c pour un certain c. Pour construire c en fonction du niveau , supposons que l'hypothse (H) est vraie, et plus prcisment, supposons que ( 0 ) est la vraie valeur du paramtre. Le risque _ _ n ( X - 0 ) n ( X - ) de rejeter tort (H) est alors quantifi par P{ > c}. Or, (0, 1) et ce risque est donc : _ n ( X - 0) n ( 0 - ) P{ > c} = P{ Y > c + } o Y suit la loi (0 , 1). Il est le plus grand lorsque = 0 , et il vaut alors P{ Y > c }. On va donc choisir c tel que cette probabilit soit gale . Ainsi, on saura que si l'hypothse (H) est vrifie, le test rejettera a tort (H) au plus (environ) 100 fois sur 100. En rsum, la mise en uvre de ce test au niveau de risque consiste dcider de : _ n (x - 0 ) - rejeter l'hypothse (H) si > t , - considrer que l'exprience ne contredit pas (H) sinon , o t est dfini par : P( Y > t ) = , Y suivant la loi (0 , 1). suit la loi

2- Valeur de l'esprance d'une variable normale de variance inconnue Soit X1, , Xn un chantillon alatoire de loi ( , ), o et sont inconnus. On suppose qu'on dispose d'une valeur exprimentale (x1, , xn) de cet chantillon. Fixons 0 , et soit tester l'hypothse : (H) : = 0 Construisons-en un test au niveau de risque (0 < < 1).

45

_ _ On utilise les estimateurs X et S de paramtre et . On note x et s leurs valeurs exprimentales. _ n (X - 0 ) Si l'hypothse (H) est vraie, la variable alatoire D = suit la loi de Student S n-1 degrs de libert. Remarquons qu'il est moins clair que dans le cas o est connu _ _ n (x - 0 ) que sa valeur exprimentale reflte la distance entre x et 0, puisque le s dnominateur s dpend de la valeur exprimentale (x 1, , xn). Il est pourtant d'usage de choisir cette variable alatoire D comme variable discriminante. Nous dfinirons alors t/2 par : P( Y < - t/2 ) = P( Y > t/2 ) = /2 , R = { d Y suivant la loi de Student tn-1 . et la zone de rejet : / |d| > t/2 }

La mise en uvre du test au niveau de risque consiste donc dcider de : _ n (x - 0 ) - rejeter l'hypothse (H) si | | > t/2 , s - considrer que l'exprience ne contredit pas (H) sinon . On pourrait, de mme que dans le cas de la variance connue, construire un test au niveau de risque a de l'hypothse composite ( 0). Exercice 8-2 : L'utilisateur d'un certain cble exige que sa charge moyenne de rupture soit au moins de 200 tonnes. Il a test 8 de ces cbles et trouv les charges de rupture : 210 195 197,4 199 198 202 196 195,5 On suppose que la charge de rupture d'un cble suit une loi normale. Que conclure, au niveau de risque de 5% ? Au niveau de risque de 10% ? 3- Valeur de la variance d'une variable normale Soit X1, , Xn un chantillon alatoire de loi ( , ), o et sont inconnus. On suppose qu'on dispose d'une valeur exprimentale (x1, , xn) de cet chantillon. Fixons 0 , et soit tester l'hypothse : (H) : = 0 Construisons-en un test au niveau de risque (0 < < 1).

46

_ _ On utilise les estimateurs X et S de paramtre et . On note x et s leurs valeurs exprimentales. Si l'hypothse (H) est vraie, la variable alatoire, (n-1)S2 suit la loi du khi-deux n-1 02

degrs de libert. Nous la choisissons comme variable discriminante. Sa valeur (n-1)s2 exprimentale est fonction de s et permet donc la comparaison de s et 0. 02 On dfinit la zone de rejet : R = { d avec :
2 P( Y > t ) = , Y suivant la loi n-1 La construction du test est acheve.

/ d > t /2 ou d < t 1- /2 }

La mise en uvre de ce test au niveau de risque consiste dcider de : (n-1)s2 - considrer que l'exprience ne contredit pas (H) si t 1- /2 < < t /2 , 02 - rejeter l'hypothse (H) sinon.

En suivant une dmarche analogue celle dcrite dans le paragraphe 1, on peut justifier l'utilisation, pour tester l'hypothse composite ( 0) au risque , du test qui consiste (n-1)s2 - rejeter l'hypothse (H) si >t , 02 - considrer que l'exprience ne contredit pas (H) sinon. Si l'esprance est connue, on construit les tests de manire analogue, en utilisant l'estimateur de la variance S'2 = i=1 vraie, D = ( X i - )2 n et en remarquant que si (H) est
n

nS'2 suit la loi du khi-deux n degrs de libert. 02

Exercice 8-3 : Le systme de mesure d'une pompe essence est tel que le nombre de litres affichs suit une loi normale d'esprance gale au nombre de litres distribus et d'carttype inconnu . Ce systme est considr comme efficace si est infrieur 0,075 litres. Par 20 mesures indpendantes, on a test un systme nouvellement install et obtenu l'estimation s2 = 0,00625. Le systme de mesure est-il efficace ? 4- Valeur de la probabilit d'un vnement 47

Supposons que X1, , Xn est un chantillon alatoire de loi de Bernoulli

(p), o p est

inconnu. On suppose qu'on dispose d'une valeur exprimentale (x1, , xn) de cet chantillon. Fixons p0 , et soit tester l'hypothse : (H) : p = p0 Construisons-en un test au niveau de risque (0 < < 1). _ On utilise comme estimateur de p la moyenne de l'chantillon, X. On note pe la valeur exprimentale correspondante. _ Si l'hypothse (H) est vraie, la variable alatoire nX suit la loi du binme (n, p0). Nous

la choisissons comme variable discriminante. Par un calcul itratif, - ou en utilisant des - et k + tels que : tables ou abaques -, on peut dterminer k /2 /2
k i p i ( 1 - p )n-i /2 } k-/2 = max { k / Cn 0 0 i=0 + = min { k / i p i ( 1 - p )n-i /2 } k Cn /2 0 0 i=k n

La mise en uvre de ce test au niveau de risque consiste alors dcider de : + , - considrer que l'exprience ne contredit pas (H) si k-/2 < npe < k /2 - rejeter l'hypothse (H) sinon.

Supposons maintenant que la taille n de l'chantillon est assez grande pour qu'on puisse, _ n (X - p 0 ) sous l'hypothse (H), donner une bonne approximation de la loi de par p0(1-p0) la loi (0 ; 1). (Il est d'usage de considrer que cette approximation est trs bonne lorsque np0( 1 - p0 ) 10 ). On peut alors proposer un test au niveau de risque de mise en uvre beaucoup plus simple. _ n (X - p0) On choisit comme variable discriminante. Dfinissant t/2 par : p (1-p ) 0 0 P( Y < - t/2 ) = P( Y > t/2 ) = /2 , Y suivant la loi (0 , 1), on a : _ n (X - p0) P{ | | > t/2 } . p (1-p ) 0 0 La mise en uvre de ce test au niveau de risque consiste donc dcider de : n (p e - p 0 ) - rejeter l'hypothse (H) si | | > t/2 , p0(1-p0) - considrer que l'exprience ne contredit pas (H) sinon . 48

Exercice 8-4 : La chane de fabrication de montres est conue pour qu'au plus 2% des montres soient dfectueuses. Sur 500 montres testes, on en a trouv 16 dfectueuses. Doit-on conclure un dysfonctionnement de la chane de fabrication ? (Proposer et utiliser un test unilatral). 5- Valeur de l'esprance d'une variable alatoire de loi quelconque Supposons que X1, , Xn est un chantillon alatoire de loi quelconque et qu'on veuille tester une hypothse sur l'esprance de sa loi. Si le type de la loi de l'chantillon est connue, il faut en principe faire une analyse _ analogue celle que nous avons faite pour la loi normale : choisir un estimateur ( X n'est pas forcment le meilleur : voir le chapitre VII 4 ...), choisir une fonction discriminante (de loi connue ou calculable, c'est l le plus gros problme...), etc Cependant, pour des valeurs de n assez grandes, et si l'cart-type des Xi est connu, on _ n (X - 0) sait, d'aprs le thorme central-limite, que sous l'hypothse (H), suit approximativement la loi (0 ; 1). On pourra alors construire un test comme on l'a fait dans le paragraphe 4 sur la loi de Bernoulli. Si l'cart-type des Xi est inconnu, on _ n (X - 0 ) utilise gnralement la variable discriminante , en considrant qu'elle suit S approximativement la loi (0 ; 1), mais on ne peut pas le justifier dans un cadre gnral. Dans tous les cas, il faut remarquer que si le type de loi des Xi est inconnu, on ne sait pas pour quelles valeurs de n ces approximations sont valides. On ne se risquera pas utiliser de tels tests si n est plus petit que 30. 6- Intervalle de confiance pour l'estimation d'un paramtre Soit X1 , , Xn un chantillon alatoire d'une loi qui dpend d'un paramtre rel inconnu , et soit un estimateur du paramtre . On suppose disposer d'un chantillon exprimental (x1, , xn ), et on note e sa valeur exprimentale. On suppose enfin qu'on dispose d'un test de niveau de risque donn (0 < < 1) pour tester les hypothses ( = 0). On dfinit alors l'intervalle de confiance au niveau de confiance (1- ) de l'estimation du paramtre comme l'ensemble I1- des valeurs 0 qui ne sont pas rejetes par ce test.

49

En utilisant les tests proposs dans les paragraphes prcdents, on obtient les intervalles de confiance au niveau (1- ) suivants : - Intervalle de confiance de l'esprance d'une variable normale d'cart-type connu : _ _ I1- = [ x - t/2 , x + t/2 ] n n avec t/2 dfini par : P( Y < - t/2 ) = P( Y > t/2 ) = /2 o Y suit la loi (0 , 1).

- Intervalle de confiance de l'esprance d'une variable normale de variance inconnue : _ s I1- = [ x - t/2 n avec t/2 dfini par : P( Y < - t/2 ) = P( Y > t/2 ) = /2 , _ s x + t/2 ] n o Y suit la loi de Student tn-1.

- Intervalle de confiance de la variance d'une variable normale d'esprance inconnue : I1- = [ avec : P( Y > t ) =
2 . o Y suit la loi n-1

(n-1)s2 (n-1)s 2 , t/2 t1-/2 ]

- Intervalle de confiance de la variance d'une variable normale d'esprance connue : ns' 2 ns' 2 I1- = [ t , t ] /2 1-/2 avec : P( Y > t ) = o Y suit la loi 2 n.

- Intervalle de confiance du paramtre d'une variable de Bernoulli pour les grandes valeurs de n :

I1- [ pe - t/2 avec t/2 dfini par :

pe(1-pe) , pe + t/2 n

pe(1-pe) ] n (0 , 1).

P( Y < - t/2 ) = P( Y > t/2 ) = /2

o Y suit la loi

Exercice 8-5 : On suppose que lorsqu'un signal de valeur est mis d'un point A, la valeur du signal reu au point B est bruite et suit une loi normale ( , 2). 50

a) Pour rduire l'erreur de transmission, on envoie le mme signal 9 fois. Les valeurs reues sont : 5 8,5 12 15 7 9 7,5 6,5 10,5 . Quel est l'intervalle de confiance bilatral de la valeur mise , au niveau de confiance 0,95 ? b) Combien de fois le mme signal doit-il tre envoy pour que l'intervalle de confiance de au niveau 0,95 soit de demi-longueur infrieure 0,1 ? Si on dispose d'un test unilatral de niveau de risque donn (0 < < 1) pour tester les hypothses ( 0), on dfinit l'intervalle de confiance [, +[ au niveau de confiance (1- ) de l'estimation du paramtre comme l'ensemble I1- des valeurs 0 qui ne sont pas rejetes par ce test. 7- Exercices Exercice 8-6 : Un procd de fabrication exige d'une certaine solution chimique d'avoir un pH exactement gal 8,20. La mthode de mesure de pH utilise donne un rsultat qui suit la loi normale d'cart-type 0,02 et d'esprance gale la vraie valeur du pH. On a mesur 10 fois le pH de la solution et trouv : 8,18 8,16 8,17 8,22 8,19 8,17 8,15 8,21 8,16 8,18 a) Que conclure au niveau de risque de 5% ? b) Que conclure au niveau de risque de 5 ? Exercice 8-7 : On a constat que sur n = 100 naissances, g = 49 ont t des naissances de garons. Est-il raisonnable d'admettre que les naissances sont galements rparties entre garons et filles ? Mme question pour 490 naissances de garons sur un total de 1 000, de 4 900 sur un total de 10 000. Exercice 8-8 : Reprendre les donnes et les questions de l'exercice 8-5, mais en supposant que lorsqu'un signal de valeur est mis d'un point A, la valeur du signal reu au point B suit une loi normale ( , ), avec et inconnus. Exercice 8-9 : Un procd de vrification de l'paisseur de rondelles mtalliques fournit une mesure qui suit une loi normale d'esprance gale la vraie valeur de l'paisseur et d'cart-type inconnu. On a mesur 10 fois l'paisseur d'une rondelle et trouv : 1,23 1,24 1,26 1,20 1,30 1,33 1,25 1,28 1,24 1,26 mm. Quel est l'intervalle de confiance au niveau 0,8 de l'cart-type de l'paisseur d'une rondelle ? 51

Exercice 8-10 : Dans une population africaine isole, on a test 72 personnes choisies au hasard, et observ que 9 d'entre elles portent une anomalie gntique particulire. Quelle est l'intervalle de confiance au niveau 0,95 de la frquence de cette anomalie dans la population ? Exercice 8-11 : Entre le premier et second tour des lections prsidentielles, un candidat C commande un institut de sondage une valuation de ses chances de gagner. Sur 1000 personnes interroges et ayant l'intention d'exprimer leur suffrage, 515 dclarent avoir l'intention de voter pour C. a) Si les lections avaient lieu le jour du sondage, C gagnerait-il les lections ? (Proposer un test au niveau de risque de 5% ). b) Le candidat est du. Il esprait plus de prcision de ce sondage. Combien de personnes ayant l'intention d'exprimer leur suffrage aurait-il fallu interroger pour conclure, au niveau de risque de 5%, que C gagnerait les lections si les lections avaient lieu le jour du sondage ? Exercice 8-12 : Le diamtre de la prune d'une certaine varit est une variable alatoire X qu'on suppose normale. Les mesures faites sur un chantillon de 375 prunes de cette varit ont donn les rsultats suivants : diamtre en cm 24 26 28 30 32 34 36 38 40 effectif 7 20 38 79 84 75 53 15 4 a) Estimer, en cm, l'esprance et l'cart-type de X. b) Quel est l'intervalle de confiance au niveau 0,95 de l'estimation de E(X) ?

52

IX- Tests portant sur l'galit des esprances de plusieurs variables alatoires
1- Egalit des esprances de deux variables normales Soient X1, , Xn et Y1, , Ym deux chantillons alatoires indpendants, le premier de loi (1 ; 1), le deuxime de loi (2 ; 2), o 1 et 2 sont inconnus. On suppose qu'on dispose de valeurs exprimentales x 1 , , xn et y1 , , ym des chantillons, qu'on souhaite utiliser pour tester l'hypothse : (H) : 1 = 2 a) variables normales de variances connues Supposons 1 et 2 connus. Construisons le test. _ _ _ _ On utilise les estimateurs X et Y de 1 et 2 , et on note x et y les estimations exprimentales correspondantes. _ _ On sait que la loi de ( X - Y ) est normale, d'esprance (1 - 2) et d'cart-type _ _ 12 2 2 X - Y n + m . Sous l'hypothse (H), la variable alatoire D = 12 2 2 n + m

donc la loi

(0 ; 1). Nous la choisissons comme variable discriminante.

suit

Le test de (H) au niveau de risque (0 < < 1) consiste donc : - rejeter l'hypothse (H) si _ _ | x - y | 12 2 2 n + m - considrer que l'exprience ne contredit pas (H) sinon , o t/2 est dfini par : P( Z < - t/2 ) = P( Z > t/2 ) = /2 , Z suivant la loi (0 , 1).

> t/2,

Exercice 9-1 : Pour mesurer de pH d'une solution, on utilise un pH-mtre qui affiche un rsultat dont la loi est ( ; 0,05), o est la vraie valeur du pH de la solution. On a mesur le pH d'une solution A par 12 mesures indpendantes et trouv une moyenne de 7,04 , et le pH d'une solution B par 10 mesures indpendantes et trouv une moyenne de 7,05. Peut-on considrer que les deux solutions ont mme pH ? 53

b) variables normales de mme variance inconnue Soit S1 l'estimateur usuel de 1 associ l'chantillon X1 , , Xn , et notons s1 l'estimation exprimentale correspondante. Dfinissons de mme S2 et s2. Supposons maintenant les cart-types 1 et 2 inconnus, mais gaux. Notons leur valeur commune. On peut alors montrer que, sous l'hypothse (H) , _ _ ( X - Y) 1 1 (n-1)S 1 2 + (m-1)S 2 2 ( n + m) n + m - 2 suit la loi de Student (n+m-2) degrs de libert. Nous choisissons cette variable alatoire comme variable discriminante. Le test de (H) au niveau de risque (0 < < 1) consiste donc : _ _ | x - y | - rejeter l'hypothse (H) si 1 1 (n-1)s 1 2 + (m-1)s 2 2 ( n + m) n + m - 2 - considrer que l'exprience ne contredit pas (H) sinon , o t/2 est dfini par :

> t/2 ,

P( Z < - t/2 ) = P( Z > t/2 ) = /2 ,

Z suivant la loi de Student tn+m-2 .

Exercice 9-2 : Pour mesurer de pH d'une solution, on utilise un nouveau pH-mtre qui affiche un rsultat dont la loi est ( ; ), o est la vraie valeur du pH de la solution et o n'a pas t dtermin. On a mesur le pH d'une solution A par 12 mesures indpendantes et trouv une moyenne de 7,04 et un cart-type empirique de 0,04 , et le pH d'une solution B par 10 mesures indpendantes et trouv une moyenne de 7,05 et un cart-type empirique de 0,08. Peut-on considrer que les deux solutions ont mme pH ? c) variables normales de variances inconnues Si les cart-types 1 et 2 sont inconnus, et si on n'a pas de raison de les prsupposer gaux, on ne peut pas travailler comme dans le paragraphe prcdent. En effet, la loi de la fonction discriminante qu'on a propose dpend alors de la valeur des paramtres inconnus 1 et 2 et ne peut donc plus tre utilise. Cependant, si les tailles n et m des chantillons sont trs grandes, on pourra considrer que les estimations exprimentales s1 et s2 des cart-types sont pratiquement gales leurs vraies valeurs 1 et 2, et se ramener ainsi au cas du paragraphe a). Le test de (H) au niveau de risque (0 < < 1) consistera alors : 54

- rejeter l'hypothse (H)

si

_ _ | x - y |

s1 s2 n + m

> t/2 ,

- considrer que l'exprience ne contredit pas (H) sinon , o t/2 est dfini par :

P( Z < - t/2 ) = P( Z > t/2 ) = /2 ,

Z suivant la loi

(0 , 1).

2- Egalit de deux probabilits Soient X1, , Xn et Y1, , Ym deux chantillons alatoires indpendants, le premier de loi de Bernoulli (p1), le deuxime de loi (p2), o p1 et p2 sont inconnus. On suppose qu'on dispose des chantillons exprimentaux (x1, , xn) et (y1, , ym). Soit tester l'hypothse : (H) : p1 = p2 Supposons que les tailles n et m des chantillons sont grandes. _ _ Pour construire le test, on utilise les estimateurs classiques X et Y de p1 et p2. On note pe 1 e et p2 leurs valeurs exprimentales. Supposons (H) vraie et notons p la valeur commune p1 et p2 . Alors, d'aprs le _ _ X - Y thorme central-limite, suit une loi proche de (0 ; 1). 1 1 ( n + m ) p(1-p) Cette variable alatoire ne peut pas tre choisie comme fonction discriminante, car le paramtre p est inconnu. Cependant, comme (H) est vraie, X1, , Xn,Y1, , Ym est un

chantillon alatoire de taille n+m de loi

(p), et on peut l'utiliser pour estimer p. Notons X1+ + Xn + Y1+ + Ym pe la valeur exprimentale de l'estimateur de p. n + m _ _ X - Y On considre alors que suit une loi proche de (0 ; 1), et 1 1 e e ( n + m ) p (1-p ) c'est cette variable alatoire qu'on prend fonction discriminante.

Le test de (H) au niveau de risque (0 < < 1) consiste alors : e | pe 1 - p2 | - rejeter l'hypothse (H) si 1 1 ( n + m ) p e (1-p e )

> t/2,

- considrer que l'exprience ne contredit pas (H) sinon . o t/2 est dfini par : 55

P( Z < - t/2 ) = P( Z > t/2 ) = /2 ,

Z suivant la loi

(0 , 1).

Ce test ne peut tre justifi que si les tailles n et m des chantillons sont grandes. On peut dans le cas contraire utiliser un autre test, celui de Fisher-Irwin, qui est bas sur l'expression des probabilits conditionnelles : P { X1+ + Xn = i | X1+ + Xn + Y1+ + Ym = k }. Exercice 9-3 : Pour mesurer le taux d'occupation d'un matriel, on tire au hasard un echantillon d'instants, et en chacun de ces instants, on regarde si le matriel est ou non occup. On a obtenu les observations suivantes : janvier fvrier occupation 400 300 inoccupation 100 100 total 500 400 Les taux d'occupation des mois de janvier et fvrier sont-ils significativement diffrents ? 3- Egalit des esprances de plusieurs variables normales : mthode de la variance Soient Xi1, , Xini ( i = 1 m ) m chantillons alatoires indpendants, de lois normales (i , ) d'esprances 1, , m inconnues, et de variance inconnue mais commune . On notera n = ni le nombre total de variables alatoires.
i=1 m

On suppose qu'on dispose de valeurs exprimentales x i1, , xini ( i = 1 m ) de ces chantillons, qu'on souhaite utiliser pour tester l'hypothse : (H) : 1 = 2 = = m Pour construire le test de (H), nous allons proposer deux estimateurs de la variance 2, le premier convergeant vers 2 que l'hypothse (H) soit ou non vrifie, le deuxime ne convergeant vers 2 que si (H) est vraie, et, dans le cas contraire, surestimant la valeur de 2. _ Notons Xi et S2i X i1, , Xini : les estimateurs usuels de 2 et 2 associs l'chantillon _ ( X ij - Xi ) 2
ni

_ X i1 + + X in i Xi = ni On pose : 56

j=1 S2 i =

ni - 1

2 = i=1 Sintra n - m

(n i -1) S 2i
(variance intra-classes)

S2 2 et que ces m variables alatoires sont indpendantes. On sait que (ni -1) i suit la loi n i 2 2 m (n-m) S intra suit la loi du khi-2 Par consquent, (ni - 1) degrs de libert, c'est-2 i=1 2 . On a donc : dire la loi n-m 2 2 E( S intra ) = 2 S intra est donc un estimateur sans biais de 2, que l'hypothse (H) soit ou non vrifie. Posons maintenant : _ _ X = i=1 m ni
i=1

_ n i Xi
m

m ni

2 S inter =

i=1

ni _ _ _ m n i ( Xi - X ) 2
i=1

i=1 j=1 m

X ij (moyenne globale)

m - 1

(variance inter-classe)
m

On peut montrer par un calcul que : E(


2 S inter )

_ 1 m = 2 + m -1 ni ( i - )2 i=1
2 S inter

n i i _ i=1 = m ni
i=1 2, il

Ainsi, si l'hypothse (H) est fausse,

n'est pas un estimateur de

en surestime

sa valeur. 2 2 Supposons maintenant (H) vraie. Alors, S inter est un estimateur sans biais de . On 2 (m-1) inter S peut aussi montrer, mais la preuve n'en est pas lmentaire, que suit la loi 2 2 2 2 m-1 et que les variables alatoires S inter et S intra sont indpendantes. On en conclut 2 S inter suit la loi F que la variable alatoire 2 m-1, n-m . C'est cette variable qu'on choisit S intra s2 inter comme variable discriminante. Notons 2 sa valeur exprimentale. s intra Le test de (H) au niveau de risque (0 < < 1) consiste : - rejeter l'hypothse (H) si
2 s inter

s2 intra

> t ,

- considrer que l'exprience ne contredit pas (H) sinon , 57

o t est dfini par :

P( Z > t ) = ,

Z suivant la loi Fm-1, n-m.

Remarque : Dans la pratique, il est souhaitable que les tailles ni des chantillons soient gales ou presque. Dans ce cas en effet, d'une part on risque moins de considrer comme acceptable l'hypothse (H) alors qu'elle est fausse, d'autre part, le test est encore relativement bon si les variances des m chantillons ne sont pas tout fait gales. Exercice 9-4 : Pour comparer trois types d'essence, on a mesur la consommation d'essence vitesse stabilise de 90km/h de 18 voitures peu prs identiques et obtenu le tableau suivant, o les donnes sont exprimes en nombre de litres pour 100 km : essence 1 5,50 6,3 5,95 6,15 6,5 5,6 essence 2 6,1 5,9 6,45 6,05 5,52 5,75 essence 3 6,35 6,8 5,8 5,95 6,4 6,25 La consommation de ces voitures dpend-elle du type d'essence utilis ? Exercice 9-5 : Reprendre les donnes de l'exercice 9-2 avec mthode de la variance. Comparer les conclusions obtenues avec les deux mthodes. 4- Exercices Exercice 9-6 : On souhaite tudier les effets secondaires d'un certain mdicament sur le rythme cardiaque. Pour cela, on a pris le pouls de 11 personnes avant et aprs la prise de ce mdicament, et obtenu les rsultats suivants, exprims en nombre de pulsations par minute : patient 1 2 3 4 5 6 7 8 9 10 11 avant 74 86 62 98 102 78 64 84 68 79 70 aprs 70 85 63 90 110 71 60 80 67 69 74 Proposer un test adapt ces donnes, en prcisant ce qu'il faut supposer pour le justifier. Le mettre en uvre. Exercice 9-7 : a) On dispose des notes obtenues un devoir surveill par les 24 et 25 tudiants de deux groupes de TD. Quel test proposer pour comparer le niveau de russite des deux groupes ? Que doit-on supposer pour le justifier ? b) 10 copies d'examen ont t corriges par deux correcteurs A et B. Pour chaque copie, on connat la note donne par A et la note donne par B. Quel test proposer pour comparer la svrit des correcteurs ? Que doit-on supposer pour le justifier ?

58

Exercice 9-8 : Un constructeur A affirme que la charge de rupture de ses cbles est plus grande que celle des cbles du constructeur B. Pour s'en assurer, un client a fait mesur la charge de rupture de 14 cbles et trouv : cbles A 140 138 143 142 144 137 141 139 cbles B 135 140 136 142 138 140 Tester l'affirmation du constructeur au risque 0,05. Exercice 9-9 : Un laboratoire pharmaceutique peut fabriquer un mme mdicament suivant deux procds diffrents, quivalents du point de vue de leur cot. On a mesur la dure de conservation du mdicament par 20 expriences indpendantes et obtenu les dures suivantes, exprimes en nombre d'annes : Procd A 2,5 3 2 1,5 3,5 1 4 4,5 0,5 2,5 Procd B 2,2 2,3 2,5 2,8 2,7 2,3 2,8 2,5 2 2,9 Pour chacun des procds, quels sont les moyenne et cart-type empiriques des rsultats? A votre avis, l'un des procds est-il prfrable ? Exercice 9-10 : Soient X1 , , Xn et Y1 , , Ym deux chantillons alatoires indpendants, le premier de loi (1 ; 1), le deuxime de loi (2 ; 2), o 1, 2, 1 et 2 sont inconnus. Proposer un test de l'hypothse ( 1 = 2 ). Le mettre en uvre avec les donnes de l'exercice 9-2.

59

X- Tests d'hypothses non-paramtriques sur la loi d'une variable alatoire


Exemple 10-1 : On a lanc un d 360 fois et obtenu le tableau : n de la face 1 2 3 4 5 6 effectif 43 55 51 71 72 68 Comment utiliser ces donnes pour tester l'hypothse que toutes les faces ont la mme probabilit ? Exemple 10-2 : Dans les exemples des deux derniers chapitres, nous avons souvent suppos que la loi d'un chantillon dont on disposait d'une valeur exprimentale suivait une loi normale. Comment tester une telle hypothse ? Supposons par exemple que Z 1, , Zn est un chantillon alatoire de loi inconnue, et que nous voulons tester l'hypothse : (H) : la loi de Z1, , Zn est l'aide de valeurs exprimentales z1, , zn. (0 , 1).

Contrairement au cas prcdent, la loi de rfrence est ici continue. On se ramne au cas discret en dcoupant l'ensemble des valeurs possibles des variables alatoires Z 1, , Zn en un nombre fini k de rgions, en gnral des intervalles, R 1, , Rk. Les donnes exprimentales z1, , zn se rpartissent suivant le tableau d'effectifs : rgion R1 R2 .............. Rk effectif c1 c2 .............. ck Si l'hypothse (H) est vraie, on sait calculer la probabilit pa pour qu'un rsultat Z tombe dans la zone Ra. On est donc ramen une situation analogue celle de l'exemple 10-1. Il faudra cependant tre plus prudent dans l'interprtation du rsultat du test, car il peut dpendre de la manire dont les rgions Ra ont t dlimites. 1- Egalit de la loi de l'chantillon et d'une loi spcifie Soit Y1, , Yn un chantillon alatoire valeur dans {1, 2, , k} de loi inconnue. Pour simplifier la prsentation, notons Y une variable alatoire de mme loi. Nous supposons disposer d'une valeur exprimentale y 1, , yn de l'chantillon, et nous voulons l'utiliser pour tester l'hypothse : (H) : a {1, 2, , k} P{ Y = a } = pa o les probabilits pa sont donnes et vrifient pa = 1.
a=1 k

Pour a dans {1, 2, , k}, posons : Ca = card { i / Yi = a } et notons ca la valeur exprimentale correspondante. 60

Sous l'hypothse (H), Ca est une variable alatoire de loi ( n , pa ). Son esprance est npa . La valeur prise par ( C a - npa )2, lorsque n est grand, donne donc une indication de la plausibilit de l'hypothse que Ca est une variable alatoire de loi ( n , pa ) : plus cette valeur est grande, moins cette hypothse est plausible. De fait, on choisit comme fonction discriminante : k ( C - np ) 2 a a D= np a a=1 et on dcidera de rejeter (H) lorsque la valeur exprimentale d de D est trop grande. Remarque : Dans le contexte d'utilisation de ce test, la valeur prise par Y n'intervient que comme un outil pour classer les individus de la population tudie. La fonction discriminante D est dfinie partir des contingents des diffrentes classes de l'chantillon observ. Y pourrait tout autant tre une variable alatoire qualitative, comme dans l'exemple 10-2, au lieu d'tre numrique. a) Test du khi-deux On peut montrer, - mais, ds que k est plus grand que 2, la preuve n'est pas 2 . lmentaire -, que si (H) est vraie et si n est grand, D suit approximativement la loi k-1 Dans la pratique, on utilise cette approximation si pour tout a, npa 1 et si pour au moins 80% des a, npa 5. La mise en uvre du test de (H) au niveau de risque (0 < < 1) consiste donc : k ( c - np ) 2 a a - rejeter l'hypothse (H) si > t , np a a=1 - considrer que l'exprience ne contredit pas (H) sinon , o t est dfini par :
2 P( Z > t ) = , Z suivant la loi k-1

Exercice 10-1 : a) Les donnes sont celles de l'exemple 10-1. Tester l'hypothse que toutes les faces ont la mme probabilit, au niveau de risque de 2%, puis au niveau de risque de 5%. b) Supposer toutes les effectifs multiplis par 2, et tester la mme hypothse. b) Test par simulation Notons encore d la valeur exprimentale de D.

61

Si la taille de l'chantillon ne permet pas l'approximation de la loi de la fonction discriminante D par une loi du khi-deux, on peut utiliser une simulation de cette loi sur ordinateur : - On tire indpendamment n valeurs y suivant la loi de Y donne par l'hypothse (H), et on calcule la valeur de D correspondante. Notons-la d1. - On recommence un grand nombre r de fois ce tirage. On obtient les valeurs d 1, ,dr. - De la loi des grands nombres, on dduit que, sous l'hypothse (H) : card{ i / d i d } P{ D d } r La mise en uvre du test de (H) au niveau de risque (0 < < 1) consiste donc : card{ i / d i d } - rejeter l'hypothse (H) si < , r - considrer que l'exprience ne contredit pas (H) sinon . 2- Cas o certains paramtres ne sont pas spcifis Exemple 10-3 : Reprenons l'exemple 10-2, mais supposons maintenant tester l'hypothse : (H) : la loi de Z1, , Zn est normale. Sous cette seule hypothse, les probabilits pa pour qu'un rsultat Z tombe dans la zone Ra ne sont pas calculables. Pour tester (HZ), on estime les paramtres et de la loi de _ l'chantillon Z1, , Zn par les estimateurs usuels X et S. On teste ensuite l'hypothse : _ (H') : la loi de Z1, , Zn est (x, s) comme dans le paragraphe prcdent, soit par simulation, soit par le test du khi-deux, le nombre de degrs de libert tant alors (k - 1- e), o e est le nombre de paramtres estims (ici, e=2). Exercice 10-2 : On a relev le nombre d'accidents durant une priode de 30 semaines dans un secteur donn, et obtenu : 8 0 0 1 3 4 0 2 12 5 1 8 0 2 0 1 9 3 4 5 3 3 4 7 4 0 1 2 1 2 Peut-on considrer que ce nombre suit une loi de Poisson ? (On utilisera la partition de l'ensemble des valeurs possibles : {0} {1} {2, 3} {4, 5} {6 ou plus}). 3- Egalit des lois de plusieurs chantillons

62

Soient Yi1 , , Yin i ( i = 1 m ) m chantillons alatoires indpendants de lois inconnues, toutes les variables alatoires prenant leurs valeurs dans {1, 2, , k}, et soit tester l'hypothse (H) : (H) : Les lois des m chantillons sont identiques Notons yi1, , yini les valeurs exprimentales des chantillons. Pour simplifier la prsentation, notons, pour tout i, Y i une variable alatoire ayant la mme loi que l'chantillon Yi1, , Yini. Avec cette notation, (H) se rcrit : a {1, 2, , k} P{ Y1 = a } = = P{ Ym = a } Supposons d'abord l'hypothse (H) vraie. Notons alors Y une variable alatoire ayant la mme loi que les Yi. Pour a dans {1, 2, , k}, estimons les probabilits P{ Y = a } par : card{ (i,j) / y ij = a } pa = m ni (H) :
i=1

Posons : (H') : a {1, 2, , k} i {1, 2, , m} P{ Yi = a} = pa On teste (H') par une mthode semblable celle du paragraphe 1. On dfinit pour cela : m k ( C - n p )2 ia i a D= n p i a i=1 a=1 o : Cia = card{ j / Yij = a } et on dcide de rejeter (H), lorsque la valeur exprimentale d de D est trop grande. On procde soit par simulation, soit par le test du khi-deux, le nombre de degrs de libert tant alors (k-1)(m-1). Exercice 10-3 : On a test trois modles de machines laver, A, B et C, en comptant le nombre de pannes durant leur 3 premires annes de fonctionnement. On a obtenu le tableau : 0 panne 1 panne 2 pannes 3 pannes ou plus A 884 403 95 23 B 123 693 373 28 C 57 219 144 8 Cette exprience met-elle en vidence une diffrence entre les trois modles ? 4- Indpendance de deux caractres alatoires On tudie conjointement deux caractres des individus d'une population, qui prennent leurs valeurs respectivement dans {1, 2, , k} et {1, 2, , m}. On suppose disposer de n valeurs exprimentales indpendantes (x1, y1), , (xn, yn).

63

Pour reprsenter cette situation, on introduit (X 1,Y1), , (Xn,Yn) un chantillon de n variables alatoires indpendantes valeurs dans {1, 2, , k} {1, 2, , m} de mme loi (inconnue). Notons (X,Y) une variable alatoire de mme loi. Quels que soient les couples (ai, bi) on a donc, par hypothse : P{ [(X1,Y1) = (a1, b1)] et et [(Xn,Yn) = (an, bn)] } = = P{ (X1,Y1) = (a1, b1) } P{ (Xn,Yn) = (an, bn) } = = P{ (X,Y) = (a1, b1) } P{ (X,Y) = (an, bn) } Soit tester l'hypothse d'indpendance des caractres, autrement dit l'hypothse : (H) : (a, b){1, 2, , k} {1, 2, , m} P{ (X,Y) = (a, b) } = P{ X = a }P{ Y = b } On estime les lois (marginales) de X et Y par : card{ i / x i = a } pX a = n card{ i / yi = b } pY b = n On choisit comme fonction discriminante : k m Y ( C (a,b) - npX a pb D= Y npX a=1 b=1 a pb o : C(a,b) = card{ i / (Xi, Yi) = (a, b) } et on dcide de rejeter (H) lorsque la valeur exprimentale d de D est trop grande. On procde soit par simulation, soit par le test du khi-deux, le nombre de degrs de libert tant alors (k-1)(m-1). Exercice 10-4 : On a interrog 2000 personnes lors de leur dpart en vacances sur leur destination et le moyen de transport utilis pour s'y rendre. On a obtenu le tableau : Campagne Mer Montagne Voiture 250 700 350 Train 200 200 50 Avion 15 200 35 Y a-t-il un lien entre la destination et le moyen de transport ? 5- Test des signes Exemple 10-4 : On a test un mdicament contre l'hypertension sur 18 patients en mesurant la diffrence entre leur tension avant le dbut du traitement et aprs un mois de traitement. On a obtenu les rsultats : -2 -1 +1 +3 -8 +1 +2 -4 -5 -3 -3 -6 -2 -7 +2 -7 -5 -4 a {1, 2, , k} b {1, 2, , m} )2

64

On se demande si le mdicament a un effet rel sur l'hypertension, - ou s'il est efficace contre l'hypertension -. Notons X la variable alatoire qui reprsente cette diffrence. - Si on peut supposer que la loi de X est normale, on peut utiliser un test de Student de l'hypothse simple "l'esprance de X est nulle" ou de l'hypothse composite "l'esprance de X est ngative". (Le fait que la loi de X peut tre considr comme normale peut lui-mme tre test par un test du khi-deux, mais le test sera ici grossier car l'effectif total est faible.) - Si on ne peut pas supposer la loi normale, on peut proposer de tester une l'hypothse sur la valeur de sa mdiane. Soit X1, , Xn un chantillon alatoire de loi inconnue, de mdiane m. On note F sa fonction de rpartition, qu'on suppose pour simplifier continue. Soit tester l'hypothse : (H) : m = m0 o m0 est un rel spcifi. Introduisons les variables alatoires (indpendantes) Yi : Yi =1 si Xi m0 , Elles suivent la loi de Bernoulli l'hypothse : 1 (H') : le paramtre de la loi de Bernoulli des Yi vaut 2 . On est ramen au cas trait dans paragraphe 4 du chapitre VIII. On pose donc : D = card{ i / Xi m0 } et on note d sa valeur exprimentale. Le test consiste : - rejeter (H) =0 sinon . (F(m 0 )). L'hypothse (H) quivaut donc

si

> 2 P{ Z < min(d, n-d) } ,

- considrer que l'exprience ne contredit pas (H) sinon, 1 o Z suit la loi (n , 2 ). Exercice 10-5 : a) Utiliser le test des signes pour traiter l'exemple 10-4. b) Remarquer qu'on peut aussi tester l'hypothse (H') du test des signes par un test du khi-deux. Que trouve-t-on par cette mthode ? c) Que conclut-on en utilisant un test de Student ? 6- Exercices 65

Exercice 10-6 : Reprendre les donnes de l'exercice 8-12, et tester la normalit de la loi de X. Exercice 10-7 : Proposer une deuxime faon de traiter l'exercice 9-3. Exercice 10-8 : Sur 100 tubes vide tests, 41 ont eu une dure de vie de moins de 30 heures, 31 entre 30 et 60 heures, 13 entre 60 et 90 heures, et 15 plus de 90 heures. Ces donnes sont-elles compatibles avec l'hypothse que la dure de vie d'un tube vide est une loi exponentielle d'esprance gale 50 heures ? Exercice 10-9 : Le tableau ci-dessous donne la rpartition de 200 naissances en fonction de la parit de la mre et du poids du nouveau-n. primipares multipares poids infrieur 3kg 26 20 entre 3 et 4 kg 61 63 suprieur 4 kg 8 22 Les deux caractres, parit de la mre et poids du nouveau-n, sont-ils statistiquement relis ? Exercice 10-10 : 2000 personnes ont pass un concours. Proposer une mthode de comparaison des manires de noter de deux correcteurs A et B, sachant qu'on peut pour cela demander chacun de corriger 50 copies. Exercice 10-11 : Reprendre l'exercice 9-6 en utilisant le test des signes.

66

IUP2-MIAGE 2000-2001 Bordeaux I Devoir surveill du 17-11-00 Documents et calculettes autoriss. Le soin apport la rdaction sera apprci. Toutes les rponses doivent tre argumentes. I Un stock important comprend 40% de transistors de type A, 60% de type B. Exprime en heures d'utilisation, la dure de vie d'un transistor de type A suit la loi exponentielle de paramtre a=1. La dure de vie d'un transistor de type B suit la loi exponentielle de paramtre b=2. On prend au hasard un transistor dans le stock. On note D sa dure de vie. 1) Que vaut la probabilit P(D2) ? 2) a) Quelle est la fonction de rpartition de D ? Est-elle continue en tout point de b) La loi de D est-elle densit ? Si oui, quelle est cette densit ? c) Calculer E(D). ?

3) On constate que le transistor qu'on a tir fonctionne toujours au bout de deux heures d'utilisation. Avec quelle probabilit est-il du type A ? 4) On tire au hasard dans le stock 5 transistors. Avec quelle probabilit 2 d'entre eux exactement sont-ils du type A ?

II On sait que les pommiers d'une plantation rcente sont porteurs d'un certain virus avec la probabilit p, indpendamment les uns des autres. Les pommiers atteints seront contagieux dans un an. On dcide de faire analyser les pommiers pour dtruire temps ceux qui sont porteurs du virus. A- Un laboratoire de virologie est charg d'analyser la sve de 10 pommiers pris au hasard dans la plantation, et de conclure pour chaque pommier s'il est ou non porteur du 67

virus. Le laboratoire dispose d'un test trs fiable mais coteux qui permet de dtecter la prsence du virus dans un chantillon de sve, et quelle qu'en soit sa concentration. Plutt que d'analyser un par un les 10 chantillons, il utilise la mthode (M) suivante : Mthode (M) : Aprs avoir mis de ct et tiquet la moiti de chacun des 10 chantillons, mlanger les 10 demi-chantillons restants et analyser ce mlange. Si le virus n'y est pas dtect, aucun des 10 pommiers n'est porteur du virus. Sinon, analyser sparment chacun des 10 demi-chantillons qu'on avait mis de ct. On note N le nombre (alatoire) d'analyses effectues. a) Quelles sont les valeurs que peut prendre N ? b) Montrer que N peut s'crire N = 1 + 10 X, o X est une variable de Bernoulli de paramtre dterminer. c) Que valent, en fonction de , E(N) et (N) ? d) Pour quelles valeurs de p a-t-on E(N) < 10 ? B- Le laboratoire a en fait analyser les prlvements issus de 10n pommiers. Il les rpartit en n lots de 10 et utilise pour chaque lot la mthode (M). On note T le nombre total d'analyses effectues pour conclure pour chaque pommier s'il est ou non porteur du virus. 1) Ecrire T comme une somme de variables alatoires. 2) On suppose dans cette question n=400 et p=0,01. a)Vrifier que E(N) 1,96 et (N) 2,94. b) Donner une valeur approche de P({ T > 1000 }). Commenter ce rsultat, quant la comparaison de la mthode (M) et de la mthode banale qui consiste analyser les 4000 chantillons. 3) On revient au cas gnral. a) Soit r un rel strictement plus grand que E(N). Montrer que si n est "trs grand" : T P( n < r ) 1 . b) On remarque que la mthode (M) est prfrable la mthode banale lorsque T < 10n. On suppose n "trs grand". Pour quelles valeurs de p la mthode (M) est-elle, avec une probabilit proche de 1, prfrable la mthode banale ?

68

IUP2-MIAGE 2000-2001 Probabilits et statistiques : examen du 22-01-01 Dure conseille : 1h20 Documents et calculettes autoriss. Le soin apport la rdaction sera apprci. Toutes les rponses doivent tre argumentes.

Bordeaux I

I Les tabourets de caftria fabriqus dans l'usine A sont dfectueux avec la probabilit p A, ceux fabriqus dans l'usine B le sont avec la probabilit pB (pA pB). Un client, qui ne connat pas les valeurs de pA et pB, tire pile ou face l'une des usines, puis y commande 50 tabourets. On note N le nombre de tabourets dfectueux qui lui sont livrs. 1) Dcrire la loi de N ? 2) Soit p est un rel dans [0, 1] et n un entier positif. Interprter la somme :
k p k (1-p) n-k k Cn n

k=0

et en dduire, sans calcul, sa valeur. 3) Quelle est l'esprance de N ? II Une machine fabrique des vis dont la longueur X est une variable alatoire de loi normale ( , ). On a mesur la longueur de 100 vis prises au hasard dans la production et obtenu les rsultats suivants : longueur (en mm) 31 32 33 34 35 effectif 6 21 38 25 10 1) Dfinir un chantillon alatoire adapt l'nonc. Dans ce cadre modle, comment s'interprte le premier effectif, 6, du tableau ? _ 2) Calculer les estimations x et s de l'esprance et l'cart-type de la loi de X. (On prcisera les estimateurs choisis ainsi que les expressions calcules). 3) Avant de faire la srie de mesures, la machine avait t rgle pour que l'esprance soit gale 33,5. Doit-on penser que la machine s'est drgle ? (On prcisera la variable alatoire discriminante choisie, sa loi, etc... et on justifiera ce choix). 4) Les rsultats des 100 mesures confirment-ils ou infirment-ils le fait que la loi de l'chantillon est normale ? (Les mmes prcisions qu'en 3) sont demandes. On utilisera le tableau suivant, o reprsente la fonction de rpartition de la loi normale (0,1) : u _ u - x ( s ) 31,5 0,061 32,5 0,277 33,5 0,642 34,5 0,906 )

69

IUP2-MIAGE 2000-2001 Bordeaux I Examen du 2-7-01 Dure : 2h Documents et calculettes autoriss. Le soin apport la rdaction sera apprci. Toutes les rponses doivent tre argumentes.

I Le rayon "tlvision" d'un magasin d'une petite ville propose 2 modles A et B. On a constat qu'un visiteur de ce rayon achte un poste de la marque A avec la probabilit p A, un poste de la marque B avec la probabilit pB , n'achte rien avec la probabilit q (p A > 0, pB > 0, q > 0, pA + pB + q = 1), et que les choix des visiteurs sont indpendants. 100 personnes visitent ce rayon. 1) Quelle est la probabilit de l'vnement "les 10 premiers visiteurs achtent un poste A, les 20 suivants un poste B, les 70 autres n'achtent rien" ? 2) On note X le nombre de clients qui achtent un poste A, Y le nombre de clients qui achtent un poste B. a) Quelle est la loi de X ? b) Que vaut E(X) ? c) Exprimer P { X = 60 } . 3) a) Prciser quel est l'vnement { X = 60 et Y = 60}. En dduire la valeur de P{ X = 60 et Y = 60}. Les variables alatoires X et Y sont-elles indpendantes ? 10 C20 p 10 p 20 q70 ? (Justifier la rponse). b) A-t-on : P{ X = 10 et Y = 20} = C100 90 A B 4) Le vendeur fait un bnfice de francs sur la vente d'un poste A, de francs sur la vente d'un poste B. On note T le bnfice correspondant aux 100 visiteurs. a) Exprimer T en fonction de X et Y. b) Que vaut E(T) ? c) Peut-on affirmer : (T) = 2 (X) + 2 (Y) ? (Justifier la rponse). 70

II Dans un laboratoire, on a effectu 100 expriences indpendantes pour mesurer une certaine grandeur g. 60 expriences ont t menes dans les conditions A, 40 l'ont t dans les conditions B. On a obtenu les rsultats suivants : conditions A : g 16 effectif 1

18 6

19 16

20 19

21 8

22 7

23 2

24 1

conditions B : g 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 28 31 effectif 2 2 1 2 2 3 2 6 2 4 3 1 2 3 3 1 1 1) Que conclure de ces rsultats, quant l'influence des conditions d'exprience, A ou B, sur la mesure de g. (Dcrire et mettre en uvre un test du khi-deux. Pour viter des effectifs de classes trop petits, on groupera les valeurs de g suivant la partition : { g 18 }, { 19 g 20 }, { g 21 } ). 2) On suppose que dans les conditions A, la mesure de g est une variable alatoire X d'esprance A et d'cart-type A, et que dans les conditions B, la mesure de g est une variable alatoire Y d'esprance B et d'cart-type B. _ a) Donner les estimations x et sA de A et A. (On prcisera les estimateurs choisis ainsi que les expressions calcules). _ On trouverait de mme les estimations y et sB de B et B : _ y = 20 sB 4,56 b) Les rsultats exprimentaux confirment-ils ou infirment-ils l'hypothse (H ) : (H) : " A = B " c) Les rsultats des tests du 1) et du 2-b) sont-ils contradictoires ? Peut-on imaginer rpondre la question 1) par un autre test que celui du khi-deux ? (... on ne demande ici ni de construire ni de mettre en uvre un tel test...).

71

IUP2-MIAGE 2001-2002 Bordeaux I Examen du 25-01-02 Dure : 2h Documents et calculettes autoriss. Le soin apport la rdaction sera apprci. Toutes les rponses doivent tre argumentes.

I Un joueur a dans sa poche 3 pices d'apparences identiques : - la pice A est normale et parfaitement quilibre, - la pice B est truque : si on la lance, on obtient "face" avec la probabilit 2/3, "pile" avec la probabilit 1/3, - la pice C est aussi truque : si on la lance, on obtient "face" avec la probabilit 1/3, "pile" avec la probabilit 2/3. 1) Le joueur a pris au hasard une pice dans sa poche. Il l'a lance une premire fois et a obtenu "face". Il l'a relance et a obtenu "face". Il l'a lance une troisime fois et a obtenu "pile". Avec quelle probabilit est-ce la pice A qu'il a lance ? 2) 36 fois de suite, le joueur prend une pice au hasard, la lance, et la remet dans sa poche. On note N le nombre de faces qu'il obtient. a) Quelle est la loi de N ? b) Quelle est l'esprance de N ? II 1) Exprime en heures d'utilisation, la dure de vie X d'une aiguille de machine coudre suit une loi uniforme sur l'intervalle [10, 30]. a) On note le nombre tel que, avec une probabilit gale 0,9 , X est plus grande que . Calculer . b) Que valent l'esprance et l'cart-type de X ?

72

2) L'utilisateur d'une machine coudre a achet 25 aiguilles, dont on suppose les dures de vie indpendantes et de loi uniforme sur l'intervalle [10, 30]. On note Y la dure totale d'utilisation de la machine coudre que ces aiguilles permettent. (... une et une seule aiguille est ncessaire au fonctionnement de la machine... ). a) Calculer l'esprance et l'cart-type de Y. b) On note le nombre tel que, avec une probabilit gale 0,9 , Y est plus grande que . Donner une valeur approche de / 25.

III On a mesur les dures de vie de 100 objets produits dans les mmes conditions et obtenu : dure de vie 1 3 5 7 9 11 13 15 nombre d'objets 17 18 19 11 11 11 8 5 a) Dfinir un chantillon alatoire adapt l'nonc. b) Donner une estimation, qu'on notera m, de l'esprance de cet chantillon.(On prcisera l'estimateur choisi ainsi que l'expression calcule). c) Peut-on supposer que la loi de l'chantillon est une loi exponentielle ? (On utilisera le tableau : a 2 4 6 8 10 14 e- a/m 0,732 0,536 0,393 0,288 0,217 0,113 b1 On rappelle que quels que soient les rels a et b, m e- x /m dx = e- a /m - e- b /m )
a

73

Rponses

aux exercices des fins de chapitres

1-5 : P(A)+ P(B) - P(A B) = P(A B) 1 2 C2 C10 1-6 : 20 0,437 2 2 0,103 C30 C30 1 2 n-r 2(n-r) 1-7 : a) 2 = n(n-1) b) 2 = n(n-1) Cn Cn 2 4 C 24 C10 1-8 : a) 10 0,0093 b) 1 0,31 4 4 C20 C20 1 2-7 : 1 - ( 2 )3 = 0,875 2-8 : 0,59 (0,03 pour 50 personnes) 2 1 1 1 1 2-9 : 1) P = ( 3 )k-1 3 si k 1) 2) P = 3 si k = 1, P = ( 2 )k-2 3 si k 2 1 3) P = 3 si k = 1, 2 ou 3 . 2-10 : a) 0,84 b) 0,9995 ( a) 0,33 b) 0,99995 si 5 malades ) 2-11 : a) p1p2...pn b) 1- (1-p1)(1-p2)...(1-pn) c) 1- (1-p1p2)(1-p3p4) d) p5 (1- (1-p1)(1-p3)) (1- (1-p2)(1-p4)) + (1-p5) ( 1- (1-p1p2)(1-p3p4) ) 1 2-12 : a) p2 + (1-p)2 b) ( p2 + (1-p)2 )n c) p ( 1 + (1-p) 2 ) n 2-13 : Proba de gagner = a) 1/3 b) 2/3 c) 1/2 . Stratgie b prfrable.
300

3-10 :

2 3 C2 5 p (1-p)

avec p =

200

2 0 0 dx = 1/3 x2

3-11 : P(N1 = 1 et N2 = 1) = 3/10 P(N1 = 1 et N2 = 2) = P(N1 = 2 et N2 = 1) = 1/5 P(N1 = 1 et N2 = 3) = P(N1 = 2 et N2 = 2) = P(N1 = 3 et N2 = 1) = 1/10 3-12 : a) F(x) = 0 si x < 0 , F(x) = xn si 0 x < 1 , F(x) = 1 si x 1 f(x) = 0 si x < 0 ou x 1 , f(x) = nxn-1 si 0 x < 1 b) f(x) = 0 si x < 0 ou x 1 , f(x) = n(1-x)n-1 si 0 x < 1 n 4-11 : E(M) = n+1 (M) = n (n+2)(n+1)2

1 4-12 : P( N=n ) = pn-1 (1-p) ( n 1 ). E(N) = 1-p . n 1 4-13 : 1) a) (cu+tu) 1-p b) (ncu+tm) (1-p)n 2n+1 2) a prfrable b si p 1 - ( 3n )1/(n-1) 0,039 si n=10, 0,004 si n=100.

74

5-5 : a = 1 - (0,99)10 - 10 (0,99)9 0,01 0,0043 ; 3a(1-a)2 0,01269 ; 1- (1-a)3 0,01274 . k pk (1-p)n-k e-4 4n = e-4p (4p)k . C suit 5-6 : p = 0,1 = 4 . P(C=k) = C n n! k! nk 5-7 : a) = 1/1,645 0,608 b) s = 1,96 1,19 5-8 : 0,383 .

(4p).

6-2 : n 790 ( comparer n 2917 ) 6-3 : au moins 26549 F . 6-4 : s 1,96 p(1-p) n . Si n = 100, s 10, 2s/(n+2s) 17/100. Si n = 1000, s 31, 2s/(n+2s) 6/100. 6-5 : a) (v, p) . E(Y) = vp . (Y) = vp(1-p) e-1 b) R = xY . E(R) = xvp = xve -cx . E(R) maxi si x = 1/c et alors, E(R) = v c . c) n 0,85 vp(1-p) + vp . 8-6 : crit = 0,0096 a) pH 8,2 b) " pH = 8,2 " n'est pas contredite par l'exprience. 8-7 : (H) " Proba (garon) = 0,5 " a) crit = 0,84 (H) acceptable b) crit = 0,53 (H) acceptable c) crit = 0,046 (H) rejete au risque de 5% , (H) acceptable au risque de 4%. 8-8 : a) I0,95 [ 6,63 , 11,37 ] b) 1537 8-9 : I0,9 [ 0,029 , 0,054 ] 8-10 : I0,95 [ 0,048 , 0,20 ]

n 0,015 1,65 8-11 : a) " p < 0,5 " compatible avec l'exprience b) 1/4 _ 8-12 : a) x = 31,99 ; s = 3,29 b) I0,95 = [ 31,66 , 32,33 ]

n 3000

9-6 : X = pouls avant, Y = pouls aprs. X et Y non indpendantes. On suppose loi de Z = Y-X normale. " E(Z) = 0 " n'est pas contredite par l'exprience. (test de Student au risque de 5% (et jusqu' crit 0,18)). Effet secondaire non dmontr. 9-7 : a) Test ch91c. Supposer normalit des notes du groupe A, du groupe B, indpendance des chantillons. b) cf. exo 9-6. 9-8 : Supposer normalit des chantillons et mme variance. " A < B " non rejete par test unilatral t12 au risque de 5% (crit 0,09) . L'affirmation du constructeur A n'est pas prouve. _ _ 9-9 : x = y = 2,5 sA = 1,29 >> sB = 0,3 . Procd B prfrable (plus rgulier). (n-1)S12 9-10 : Si 1 =2 , D = suit Fn-1,m-1, etc... (m-1)S22

75

10-6 :

classes 27 27-29 29-31 31-33 33-35 35-37 37 eff.th. 24,11 43,91 75,26 89,85 73,84 43,91 24,11 eff.obs. 27 38 79 84 75 53 19 loi normale (Test du khi-deux (ddl = 4) au niveau de risque 5%, 10%, ... crit 0,3 )

10-7 : Test d'indpendance des caractres "occupation" et "mois". khi-deux (ddl = 1). 10-8 : classes 30 30-60 60-90 90 eff.th. 45,12 24,76 13,59 16,53 eff.obs. 41 31 13 15 loi (1/50) (Test du khi-deux (ddl = 3) au niveau de risque 5%, 10%, ... crit > 0,5 ) 10-9 : indpendance rejete au niveau de risque 5%, accepte au niveau 2% (Test du khideux, ddl = 2). 10-10 : tirage au hasard de 50 copies corriger par A, de 50 copies corriger par B, test d'galit de deux lois. 10-11 : Test des signes au risque 5% : Effet secondaire non dmontr.

76

You might also like