Professional Documents
Culture Documents
Cours de Master 1
Lionel Truquet
2011-2012
1 IRMAR,
1.3
1.4
Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mesures de probabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Les mesures de probabilit discrtes. . . . . . . . . . . . . . . . . . .
1.2.2 Les mesures de probabilit densit sur un intervalle de R . . . . . .
1.2.3 Cas mixte. Mlange . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Proprits des mesures de probabilit . . . . . . . . . . . . . . . . . .
1.2.5 Indpendance d'venements . . . . . . . . . . . . . . . . . . . . . . .
Les variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L'esprance mathmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Esprance d'une variable alatoire positive . . . . . . . . . . . . . . .
1.4.2 Esprance d'une variable alatoire de signe quelconque et proprits
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Mesures et intgration
3.1
3.2
3.3
3.4
3.5
25
28
28
30
31
32
35
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
7
8
10
11
12
13
14
17
17
20
35
36
38
39
42
43
45
46
48
52
55
.
.
.
.
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
55
56
59
62
5.2
5.3
La fonction de rpartition . . . . . . . . . . . . . . . .
5.1.1 Proprits gnrales des fonctions de rpartition
5.1.2 Fonction de rpartition inverse et simulation . .
Covariance et moments . . . . . . . . . . . . . . . . . .
5.2.1 Moments d'une variable alatoires relle . . . .
5.2.2 Covariance et corrlation . . . . . . . . . . . . .
Fonction caractristique d'une variable alatoire . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7.3
7.4
8.1
8.2
8.3
73
73
75
75
76
80
85
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 93
. 93
. 94
. 95
. 95
. 98
. 101
. 101
. 102
.
.
.
.
.
.
65
65
66
68
68
69
70
.
.
.
.
.
.
.
.
.
.
.
.
65
85
86
86
86
88
92
93
Chapitre 1
Espaces probabiliss, variables
alatoires et esprance mathmatique
1.1
Espace probabilisable
Dnition 1
Exemple.
Remarques
A = N
i=1 Ai = iN Ai A.
On en dduit aussi la stabilit de A par intersection nie ou innie dnombrable. En eet,
lorsque I = {1, . . . , N } ou I = N, considrons une suite (Ai )iI d'lments de A. Posons
A = iI Ai . En crivant
A = (iI Aci )c
5
Dnition 2
Soit F P() un sous-ensemble de l'ensemble des parties de . La tribu engendre par F est dnie comme l'intersection de toutes les tribus contenant F . Cette tribu est
note (F).
Remarque.
Exemples
(F) = {, , A, B, A B, Ac , B c , Ac B c = (A B)c } .
Si A et B sont deux sous-ensembles non disjoints de et F = {A, B}, alors la tribu (F)
est plus dicile dcrire. On peut arriver dcrire cette tribu l'aide des vnements
B \ A, A \ B , A B et (A B)c qui sont disjoints deux deux et dont la runion est .
En eet la tribu sera alors compose de toutes les runions
possibles entre ces lments et
le nombre d'lments composant la tribu est
P4
k=0
4
k
, A B c , B Ac , Ac B c , A B, A, B, AB, (AB)c , Ac , B c ,
Ac B, B c A, Ac B c , A B, ,
avec AB = (A \ B) (B \ A) qui est appel la dirence symtrique de A et de B .
Posons F = {[a, b]/a, b R}. Autrement dit, F est l'ensemble de tous les intervalles ferms et borns de R. Alors la tribu (F)
est aussi note B(R) et est appele tribu Borlienne sur R. Les lments de B(R) (qui sont des
parties de R) sont appels des borliens. La tribu B(R) est trs riche : la dnition d'une tribu
entrane que tous les intervalles de R sont contenus dans B(R), mais aussi tous les ensembles
dnombrables {x1 , x2 , . . .} (en particulier N, Z ou encore Q) et donc ensuite n'importe quelle
intersection ou runion nie ou innie dnombrable constitue l'aide de ces ensembles. On peut
quand mme montrer (bien que cela soit dlicat) qu'il existe des parties de R qui n'appartiennent
pas B(R). Sur la tribu d'vnements B(R), il est possible de construire les probabilits dtes
densit. Ces probabilits densit ne peuvent tre dnies sur P(R), d'o l'importance de la
tribu Borlienne.
On dnit aussi une tribu Borlienne sur un intervalle I de R : B(I) = {A I/A B(R)}. On
peut montrer que pour un intervalle I de R, la tribu B(I) concide avec la tribu engendre par
l'ensemble des intervalles ferms borns inclus dans I .
6
A = ({A1 A2 Ad /A1 A1 , . . . , Ad Ad }) .
La tribu produit est donc la tribu engendre par tous les produits cartsiens de la forme A1
Ad avec Ai Ai , 1 i d.
Un exemple fondamental est la tribu borlienne sur Rd : en considrant i = R et Ai = B(R)
d et est note B Rd .
pour 1 i d, la tribu tribu
produit
est
appele
la
tribu
borlienne
sur
R
On peut montrer que B Rd est aussi la tribu engendre par les pavs ferms borns (c'est dire
les ensembles de la forme [a1 , b1 ] [a2 , b2 ] [ad , bd ]). La tribu B(Rd ) est aussi trs riche car
elle contient tout un tas de parties de Rd cause des proprits de stabilit de la Dnition 1. On
peut y trouver tous les pavs de Rd (dont les intervalles sont ferms ou pas en leurs extrmits),
tous les ensembles nis ou inni dnombrables, tous les ensembles dnis par des quations du
type g(x) = 0 ou g(x) > 0 avec g : Rd R continue (en particulier un cercle ou un disque
de R2 appartiennent B(R2 )) et des ensembles beaucoup plus irrguliers. C'est sur cette tribu
d'venements que sont dnies les mesures de probabilits densit (sur Rd ) que nous verrons
en dtail au Chapitre 3.
C = { /0 A0 , 1 A1 , . . . , n An } ,
o n N et Ai Ai si 1 i n. Lorsque pour i N, i = R et Ai = B(R), la tribu (C)
contient par exemple les venements :
ensemble des suites qui franchissent le niveau a :
+
n=0 {x/xn a}.
ensemble des suites qui ont pour limite le rel a :
+
k=1
1
+
+
N =1 n=N x / |xn a|
.
k
Cette tribu, appele tribu cylindrique, est en particulier utilise pour la construction des suites
de variables alatoires indpendantes.
1.2
Mesures de probabilits
Dnition 3
probabilit si
1. P() = 1.
2. Si (Ai )iN est une suite d'venements de A deux deux disjoints (c'est dire Ai Aj =
si i 6= j ) alors
X
P (iN Ai ) =
P(Ai ).
i=0
Remarques
Soit (Ai )iN une famille d'lments de A disjoints deux deux. Posons A = iN Ai . Si
: N N est une permutation de N, alors on a aussi l'galit
A = iN A(i) .
Pour que la dnition prcdente ait un sens, il faut que
P(Ai ) =
i=0
P A(i) .
(1.1)
i=0
Mais cette galit est automatiquement vrie car si P est une mesure de probabilit,
P
la srie
i=0 P(Ai ) est absolument convergente et de somme P(A). Une srie
P absolument
convergente tant commutativement convergente (on rappelle qu'une srie iN xi est dite
commutativement convergente si elle est convergente et si sa somme concide avec celle de
P+
la srie
i=0 x(i) pour toute permutation de N), l'galit (1.1) est bien vrie.
Mentionnons galement que pour toute srie de terme gnral xi positif, la limite
P
limN N
i=1 xi existe et est soit nie soit gale +. Cette limite est encore appele la
somme de la srie. Une srie termes positifs est aussi commutativement convergente.
Remarquons que cette dnition entraine automatiquement l'galit P () = 0. En eet, il
sut d'appliquer le point 2. de la dnition en posant Ai = pour tout i N : l'galit
P () =
i=0
A1 , . . . , An
Soient
des lments de A disjoints deux deux. En posant Ai = si i > n
ou si i = 0 et en utilisant la remarque prcdente, la proprit de additivit entraine
l'galit
P (ni=1 Ai ) =
n
X
P(Ai ).
i=1
Dnition 4 On appelle espace probabilis tout triplet (, A, P) o (, A) est un espace probabilisable et P est une mesure de probabilit sur A.
Sur tout espace probabilisable (, A), on peut construire des mesures de probabilit lmentaires : les masses de Dirac. Plus prcisment, si 0 , considrons 0 l'application dnie
sur A par
1 si 0 A,
0 (A) =
,
A A.
0 sinon
Alors 0 est une mesure de probabilit appele masse de Dirac au point 0 (vrier la dnition
titre d'exercice). Remarquons que si {0 } A alors 0 ({0 }) = 1. Cette mesure de probabilit
a peu d'intrt en modlisation (l'venement {0 } est certain) et permettra surtout d'crire
d'autres mesures de probabilit plus intressantes.
1.2.1
Proposition 1
Soient (xi )iN une suite de points de Rd et (pi )iN une suite de nombres rels
positifs de somme 1. Posons = {xi : i N} et A = P (). Alors sur l'espace probabilisable
(, A), il existe une unique mesure de probabilit P telle que
P ({xi }) = pi ,
8
i N.
1A (xi ) pi ,
i=0
o 1A : Rd {0, 1} est la fonction dite indicatrice de A et qui est dne par 1A (x) = 1 si x A
et 1A (x) = 0 si x Ac .
Avec les notations de la proposition prcdente, on peut noter que
1A (xi ) pi =
i=0
xi (A)pi ,
i=0
i=0 pi i .
Preuve.
Si P est une mesure de probabilit telle que P ({xi }) = pi pour tout i N, alors en
posant Ai = {xi } si xi A et Ai = si i
/ A, on a ncessairement
P(A) = P (iN Ai ) =
P (Ai ) =
i=0
(1.2)
1A (xi )pi .
i=0
L'unicit d'une telle mesure de probabilit est donc claire. Montrons alors si P : A [0, 1]
est dnie pour tout A A par (1.2) alors P est bien une mesure de probabilit. P prend des
P
valeurs dans [0, 1] puisque 0 P(A)
i=0 pi = 1 pour tout A A. On a ensuite d'abord
P
1
p
=
1
.
Vrions
la
proprit
de additivit. Soit (An )nN est une suite
P() =
i
i=0
d'lments de A deux deux disjoints. Posons A = nN An . On peut remarquer l'galit
1A =
1An .
n=0
Ainsi on obtient
P(A) =
X
i=0 n=0
1An (xi ) pi =
1An (xi ) pi =
n=0 i=0
P(An ).
(1.3)
n=0
L'inversion des sommes dans (1.3) est justie grce au Thorme de Fubini (cf Thorme 2
nonc au Chapitre 2).
Exemples
Lorsque = {1, . . . , n}, la loi uniforme sur est dnie par P ({i}) = n1 , 1 i n.
Lorsque = {0, . . . , n}, la loi binomiale de paramtre (n, p) (0 < p < 1) est dnie par
P ({i}) =
n i
p (1 p)ni ,
p
0 i n.
P ({i}) = exp()
i
,
i!
i N.
Dnition 5
On dira qu'une mesure de probabilit P sur Rd , B(Rd ) est discrte s'il existe un
sous-ensemble E de Rd ni ou inni dnombrable tel que P(E) = 1.
Le chapitre 2 sera consacr plus en dtail aux mesures de probabilit discrtes.
1.2.2
Pour construire les mesures de probabilit densit sur R, la tche est plus dlicate. Certaines dicults mathmatiques rendent impossible la dnition de ce type de probabilit sur
la tribu d'venement P(R) (ensemble de toutes les partie de R). On est oblig de se restreindre
la tribu des borliens. Mais mme avec cette restriction, il faut un bagage mathmatique supplmentaire (l'intgrale de Lebesgue que nous discuterons un peu au Chapitre 3) pour pouvoir
dnir correctement ce type de mesure de probabilit. Cependant l'nonc du thorme suivant
met en lumire un principe assez gnral concernant la dnition des mesures de probabilit :
on dnit une application P sur l'ensemble des intervalles ferms borns et on montre ensuite (
l'aide de thormes appropris) que P se prolonge de manire unique la tribu engendre par
les intervalles, c'est dire la tribu des borliens.
f (x)dx,
(1.4)
a, b I.
Cas particulier.
Lorsque c et d sont deux rels tels que c < d, et si f : [c, d] R+ est dnie
par f (x) =
pour x [c, d] alors on parle de mesure de probabilit uniforme sur l'intervalle
[c, d]. On a alors
1
dc
P ([a, b]) =
ba
,
dc
c a b d.
D'autres exemples bien connues : lorsque I = R et f est dnie par f (x) = 1 exp x2
2
on parle de distribution gaussienne centre rduite, lorsque I = R+ et f est dnie par f (x) =
exp(x) on parle de distribution exponentielle de paramtre ( dsigne un rel strictement
positif).
Remarque.
Une mesure de probabilit densit sur un intervalle I de R peut tre vue comme
une mesure de probabilit sur (R, B(R)) : il sut de prolonger la densit f en dehors de I en
posant f (x) = 0 si x
/ I . On utilisera alors la notation (abusive) f 1I pour dsigner la densit.
10
Fig.
1.2.3
Proposition 2 Toute combinaison convexe de mesures de probabilits sur (, A) est encore une
mesure de probabilit. Autrement dit si p [0, 1] et Q1 , Q2 sont deux mesures de probabilits sur
(, A) alors l'application P = pQ1 + (1 p)Q2 dnie par P(A) = pQ1 (A) + (1 p)Q2 (A) pour
A A est une mesure de probabilit sur A.
Exemples
Z
P ([a, b]) = (1 p)
exp(x)dx.
a
Cet exemple est un cas particulier de mesure de probabilit de la forme P = pQ1 +(1p)Q2
o Q1 est une mesure de probabilit discrte et Q2 une mesure de probabilit densit.
11
Remarque.
Proposition 3
5. Si I = N ou [[1, N ]] et (An )nI est un systme complet d'venements (i.e disjoints deux
deux et de runion ) alors
X
P(A) =
P (A Ai ) .
iI
Cette dernire formule est connue sous le nom de formule des probabilits totales.
Preuve
1. Les deux venements A et B \ A sont disjoints et de runion B . On a donc
nN Bn = nN An .
De plus comme Bn An , on a P(Bn ) P(An ). Si A = nN An , on conclut que
P(A) =
P(Bn )
nN
X
nN
P(An ),
Proposition 4
1. Si la suite est croissante au sens de l'inclusion, c'est dire An An+1 pour tout n, alors
en posant A = nN An , on a
P(A) = lim P(An ).
n+
2. Si la suite est dcroissante au sens de l'inclusion, c'est dire An+1 An pour tout n, alors
en posant A = nN An , on a galement
P(A) = lim P(An ).
n+
Remarque.
On peut voir ces rsultats comme des rsultats de continuit : la proprit 1. est
d'ailleurs appele proprit de continuit suprieure et la proprit 2. proprit de continuit
infrieure. Par exemple, pour toute mesure de probabilit P sur R muni de la tribu B(R), la
Proposition 4 permet d'crire :
1
1
lim P [1 + , 1 ] = P (] 1, 1[) ,
n+
n
n
1
1
lim P [1 , 1 + ] = P ([1, 1]) .
n+
n
n
La Proposition 4 sera dmontre en TD.
1.2.5
Indpendance d'venements
La dnition de l'indpendance entre venements est fondamentale dans la thorie des probabilits.
Dnition 6
On dit qu'une famille d'venements {Ai /i I} (I est un ensemble quelconque) est indpendante si pour tout k N et pour tout kuplet (j1 , . . . , jk ) d'lements distincts de
I :
k
Y
P (Aj1 Aj2 . . . Ajk ) =
P (Aji ) .
i=1
Exemple.
, on a P(A) =
|A|
36 .
1
1 1
= P(A B) = = P(A)P(B).
36
6 6
Les venements A et B sont indpendants.
13
1.3
Dnition 7
a b.
2. On dit qu'une application X : Rd dnie par X() = (X1 (), . . . , Xd ()) est une
variable alatoire si pour 1 i n, Xi est une variable alatoire relle.
Cette dnition semble naturelle car pour calculer la probabilit de l'ensemble { /a X() b}
(si X dsigne une variable alatoire relle), il faut que ce dernier soit bien un venement. En
pratique, cette dnition est assez gnrale : les fonctions rencontres seront toujours des variables alatoires lorsque la tribu A est correctement choisie.
On pourra en fait calculer la probabilit qu'une variable alatoire appartienne n'importe quel
Borlien, comme le montre la proposition suivante.
Proposition 5
Notation.
Remarque.
Preuve de la proposition.
Posons
n
o
M = B B Rd / {X B} A .
On peut vrier que M est une tribu (exercice). Cette tribu contient les pavs ferms de Rd :
en eet comme X est une variable alatoire, on a si P = [a1 , b1 ] [ad , bd ] :
Soit X : Rd une fonction telle que X() soit un ensemble ni ou inni dnombrable
de Rd : X() = {x1 , x2 , . . .} pour une suite x1 , x2 , . . . de points de Rd . Alors X est une
variable alatoire si et seulement si pour tout i,
{X = xi } A.
En eet, si a et b sont deux rels tels que a b et J = {i N/xi [a, b]}, alors J est un
ensemble ni ou inni dnombrable et on a
{a X() b} = iJ {X() = xi } .
Dans ce cas, on dit que X est une variable alatoire discrte. Remarquons qu'en posant
Ai = {X = xi } pour i N , on a la dcomposition
X() =
xi 1Ai (),
i=1
A = B Rd1 B Rdn ,
tribu qui s'identie en fait la tribu borlienne sur Rd1 +...+dn . Alors les applications
coordonnes X1 , . . . , Xn dnies par
= (1 , . . . , n ) , 1 i d,
sont des variables alatoires. En eet si Bi B Rdi , on a, en posant Ei = Bi et Ej = j
pour j 6= i :
n
Y
{Xi Bi } =
Ej A.
Xi () = i ,
j=1
Il est parfois intressant de considrer des variables alatoires relles pouvant prendre la
valeur + (la dnition reste inchange). Donnons un exemple en considrant = RN
que l'on munit de la tribu cylindrique et dnissons pour i N l'application coordonne
Xi par Xi () = i , . Xi est une variable alatoire. Soit alors
T () = inf {i 0 : Xi a} ,
avec la convention T () = + si {i 0 : Xi a} = . Alors T est une variable alatoire
discrte. En eet, on peut crire si n N :
{T = n} = n1
i=0 {Xi < a} {Xn a} .
Ainsi {T = n} A car il s'agit d'une intersection nie d'venements.
Si on s'intresse la suite des prix d'un actif nancier, T reprsente le premier instant o
le prix de cet actif dpasse le seuil a.
Dnition 8
dnie par
B B(Rd ),
On pourra titre d'exercice vrier que l'application PX de la dnition prcdente est bien une
mesure de probabilit.
Ainsi dnir la loi d'une variable alatoire X reviendra dnir la mesure de probabilit PX .
En particulier, nous utiliserons la terminologie suivante.
Dnition 9
PX
1. On dira qu'une variable alatoire X est une variable alatoire discrte lorsque
est une mesure de probabilit discrte.
2. On dira qu'une variable alatoire X suit une loi densit et de densit f sur R si PX est une
mesure de probabilit de densit f (ainsi si a b, on aura PX ([a, b]) = P (a X b) =
Rb
a f (x)dx.)
Exemples
Supposons que X soit une variable alatoire constante (c'est dire qu'il existe c Rd tel
que X() = c pour tout ). Alors on a PX = c (masse de Dirac au point c).
Pour le lancer de deux ds quilibrs, on pose = [[1, 6]]2 , A = P() et P la mesure de
1
probabilit discrte dnie par P ({}) = 36
, . Alors si X1 () = 1 et X2 () = 2 ,
alors PX1 ou PX2 est la probabilit uniforme sur [[1, 6]] et P(X1 ,X2 ) = P.
Pour une variable alatoire discrte, il n'est utile de prciser que les probabilits non nulles
P
du type P (X = x). Par exemple soit X =
i=1 xi 1Ai o (xi )i1 est une suite de points de
d
R et (Ai )i1 une suite d'lments de A disjoints deux deux. Alors en posant pi = P (Ai ),
on a l'galit
PX =
pi xi .
i=1
Pour une variable alatoire densit, il sut de prciser la densit. Supposons par exemple
que = R et P est la distribution exponentielle de paramtre 1. Posons X() = 2 , pour
tout . Soient alors (a, b) R2 tel que 0 a b. Alors, on a
Z b
Z b
P (a X b) = P [ a, b] = exp(t)dt =
2u exp(u2 )du,
a
fX (u) = 2u exp u2 1R+ (u).
En
pratique, il arrive souvent que l'on dnisse des lois de variables alatoires sans mme dnir
explicitement le triplet (, A, P). En fait, on dnira souvent PX sans dnir P car seule la
probabilit PX nous intressera. Ceci est li au fait qu'on supposera le rsultat (x1 , . . . , xd ) Rd
d'une exprience alatoire comme tant la ralisation X() d'une variable alatoire. On dnit
alors la loi Q de X , qui est celle permettant d'tudier cette exprience. Il existe toujours un
espace probabilis (, A, P) naturel associ : on peut poser = Rd , X() = et P = Q (ce qui
entraine PX = P = Q). Toute loi de probabilit sur Rd est donc la loi d'une variable alatoire
dnit sur un espace probabilis.
Adopter ce point de vue est souvent plus commode car plus conome en terme de description.
Nous y reviendrons.
16
1.4
L'esprance mathmatique
Dnition 10
n
X
xi p i .
i=1
Dans la suite, nous noterons D+ l'ensemble des variables alatoires positives et qui ne
prennent qu'un nombre ni de valeurs. Commenons par noncer la proposition suivante.
Proposition 6
2n 1
2X
k=0
k
1 k
k+1 .
2n { 2n X< 2n }
Alors (Xn )nN est une suite croissante d'lments de D+ qui converge point par point vers la
variable alatoire X .
Preuve.
Ainsi
|Xn () X()|
k
< ,
2n
n n0 ,
ce qui montre la convergence. L'autre point non trivial est la croissance de la suite que nous allons
dmontrer. Soit et n N. Si X() 2n , alors Xn () = 0 et donc Xn () Xn+1 (). Si
17
2k
2k+1
maintenant il existe k [[0, 22n 1]] tel que 2kn X() < k+1
2n , alors on a 2n+1 X() < 2n
2k
ou 2k+1
X() < 2k+2
. Dans ce cas on a Xn () = 2kn et ou bien Xn+1 () = 2n+1
ou bien
2n+1
2n+1
2k+1
Xn+1 () = 2n+1 . Ceci prouve bien que l'on a toujours Xn () Xn+1 ().
Remarque.
Fig.
1.2:
Lemme 1
Preuve.
Quitte rajouter des valeurs, on peut supposer que Y et Z prennent toutes les deux
les valeurs x1 < x2 < . . . < xk (dont peut-tre certaines avec probabilit 0). Comme Y Z ,
alors pour 1 i n, on a
{Y = xi } = nj=i {Y = xi , Z = xj }
18
et la runion est forme d'venements disjoints deux deux. En utilisant la proprit d'additivit
de la mesure P, on obtient
E(Y ) =
n
X
xi P (Y = xi ) =
i=1
n
X
xi
n
X
i=1
P (Y = xi , Z = xj ) .
j=i
Mais
n
X
xi
i=1
n
X
P (Y = xi , Z = xj ) =
j=i
n
X
xi
i=1
n
X
1ij P (Y = xi , Z = xj )
j=1
j
n X
X
P (Y = xi , Z = xj )
j=1 i=1
n
X
j=1
n
X
xj
j
X
P (Y = xi , Z = xj )
i=1
xj P(Z = xj )
j=1
= E(Z).
On a donc bien E(Y ) E(Z).
Le lemme suivant sera capital pour justier la dnition de l'esprance.
Lemme 2
Preuve.
p
X
(1.5)
xi P ({X = xi } Bn ) .
i=1
lim E (tX1Bn ) = t
p
X
xi P (X = xi ) = tE(X).
i=1
ce qui donne l'ingalit que nous devions prouver en faisant tendre t vers 1.
Nous sommes alors en mesure de dnir l'esprance d'une variable alatoire positive.
19
Proposition-Dnition 1
Soit X une variable alatoire positive et (Xn )nN une suite croissante de variables alatoires de D+ et convergeante point par point vers X , alors la quantit
limn+ E(Xn ) (qui est bien dnie en tant que limite d'une suite croissante et qui peut valoir
+) ne dpend pas de la suite (Xn )nN . Ce nombre est appel esprance mathmatique de X et
est not E(X).
Preuve.
Si (Xn )n et (Xn0 )n sont deux suites de variables alatoires qui satisfont les hypothses
de la proposition, alors le Lemme 2 assure que
ce qui entraine
(Xn0 ),
Exemples
Si X est une variable alatoire discrte telle que X() N. Plutt que d'utiliser la suite
Pn
croissante donne dans la Proposition 6, on peut utiliser ici Xn =
i=0 i1{X=i} , ce qui
donne :
n
X
n+
iP(X = i) =
i=0
P(X = i).
iN
E(X) = lim
n+
2n 1
2X
k=0
k
P
2n
k
k+1
X<
2n
2n
= lim
n+
2n 1 Z
2X
k=0
R +
k+1
2n
k
2n
k
f (x)dx.
2n
f (x)dx.
Soit X une variable alatoire prenant des valeurs relles. La partie positive de X est la
variable alatoire note X + dnie par
X + () =
X() si X() 0,
0 sinon.
X = X + X ,
|X| = X + + X .
Dnition 11
En utilisant la Proposition 6, on retrouve alors les formules dj connues de la moyenne pour des
variables alatoires discrtes ou densit (pouvant prendre des valeurs positives ou ngatives).
Soit X une variable alatoire discrte valeurs relles et posons
val(X) = {x R : P(X = x) 6= 0} = {x1 , x2 , . . .},
qui est un sous-ensemble ni ou inni dnombrable de R. Alors, on peut montrer que
E X
xi 1xi >0 P (X = xi ) ,
i=1
E X
xi 1xi <0 P (X = xi ) .
i=1
X
|xi |P (X = xi ) ,
E X+ + E X =
i1
et la somme de cette srie correspond aussi E (|X|). Lorsque cette somme est nie,
l'esprance de X est donne par la formule
E(X) =
xi P (X = xi ) .
i=1
Il est important de rappeler que pour une srie termes positifs ou absolument convergente,
il est possible de sommer sans ambigut en utilisant une numration quelconque.
Si X est une variable alatoire dont la loi a une densit f dnie sur R. Alors on trouve,
E X
Z
=
xf (x)dx,
0
E X =
xf (x)dx.
R +
Lorsque ces deux quantits sont nies, leur somme vaut |x|f (x)dx et concide avec
E (|X|). Si cette dernire intgrale est nie, alors l'esprance de X est donne par la formule
E(X) =
xf (x)dx.
Proposition 7
2. On a E (X + Y ) = E(X) + E(Y ) et E (X) = E(X) (proprits de linarit). En particulier X + Y est intgrable si X et Y sont intgrables.
3. Si pour tout , X() Y (), alors E(X) E(Y ).
4. Si P (X = Y ) = 1 alors E(X) = E(Y ).
5. Si X prend des valeurs positives, alors
E(X) = 0
P(X = 0) = 1.
Preuve.
Montrons d'abord que E(X + Y ) = E(X) + E(Y ) lorsque X et Y sont valeurs positives
et ne prennent qu'un nombre ni de valeurs notes {x1 , . . . , xm } et {y1 , . . . , yp } respectivement. On peut alors crire
X=
m
X
xi 1X=xi =
i=1
p
m X
X
xi 1{X=xi ,Y =yj } .
i=1 j=1
X +Y =
p
m X
X
i=1 j=1
E (X + Y ) =
=
p
m X
X
i=1 j=1
p
m X
X
(xi + yj ) P (X = xi , Y = yj )
xi P (X = xi , Y = yj ) +
i=1 j=1
p
m X
X
yj P (X = xi , Y = yj )
i=1 j=1
= E(X) + E(Y ).
Considrons maintenant le cas de deux variables alatoires positives X et Y quelconques.
Soient alors deux suites croissantes (Xn )n et (Yn )n de variables alatoires de D+ et telles
que pour tout ,
lim Xn () = X(),
n+
lim Yn () = Y ().
n+
On voit que la suite Zn = Xn + Yn est une suite croissante d'lments de D+ telle que
n+
Ainsi, en utilisant l'galit E(Zn ) = E(Xn ) + E(Yn ) que nous avons prouve juste avant,
on a par dnition de l'intgrale
Montrons ensuite le point 3.. Supposons d'abord 0 X Y . Soit (Xn )n (resp. (Yn )n )
une suite croissante d'lments de D+ telle que limn Xn = X (resp. limn Yn = Y ).
Alors si p N, on a Xp Y et le Lemme 2 guarantit que
Montrons ensuite que E(X + Y ) = E(X) + E(Y ) pour des variables alatoires X et Y
intgrables. On a (X + Y )+ X + + Y + et (X + Y ) X + Y ce qui entraine
l'intgrabilit de X + Y en utilisant l'intgrabilit de X et de Y ainsi que la linarit de
l'esprance pour les variables alatoires positives. On a alors les dcompositions
X + Y = (X + Y )+ (X + Y ) = X + + Y + X + Y ,
ce qui permet d'avoir
(X + Y )+ + X + Y = (X + Y ) + X + + Y + .
En prenant l'esprance dans cette galit et en utilisant la linarit de l'esprance pour les
variables alatoires positives, on trouve
E (X + Y )+ + E(X ) + E(Y ) = E (X + Y ) + E(X + ) + E(Y + ).
On obtient alors E(X + Y ) = E(X) + E(Y ).
Montrons la n du point 2.. Si X D+ et R+ , alors on a videmment E(X) = E(X).
Si (Xn )n est une suite croissante d'lments de D+ convergeante point par point vers X
alors (Xn )n est une suite croissante d'lments de D+ convergeante point par point vers
X . On en dduit
X = X + X
et on a d'aprs ce qui prcde
1
X X1X 1 1X 1 .
n
n
n
Le point 3. assure que 0 = E(X) n1 P X n1 . En utilisant la continuit suprieure de
la mesure, on obtient
1
P(X > 0) = lim P X
n+
n
=0
p
X
i=1
23
yi P(Y = yi ) = 0.
Remarques.
Dnition 12
24
Chapitre 2
Indpendance. Variables alatoires
discrtes
Dnition 13
Des variables alatoires X1 , X2 , . . . , Xn valeurs dans Rd1 , Rd2 , . . . , Rdn respectivement sont dites indpendantes si
P (ni=1 {Xi Ai }) =
n
Y
P (Xi Ai ) ,
i=1
Remarques
1. Rappelons que de faon gnrale, nous qualions une variable alatoire X : Rd de
discrte lorsque P(X E) = 1 o E est un sous-ensemble ni ou inni dnombrable de
Rd . Pour une variable alatoire X discrte, rappelons la notation
val(X) =
n
o
x Rd /P(X = x) 6= 0 ,
P (X1 = x1 , . . . , Xn = xn ) =
n
Y
P (Xi = xi ) ,
i=1
25
2. Si n variables alatoires sont indpendantes alors ces variables alatoires sont indpendantes deux deux. Pour le voir il sut de poser Ai = Rdi pour tous les indices i correspondants aux n 2 variables alatoires restantes. En revanche, il faut bien garder l'esprit
que n variables alatoires indpendantes deux deux ne sont pas indpendantes au sens
de la Dnition 13. On pourra vrier en exercice que si X1 et X2 sont deux variables
alatoires discrtes indpendantes et de mme loi donne par
1
2
Exemple.
Existence d'un
nuplet
On peut justier leur existence en utilisant la notion de mesure produit. Pour 1 i n, soit
(i , Ai , Qi ) un espace probabilisable. Notons = 1 d et munissons de la tribu
produit A (voir Chapitre 1). Alors nous admettrons le rsultat suivant
Proposition 8
telle que
= Rd1 Rdn
= Rd1 +...+dn .
Soit A la tribu produit des tribus borliennes B Rd1 , . . . , B Rd1 (tribu qui concide en fait
avec la tribu borlienne sur ). Soit alors P est la mesure produit correspondante et posons
Xi () = i Rdi pour (i, ) {1, . . . , d} . Alors les variables alatoires X1 , . . . , Xn sont
indpendantes sous la
probabilit P et sont bien de lois respectives Q1 , . . . , Qn . En eet si pour
1 i n, Ai B Rdi alors
P (X1 A1 , . . . , Xn An ) = P (A1 An ) =
n
Y
i=1
Qi (Ai ) =
n
Y
P (Xi Ai ) .
i=1
Il existe un rsultat similaire (mais un peu plus compliqu) qui guarantit l'existence de suites
de variables alatoires indpendantes et de lois donnes (plus prcisment il existe un espace
probabilis sur lequel sont dnies une innit de variables alatoires indpendantes et de lois
donnes). Nous admettrons l'existence de ce type de construction dans ce cours.
26
Notation.
Pour une suite de variables alatoires indpendantes et telle que toutes les variables
alatoires aient la mme loi, on dira que la suite est indpendante et identiquement distribue, ce qui sera not en abrg i.i.d.
Proposition 9
Preuve.
{Yi Bi } = Xi f 1 (Bi ) ,
pour 1 i n et pour tout borlien Bi . On applique ensuite la dnition 13 aux borliens
Ai = f 1 (Bi ), 1 i n.
Proposition 10
n
Y
E (Xi ) .
i=1
Preuve.
On peut le montrer pour deux variables alatoires X et Y , le cas gnral s'en dduisant facilement par rcurrence nie. Commenons par prouver ce rsultat lorsque X et Y sont
positives (dans ce cas, les esprances ont toujours un sens). Posons pour n N,
Xn =
2n 1
2X
k=0
k
1 k
k+1 ,
2n { 2n X< 2n }
Yn =
2n 1
2X
k=0
k
1 k
k+1 .
2n { 2n Y < 2n }
On a vu au chapitre prcdent que la suite (Xn )nN est une suite croissante de variables alatoires
positives ne prenant qu'un nombre ni de valeurs et convergeante point par point vers X .
Ainsi la suite (Zn )nN de variables alatoires dnie par Zn = Xn Yn pour tout n N est
aussi une suite croissante de variables alatoires positives ne prenant qu'un nombre ni de
valeurs et convergeante point par point vers Z = XY . D'autre part, il est facile de vrier que
E(Xn Yn ) = E(Xn )E(Yn ) pour tout n N, en utilisant l'indpendance de X et de Y . Ainsi la
dnition de l'esprance d'une variable alatoire positive assure que
Nous avons donc montrer la proposition pour deux variables alatoires indpendantes positives.
Dans le cas gnral, si X et Y sont indpendantes alors |X| et |Y | le sont galement et on a
d'aprs ce qui prcde
Ceci prouve que la variable alatoire XY est intgrable si et seulement si les variables alatoires
X et Y le sont. La formule pour le calcul de l'esprance de XY se dduit alors facilement, en
utilisant les dcompositions
X = X + X ,
Y = Y + Y .
E(XY ) = E X + Y + + E X Y E X + Y E X Y +
= E X+ E Y + + E X E Y E X+ E Y E X E Y +
= E X+ E X
E Y+ E Y
= E(X)E(Y ).
On peut dduire du rsultat prcdent une formule bien connue pour le calcul de la variance
de la somme de n variables alatoires indpendantes relles.
Corollaire 1
n
X
Var (Xi ) .
i=1
Preuve.
Var (X1 + . . . + Xn )
= E (Y1 + . . . Yn )2
n
X
X
=
E Yi2 +
E (Yi Yj )
=
i=1
n
X
i=1
n
X
i6=j
E Yi2 +
E (Yi ) E (Yj )
i6=j
E Yi2
i=1
n
X
Var (Xi ) .
i=1
Ces galits proviennent du fait que pour 1 i n, la variables alatoire Yi est centr, de carr
intgrable et indpendante Yj lorsque j 6= i.
2.2
2.2.1
P(X = 1) = 1 P(X = 0) = p.
28
On utilise la notation X B(p) pour indiquer que X suit cette loi. On peut ramarquer que
p = E(X) et Var (X) = p(1 p). Cette loi intervient donc systmatiquement lorsqu'il y a
deux ventualits dans l'exprience considre (jeu de pile ou face, individu sain ou malade,...).
Remarquons galement que pour tout venement A A, la variable alatoire 1A suit une loi de
Bernoulli de paramtre P(A).
Loi binomiale.
lorsque
n k
P(X = k) =
p (1 p)nk ,
k
o
n
=
k
n!
k!(nk)! .
k = 0, 1, . . . , n,
variables alatoires indpendantes, toutes de loi de Bernoulli de paramtre p. Cette loi sert
modliser le nombre de succs lors de la rptition de n expriences successives et identiques
(e.g n lancers successifs d'une pice de monnaie, on peut aussi y avoir le nombre de rponses
un sondage donn...). L'esprance de cetta loi vaut de E (X1 + . . . + Xn ) = np et d'aprs le
Corollaire 1, la variance de cette loi est Var (X1 + . . . + Xn ) = np(1 p).
P(X = k) = exp()
k
,
k!
k N.
La loi de Poisson approxime bien les expriences impliquant des problmes de comptage (e.g
nombre de connexions un serveur entre deux instants), en particulier pour des venements
rares (e.g nombre de suicides par an). Si par exemple on compte le nombre de pices dfectueuses
produites par une machine avec un nombre n de pices produites importantes et une proportion
p de pices dfectueuses petite alors la loi de Poisson approxime bien
la loi binomiale. En eet,
on peut montrer que lorsque n +, p 0 et np , le nombre
n k
p (1p)nk s'approche
k
La loi uniforme.
{x1 , . . . , xn } Rd et
P(X = xk ) =
1
,
n
k = 1, . . . , n.
On peut par exemple montrer que si on essaie d'ouvrir une porte l'aide de n clefs en choisissant
d'abord une clef au hasard puis une clef au hasard parmi les n1 restantes (si la premire n'ouvre
pas la porte) et ainsi de suite jusqu' ce que la porte soit ouverte, alors la loi du nombre de clefs
utilises suit la loi uniforme sur {1, . . . , n}.
L'esprance d'une variable alatoire X de loi uniforme sur {1, . . . , n} est E(X) = n+1
2 et sa
2 1
variance est Var (X) = n 12
.
k N .
1p
La loi hypergomtrique.
P(X = k) =
Np
k
N Np
nk
,
N
n
k1 n
p (1 p)kn ,
P(X = k)
kn
k = n, n + 1, . . . .
i = 0, . . . , n 1.
On peut alors montrer que les variables alatoires T1 , T2 T1 , . . . , Tn Tn1 sont indpendantes et
toutes de loi gomtrique de paramtre p et que leur somme Tn a la mme loi que X (il s'agit donc
Pn1
de la loi du nime temps de succs). On en dduit facilement que E (X) =
i=0 E (Ti+1 Ti ) =
n
et
p
Var (X) =
n1
X
Var (Ti+1 Ti ) =
i=0
2.3
n(1 p)
.
p2
(x, y) E F.
Si U = (X, Y ) est une variable alatoire discrte valeurs dans E F alors les lois des
variables alatoires X et Y sont appeles les lois marginales de U . On peut les calculer
partir de la loi du couple en utilisant les galits :
P(X = x) =
P(X = x, Y = y),
P(Y = y) =
yval(Y )
2.4
P(X = x, Y = y).
xval(X)
Le thorme de transfert
Nous allons d'abord noncer un rsultat pratique lorsque on somme des termes indexs
l'aide de deux paramtres.
Thorme 2
!
+ X
+
+ X
+
X
X
ui,j =
ui,j .
i=1
j=1
j=1
(2.1)
i=1
Remarque.
L'esprance mathmatique d'une variable alatoire discrte X intgrable est donne par la formule :
X
E(X) =
xP(X = x).
xval(X)
Lorsque val(X) est inni dnombrable mais n'est pas l'ensemble des entiers naturels N (par
exemple Z), on peut toujours lister les lments de val(X) l'aide d'une suite quelconque, la
valeur de la somme prcdente ne dpendra pas de la suite choisie. En eet les sries positives
ou absolument convergente peuvent tre sommes indpendamment de l'numration choisie
(par exemple 0, 1, 1, 2, 2, 3, 3, . . . et 0, 1, 2, 1, 2, 3, 4, 3, 4, . . . sont deux numrations
direntes de Z).
Le thorme de transfert (ici nonc pour les variables discrtes) permet de calculer l'esprance d'une variable alatoire du type Y = f (X) en utilisant la loi de X uniquement (ce qui
vite de calculer la loi de Y ).
31
Thorme 3
+
X
f (xi )P(X = xi ).
i=1
Preuve.
E(Y ) =
yj P(Y = yj ).
j1
X f 1 ({yj }) pour j 1. Comme on a
+
X
P X f 1 ({yj }) =
1f 1 ({yj }) (xi )P(X = xi ),
i=1
E(Y ) =
X
j1
yj
+
X
i=1
On peut utiliser le thorme de Fubini pour inverser les sommes (les termes sont positifs), ce
qui donne
E(Y ) =
+
X
P(X = xi )
i=1
yj 1f 1 ({yj }) (xi ).
j1
+
X
i=1
P(X = xi )
j1
Dnition 14
Notation.
E (X|Y = y) =
xP (X = x|Y = y) ,
xval(X)
xval(X)
Proposition 11
Si (X, Y ) est un couple de variables alatoires discrtes tel que X soit intgrable, alors on a la formule
X
E(X) =
E (X|Y = y) P(Y = y).
yval(Y )
Preuve.
Exemple de calcul.
E(X) =
Xy
yN
exp()
33
y
1
= E(Y ) = .
y!
2
2
34
Chapitre 3
Mesures et intgration
Lorsque nous avons abord les mesures de probabilit densit, nous avons mentionn que
pour une fonction f : R R+ intgrable et d'intgrale 1, il existait une unique mesure de
probabilit P sur (R, B(R)) telle que pour tout couple de nombres rels (a, b) tel que a b
f (x)dx.
P ([a, b]) =
a
Il est alors
R naturel de se demander si cette mesure de probabilit peut tre dnie par l'galit
P(B) = B f (x)dx pour tout borlien B . Malheureusement, l'intgrale classique (intgrale de
Riemann) ne permet de donner un sens ce type d'galit pour tous les borliens B . Il existe une
autre manire de dnir l'intgrale d'une fonction et qui permet d'crire ce type d'galit. Il s'agit
de l'intgrale au sens de Lebesgue qui permet d'intgrer des fonctions beaucoup plus irrgulires
que la mthode de Riemann. De plus lorsque on intgrera une fonction continue ou continue par
morceaux sur un intervalle ferm born, les deux mthodes d'intgration concideront ; l'intgrale
de Lebesgue apparaitra donc comme plus gnrale. Initialement, l'intgrale de Lebesgue a t
introduite an de faciliter certains des passages la limite du type
Z
lim
Z
fn (x)dx =
lim fn (x)dx,
en particulier lorsque la suite de fonctions (fn )n est une suite croissante de fonctions positives.
Un problme dans l'utilisation de l'intgrale de Riemann rside dans le fait qu'une limite simple
de fonctions intgrables n'est pas forcment intgrable (et ce mme si toutes les fonctions sont
dnies sur [0, 1] et valeurs dans [0, 1] par exemple). L'intgrale au sens de Lebesgue permet de
corriger ce type de problme. Sa construction est base sur la thorie de la mesure et la dnition
de l'esprance des variables alatoires vue au Chapitre 1 est en fait un cas particulier de cette
construction.
3.1
Dnition 15
(proprit de additivit).
35
Toute mesure de probabilit est donc une mesure (la proprit d'additivit peut tre vue comme
un cas particulier de la proprit de additivit en compltant une suite nie d'lments d'une
tribu par l'lment ). On peut remarquer que la proprit P() = 1 a t remplac par la
proprit () = 0. Pour la notion gnrale de mesure, la valeur (E) peut tre positive quelconque et ventuellement innie. Une mesure de probabilit est donc simplement une mesure
dont la masse totale (E) est gale 1. On peut montrer que les proprits de la Proposition
3 du Chapitre 1 restent vraies pour une mesure en gnral, sauf pour la premire qui devient
(A) + (Ac ) = (E). De plus la Proposition 4 reste valable en rajoutant (A0 ) < + pour le
deuxime point.
Soit (pn )nN une suite de nombres rels positifs et (xn )nN
une suite de points de Rd . Alors l'application : P(Rd ) R+ {+} dnie par
(A) =
+
X
pn 1A (xn ),
A B Rd ,
n=0
est une mesure (la preuve est identique celle donne pour les mesures de probabilit discrte du
P+
Chapitre 1). Comme pour x Rd et A P(Rd ), on a 1A (x) = x (A), on note =
n=0 pn xn .
Dans le cas particulier o pn = 1 pour tout n N, on parle de mesure de comptage sur l'ensemble
D = {x0 , x1 , . . .} car dans ce cas
(A) = |A D|,
A P(Rd ).
La mesure de A est simplement le nombre d'lments de D qui se trouvent aussi dans A. Un cas
particulier important est celui de la mesure de comptage sur N.
Lorsque la suite (pn )nN est sommable et de somme 1, on retrouve les mesures de probabilits
discrtes.
La mesure de Lebesgue
Thorme 4
que
Sur R muni de la tribu des borliens, il existe une unique mesure note telle
([a, b]) = b a,
a < b.
Cet exemple gnralise la plupart des mesures sur R vues jusqu' prsent. Considrons une
fonction F : R R+ croissante et continue droite.
36
Thorme 5
Il existe une unique mesure F sur R muni de la tribu des borliens telle que
F (]a, b]) = F (b) F (a),
a < b.
1
1
= F (b) F a ,
F ([a, b]) = lim F ]a , b] = lim F (b) F a
n+
n+
n
n
o F (a ) dsigne la limite gauche de F au point a. Ainsi F ({a}) = F (a) F (a ), quantit
qui vaut 0 si F est continue. Donnons deux exemples fondamentaux.
Pour une suite (pn )n de rels positifs sommable et une suite (xn )n de nombre rels distincts,
posons
F (x) =
+
X
1xn x pn ,
x R.
n=0
On peut vrier que F est continue droite (et bien sr croissante). L'unicit du Thorme
P+
5 entraine que la mesure F et la mesure discrte
n=0 pn xn concident sur B(R).
Pour une fonction f : R R+ intgrable (au sens de Riemann), la fonction F dnie par
F (x) =
f (z)dz,
xR
Dnition 16
Soit X une variable alatoire valeurs relles, dnie sur un espace probabilis
(, A, P). La fonction F dnie par
F (x) = P (X x) ,
x R,
lim F (x) = 0,
lim F (x) = 1.
x+
Nous reparlerons de ces proprits lors du Chapitre 5. Ainsi, si X est une variable alatoire
valeurs relles, alors PX est la mesure de Lebesgue-Stieljes associe F . On a alors la proprit
suivante.
Proposition 12
2. Deux variables alatoires valeurs relles dont les fonctions de rpartition sont gales ont
la mme loi. La fonction de rpartition caractrise donc compltement la loi d'une variable
alatoire.
37
Preuve.
1. Soit P = F la mesure de Lebesgue-Steljes associe F . D'aprs la proprit de contimuit
suprieure de P , on a
x R.
On pourrait penser qu'il n'est pas possible de rejoindre le point (0, 0) au point (1, 1) l'aide
d'une fonction croissante et continue qui n'est strictement croissante sur aucun sous-intervalle
de [0, 1], aussi petit soit-il. Et pourtant...
On construit une suite de fonctions (Fn )n dnies sur [0, 1] et valeurs dans [0, 1] de la faon
suivante. On pose F0 (x) = x pour tout x [0, 1]. On construit ensuite F1 en divisant l'intervalle
[0, 1] en trois. Sur [0, 1/3], F1 est ane et vrie F1 (0) = 0 et F1 (1/3) = 1/2. Sur [1/3, 2/3],
F1 vaut 1/2. Enn F1 est ane sur l'intervalle [2/3, 1] (voir Figure 3.1). On itre ensuite ce
procd : on divise tout intervalle I o Fn est ane et la fonction Fn+1 sera ane par morceaux
max (F )+min (F )
n
n
I
I
sur cet intevalle, constante et gale la valeur
sur l'intervalle du milieu (voir
2
la courbe de F2 sur la Figure 3.2). Plus formellement, on a pour x [0, 1] et n N :
1
1
1
Fn+1 (x) = Fn (3x)1[0, ](x) + Fn (3x)1] 1 , 2 ] (x) +
3 3
2
3
2
1 1
+ Fn (3 2x) 1[ 2 ,1] (x),
3
2 2
1
.
2n
On peut alors montrer que la suite de fonctions (Fn )n converge uniformment sur [0, 1] vers
une fonction F qui sera ainsi croissante et continue sur [0, 1]. Par contre, il n'existe aucun
sous-intervalle de [0, 1] sur lequel F est strictement croissante. On peut voir sur la Figure 3.3
la courbe de l'approximation F10 de F . En prolongeant F par 0 sur les rels ngatifs et par
1 sur [1, +[, on obtient une fonction de rpartition sur R. Le complmentaire de la runion
des intervalles o F est constante est appel l'ensemble de Cantor C(3). On peut montrer que
C(3) est non dnombrable. De plus, C(3) est un borlien de mesure de Lebesgue nulle (voir
ci-aprs), ce qui fournit un exemple d'ensemble non dnombrable mais de longueur nulle (un
ensemble dnombrable tant forcment de mesure de Lebesgue nulle par additivit). Aussi la
mesure de probabilit F associe F n'admet pas d'atome (F ({x}) = 0 pour tout x car F est
continue) mais n'admet pas de densit non plus (voir un peu plus loin, on peut dj constater
que F 0 (x) = 0 si x C(3)c ) !
En modiant l'ensemble de Cantor, on peut aussi construire un borlien de longueur non nulle
mais d'intrieur vide (c'est dire pour lequel il est impossible d'y inclure un intervalle ouvert,
aussi petit soit-il). Voici un exemple de construction. Soit k un entier plus grand que 3. On part
1 1
1
de l'intervalle [0, 1] et on pose E1 = E1,1 =] 12 2k
, 2 + 2k
[ (intervalle de longueur k1 centr en
1
2 ). L'ensemble [0, 1] \ E1 est compos de deux intervalles disjoints I1 et I2 . On enlve alors deux
38
Fig.
3.1: Graphe de F0
Fig.
3.2: Graphe de F1
Fig.
intervalles ouverts E21 et E22 centr sur I1 et I2 et de longueur k12 . On pose alors E2 = E21 E22 .
[0, 1] \ (E1 E2 ) est compos de 4 intervalles disjoints sur lesquels on enlve des intervalles de
longueur k13 . Ainsi par rcurrence, on peut dnit pour tout n 1 une suite d'intervalles ouverts
n1
2
Eni . Pour
disjoints deux deux (Eni )1i2n1 et tous de longueur k1n et on pose En = i=1
k = 3, En reprsente la runion de tous les intervalles sur lesquels Fn devient constante sans que
Fn1 le soit. Notons alors
C(k) = [0, 1] \
n=1 En .
Cette notation est bien compatible avec le cas k = 3 car on retrouve bien l'ensemble de Cantor.
Calculons la longueur de C(k). Tout d'abord par additivit, on a
(En ) =
n1
2X
(Eni ) =
i=1
2n1
.
kn
(C(k)) = 1
+ n1
X
2
n=1
kn
k3
.
k2
Ainsi si k = 3, C(k) est donc bien de longueur nulle, alors que pour k > 3, C(k) a une longueur
strictement positive. De plus C(k) est d'intrieur vide (car la longueur des intervalles conservs
d'une tape la suivante est divise par 2).
3.2
Soit (E, E, ) un espace mesur (c'est dire un triplet compos d'un ensemble, d'une tribu
sur cet ensemble et d'une mesure dnie sur cette tribu). On considrera des fonctions f : E
R {, +} dites mesurables, c'est dire telles que
1. Pour tout couple (a, b) de nombres rels, {x E : a f (x) b} E .
2. {x E : f (x) = } E .
Une fonction mesurable est donc l'analogue d'une variable alatoire dans le cadre la thorie des
probabilits (on rajoute la possibilit pour ce type de fonctions de prendre des valeurs + ou
, ce qui peut parfois s'avrer utile). Comme pour les variables alatoires on peut montrer
que pour tout borlien B B(R), l'ensemble {x E : f (x) B} appartient E .
Dans la suite, on dira qu'une fonction f : E R est tage si elle est mesurable et ne prend
39
qu'un nombre ni de valeurs. Si, on note y1 , . . . , yN les valeurs distinctes d'une fonction tage
f , on convient d'crire dans la suite
f=
N
X
yi 1 A i ,
i=1
fn (x) =
2n 1
2X
k=0
k
n
1k
k+1 + 2 1f 2n ,
2n 2n f < 2n
(3.1)
x E.
+ + a = a + (+) = +,
a R {+},
+ a = a + () = ,
a R {},
a (+) = (+) a = +,
a > 0,
a (+) = (+) a = ,
a < 0,
a () = () a = ,
a > 0,
a () = () a = +,
a < 0,
0 (+) = (+) 0 = 0 () = () 0 = 0.
Seule la somme + + () n'est pas dnie.
Lorsque E = R et E = B(R), la plupart des fonctions sont mesurables (les fonctions continues,
continues par morceaux et des fonctions bien plus irrgulires encore). La notion de mesurabilit
est stable par tout un tas d'oprations, comme le montre la proposition suivante.
Proposition 13
{g(X) A} = X g 1 (A)
qui est bien un lment de A vu que la mesurabilit de g entraine que g 1 (A) B(Rd ).
Cette stabilit de la notion de mesurabilit est remarquable. Dans l'intgrale de Riemann, les
suites de fonctions Riemann-intgrables peuvent avoir une limite non Riemann-intgrable.
40
Nous allons intgrer les fonctions mesurables partir des fonctions tages (comme pour les
variables alatoires).
PN
Pour une fonction tage f =
i=1 yi 1f =yi , on pose
Z
f d =
N
X
yi (f = yi ).
i=1
On
R retiendra en particulier que 1A d = (A) et que lorsque f est constante gale m, on
a f d = m (E). La dnition de l'intgrale pour une fonction mesurable gnrale se fait
alors comme pour l'esprance des variables alatoires.
Proposition 14
1. Soit f : E R
R + {+} uneR fonction mesurable. L'intgrale de f par
rapport la mesure est note f d ou aussi f (x)d(x) et est dnie par
Z
Z
f d = lim
fn d,
n+
o (fn )n est une suite croissante de fonctions tages positives, convergeante point par
point vers f .
une fonction mesurable. Soient f + et f les parties positives et ngatives
2. Soit f : E R
R
R
de f (voir Chapitre 1). On dit que f est intgrable lorsque f + d < + et f d < +
sont intgrables. Dans ce cas, on pose
Z
Z
Z
f d = f + d f d.
Ainsi si (,R A, P) est un espace probabilis et X : R est une variable alatoire intgrable, on
a E(X) = XdP : l'esprance mathmatique est donc un cas particulier d'intgrale par rapport
une mesure. On dispose alors des proprits suivantes qui se dmontrent de la mme faon que
les proprits de l'esprance des variables alatoires (voir Chapitre 1).
Proposition 15
dans
1.
2.
3.
4. La
R fonction f est intgrable si et seulement si la fonction |f | est intgrable (ce qui s'crit
|f |d < +). On a alors
Z
Z
| f d| |f |d.
, on dnit
Si A E et f : E R
Z
Z
f d =
1A f d.
Autrement dit, on dnit l'intgrale de f sur A comme l'intgrale sur E de la fonction qui
est gale f sur A et qui vaut 0 sur Ac . Remarquons que lorsque f est intgrable, f 1A l'est
galement car sa valeur absolue est intgrable : en eet
|f 1A | = 1A |f | |f |
41
f d.
f d +
f d =
AB
En eet,
R en utilisant l'galit 1AB = 1A + 1B , il est facile de vrier que ces deux quantits
valent (1A + 1B )f d.
3.2.1
P+
n=0 pn xn o (pn )n est suite de rels positifs et (xn )n une suite de points distincts
de E = Rd que l'on munit de l'ensemble de ses parties. Alors dans ce cas nous obtenons le
rsultat suivant.
Soit =
Proposition 16
+
X
pn f (xn ).
n=0
P+
n=0 pn |f (xn )|
< +.
Preuve
Le fait que toute fonction soit mesurable rsulte du choix de la tribu P(Rd ).
Commenons par le cas d'une fonction tage positive prenant les valeurs y1 , . . . yN et
posons Ai = {f = yi } pour i = 1, . . . , N . Remarquons alors que xn Ai f (xn ) = yi .
Alors on a
Z
f d =
N
X
i=1
N
X
i=1
+
X
n=0
+
X
n=0
+
X
yi (Ai )
yi
+
X
pn 1Ai (xn )
n=0
N
X
pn
pn
i=1
N
X
yi 1Ai (xn )
f (xn )1Ai (xn )
i=1
pn f (xn ).
n=0
La dernire galit est due au fait que xn ne peut appartenir qu' un seul ensemble Ai .
Passons maintenant au cas d'une fonction positive. Si fk est une fonction tage plus petite
que f , alors on a
Z
fk d =
+
X
pn fk (xn )
n=0
+
X
pn f (xn ).
n=0
P+
PN
Z
f d
gd =
N
X
pi f (xi ).
i=1
Z
f d
pn f (xn ).
n=0
Z
f d =
f d
f d =
+
X
pn f (xn ) f (xn ) =
n=0
+
X
pn f (xn ),
n=0
Z
lim fn d = lim
n+
n+
fn d.
Evidemment lorsque une suite de fonctions positives est croissante, sa limite est bien dnie.
Cette limite f est de plus une fonction mesurable positive et l'intgrale est donc bien dnie.
Mentionnons une consquence en probabilit. Supposons que (Xn )nN soit une suite de variables
alatoires toutes positives. Alors on a
+
X
!
Xn
n=0
+
X
E (Xn ) .
n=0
PN
n=0 Xn
Lorsque = (mesure de Lebesgue sur R), on obtient une intgrale appele intgrale
de Lebesgue. Nous allons voir que cette intgrale concide le plus souvent avec l'intgrale de
Riemann lorsque cette dernire a bien un sens. De plus il existe des fonctions intgrables au sens
de Lebesgue mais pas au sens de Riemann. Rappelons la dnition de l'intgrale de Riemann
sur un intervalle ferm born [a, b] de R. Une partie nie de [a, b] contenant les points a et b
est appele une subdivision de [a, b] et sera note
Soit f : [a, b] R une fonction borne. Pour toute subdivision : a = x1 < x2 . . . < xn , on
pose
mi =
inf
xi xxi+1
f (x),
Mi =
sup
xi xxi+1
43
f (x).
On dnit alors
s =
n
X
mi (xi+1 xi ) ,
S =
i=1
n
X
Mi (xi+1 xi ) .
i=1
Pn
et
0 s s0 S0 S .
On dit alors que f est Riemann-intgrable si sup s = inf S , valeur appele intgrale de f
sur [a, b]. On peut montrer que f est Riemann-intgrable si et seulement si il existe une suite
croissante (k )k de subdivisions dont la nesse tend vers 0 telle que
lim sk = lim Sk .
Il existe des fonctions Lebesgue-intgrables qui ne sont pas Riemann-intgrables. C'est par
exemple le cas pour f = 1Q sur l'intervalle [0, 1]. En eet, pour toute subdivision de [0, 1],
on a Mi = 1 et mi = 0 pour tout i, ce qui entraine s = 0 et S = 1 et f ne peut tre
Riemann-intgrable sur [0, 1]. En revanche f est Lebesgue-intgrable et
car Q[0, 1] est dnombrable. Ainsi, le thorme de convergence monotone n'est pas vrai pour les
fonctions Riemann-intgrables : si (rn )n est une numration des nombres rationnels de [0, 1],
la suite de fonctions fn = 1{r0 ,...,rn } est croissante vers f = 1Q[0,1] qui n'est pas Riemann-
R1
Proposition 17
Z
f (x)dx = lim
n+ 0
Z
f (x)dx = lim
n+ 0
Z
f (x)d(x) =
f (x)d(x),
0
P+
de Riemann lorsque la srie n=0 an est convergeante mais qui n'est pas Lebesgue-intgrable sur
[0, +[ lorsque cette srie n'est pas absolument convergeante (l'intgrale de Lebesgue demande
ce que la valeur absolue de f ait une intgrale nie).
44
Notation.
Au vu des rsultats prcdents, nous noterons souvent f (x)dx (au lieu de f (x)d(x))
l'intgrale de la fonction f au sens de Lebesgue. De plus les rsultats utiliss pour les intgrales
de Riemann (intgration par parties, formule du changement de variable) peuvent aussi tre utiliss pour l'intgrale de Lebesgue (nous noncerons la formule du changement de variables dans
Rn un peu plus loin). On pourra noter la dirence fondamentale concernant la construction
de ces deux intgrales : l'intgration au sens de Riemann se base sur l'approximation par des
fonctions dites en escalier construites l'aide de subdivisions sur l'axe des abscisses alors que
l'intgrale de Lebesgue utilise des fonctions tages construites l'aide de subdivisions de l'axe
des ordonnes (voir la suite de fonctions 3.1).
3.2.3
Le presque partout
sont
Soit (E, E, ) un espace mesur. On dira que deux fonctions mesurables f, g : E R
gales presque partout et on note f = g p.p, lorsque (f 6= g) = 0. Lorsque est une mesure
de probabilit, on dit plutt que f et g sont gales presque srement (et on note f = g p.s), ce
qui revient aussi avoir (f = g) = 1.
Proposition 18
1. Supposons
f =R g p.p. Alors f est intgrable si et seulement
si g est intgrable. Dans ce cas
R
R
on a f d = gd. En particulier, pour A E , on a A f (x)d(x) = 0 lorsque (A) = 0.
R
2. Supposons que f soit valeurs dans R+ {+}. Alors f d = 0 si et seulement si f = 0
p.p.
R
3. Supposons que f soit valeurs dans R+ {+}. De plus si f d < + alors (f =
) = 0. Dans ce cas on dit que f < + p.p.
Remarques.
Considrons le cas o (E, E, ) = (R, B(R), ). Si f : R R est une fonction intgrable
et g : R R telle que g(x) = f (x) pour x D c . Si (D) = 0 (c'est par exemple le cas si
D est dnombrable), alors le premier point de cette proposition assure que l'intgrale de
g est gale l'intgrale de f .
Le deuxime point a dj t utilis au Chapitre 1 pour montrer qu'une variable alatoire positive d'esprance nulle est une variable alatoire nulle p.s et donc qu'une variable
alatoire de carr intgrable et de variance nulle tait presque srement gale sa moyenne.
Illustrons le troisime point dans le cadre des probabilits. Considrons une suite (Xn )nN
de variables alatoires telle que pour tout n N, Xn suive une loi de bernoulli de paramtre
P
P+
pn . Alors si +
n=0 pn < +, la variable alatoire X =
n=0 Xn (qui existe en tant que
limite d'une suite croissante de variables alatoires) est nie presque srement. En eet,
on a par convergence monotone
+
X
n=0
!
Xn
+
X
E(Xn ) =
n=0
+
X
pn < +,
n=0
et la variable alatoire X est nie presque srement d'aprs le troisime point de la proposition prcdente. La variable alatoire X ne peut videmment tre nie en tout point :
elle vaut + lorsque qu'une innit de 1 apparaisse dans la suite ; par contre la probabilit
que cela se produise est nulle.
45
3.3
Les produits de mesure gnralisent ceux dj vues pour les mesures de probabilit (cf Chapitre 1). Cette notion permet galement de dnir l'aire ou le volume d'un borlien de R2 ou
de R3 , en eectuant un produit de mesure l'aide de la mesure de Lebesgue. Rappelons (voir
Chapitre 1) que si E et F sont deux ensembles, chacun muni d'une tribu note respectivement
E et F alors la tribu produit sur E F est note E F et est dnie par
Thorme 7
Si (E, E, ) et (F, F, ) sont deux espaces mesurs avec des mesures et toutes
deux nies, alors il existe une unique mesure, note , dnie sur E F et telle que
(B C) = (B) (C),
(B, C) E F.
(3.2)
Cas particulier fondamental. Supposons que E = F = R est muni de la tribu des borliens
et que = = la mesure de Lebesgue. Dans ce cas est note 2 et est appele mesure
de Lebesgue sur R2 . Ainsi pour deux borliens B et C de R, on a
2 (B C) = (B)(C).
On dit alors que 2 est la mesure d'aire (pour A B(R2 ), on dit que 2 (A) est le volume
du borlien A). Il est galement possible de dnir par rcurrence le produit . . . de n
mesures de Lebesgue, mesure note n et qui est appele la mesure de Lebesgue sur Rn . Pour
n = 3, 4, . . ., on parle de mesure de volume.
A(x) = y 0 F : (x, y 0 ) A ,
A(y) = x0 E : (x0 , y) A .
Il est possible de vrier que A(x) F et A(y) E . De plus on peut montrer que
Z
( ) (A) =
Z
(A(y)) d(y) =
(A(x)) d(y).
(3.3)
Fig.
possibilit d'intgrer les sections en commenant par une ou l'autre des variables x ou y peut
tre justie : les deux applications 1 : E F R+ {+} et 2 : E F R+ {+}
dnies par
Z
Z
1 (A) =
(A(y)) d(y),
2 (A) =
(A(x)) d(y),
sont en fait deux mesures nies qui satisfont (3.2) et ces mesures sont donc gales par unicit.
On a alors le thorme fondamental dit thorme de Fubini qui permet de calculer l'intgrale
d'une fonction par rapport la mesure produit en utilisant uniquement le calcul intgral sur les
mesures et .
Thorme 8
Z Z
Z
f (x, y)d2 (x, y) =
f (x, y)dx dy =
Z Z
f (x, y)dy dx.
Fig.
Z
g(x)dx
h(y)dy,
galit qui est en fait toujours vrie si h et g sont valeurs dans R+ {+}.
Le deuxime cas concerne l'intgration sur un sous-ensemble de R2 . Rappelons que par
dnition
Z
Z
Z Z
Z
f (x, y)d2 (x, y) =
A
Z Z
f (x, y)dy dx =
B
f (x, y)dx dy.
Z
f (n, y)dy =
n=0
+
X
!
f (n, y) dy,
n=0
+ Z
X
n=0
Maintenant que l'intgrale d'une fonction par rapport une mesure a t dnie, on peut
construire d'autres mesures appeles mesures densit.
Proposition-Dnition 2
Remarque.
Z
f (x)d(x)
(A) =
ZA
Z
1f (x)6=g(x) f (x)d(x)
1f (x)=g(x) f (x)d(x) +
ZA
1f (x)=g(x) g(x)d(x) + 0
=
ZA
1f (x)=g(x) g(x)d(x)
=
ZA
g(x)d(x).
=
A
Nous avons utilis le premier point de la Proposition 18. On peut donc modier une densit
sur un ensemble de mesure nulle. Ainsi, si = la mesure de Lebesgue sur R, toute fonction
obtenue en modiant la densit de dpart en un nombre ni ou inni dnombrable de points est
encore une densit. Lorsque = 2 est la mesure de Lebesgue sur R2 , alors on peut modier
une densit le long d'un segment ou d'une droite de R2 : par exemple si D = {(x, y) : x = 0},
on a par le thorme de Fubini
2 (D) =
(Dy )dy =
({0})dy = 0.
+
X
n=0
1An
n=0
+
n=0 An
Z
=
=
1+ An f d
n=0
Z X
+
n=0
+
XZ
n=0
+
X
1An f d
1An f d
(An ).
n=0
Exemples
Lorsque (E, E, ) = Rd , B(Rd ), d et f : Rd R+ est une fonction intgrable et d'intgrale 1, on dit que est une mesure de probabilit densit par rapport la mesure
de Lebesgue (lorsque il n'y aura pas d'ambiguit, on parlera simplement de mesure de
probabilit densit).
49
Supposons (E, E, ) = (R, B(R), ) et soit f : R R+ une fonction intgrable par rapport
. Alors la mesure = f concide avecR la mesure de Lebesgue-Stieltjes F associe
x
la fonction F : R R+ dnie par F (x) = f (z)dz pour tout x R. Pour vrier ceci,
on vrie que et F sont gales sur les intervalles. Il est ensuite possible de montrer que
l'ensemble des borliens A pour lesquels et F concident est une tribu. Comme cette
tribu contient les intervalles, elle est forcment gale B(R), ce qui montre l'galit des
deux mesures sur B(R).
Lorsque E = R, E = P(R) et dsigne la mesure de dnombrement sur N, toute mesure
P+
discrte =
n=0 pn n possde une densit f par rapport . Il sut de dnir f : R
R+ par f (n) = pn pour n N et f (x) = 0 si x
/ N. En eet, en utilisant l'expression de
intgrales pour les mesures discrtes, on a alors pour A P(R) :
Z
1A f d =
+
X
1A (n)f (n) =
n=0
+
X
1A (n)pn = (A).
n=0
Proposition 19
Z
gd =
f gd.
2. La fonction g est intgrable par rapport si et seulement si f g est intgrable par rapport
. Dans ce cas, on a encore
Z
Z
gd = f gd.
Preuve.
1. L'galit est vrie pour une fonction tage g =
Z
gd =
N
X
yi (Ai ) =
i=1
N
X
PN
Z
yi
positive. En eet, on a
i=1 yi 1Ai
Z
1Ai f d =
gf d,
i=1
Z
gd = lim
n+
Z
gn d = lim
n+
Z
gn f d =
gf d.
2. Si maintenant g prend
R des valeurs quelconques, on sait que g estRintgrableR par rapport
si et seulement si |g|d < +. Or d'aprs le premier point |g|d = |gf |d. On a
donc bien la condition ncessaire et susante annonce pour l'intgrabilit. En appliquant
les formules du point 1. g + et g , on a bien la formule annonce pour l'intgrale.
50
Exemple.
(3.5)
2. Dans le cas gnral, la variable alatoire Y = g(X) est intgrable si et seulement si g est
PX intgrable. Dans ce cas, on a encore la formule (3.5).
Cas particuliers
Lorsque PX = f d (on dit que la loi de X est densit), on a pour toute fonction
mesurable positive g :
Z
E (g(X)) =
g(x)f (x)dx.
Preuve du thorme.
PN
i=1 yi 1Ai
g(X) =
N
X
yi 1XAi .
i=1
Par dnition, on a
E (g(X)) =
N
X
yi P (X Ai ) =
i=1
N
X
Z
yi
i=1
Z
E (g(X)) = lim E (gn (X)) = lim
n+
Z
gn (x)dPX (x) =
n+
g(x)dPX (x).
3.5
Thorme 10
Soient A et B sont deux ensembles ouverts de Rn et : A B une application continument direntiable ainsi que sa rciproque et f : Rn R une fonction mesurable.
Pour
u
A, soit J(u) le Jacobien de au point u, c'est dire le dterminant de la matrice
i
. Alors
xj (u)
1i,jn
Dans ce cas, on a
f (x)dx =
A
Remarques
Z
f (x)dx =
f ((u)) |0 (u)|du.
1 (d)
Z
f (x)dx =
f ((u)) 0 (u)du.
1 (c)
f ((u)) |0 (u)|du =
f ((u)) 0 (u)du =
f ((u)) 0 (u)du =
1 (d)
f ((u)) 0 (u)du.
1 (c)
Remarquons aussi que sous rserve des conditions d'intgrabilit, on peut aussi crire la
formule :
Z
Z
f (x)|J1 (x)|dx.
f ((u)) du =
A
Posons
B = R2 \ {(x, 0) : x 0} ,
A =]0, +[] , [,
(, ) = ( cos(), sin()) ,
(, ) A.
1 (x, y) =
p
x2 + y 2 , 2 arctan
y
p
x + x2 + y 2
52
!!
,
(x, y) B.
exp
x2
2
d2 (x, y) = I 2 ,
o l'galit prcdente est justie par le thorme de Fubini. On voit facilement que
2
2
Z
x + y2
x + y2
d2 (x, y) =
1B (x, y) exp
d2 (x, y)
exp
2
2
2
Z
x + y2
+
1B c (x, y) exp
d2 (x, y)
2
2
Z
x + y2
d2 (x, y)
=
1B (x, y) exp
2
2
2
Z
x + y2
1B (x, y) exp
exp
d2 (x, y) =
dd = 2,
2
2
A
53
54
Chapitre 4
Les variables alatoires densit
Dans ce chapitre, nous nous replaons dans le cadre de la thorie des probabilits. Soit
4.1
1
(x m)2
f (x) = exp
,
2 2
2
x R.
On peut remarquer que si U N (0, 1) (on parle de loi gaussienne centre rduite) alors la variable alatoire m + U suit la loi N m, 2 (pour le montrer, on peut soit utiliser le thorme
de transfert et eectuer un changement de variable ou calculer la fonction de rpartition, voir
la section sur le calcul de lois). Il est facile de vrier que E(X) = m (en utilisant les proprits
de symtrie de la densit) et que Var (X) = 2 (on peut le dmontrer d'abord pour la loi
gaussienne centr rduite en eectuant une intgration par parties).
Les proprits de symtrie de cette loi permettent de modliser les variations de certaines grandeurs autour d'une valeur donne (par exemple les erreurs de mesure). Cette loi est importante
en statistique du fait de son rle de loi limite (nous en reparlerons lorsque nous noncerons le
thorme central-limite).
f (x) =
1
1 (x),
d c [c,d]
55
x R.
On peut en fait dnir une loi uniforme sur n'importe quel borlien de mesure de Lebesgue non
nulle. Par exemple sur R2 , la loi uniforme sur le disque unit possde une densit f : R2 R+
dnie par
f (x, y) =
1
1 2 2 ,
x +y 1
(x, y) R2 .
Lois gamma.
On dit qu'une variable alatoire X suit une loi gamma de paramtres k > 0 et
> 0 (notation X (k, )), si la densit de X est donne par
xk1 exp x
1x>0 ,
f (x) =
(k)k
o on a
Z
(k) =
xk1 exp(x)dx.
On a alors E(X) = k et Var (X) = k 2 . On peut remarquer que pour k = 1 on a une loi
exponentielle de paramtre 1 . Lorsque k est entier, on peut montrer que la loi (k, ) correspond
galement la loi de la somme de k variables alatoires indpendantes toutes de loi exponentielle
de paramtre 1 (voir plus loin lorsque nous tudierons la convolution). La loi du 2 , trs utilise
en statistique est un cas particulier de la loi gamma (nous reparlerons de la loi du 2 lors du
chapitre sur les vecteurs gaussiens).
Lois de Weibull.
Cette loi est frquemment utilise en abilit pour modliser le taux de dfaillance d'un matriel
(voir le TD pour des prcisions). Lorsque = 0 et = 1, on retrouve la loi exponetielle de
paramtre 1. Plus gnralement, on peut montrer que Y =
de paramtre 1.
Loi de Cauchy.
f (x) =
1
,
(1 + x2 )
x R.
R
Cette loi a la particularit de ne pas avoir de moyenne, car |x|f (x)dx = +. On peut montrer
que la loi de Cauchy est la loi du quotient de deux variables alatoires gaussiennes, centres
rduites et indpendantes.
4.2
Dnition 17
Soit Z = (X, Y ) une variable alatoire valeurs dans R2 et dont la loi possde
une densit f par rapport la mesure de Lebesgue sur R2 . Soient f1 : R R+ et f2 : R R+
les fonctions dnies par
Z
f1 (x) =
f (x, y)dy,
x R,
f (x, y)dx,
y R.
Z
f2 (y) =
56
Alors les fonctions f1 et f2 sont des densits de probabilit appeles les densits marginales de
Z et correspondent aux densits des mesures PX et PY respectivement.
La dnition prcdente se gnralisent au cas d'une variable alatoire Z valeurs dans Rd . Dans
ce cas, la iime densit marginale est simplement la fonction obtenue en intgrant la densit
de Z par rapport aux d 1 variables d'indices j 6= i. On notera que deux variables alatoires
relles peuvent avoir une densit sans que ce soit le cas pour le couple : par exemple si Y = X
alors le couple Z = (X, X) ne peut avoir de densit car la diagonale de R2 , D = {(x, y) : x = y},
est de mesure nulle (pour 2 ).
Proposition 20
Preuve.
(x1 , . . . , xn ) Rd .
B Rdi pour 1 i n, on a
P (X1 A1 , . . . , Xn An ) = P (X1 A1 ) P (Xn An )
Z
Z
f (xn )dxn
=
f (x1 )dx1
A1
An
Z
=
f1 (x1 ) fn (xn )dx1 dxn ,
A1 An
P (Z A) =
Z Y
n
A B Rd .
A i=1
Inversement, supposons que la densit de Z soit donne par le produit des densits f1 , . . . , fn .
Alors l'application du thorme de Fubini entraine automatiquement l'indpendance des variables X1 , . . . , Xn (reprendre l'enchainement des galits ci-dessus mais en sens inverse).
Remarque.
Supposons que la densit f d'un couple (X, Y ) s'crivent sous la forme d'un
produit, c'est dire
f (x, y) = g(x)h(y),
(x, y) R2 ,
pour deux fonctions g et h valeurs positives (mais sans savoir priori qu'il s'agit de densits
de probabilit). Alors le thorme de Fubini permet d'armer que les fonctions g et h sont,
une constante
prs, les densits de X et de Y respectivement. Par exemple, la densit de X
R
est x h(y)dy g(x). De plus les variables alatoires X et Y sont indpendantes. Cette
remarque se gnralise un nombre n 2 de variables alatoires. On retiendra qu'il sut
d'arriver sparer les variables dans la densit jointe pour conclure l'indpendance.
Proposition 21
Preuve.
P ((Z A) = E (h(X + Y ))
Z
=
h(x + y)fX (x)fY (y)d2d (x, y)
Z Z
=
h(x + y)fX (x)dd (x) fY (y)dd (y)
Z Z
=
h(z)fX (z y)dd (z) fY (y)dd (y)
Z
Z
=
h(z)
fX (z y)fY (y)dd (y) dd (z).
La deuxime galit rsulte du thorme de transfert et la troisime du thorme de Fubini. La
quatrime galit est obtenue en eectuant le changement de variables z = x + y (de Jacobien
1). La dernire galit est obtenue en utilisant le thorme de Fubini.
Remarque.
Exemple de calcul.
fZ (z) =
Ainsi on trouve fZ (z) = 1R+ (z)2 z exp(z) pour z R. Z suit donc une loi 2, 1 . On
peut aussi montrer la somme de deux variables alatoires indpendantes et de lois respectives
(a, ) et (b, ) suit une loi (a + b, ). On voit alors immdiatement par rcurrence que la loi
d'une somme de n variables
alatoires indpendantes toutes de loi exponentielle de paramtre
1
est une loi n,
.
Z
Z
1D (x, y)f (x)f (y)dxdy =
f (y)
f (x)dx dy,
Ry
P (i6=j {Xi = Xj })
X
i6=j
58
P(Xi = Xj ) = 0.
Posons B = i6=j {Xi = Xj }. Pour B c , les valeurs X1 (), . . . , Xn () sont toutes distinctes.
Pour tout B , soit alors : {1, . . . , n} {1, . . . , n} une permutation telle que X(1) () <
. . . < X(n) () ( dpend de ) et posons
1 i n.
Si B , on pose X(i) () = 0 pour 1 i n. Nous allons dterminer la densit du vecteur alatoire X(1) , . . . , X(n) . Remarquons au passage que pour B c , on a X(1) () =
min1in Xi () et X(n) () = max1in Xi (). Soit A B(Rn ). Posons X (o) = X(1) , . . . , X(n)
et X = (X1 , . . . , Xn ). On a alors
P X (o) A
= P {X (o) A} B c
X
=
P {X(1) < . . . < X(n) } {(X(1) , . . . , X( n) ) A
Sn
Z
1x1 <...<xn f (x1 ) f (xn )dn (x1 , . . . , xn ).
= n!
A
Commentons ces galits. La premire galit est due au fait que P(C) = P(C B c ) pour tout
C A car P(B c ) = 1. La deuxime galit est due au fait que
B c = Sn X(1) < . . . < X(n) ,
o on a not Sn comme tant l'ensemble de toutes les permutations de {1, . . . , n}. De plus cette
runion est disjointe. La dernire galit est due au thorme de transfert et au fait que pour
tout Sn donn, le nuplet X(1) , . . . , X(n) a la mme loi que X .
Finalement, on voit que X (o) est densit. Cette densit est donne par
Dans cette section, nous donnons quelques exemples de calculs de lois dans diverses situations.
Variable discrte. Pour connaitre la loi, on calcule la probabilit de chaque valeur possible. Prenons l'exemple de Y = [X] (partie entire de X ) lorsque X suit une loi exponetielle de paramtre . L'ensemble des valeurs possibles pour Y est N. Si n N, on
a
n+1
P (Y = n) = P (n X < n + 1) =
Z
E (h(Y )) = E (h g(X)) =
59
alors
!
1
Z
E (h(Y )) =
h(y)1y> exp
dy.
FY (y) = P X
1/
!
!
+ y =P X
= 1 exp
!
.
FY0 (y)
= exp
1
.
De plus si y < , on a FY (y) = 0 donc FY0 (y) = 0. Lorsque une fonction de rpartition F
est continue, continument drivable sur un intervalle I ouvert et nulle gauche de I (si
la borne infrieure de I est > ) et valantR 1 droite de I (si la borne suprieure de I
z
est < +), on a automatiquement F (z) = F 0 (u)du et F 0 est une densit de la loi.
On retrouve donc bien le rsultat prcdent.
Calcul d'esprance. On utilise le thorme de transfert et le thorme de Fubini (lorsque
plusieurs variables sont en jeu). Par exemple, si X est une variable alatoire admettant
une densit fX et h une fonction mesurable valeurs relles, on a (sous les hypothses du
thorme de transfert)
Z
E (h(X)) =
h(x)fX (x)dx.
Image d'un couple de variables alatoires densit par une application. Lorsque
fX,Y (x, y) =
1
1 2 2 .
x +y <1
E (h(R, )) = E h 1 (X, Y )
Z
1
=
h 1 (x, y) 1x2 +y2 <1 dxdy
Z
1
=
h 1 (x, y) 1x2 +y2 <1 dxdy
B
o B = R2 \ (R {0}). On pose (r, ) = 1 (x, y) ce qui donne (x, y) = (r, ). On a
dj voqu au chapitre prcdent que : A B tait continument direntiable que sa
60
Z
h(r, )1r2 <1 rdrd =
E (h(R, )) =
E (h(Z)) = E
h (F (x, Y )) 1X=x )
xval(X)
E (h (F (x, Y )) 1X=x )
xval(X)
E (h (F (x, Y ))) P (X = x) .
xval(X)
4.4
Densits conditionnelles.
Dnition 18
fX,Y (x, y)
,
fY (y)
x Rd .
On dit que fX|Y (|y) est la densit conditionnelle de X sanchant Y . Lorsque y Rk vrie
fY (y) = 0, on convient de dnir la loi de X|Y = y par une mesure de probabilit de densit
arbitraire g sur Rd et on pose fX|Y (|y) = g .
On dnit de faon analogue la loi de Y |X = x pour x Rd . On peut motiver la dnition
prcdente partir des probabilits conditionnelles entre venements. Pour simplier, suppoP(XA,Y =y)
sosns d = k = 1. On ne peut pas dnir P (X A|Y = y) partir du quotient
, le
P(Y =y)
numrateur et le dnominateur tant tous deux nuls. Un bon moyen pour mesurer l'inuence
d'une valeur y de Y sur celles de X consiste regarder la limite des probabilits conditionnelles
P (X A, y < Y < y + )
,
P (y < Y < y + )
(4.1)
lorsque 0. Si la densit est non nulle dans un voisinnage arbitrairement petit de y , ces
quotients sont bien dnis. On a alors
R y+ R
P (X A|y < Y < y + ) =
=
y
G(y + ) G(y )
,
F (x + ) F (x )
62
dv
Rz
G0 (y)
=
lim P (X A|y < Y < y + ) = 0
0
F (y)
fY (y)
Notations.
Proposition 22
Preuve.
Z
E(X) =
xfX (x)dx
Z
E (X|Y = y) fY (y)dy.
1
fX|S (x|s) = 1[0,s] (x).
s
On reconnait la loi uniforme sur l'intervalle [0, s]. En particulier E (X|S = s) = 2s .
64
Chapitre 5
Les outils analytiques classiques en
probabilit
5.1
La fonction de rpartition
Pour une variable alatoire X prenant des valeurs relles, la fonction FX : R [0, 1] dnie
par FX (x) = P (X x) est appele la fonction de rpartition de X . Donnons deux exemples de
fonction de rpartition.
Lorsque X suit une loi exponentielle de paramtre , alors FX (x) = (1 exp(x)) 1x>0 .
Lorsque X suit une loi de Bernoulli de paramtre p, alors FX (x) = (1 p)10x<1 + 1x1 .
Le dernier exemple montre qu'une fonction de rpartition n'est pas toujours une fonction continue. Quelques-unes des proprits des fonctions de rpartion avaient t mentionnes sans dmonstration lors du chapitre Mesure et Intgration.
5.1.1
Proposition 23
suivantes.
1. F est une fonction croissante qui vrie 0 F (x) 1, limx+ F (x) = 1 et limx F (x) =
0.
2. F est continue droite. De plus lim F (y) = P (X < x). Par consquent F est continue
<
y x
Preuve.
1. Si x < y , on a {X x} {X y}, ce qui entraine F (x) = P(X x) P(X y) = F (y).
F est donc bien croissante. Soit ensuite (xn )n une suite croissante de nombres rels positifs
et de limite +. Posons pour n N, An =] , xn ]. Alors (An )n est une suite croissante
d'intervalles dont la runion est R. D'aprs la proprit de continuit suprieure de la
mesure PX , on a
n+
n+
n+
n+
2. La continuit droite est une consquence de la continuit infrieure, car si (xn )n est une
suite dcroissante de limite x, alors
n+
n+
n+
y x
FX 2 (x) = P X 2 x = P x X x = ( x) ( x) = 2( x) 1.
En utilisant que 0 (t) = 1 exp(t2 /2), on obtient alors
2
FX0 2 (x) =
1
exp(x/2).
2x
Soit F : R [0, 1] une fonction de rpartition. On dnit alors une fonction G :]0, 1[ R
par
t ]0, 1[.
Proposition 24
Fig.
Fig.
5.2: F discontinue en x
Preuve.
1. Le fait que G soit une fonction croissante est immdiat car si 0 < t1 < t2 < 1,
{x R : F (x) t2 } {x R : F (x) t1 }.
La deuxime assertion rsulte des points 2. et 3..
2. Remarquons que l'on a toujours F (G(t)) t que F soit continue ou pas car si (xn )n est
une suite de points strictement dcroissante vers G(t), alors F (xn ) t par croissance de
F et en utilisant la dnition de G, ce qui donne
F (x) F (G(t)) t,
o la deuxime ingalit a t prouv lors de la preuve du point 2.
La fonction de rpartition inverse permet de simuler une variable alatoire relle X de loi
donne partir d'une variable alatoire de loi uniforme sur [0, 1].
Proposition 25 Soit U une variable alatoire de loi uniforme sur [0, 1] et F une fonction de
rpartition donne. Alors la variable alatoire G(U ) a pour fonction de rpartition F .
Preuve.
Exemple.
ln(1 t)
.
La variable alatoire G(U ) suit alors la loi exponentielle de paramtre . Remarquons que 1 U
suit aussi une loi uniforme sur [0, 1] et on peut tout aussi bien considrer la variable alatoire
ln(U )/.
La fonction de rpartition inverse n'est pas toujours facile calculer et parfois d'autres mthodes
de simulation sont prfrables.
1
1 H(t) = P (F (X) > t) = lim P F (X) t +
n
n
= 1 t,
en utilisant la continuit suprieure de la mesure. Ainsi H(t) = t pour 0 < t < 1, ce qui prouve
que F (X) a la mme loi qu'une variable alatoire de loi uniforme sur [0, 1].
5.2
5.2.1
Covariance et moments
Moments d'une variable alatoires relle
Soit
alatoire valeurs relles. Les moments
X une variable
de X sont les nombres mk =
k
k
E X pour k N . Le nombre mk est bien dni si E |X| < +. Il est possible qu'aucun
moment n'existe (c'est par exemple le cas si X suit une loi de Cauchy). D'autres variables
68
Proposition 26
Proposition 27
Soit X une variable alatoire valeurs relles et k N . Alors pour tout t > 0,
E |X|k
.
P (|X| t)
tk
Var (X)
.
t2
Preuve.
Covariance et corrlation
La covariance entre deux variables alatoires X et Y valeurs relles et toutes deux de carr
intgrable est dni par
Cov (X, Y ) = E ((X E(X))(Y E(Y ))) = E(XY ) E(X)E(Y ).
69
valable pour des variables alatoires X1 , X2 , Y1 , Y2 galement de carr intgrable. De plus pour
tous rels a, b, c, d, on a
Cov (aX + b, cY + d) = ac Cov (X, Y ).
En particulier, les translations laissent invariante la covariance. La covariance permet de quantier la liaison entre deux variables alatoires avec le coecient de corrlation.
Proposition-Dnition 3
Cov (X, Y )
,
(X)(Y )
p
Var (X) dsigne l'cart-type de X . De plus, |r(X, Y )| 1 et r(X, Y ) = 1 si et
o (X) =
XE(X)
E(Y )
seulement si (X) = Y (Y
) presque srement.
Preuve.
On pose T =
XE(X)
(X)
et S =
Y E(Y )
(Y ) .
|r(X, Y )| E(|ST |) 1.
Supposons que r(X, Y ) = 1. Alors E(ST ) = 1 et donc
E (S T )2 = E(S 2 ) + E(T 2 ) 2E(ST ) = 0.
On en dduit alors que P(S = T )= 1 en utilisant les rsultats du premier chapitre. Si r(X, Y ) =
1, on a de mme E (S + T )2 = 0 ce qui donne P(S = T ) = 1. Le sens rciproque de
l'quivalence est vident.
Remarque.
Pour deux vecteurs u et v dans Rd reprsents l'aide de matrices colonnes, nous noterons
d
X
i=1
ui vi dsignera le
Dnition 19
X
L'esprance d'une variable alatoire Z pouvant prendre des valeurs complexes est dnie par
E ( Re (Z)) + iE ( Im (Z)) .
Ainsi
X (t) = E cos tT X
+ iE sin tT X
est toujours bien dnie car les fonctions cosinus et sinus sont bornes.
Exemples
X (t) =
+
X
exp(itk) exp()
k=0
k
= exp ((exp(it) 1)) .
k!
+ k
X
z
k=0
k!
Supposons maintenant que X suive une loi gaussienne centre rduite. Le calcul direct de
la fonction caractristique est plus dlicat. On peut faire le calcul en drivant X . Nous
admettrons la possibilit de driver sous le signe esprance, ce qui donne
ix
exp(itx) exp(x2 /2)dx
2
Z
i +
2
= exp(itx) exp(x /2)
t exp(itx) exp(x2 /2)dx.
2
On trouve donc 0X (t) = tX (t) ce qui donne X (t) = exp t2 /2 .
On peut en dduire la fonction caractristique de la variable Y = m + X N (m, 2 ) :
2 2
t
Y (t) = exp(itm)X (t) = exp(itm) exp
.
2
0X (t) =
Il est possible de montrer (mais nous l'admettrons) que si une variable alatoire valeurs relles X admet un moment d'ordre n N ,
alors la fonction caractristique est n fois drivable et les drives peuvent tre obtenues en
drivant sous le signe E. Ainsi pour k = 1, . . . , n, on a
(k)
X (t) = ik E X k exp(itX) ,
(k)
ce qui donne mk = X (0). On pourra vrier titre d'exercice qu'on retrouve par exemple la
moyenne et la variance d'une loi de Poisson en drivant deux fois la fonction caractristique.
71
Proposition 28
7
cos
t
et x 7 sin tT x concident pour deux lois alors ces lois sont gales. Aussi on peut en dduire
la proprit suivante : si E (h(X)) = E (h(Y )) pour toute fonction h : Rd R continue borne,
alors PX = PY (les variables X et Y ont la mme loi).
GX (s) = E s
+
X
sk P (X = k) ,
0 < s < 1.
k=0
Une gnralisation de cette notion est aux variables alatoires valeurs dans Rd est donne par
LX (t) = E exp tT X
t Rd .
Ces deux notions vitent le recours aux nombres complexes et les moments peuvent tre aussi
obtenus par drivation. Le problme est que contrairement la fonction caractristique qui est
toujours dnie, la fonction gnratrice des moments ne l'est pas toujours si la variable alatoire
prend des valeurs ngatives et/ou n'est pas borne.
Proposition 29
p
d
X
X
(X,Y ) (u, v) = E exp(
ui Xi +
vj Yj ) = X (u)Y (v),
(u, v) Rp Rd .
i=1
j=1
72
Chapitre 6
Loi et esprance conditionnelle
6.1
Dans cette section, nous gnralisons la notion de loi conditionnelle pour un couple de variables alatoires dont la loi admet une densit par rapport une mesure produit. Soient (X, Y )
un couple de variables alatoires valeurs dans Rd Rp et et deux mesures nies sur
Rd et Rp respectivement. On suppose que la loi de (X, Y ) admet une densit note fX,Y par
rapport la mesure produit , autrement dit
Z
P (X A, Y B) =
A B B Rd B(Rp ).
(6.1)
AB
Z Z
Z Z
fX,Y (x, y)d(y) d(x) =
fX,Y (x, y)d(x) d(y)
P (X A, Y B) =
A
et nous remplacerons souvent la notation d ( ) (x, y) par d(x)d(y). Dans ce cas, les lois
de X et de Y sont donnes par
Z Z
P (X A) =
fX,Y (x, y)d(y) d(x),
A B(Rd ).
fX,Y (x, y)d(x) d(y),
B B(Rp ).
Z Z
P (Y B) =
B
Ainsi la loi de X admet une densit fX par rapport qui est donne par
Z
fX (x) =
x Rd .
De mme, la loi de Y admet une densit fY par rapport qui est donne par
Z
fY (y) =
y Rd .
Lorsque et sont les mesures de Lebesgue, on retrouve les lois densit prcdemment
tudies. Lorsque et sont les mesures de comptage sur N, on retrouve les couples de variables
alatoires discrtes : la densit fX,Y peut alors tre dnie par fX,Y (x, y) = P (X = x, Y = y)
pour (x, y) R2 . Un exemple de cas non tudi prcdemment est celui ou dsigne la mesure
de Lebesgue sur R et dsigne la mesure de comptage sur N. Pour ce dernier cas, on pourra
remarquer que
Z
P (X A, Y = y) =
A B(R)
Dnition 20
Soit (X, Y ) un couple de variables alatoires dont la loi vrie (6.1). Soit galement g une densit de probabilit quelconque pour la mesure . On dnit alors la loi conditionnelle de X|Y = y comme tant la mesure de probabilit de densit note fX|Y (|y) par rapport
la mesure , densit qui est dnie par
fX|Y (x|y) =
fX,Y (x, y)
,
fY (y)
x Rd ,
X=
n
X
Xi 1Y =i ,
i=1
Z
P (X A, Y = i) = P (Xi A, Y = i) = P(Xi A)pi =
pi fi (x)dx.
A
En posant fX,Y (x, y) = fy (x)py 1{1,...,n} (y), on voit que (X, Y ) a une densit par rapport ,
o dsigne la mesure de Lebesgue sur R et la mesure de comptage sur N. De plus la loi de
X|Y = i a la densit fi . On cherche ici la loi de Y |X = x. Nous avons
Z
fX (x) =
py fy (x)d(y) =
n
X
pj fj (x)
j=1
(la densit de X est donc donne par un mlange) et d'aprs la dnition de la loi conditionnelle,
on a si i = 1, . . . , n :
P (Y = i|X = x) =
pi fi (x)
n
X
pj fj (x)
j=1
Moyenne conditionnelle
E (X|Y = y) =
xfX|Y (x|y)dx.
Lorsque est la mesure de comptage sur N, on pourra remarquer que si P(Y = y) > 0 alors
E (X|Y = y) =
74
E (X1Y =y )
.
P(Y = y)
6.2
Esprance conditionnelle
B = {, A, Ac , } .
Si Z est une variable alatoire Bmesurable alors il existe deux nombres rels et tels que
Z = 1A + 1Ac .
En eet, si Z est constante et gale c, on peut prendre = = c. Si Z prend deux valeurs
distinctes a et b, on a la dcomposition
Z = a1Z=a + b1Z=b
et comme {Z = a}, {Z = b} B sont deux venements non vides et de runion , l'un vaut
A l'autre Ac et on pose , = a, b. Ensuite il n'est pas possible que Z prenne trois valeurs
distinctes car il n'y a pas trois lments distincts non vides et dirents de l'univers dans B .
Remarquons que lorsque A = ou A = , alors les variables alatoires Bmesurables sont
simplement les constantes.
Cet exemple se gnralise au cas d'une tribu B = ({A1 , A2 , . . . , An }) engendre par un nombre
ni d'venements A1 , . . . , An disjoints deux deux et de runion . Dans ce cas B est la tribu
constitue de toutes les runions formes partir des Ai et on peut montrer que qu'une variable
alatoire Bmesurable est de la forme
Z=
n
X
i 1Ai .
i=1
Passons maintenant au cas d'une tribu engendre par une variable alatoire.
Dnition 21
On pourra vrier titre d'exercice que la famille d'venements entre accolades donne dans
la dnition ci-dessus vrie bien la dnition d'une tribu. La tribu B = ({A1 , A2 , . . . , An })
engendre par un nombre ni d'venements A1 , . . . , An disjoints deux deux et de runion ,
est un exemple de ce type de tribu si on pose par exemple
Y =
n
X
(i 1)1Ai .
i=1
En particulier la tribu engendre par l'venement A concide avec la tribu engendre par la
variable alatoire 1A .
Remarque.
En fait, on peut toujours voir une tribu comme engendre par une variable alatoire mais ceci demande une dnition plus gnrale de la notion de variable alatoire qu'il n'est
pas question d'aborder dans ce cours. Par exemple en mathmatiques nancires, il existe la
notion d'une tribu engendre par des variables alatoires Zs , 0 s t qui reprsente l'ensemble
des prix de l'instant initial jusqu'au temps t > 0 : dans ce cas la variable alatoire sous-jacente
est valeurs dans un espace de fonction et pas dans Rd .
Lorsque une tribu B est gnre par une variable alatoire, on a une description plus parlante
des variables alatoires valeurs relles et Bmesurables.
Thorme 11
E (1A X) = E (1A Z) .
Cette variable alatoire est unique l'galit presque sre prs : si Z 0 L1B qui vrie (6.2) alors
P (Z = Z 0 ) = 1.
En outre, si E(X 2 ) < + alors Z L2B et dans ce cas on a pour toute variable alatoire U L2B
(6.3)
E (U X) = E (U Z) ,
Dnition 22
p
p
E(Vn2 ) E(X 2 ),
E(Z 2 ) = lim E Vn2 E X 2 ,
(6.5)
ce qui prouve bien que E(Z 2 ) < +. Remarquons ensuite que si les galits (6.3) sont
valables pour U ne prenant qu'un nombre ni de valeurs alors, elles sont aussi valables
pour U borne : en eet, il est facile d'approcher U borne par une suite (Un ) de variables
alatoires ne prenant qu'un nombre ni de valeurs de sorte que
n+
En faisant tendre n vers + on obtient les galits 6.3 pour des variables alatoires U
bornes. Ces galits s'tendent toutes les variables alatoires U L2B . En eet si U L2B
et n N , la variable alatoire Un = U 1|U |n est borne et on a E(Un X) = E(Un Z).
77
Montrons alors que limn E(Un X) = E(U X) (le mme raisonnement vaudra pour Z ).
Les proprits de l'esprance et l'ingalit de Cauchy-Schwarz assure que
p
p
E(X 2 ) E ((U Un )2 ).
E (X U )2 E (X Z)2
= E U 2 2E (XU ) + 2E(XZ) E Z 2
= E U 2 2E (ZU ) + 2E Z 2 E Z 2
= E (U Z)2
0,
E (X Z tU )2 E (X Z)2 .
En dveloppant les carr, on voit alors que
t2 E U 2 2tE ((X Z)U ) 0.
En divisant l'ingalit prcdente par t et en faisant tendre t vers 0, on obtient E ((X Z)U )
0. En remplaant U par U dans cette dernire ingalit, on obtient galement E ((X Z)U )
0. Finalement on conclut que E ((X Z)U ) = 0 ce qui prouve (6.3).
Z = 1A + 1Ac ,
pour des nombres rels et dterminer. On utilise les galits (6.2). On a
ce qui donne =
E(X1A )
P(A) .
De mme,
E(X1Ac )
P(Ac ) .
On en dduit
E (X|B) =
E (X1A )
E (X1Ac )
1A +
1Ac .
P(A)
P (Ac )
Par exemple si on lance deux ds quilibrs, on peut considrer A l'venement la somme est un
nombre pair et X le numro du premier d. Si on observe qu'eectivement la somme est paire,
E(X1 )
on prvoira X par la valeurs P(A)A . Si en revanche la somme est impaire, on utilisera la valeur
E(X1Ac )
P(Ac ) .
E (|g(Y )|) =
y
|g(y)| P (Y = y) < +.
val(Y )
E (X1A ) = E (Z1A ) =
w
E(X1Y =y )
P(Y =y)
X
y
val(Y )
val(Y )
et on peut poser
E (X|B) = g(Y ) =
y
val(Y )
E (X1Y =y )
1Y =y .
P(Y = y)
Proposition 30
Preuve.
AB
Rd
E X1{Y A}
Z
=
=
Z
=
Z
=
g(y)fY (y)d(y)
A
= E (1A (Y )g(Y ))
D'aprs la caractrisation (6.2) de l'esprance conditionnelle, la proposition est prouve.
Notation.
Remarque.
E (X|Y ) =
+
X
E (X1Y =n )
n=0
P(Y = n)
1Y =n .
E (X|Y = n) =
E (X1Y =n )
.
P(Y = n)
Proposition 31
U
L1B .
1. On a E (E (X|B)) = E(X).
2. On a E (U |B) = U .
3. On a les proprits de linarit suivantes (les galits tant valables presque srement)
E X + X 0 |B = E (X|B) + E X 0 |B ,
E (U X|B) = U E (X|B) ,
lorsque U est borne. Si de plus, E X 2 < +, alors la deuxime galit est aussi valable
pour U L2B .
4. Si X est valeurs positives, alors E (X|B) est aussi valeurs positives. De plus si X X 0 ,
alors E (X|B) E (X 0 |B).
5. Si X est indpendante de B, alors E (X|B) = E(X).
80
Preuve.
Pour la plupart de ces proprits, il sut de montrer que la variable alatoire annonce
vrie la caractrisation (6.2) : pour montrer une galit du type E (S|B) = Z , on montre que
Z L1B puis que pour tout A B , on a
(6.6)
E (1A S) = E (1A Z) .
1. Le premier point se dduit de la relation (6.2) en prenant A = .
Z = V1 + V2 = E (X|B) + E X 0 |B .
De plus Z vrie (6.6) car si A B ,
E X + X 0 |B = E (X|B) + E X 0 |B .
Pour prouver que E (U X|B) = U E (X|B) lorsque X est de carr intgrable et U L2B , on
commence par remarquer que la variable alatoire candidate est bien intgrable en tant
que produit de variable alatoire de carr intgrable et qu'elle est de plus Bmesurable. Il
sut ensuite de voir que si A B , on a (en posant Z = E (X|B))
E (1A U Z) = E (1A U X) ,
en utilisant (6.3) que l'on a appliqu la variable alatoire 1A U L2B au lieu de U et
S = U X au lieu de X . Ainsi (6.6) est vrie pour tout A B . Lorsque X est seulement
intgrable, il faut d'abord que la caractrisation (6.2) s'tend en remplant les indicatrices
1A par des variables alatoires Bmesurables bornes (ceci a en fait t dj montr dans
la preuve du Thorme 11) et on procde comme pour le cas X de carr intgrable (cas
prcdent) pour nir la preuve.
81
n N.
Ce type de dynamique est frquemment utilis pour modliser l'volution temporelle de certains
phnomnes (volution d'actifs d'un jour au suivant, volution du niveau d'eau dans un lac...).
On pourra remarquer en itrant l'quation que Xn peut s'crire comme une combinaison linaire
des variables U1 , . . . , Un . La variable alatoire Un+1 est donc indpendante de Xn et plus gnralement de Fn = (X1 , . . . , Xn ). Calculons alors l'esprance conditionnelle E (Xn+1 |Fn ). On a
la srie d'galits
82
Proposition 32
Exemples de calculs
nN
avec U une suite i.i.d, f une fonction connue et X0 = x0 est une constante. On voit que Xn
s'crit comme une fonction des variables alatoires Un , Un1 , . . . , U1 . Un+1 est donc une
variable alatoire indpendante de Xn et mme indpendante de Fn = (X1 , X2 , . . . , Xn ).
D'aprs la proposition prcdente la loi de Xn+1 |Xn = x concident avec la loi de f (x, Un+1 )
(remarquer
qu'il s'agit aussi de la loi de Xn+1 |Xn , . . . , X1 ). Prenons le cas o f (x, y) =
y 1 + ax2 et la suite U est une suite de gaussiennes N (0, 1) : il s'agit d'un exemple de
modle ARCH (autorgressif et conditionnellement
htroscedastique). Dans ce cas, la loi
2
de Xn+1 |Xn = x est la loi N 0, 1 + ax . On remarquera
galement que E (Xn+1 |Fn ) = 0
2 |F
ici. En revanche, on peut regarder E Xn+1
n : un calcul l'aide des proprits de la loi
conditionnelle montre que
2
2
E Xn+1
|Fn = 1 + aXn2 E Un+1
|Fn = 1 + aXn2 E (Un+1 ) = 1 + aXn2 .
On aurait aussi pu obtenir directement ce rsultat en utilisant le point 2. de la proposition
prcdente avec (z) = z 2 et en uilisant la loi conditionnelle N (0, 1 + ax2 ).
Supposons par exemple qu'une variable alatoire X s'crit sous la forme X = exp(Y U )
avec Y et U deux variables alatoires indpendantes et valeurs relles et densit avec
par exemple U de loi uniforme sur [0, 1]. Calculons E (X|Y ). La proposition prcdente
assure que E(X|Y ) = g(Y ) o g est la fonction dnie par
Z
g(y) = E (exp(yU )) =
exp(yu)du =
0
exp(y) 1
,
y
E (X|Y ) =
83
exp(Y ) 1
.
Y
Z
|F (u, y)|dPY (y)dPU (u) =
et est un nombre ni par hypothse sur X . Ceci montre que g(Y ) est intgrable. Aussi pour un
venement {Y A} (Y ), nous avons
Z
E (X1A (Y )) =
=
A
= E (1A (Y )g(Y )) .
L'galit (6.2) est bien vrie.
84
Chapitre 7
Les lois gaussiennes
7.1
Nous avons dj dni les lois gaussiennes sur R lors du chapitre sur les variables alatoires
densit. On rappelle qu'une variable alatoire X valeurs relles suit une loi gaussienne de
moyenne m R et de variance 2 > 0 si la densit de X est donne par
1
(x m)2
fX (x) =
exp
,
2 2
2
x R.
On inclut aussi dans la dnition le cas dgnre o = 0 : dans ce cas on convient que la
variable alatoire X est presque srement gale sa moyenne m (i.e la loi de X est la masse de
Dirac m ).
Dans tous les cas, on notera X N m, 2 . On rappelle que lorsque m = 0 et = 1, on parle
de loi gaussienne centre rduite.
Une proprit importante de ces lois est leur stabilit vis vis des transformations anes. La
proposition suivante se prouve aisment en eectuant un changement de variable.
Proposition 33
Lorsque
les fonctions caractristiques, nous avons calcul celle de la loi
nous avons introduit
2
2
N m, . Si X N m, , alors
2 t2
X (t) = exp(itm) exp
2
,
t R,
cette expression tant aussi valable lorsque = 0. L'utilisation des fonctions caractristiques et
de leurs proprits permet de prouver facilement la proposition suivante (cf TD).
7.2
7.2.1
Soit A une matrice carre de taille d d dont les entres sont des nombres rels. On notera
det(A) son dterminant. Le noyau de A est le sous-espace vectoriel de Rd
n
o
Ker (A) = x Rd : Ax = 0
(on conviendra de noter les vecteurs de Rd par des matrices colonnes). Alors on les quivalences
fondamentales suivantes :
A inversible det(A) 6= 0 Ker (A) = {0}.
Ainsi dire que A n'est pas inversible signie qu'il existe x Rd \ {0} tel que Ax = 0.
On dit que A est matrice symtrique lorsque Aij = Aji pour 1 i, j d.
Dans la suite nous noterons Sd+ l'ensemble des matrices carres A de taille d d qui sont semidnies positives c'est dire telles que xT Ax 0 pour tout x Rd . On notera galement Sd++
l'ensemble des matrices carres A de taille dd qui sont symtriques et dnies positives (c'est-dire telles que xT Ax > 0 pour x Rd \ {0}).
On rappelle que toute matrice symtrique est diagonalisable dans une base orthonorme. Ceci
signie qu'il existe une matrice P de taille d d telle que P T P = P P T = Id (matrice identit) et
A = P DP T o D est une matrice diagonale dont les lments diagonaux sont des nombres rels
appels les valeurs propres de A. Dans ce cas, on a A Sd+ (resp. A Sd++ ) si et seulement si
les valeurs propres notes 1 , . . . , d (avec ventuellement des rptitions) sont toutes positives
(resp. strictement positives). Ainsi on a A Sd++ si et seulement si A Sd+ et det(A) 6= 0.
Toute matrice A de Sd+ admet une unique racine carre dans Sd+ (c'est--dire une matrice B
telle que B 2 = A) : cette racine carre sera note A1/2 . Lorsqu'on parlera de la racine carre
de A, il s'agira de A1/2 . Lorsque A Sd++ , A1/2 appartient aussi Sd++ . Si A = P DP T on a
A1/2 = P D1/2 P T et D1/2 est la matricediagonale
dont les lments diagonaux sont donns par
les racines carres des valeurs propres 1 , . . . , d . Enn lorsque A Sd++ alors A1 Sd++
et de plus la racine carre de A1 est l'inverse de la racine carre de A et sera note A1/2 : on
a A1/2 = P 0
..
0
7.2.2
...
T
0 lorsque A = P DP .
1
d
Soit X une variable alatoire valeurs dans Rd (on parle aussi de vecteur alatoire) pour
d N . Si X = (X1 , . . . , Xd )T est tel que E Xi2 < + pour i = 1, . . . , d, alors on dnit la
matrice de covariance de X par
Var (X) = [ Cov (Xi , Xj )]1i,jn .
Remarquer que si les coordonnes de X sont indpendantes (ou mme dcorrles deux deux
ce qui est plus faible) alors Var (X) est une matrice diagonale. Dans la suite, nous conviendrons
que si K est une matrice p n dont les entres dnissent des variables alatoires Ki,j alors
l'esprance E(K) est la matrice p n telle que E(K)ij = E (Kij ) (on prend l'esprance de
chacune des entres de la matrice). Nous avons alors les proprits fondamentales suivantes.
Proposition 35
1. On a les expressions
Var (X) = E ((X E(X))(Y E(Y ))) = E XX T E(X)E(X)T .
86
Preuve.
1. Il s'agit d'une simple rcriture matricielle.
2. Soit i {1, . . . , n}. Alors, on a
Yi =
d
X
Aij Xj .
j=1
E(Yi ) =
d
X
Aij E(Xj ).
j=1
d
X
j,j 0 =1
d
X
j,j 0 =1
Pd
i=1 xi Xi
i=1
d
X
Pd
i=1 xi Xi
= presque
!
xi Xi , Xj
= Cov (, Xj ) = 0.
i=1
Comme Var (X)ij = Var (X)ji , on obtient ( Var (X)x)j = 0. Ainsi x 6= 0 appartient au
noyau de Var (X) ce qui entraine que det (v(X)) = 0.
4. Le fait que Var (X) soit symtrique rsulte de sa dnition. De plus cette matrice est
semi-dnie positive car xT Var (X)x = Var xT X d'aprs ce qui prcde. Inversement
toute matrice symtrique tant diagonalisable dans une base orthonorme, on a
=P
..
T
T
P = P DP ,
d
o P T P = P P T = Id (matrice identit de taille d). De plus les valeurs propres sont
positives (car la matrice est semi-dnie positive) et en posant Q = P D 1/2 (o D 1/2 est
87
= E XY T E(X)E(Y )T .
X
Y
7.3
Var (X)
Cov (Y, X)
Cov (X, Y )
Var (Y )
.
Dnition 23
Proposition 36
Preuve.
vT X
Proposition 37
t Rd .
Etant donn que la fonction caractritique caractrise compltement la loi, on voit que la loi
d'un vecteur gaussien dpend uniquement de sa moyenne et de sa matrice de covariance. Ainsi
la loi d'un vecteur gaussien de Rd de moyenne m et de variance sera note Nd (m, ).
88
Preuve.
Proposition 38
Preuve.
Commenons pour
le Tcas
m = 0 et = Id . Dans ce cas la fonction caractristique de X
t t
est donne par X (t) = exp 2 , pour t Rd , ce qui correspond la fonction caractristique
de d variables alatoires indpendantes toutes de loi N (0, 1). On en dduit que X admet une
densit sur Rd qui est dnie par
fX (x) =
exp 12 xT x
(2)
d
2
x Rd .
Z
E (h(Y )) =
h m+
1/2
exp 1 xT x
2
d
dx,
(2) 2
en utilisant le thorme de transfert et la premire partie de la preuve. Pour montrer que l'on
obtient bien la densit annonce, il sut d'eectuer le changement de variable y = m + 1/2 x.
On a alors x = 1/2 (y m) = (y) et le jacobien est donn par
1
J(y) = det 1/2 = p
det()
. Des calculs lmentaires conduisent alors l'expression de la densit.
Reprenons les notations de la proposition prcdente. Lorsque n'est pas inversible, on a vu que le vecteur X appartenait un
hyperplan ane de Rd avec probabilit 1 (on parle de vecteur gaussien dgnr). Dans ce cas,
le vecteur X ne peut pas avoir de densit par rapport la mesure de Lebesgue sur Rd car un
hyperplan ane est de mesure nulle (pour d ).
Indpendance et dcorrlation.
X (t) =
d
Y
j=1
j2 t2j
exp(itj mj ) exp
2
89
!
=
d
Y
j=1
Xj (tj ).
D'aprs les proprits des fonctions caractristiques, on voit que les variables alatoires X1 , . . . , Xd
sont indpedantes. Cette quivalence entre dcorrlation et indpendance est une proprit typique des vecteurs gaussiens et sera gnralise un peu plus loin dans ce chapitre.
De la loi
la loi
On a vu
que si X tait un vecteur gaussien alors les variables alatoires coordonnes X1 , . . . , Xd taient
gaussiennes. En revanche, un vecteur alatoire dont toutes les entres suivent des lois gaussiennes
sur R n'est pas forcment un vecteur gaussien (sauf si X1 , . . . , Xd sont indpendantes auquel
cas la fonction caractristique permet de conclure). Par exemple, si X1 N (0, 1) et V est une
variable alatoire indpendante de X et telle que P(V = 1) = P(V = 1) = 21 alors en posant
X2 = V X1 , on peut vrier que X2 N (0, 1). Mais X = (X1 , X2 )T ne peut tre un vecteur
gaussien car la somme X1 + X2 = (1 + V )X1 peut valoir 0 avec probabilit 21 (la somme ne suit
donc pas une loi gaussienne).
X
un vecteur gaussien avec X et Y deux vecteurs alatoires
Y
(forcment gaussiens) valeurs respectives dans Rd et Rn . Alors les vecteurs alatoires X et
Y sont indpendants si et seulement si Cov (X, Y ) = 0. En d'autres termes, pour un vecteur
gaussien, l'indpendance de deux sous-vecteurs quivaut leur dcorrlation.
Proposition 39
Soit Z =
Preuve.
Posons m = d + n.
Supposons d'abord que X et Y vrie Cov (X, Y ) = 0. Pour montrer leur indpendance, il
sut d'utiliser le critre d'indpendance bas sur les fonctions
caractristiques.
que
Remarquons
u
Var (X)
0dn
. Soit t =
la variance de Z est donne par blocs par Var (Z) =
v
0nd
Var (Y )
Rm . Alors
tT Var (Z)t = uT Var (X)u + v T v(Y )v.
La fonction caractristique de Z est alors donne par
1 T
T
Z (t) = exp i(u E(X) + v E(Y )) exp u Var (X)u + v v(Y )v
= X (u)Y (v).
2
T
Proposition 40 Soit Z = X
un vecteur gaussien avec X un vecteur alatoire valeurs
Y
dans Rd et Y un vecteur alatoire valeurs dans Rn . On suppose que Y est non dgnre (i.e
90
Var (Y ) est inversible). Alors la loi conditionnelle de X|Y = y est une loi gaussienne Nd (m, )
dont les paramtres sont donns par
Preuve.
Var (U )
Var (X CY )
Var (X) + Cov (X, Y ) Var (Y )1 Cov (Y, X) 2 Cov (X, Y ) Var (Y )1 Cov (Y, X)
Remarque fondamentale.
voit que l'esprance conditionnelle E(X|Y ) est une combinaison linaire du type
n
X
i Yi +
i=1
X
1
soit un vecteur gaussien de moyenne m =
Y
1
1
0.5
et de matrice de covariance =
. Le vecteur gaussien est non dgnre. A
0.5
1
priori, on peut aussi calculer la loi conditionnelle de X|Y = y en utilisant le quotient des
densits. Cependant, il faut dj inverser la matrice pour rcuprer la densit de Z et eectuer
Un exemple.
Supposons que Z =
Nous donnons ici trois exemples de loi qui interviennent assez frquemment en statistique
et qui sont construites partir de variables alatoires X1 , X2 , . . . indpendantes et toutes de loi
N (0, 1).
La loi du 2 .
La loi de X12 est une loi 21 , 2 (voir TD). Ainsi la somme X12 + X22 + .. . + Xn2
est la convole de n variables alatoires toutes de loi et elle suit donc une loi n2 , 2 . Cette
loi est aussi appele loi du 2 (prononcer khi-deux) n degrs de libert.
La loi de Student.
Xn+1
T =p 2
.
(X1 + . . . + Xn2 )/n
La loi de T correspond donc la loi de Z
Y /n
t 7
La loi de Fisher.
La loi de
n+1
2
n
2
2
2
Xn+1
+...+Xn+m
m
2 +...+X 2
X1
n
n
1+
t2
n
n+1 .
2
A une renormalisation prs, cette loi est aussi celle du quotient de deux variables alatoires
indpendantes suivant toutes les deux une loi du 2 , m et n degrs de libert respectivement.
On peut alors montrer que la densit est donne par
z 7 1R+ (z)
m
2
n+m
2
92
n
2
m 2 n 2 z 2 1
(n + mz)
m+n
2
Chapitre 8
Convergence des suites de variables
alatoires
On se xe donc un espace probabilis (, A, P). De plus nous utiliserons la notation || aussi
bien pour la valeur absolue sur R que pour la norme euclidienne sur Rd , d 2.
8.1
8.1.1
Pour tudier les problmes asymptotiques lis des suites d'venements, la notion de limite
infrieure et de limite suprieure intervient frquemment. Si (An ) est suite d'lments de A,
la limite infrieure est l'venement not limAn qui est constitu de l'ensemble des preuves
qui appartiennent tous les An partir d'un certain indice p (qui peut dpendre de ). Par
exemple, lorsque = R, en posant An = [ n1 , 1] si n 1, on voit que limAn =]0, 1]. Il existe une
criture ensembliste : on a
lim inf An = pN +
n=p An .
n
En eet dire que limAn signie qu'il existe un entier p tel que pour tout n p, on ait
An .
La limite suprieure de la suite (An ) est l'venement not lim supn An qui est compos des
preuves qui appartiennent une innit d'venements An . Par exemple, si
A1 = [0, 1],
A2 = [1, 2],
A3 = [0, 1],
A4 = [1, 2], . . . ,
on voit que lim supn An = [0, 2] alors que lim inf n An = {1}. On a l'criture ensembliste
lim sup An = pN +
n=p An .
n
lim inf An
n
c
c
lim sup An = lim inf Acn ,
8.1.2
Lemme de Borel-Cantelli
Ce lemme est d'un usage courant lorsque on s'intresse au comportement asymptotique d'une
suite d'vnements. Pour la suite, on rappelle qu'une suite d'vnements indpendants est une
suite (An )nN telle que pour tout k N et tout k-uplet (n1 , . . . , nk ) Nk , les vnements
An1 , . . . , Ank sont indpendants.
Lemme 4
1. On a l'implication :
+
X
P(An ) < + P lim sup An = 0.
n
n=0
n=0
Remarque.
= 0.
n=0
Exemples.
1
.
2N
Donc
+
X
n=0
n=0
+
X
1
P (An ) =
< +.
2n
n=0
Preuve.
1. Pour le premier point, remarquons que pour tout n N, A pn Ap , ce qui donne les
majorations :
X
P (A) P (pn Ap )
P (Ap ) ,
pn
94
ce qui donne le rsultat car le membre de droite est le reste d'une srie convergente et tend
donc vers 0 lorsque n tend vers +.
2. Pour le deuxime point, on peut se rappeler que P(A) = 1 P(Ac ) = 1 P (lim inf n Acn ).
Il sut donc de prouver que P (lim inf n Acn ) = 0. En posant Bn = pn Acp , on a
n
o
Ac = lim inf Acn = n0 Bn .
n
Les vnements Bn forment une suite croissante d'vnements pour l'inclusion, on a donc
P(Ac ) = limn+ P(Bn ). Nous allons montrer que P(Bn ) = 0 ce qui permettra de conclure.
Remarquons que en posant pour q n, Cq = qp=n Acp , on a P(Bn ) = limq+ P (Cq ),
car les vnements Cq forment une suite dcroissante d'vnements pour l'inclusion. En
utilisant l'indpendance des venements Acn ainsi que l'ingalit ex 1 x, on obtient
P(Cq ) =
q
X
(1 P(Ap )) e
Pq
p=n
P(Ap )
p=n
8.2.1
Dnition 24
Dnition 25
On dit qu'une suite (Xn )nN de variables alatoires valeurs dans Rd converge
en probabilit vers une variable alatoire X si pour tout > 0,
lim P (|Xn X| > ) = 0.
n+
Remarques
1. La convergence presque sre entrane la convergence en probabilit. En eet la convergence
presque sre entrane que pour > 0, P (lim supn An ) = 0 avec An = {|Xn X| > }.
Comme
P (An ) P (pn Ap )
et le membre de droite converge vers P lim supq Aq = 0 lorsque n tend vers +, on en
dduit que lim P(An ) = 0.
n+
1
n+ 0.
n
Remarquons au passage que pour montrer la convergence en probabilit, on peut se restreindre des valeurs de plus petite qu'un certain seuil dans la dnition (car si < 0 ,
P (|Xn | > 0 ) P (|Xn | > )). Remarquons ensuite que
+
X
P(Xn = 1) =
n=1
+
X
1
= +
n
n=1
et donc que P (lim supn {Xn = 1}) = 1 en utilisant le deuxime point du lemme de BorelCantelli. Ainsi p.s, la suite (Xn )n prend une innit de fois la valeur 1, elle ne peut donc
converger vers 0 presque srement.
La convergence presque sre ou en probabilit est stable par composition par une fonction
continue.
Proposition 41
Preuve.
C'est clair pour la convergence presque sre. Pour la convergence en probabilit, soit
> 0 et > 0. On va montrer qu'il existe n0 N tel que n n0 , P (|f (Xn ) f (X)| > ) < .
Choisissons d'abord r > 0 tel que P (|X| > r) /2, ce qui est toujours possible. Sur {|x| 2r},
f est uniformment continue. Choisissons alors > 0 tel que
|x| , |y| 2r,
|x y| <
|f (x) f (y)| .
Remarquons alors que |x| r et |x y| min(r, ) entraine |f (x) f (y)| . Donc |f (x) f (y)|
entraine ou bien |x| > r ou bien |x y| > min(r, ). En notant An = {|f (Xn ) f (X)| > },
nous obtenons
Proposition 42
(Critre
de convergence p.s)
P
Si pour tout > 0, n0 P (|Xn X| > ) < + alors Xn X p.s.
X
En particulier, si il existe p > 0 tel que
E (|Xn X|p ) < +, alors Xn X p.s.
n0
Exemple.
Un exemple simple de suite qui converge p.s vers 0 est par exemple Xn = Yn , n 1
avec Y une variable alatoire donne. Ce critre permet de dire un peu plus en considrant la
suite dnie par
Xn = Ynn avec (Yn )n une suite de variables alatoires toutes de mme loi. En
eet si E Y12 < +, on a
+
X
n=1
+
X
n=1
+
X
E Y12
P (|Y1 | > n)
< +,
2 n2
n=1
96
en utilisant l'ingalit de Markov, ce qui permet de conclure Xn 0 p.s. En fait ce rsultat est
valable si E (|Y1 |) < + seulement en utilisant des majorations plus prcises. On peut d'ailleurs
prouver que dans le cas de variables alatoires indpendantes :
Remarque.
1
1
P (|Xn | > ) = P [0, ] = .
n
n
Ainsi
n=1 P (|Xn | > ) = + alors que (Xn )n1 converge presque srement vers 0 (prendre
e =]0, 1] dans la dnition de la convergence presque sre).
n0
+ entrane que P (A ) = 0. Ainsi P kN A1/k = 0 par sous-additivit. Par passage au
complmentaire, on a
P kN Ac1/k = P kN lim inf Acn,1/k = 1,
n
ce qui se lit
(k N , p tel que n p,
|Xn X| 1/k) ,
p.s.
n0
P (|Xn X| > ) =
n0
n0
n0
Proposition 43
j
qui converge
Preuve. Remarquons tout d'abord que pour > 0 et > 0, la convergence en probabilit
entrane l'existence d'un entier n0 tel que n n0 , P (|Xn X| > /2) /2. Remarquons
galement que si deux rels y, z vrient |y z| > alors si x est un rel, on a ou bien |y x| >
/2 ou bien |z x| > /2. Ainsi si p, q n0 , on a l'inclusion
{|Xp Xq | > } {|Xp X| > /2} {|Xq X| > /2} .
97
On en dduit
p, q n0 ,
P (|Xp Xq | > ) .
Ainsi, il est possible de construire une suite de nombre entiers (nj )j avec n0 = 0 et pour j N ,
nj = inf n > nj1 /p, q n,
1
1
P |Xp Xq | > j < j .
2
2
X
+
+
X
1
1
P Xnj+1 Xnj > j
< +.
2
2j
j=0
j=0
1
Le lemme de Borel-Cantelli assure alors que l'vnement lim sup Xnj+1 Xnj > j est de
2
j
1
probabilit 0 et donc que son complmentaire B = lim inf Xnj+1 Xnj j
est de proj
2
babilit 1. Mais si B , la srie de terme gnral Xnj+1 () Xnj () est convergente donc
la suite (Xnj ())j converge. La suite de variables alatoires (Xnj )j converge p.s et la limite est
forcment X car (Xnj )j converge en probabilit vers X .
8.2.2
La convergence en loi
Dnition 26
On dit qu'une suite de variables alatoires (Xn )n converge en loi vers une variable alatoire X si pour toute fonction continue borne h : Rd R,
lim E (h(Xn )) = E (h(X)) .
n+
Remarques.
1. Ce type de convergence ne concerne que la suite des lois des variables alatoires et pas le
comportement des trajectoires n Xn (). Par exemple toute suite de variables alatoires
de mme loi converge en loi puisque la loi des variables est constatnte.
2. Contrairement la convergence p.s ou en probabilit, la convergence en loi de (Xn )n vers
X n'est pas quivalente la convergence en loi de (Xn X)n vers 0, comme le montre
l'exemple Xn = X = Y o Y N (0, 1).
3. Cette dnition entrane automatiquement que si (Xn )n converge en loi vers X et f : Rd
Rk est une application continue, alors la suite (f (Xn ))n converge en loi vers f (X).
L
Dans la suite on notera Xn X pour exprimer la convergence en loi. On peut alors montrer
que la convergence en loi est la plus faible des trois convergences introduites jusqu'ici.
Proposition 44
Preuve.
Soit une suite (Xn )n telle que Xn X . Soit h : Rd R une fonction continue
borne. Soit > 0. Remarquons que pour x, y Rd :
n+
Remarque :
Proposition 45
Xn X
k Z,
lim P (Xn = k) = P (X = k) .
n+
Preuve.
lim
n+
h(k)P(Xn = k) =
kZ
(8.1)
h(k)P(X = k).
kZ
h(k)P(Xn = k)
kZ
h(k)P(X = k)| An + Bn ,
kZ
avec
An = |
|k|N
et
Bn = khk
h(k)P(Xn = k)
h(k)P(X = k)|.
|k|N
P(Xn = k) + khk
|k|>N
P(X = k).
|k|>N
X
|k|>N
P(Xn = k) = 1
|k|N
99
h(k)P(Xn = k),
on voit que
lim
P(Xn = k) =
|k|>N
P(X = k),
|k|>N
et donc que
lim Bn = 2 khk
n+
|k|>N
On en dduit l'existence d'un entier n0 tel que si n n0 , An + Bn < 3. Comme peut tre
arbitrairement petit, on voit que
lim (An + Bn ) = 0.
Remarque.
Thorme 12
Xn X si et seulement si t Rd ,
lim Xn (t) = X (t).
n+
Remarque.
Xn X
t Rd ,
tT Xn tT X.
Mentionnons un dernier critre de convergence en loi trs utile pour le cas des variables
alatoires valeurs relles. Nous admettrons le rsultat suivant.
Proposition 46
continuit de FX .
Remarque.
l'exemple suivant. Si Xn = n1 , alors Xn 0 p.s. donc Xn 0, alors que FXn (0) = 0, pour tout
n et FX (0) = 1.
100
8.3
8.3.1
Thorme 13
Soit (Xn )nN une suite de variables alatoires relles, indpendantes et identiquement distribues telle que E (|X1 |) < +. Alors
lim
n+
X1 + X2 + . . . + Xn
= E(X1 ),
n
p.s.
Remarques
1. En considrant par exemple le jeu de pile ou face avec des lancers indpendants, on comprend pourquoi la convergence ne peut avoir lieu en tout point = {0, 1}n , puisque
pour toute suite constante partir d'un certain rang, la limite ci dessus vaut 0 ou 1 alors
que la moyenne d'un lancer est 1/2.
2. On peut aussi obtenir ce type de convergence pour certaines suites de variables alatoires
dpendantes (e.g certains processus de type autorgressifs vus dans ce cours).
Preuve.
Sn = (X1 + . . . Xn ) nE(X1 ) =
n
X
(Xi E(X1 )) .
i=1
Les variables Yi = Xi E(X1 ) possdent aussi un moment d'ordre 4 et elles sont indpendantes
et centres. Pour montrer que
+
X
Sn
= 0 p.s. (qui est le rsultat attendu), on va montrer que
n+ n
lim
n4 E Sn4 < +, ce qui conduira au rsultat, d'aprs le critre donn par la proposition
n=1
En prenant l'esprance dans cette dernire galit, on obtient, vu que les variables alatoires Yn
et Zn1 sont indpendantes et centres :
4
2
E Sn4 = E Sn1
+ E Y14 + 6E Y12 E Sn1
.
2
Remarquons que par indpendance des variables Yi , E Sn1
= (n 1)E Y12 . Ainsi en posant
2
a = 6 E(Y12 ) et b = E Y14 a, nous avons :
4
E Sn4 = E Sn1
+ an + b.
2
En itrant cette galit, on obtient E Sn4 = n2 a + n b + a2 . Il est alors immdiat que
+
X
n4 E Sn4 < +,
n=1
Fig.
8.1: Convergence de
1X
Xj pour une suite i.i.d de loi de Bernoulli (p = 21 ).
n
j=1
8.3.2
Thorme 14
Soit (Xn )nN une suite de variables alatoires indpendantes valeurs dans Rd ,
de mme loi et de carr intgrable. Soit = Var(X1 ). Alors
X1 + . . . + Xn
L
n
E (X1 ) Nd (0, ).
n
Remarque.
Ce type de convergence vers une loi Gaussienne peut avoir lieu dans certains cas
pour des variables non identiquement distribues voire dpendantes. Ce thorme exprime qu'une
somme importante de phnomnes indpendants et de faible amplitude suit approximativement
une loi gaussienne, ce qui justie et rend pertinent l'utilisation de cette loi en pratique.
Preuve.
Comme pour la loi des grands nombres, quitte poser Yj = Xj E (Xj ), on peut
supposer les variables centres, ce que nous ferons. Notons qu'il sut de montrer le rsultat pour
1
n
des variables alatoires valeurs dans R. En eet pour le cas vectoriel, en posant Tn = Xi , il
sut de montrer que pour tout u, uT Tn converge en loi vers uT X avec X Nd (0, ) (d'aprs la
remarque juste aprs le thorme 12). Mais ceci rsulte du cas rel appliqu aux variables uT Xi ,
i N .
Considrons donc le cas rel. Nous allons utiliser le thorme 12. Pour cela, en notant pour
une variable alatoire Y , Y sa fonction caractristique, nous avons pour t R x l'galit
suivante :
n
Tn (t) = nj=1 Xj
X1
X1
t
t2
= 1 + i E (X1 )
E X12 + o
2n
n
102
1
.
n
z n n
Tn (t) = 1 +
,
n
t2 E(X12 )
o la suite de nombres complexes (zn )n converge vers
. Pour montrer que lim Tn (t) =
2
n+
12 t2 E(X12 )
(qui est bien la fonction caractristique au point t de la loi N (0, Var(X1 ))), nous admettrons l'ingalit
z n
|z| n
z
|z|
,
e 1 +
e 1+
n
n
(z, n) Cov N.
Cette ingalit qui se prouve en dveloppant l'exponentielle en srie entire vite l'utilisation du
logarithme complexe. Elle permet d'obtenir les majorations :
12
12
zn n
2
2 t E(X12 )
Tn (t) e 2 t E(X1 ) ezn + ezn 1 +
e
n
12
|zn | n
2
e 2 t E(X1 ) ezn + e|zn | 1 +
,
n
ce qui montre la convergence dsire en utilisant la continuit de la fonction exponentielle ainsi
que les galits
|zn |
|zn | n
= exp n ln 1 +
= exp (|zn | + o(1)) .
1+
n
n
L
n
X
!
Xi > 49
0.99,
i=1
o (Xi ) est une suite i.i.d de variables alatoires toutes de loi de Bernoulli de paramtre p. On
pourrait alors chercher la valeur minimale de n pour laquelle une binomiale de paramtres n et
p vrie cette ingalit. An de limiter les calculs, on peut aussi se servir de l'approximation
gaussienne car
!
!
n
X
i=1
Xi > 49
=P
Pn
(Xi p)
49 np
pi=1
>p
np(1 p)
np(1 p)
Pn
(X p)
Comme la fonction de rpartition de Tn = i=1 i
converge uniformment vers celle de la loi
np(1p)
N (0, 1), on peut alors rsoudre le problme de faon approche en cherchant n tel que
49 np
P N (0, 1) p
np(1 p)
!
0.01.
Comme P (N (0, 1) 2.3) 0.01, on peut chercher le plus petit entier n tel que
49 np
p
2.3,
np(1 p)
ce qui donne n 77.
103
104
Bibliographie
105