Elem CP

Prefazione
Questa breve monograa si propone di introdurre in modo piano e sintetico, ma con rigore
logico e grande attenzione ad una denizione precisa delle strutture fondamentali, i primi ele-
menti di Calcolo delle Probabilit` a per il Corso di laurea in Matematica.
Pertanto si procede nella presentazione di concetti, schemi elementari e variabili aleatorie clas-
siche, che formalizzano esperienze comuni e ipotesi ricorrenti nei modelli sici, alternandoli con
quadri concettuali di ampio orizzonte e con nozioni e risultati avanzati, particolarmente in con-
nessione con gli sviluppi, che si studieranno in corsi successivi, della teoria generale della misura
e dellintegrazione e con il confronto di convergenze dierenti in spazi di funzioni misurabili.
Molta parte del testo è riservata alla descrizione delle variabili aleatorie discrete e di quelle
continue, ma si è cercato di collocare con chiarezza tutti i risultati specici nella cornice canon-
ica dello studio di variabili generali denite in arbitrari spazi di probabilit` a, anche per fornire
il linguaggio adeguato ad eventuali studi successivi, ad esempio sui processi stocastici e sulle
equazioni dierenziali stocastiche. Sono quindi presenti vari approfondimenti e complementi pi` u
avanzati che dicilmente possono essere proposti nelle lezioni previste e che non costituiscono
parte del programma desame.
Nel quarto capitolo si introduce un breve collegamento con i primi temi della statistica elementare
attraverso esempi di stime intervallari di medie e varianze con prescritto livello di condenza.
Negli ultimi due capitoli sono presentati e parzialmente dimostrati i teoremi fondamentali del
limite centrale e sulle leggi deboli e forti dei grandi numeri.
Questo testo nasce da una riessione sui principi fondamentali del Calcolo delle Probabilit` a e
da una selezione di temi essenziali da parte di un docente di Analisi matematica, che per vari an-
ni si è trovato a svolgere, non come specialista, attivit` a didattica in un settore disciplinare ane
e aascinante. Il testo è una rielaborazione, completamento ed estensione di appunti preparati
prima per un corso di Calcolo della Probabilit` a (I modulo) del vecchio ordinamento e poi per
un corso di Calcolo delle Probabilit` a I della nuova laurea triennale, entrambi tenuti per alcuni
anni presso il Corso di laurea in Matematica della Facolt` a di Scienze M.F.N. dellUniversit` a di
Torino.
Ringrazio vivamente tutti i Colleghi, docenti, ricercatori e dottorandi, del settore disciplinare di
Calcolo delle Probabilit` a, che, con grande pazienza e disponibilit` a, mi hanno fornito indicazioni
essenziali, assistenza continua, utili chiarimenti e cordiale incoraggiamento.
Torino, dicembre 2004
ANGELO NEGRO
1
Università degli studi di Torino
2
Indice
1 Eventi e probabilità 5
1.1 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 -algebre di insiemi e spazi misurabili . . . . . . . . . . . . . . . . . . . . . 6
1.3 Esempi elementari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Probabilità (misura di probabilit` a) . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Esempi di spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Probabilità e frequenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7 Alcune regole di calcolo delle probabilità . . . . . . . . . . . . . . . . . . . 13
1.8 Probabilità condizionale e indipendenza . . . . . . . . . . . . . . . . . . . 14
1.9 Esempi di applicazione delle regole elementari di calcolo . . . . . . . . . 18
2 Variabili aleatorie reali discrete 25
2.1 Variabili aleatorie reali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Variabili aleatorie reali discrete . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Distribuzione binomiale (Schema di Bernouilli) . . . . . . . . . . . . . . . 27
2.4 I teoremi di DeMoivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Distribuzione multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6 Distribuzione geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.7 Distribuzione binomiale negativa (di parametri p ed r) . . . . . . . . . . 33
2.8 Valor medio (variabili discrete) . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.9 Varianza e deviazione standard (variabili discrete) . . . . . . . . . . . . 36
2.10 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . 38
2.11 Esempi di calcolo di medie, varianze e funzioni generatrici . . . . . . . 38
2.12 Distribuzione ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.13 Limite della distribuzione ipergeometrica per N + . . . . . . . . . 46
2.14 Distribuzione di Poisson qual limite della distribuzione binomiale . . . 46
3 Variabili aleatorie reali di tipo generale e variabili continue 47
3.1 Distribuzione, indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Valor medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4 Funzioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.5 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.6 Disuguaglianza di Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3
3.7 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . 60
3.8 Distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.9 Distribuzione di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.10 Distribuzione normale o di Gauss . . . . . . . . . . . . . . . . . . . . . . . . 64
3.11 Distribuzione di Maxwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.12 Distribuzione esponenziale e processi di Poisson . . . . . . . . . . . . . . 67
4 Densità congiunta e funzioni di pi` u variabili aleatorie reali 72
4.1 Densità congiunta (caso discreto) . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2 Densità congiunta (caso continuo) . . . . . . . . . . . . . . . . . . . . . . . 72
4.3 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 La distribuzione Gaussiana bivariata . . . . . . . . . . . . . . . . . . . . . 79
4.5 Variabili normali indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6 Distribuzioni gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.7 Distribuzioni
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.8 Stima simultanea di media e varianza di una variabile normale . . . . 86
4.9 Distribuzioni t di Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.10 Le variabili F e z di Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5 Funzioni caratteristiche e teorema del limite centrale 95
5.1 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.2 Il teorema di Levy-Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.3 Comportamento asintotico della distribuzione binomiale . . . . . . . . . 98
5.4 Il teorema del limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6 La legge dei grandi numeri 103
6.1 La legge debole dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . 103
6.2 Convergenza quasi certa, convergenza debole e convergenza in legge . 103
6.3 Il teorema di Markov, i suoi corollari e il teorema di Khinchin . . . . . 105
6.4 La legge forte dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . 109
Bibliograa 120
4
Capitolo 1
Eventi e probabilità
1.1 Eventi
Nel Calcolo delle probabilit` a si opera su valutazioni numeriche normalizzate (probabilit` a) di
eventi. Una famiglia di eventi E = {E
, E
, E
, ...} , ai quali verrà assegnata una probabilit` a,

si pu` o pensare come un modello astratto di una famiglia di risultati possibili di un esperimento
S, essendo la realizzazione eettiva di ciascun risultato soggetta a una misura di incertezza, e
quindi dipendente dal caso.
Ad una famiglia di eventi si pu` o far corrispondere una famiglia F = {f
, f
, f
, ...} di
proposizioni che li descrivono e che possono risultare vere o false al termine dellesperimento S,
secondo il caso.
`
E opportuno studiare famiglie sucientemente ampie, precisamente, considerando propo-
sizioni che descrivono eventi, tali che valga almeno limplicazione
f, g F f, f g (e quindif g...) F.
I connettivi proposizionali , , indicano come al solito la negazione, la congiunzione, la
disgiunzione (non esclusiva). Pi` u interessante è il caso in cui connettendo uninnit` a numerabile
di proposizioni si ottengano ancora proposizioni della famiglia, ad esempio:
f
1
, f
2
, f
3
, ... F f
1
f
2
f
3
... F.
Le operazioni f AND g e f XOR g determinano in F una struttura di algebra di Boole (-
algebra, nel caso di ammissibilità di uninnit` a numerabile di operazioni). XOR funge da somma
e AND da prodotto, e f AND f = f.
(f AND g è vera se e solo se f e g sono entrambe vere, mentre f XOR g è vera se e solo se
una sola delle due proposizioni f e g è vera. f AND g ha lo stesso signicato di f g).
Ricordiamo che A è unalgebra di Boole se e solo se è unalgebra e ogni elemento è idem-
potente : a A implica a
2
= a. Ne segue che ogni elemento coincide con il proprio opposto
5
6 Capitolo 1. Eventi e probabilit` a
(a = a) e che A risulta necessariamente commutativa (ab = ba per ogni coppia a, b).
Spesso le proposizioni che si considerano, o i risultati dell esperimento che esse esprimono,
sono formulate in termini di appartenenza di un elemento , che codica gli esiti elementari
dellesperimento S, ad un insieme A, sottoinsieme di un insieme di riferimento o sample space
:
f = A

.
Gli eventi sono allora rappresentati da una famiglia A = {A
, A
, A
, ...} di sottoinsiemi di .
`
E sempre possibile rappresentare fedelmente una -algebra di Boole con una -algebra di sot-
toinsiemi di un opportuno insieme (M.H. Stone, 1936).
La moderna teoria del Calcolo delle probabilit` a, che si pu` o assumere fondata con la memoria di
A.Kolmogorov del 1933, ricorre sistematicamente a tale rappresentazione.
Qualche esempio di di corrispondenza, indicata con , tra proposizioni composte mediante con-
nettivi proposizionali e relativi insiemi costruiti mediante corrispondenti operazioni insiemistiche
è fornita dalle formule seguenti. Se
f A, g B, f
k
A
k
,
allora:
f A
c
(oppure A, oppureA)
f g A B
f XOR g A B = (A B) (B A)
f g A B, f
1
f
2
f
3
... A
1
A
2
A
3
.... =
+
n=1
A
n
1.2 -algebre di insiemi e spazi misurabili
Sia un insieme non vuoto ed A una famiglia non vuota di sottoinsiemi di (A P()).
Si dice che A è una -algebra (di sottoinsiemi di ) e (, A) è uno spazio misurabile se valgono
le propriet` a seguenti:
1) A A A
c
A
2) A
n
A per n = 1, 2, 3, ...
+
n=1
A
n
A .
Ne segue che se A, B, A
n
sono elementi di A, anche
= A A
c
, A B = (A
c
B
c
)
c
, =
c
,
AB, AB,
+
n=1
A
n
sono elementi di A.
In generale, uninnit` a numerabile di operazioni insiemistiche su elementi della -algebra pro-
duce un insieme ancora appartenente alla -algebra.
Se in 2) ci si limita ad unioni nite, e quindi si pretende soltanto che A sia stabile quando si
esegue un numero nito di operazioni insiemistiche, si dice che A è unalgebra.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 7
1.3 Esempi elementari
Si osservi che se è nito ogni algebra è una -algebra.
1) Esperimento S : due tentativi, per ciascuno di essi due possibilit` a s, f (successo, falli-
mento).
= {ss, sf, fs, ff}
A
0
= {, } algebra banale;
A
1
= {, {ss, sf}, {fs, ff}, } :
se AA
1
ed , laermazione A non fornisce informazioni sul risultato del secondo tentativo;
A
2
= {, {ss, fs}, {sf, ff}, } :
se AS ed , laermazione A non fornisce informazioni sul risultato del primo tentativo;
A
3
= {, {ss}, {sf, fs}, {ff}, {ss, ff}, {ss, sf, fs}, {sf, fs, ff}, } :
se AA
3
ed , laermazione A fornisce informazioni sul numero di risultati, non sul fatto
che essi siano stati ottenuti nel primo o nel secondo tentativo;
2) Esperimento S : sucessione innita di tentativi ripetuti
: N
+
{s, f}
[ esempio = (s, f, f, s, s, s, f, ...),
n
vale s oppure f].
Si pu` o prendere provvisoriamente A = P() . Purtroppo, nella maggior parte dei casi impor-
tanti, non sarà possibile assegnare in modo coerente una probabilit` a ad ogni sottoinsieme di .
Converrà allora limitarsi a -algebre pi` u piccole, ma tuttavia sucientemente ampie perchè in
esse siano presenti tutti i sottoinsiemi C (detti cilindrici) della forma
C = { |
k1
= x
1
,
k2
= x
2
, ...
kn
= x
n
} ,
dove n è un intero (nito) arbitrario e arbitrari sono sia gli indici k
1
< k
2
... < k
n
che i valori
x
1
, x
2
, ...x
n
{s, f}.
Linsieme C è quindi formato da tutte le successioni nelle quali è prescritto il risultato (successo
o fallimento) in un numero nito di prove (tentativi) esattamente individuate, mentre il risultato
nelle altre prove della successione pu` o essere qualunque.
3) Esperimento S : selezionare (colpire con un proiettile puntuale) un punto di un disco D
(bersaglio) di centro O e raggio R. Si pu` o prendere
= D ed A = L(),
insieme di tutti i sottoinsiemi A di D dotati di area (nel senso di Lebesgue). Se x è il punto
colpito, interessano le proposizioni del tipo x A.
(Anche in questo caso si vorrebbe A = P(), ma allora non sarebbe possibile assegnare in modo
utile e coerente una probabilit` a ad ogni evento).
Università di Torino, a.a. 2003-2004
1.4 Probabilità (misura di probabilit` a)
Una misura di probabilità P è una valutazione degli eventi con un indice numerico,
convenzionalmente compreso tra 0 e 1, dunque unapplicazione
P : A [0, 1] ,
normalizzata e numerabilmente additiva, cioè tale che
P() = 1
e per ogni successione A
k
di eventi disgiunti (A
i
A
j
= )
P(
_
k=1
A
k
) =
k=1
P(A
k
) .
[Conviene richiedere ladditivit` a numerabile, invece delladditivit` a semplice (cioè concernente
soltanto unioni nite).]
La probabilit` a di un evento A, P(A), è un indice quantitativo del grado di certezza dellevento
(casuale).
Una stessa -algebra pu` o essere utilizzata per descrivere esperimenti S dierenti ed in essa si
possono introdurre diverse misure di probabilit` a.
Un esperimento S, con risultati dipendenti dal caso, è descritto da uno spazio di proba-
bilità o spazio di misura con misura normalizzata ad 1, (, A, P), dove A è una -algebra in
e P una misura di probabilit` a denita su A.
Lesperimento ideale S è un modello (probabilistico) di un esperimento reale (o di pi` u esperi-
menti reali).
Nella scelta del modello astratto, ed in particolare nella scelta della misura di probabilit` a, si
pongono i seguenti problemi:
a) come assegnare le probabilit` a, ovvero costruire la misura P, sulla base di (poche) ipotesi
elementari, in modo razionale (coerente) ?
b) quale utilit` a, ecacia, nellanalizzare lesperimento e stimarne i risultati, ha il modello prob-
abilistico?
Tali problemi sono strettamente connessi con
c) linterpretazione pratica del concetto di probabilit` a,
che a sua volta pu` o suggerire
d) metodi di stime delle probabilit` a ideali.
1.5 Esempi di spazi di probabilità
Negli esempi che seguono, tranne lesempio 3), lo spazio di probabilit` a è nito e a tutti
gli eventi elementari {}, costituiti da un singolo elemento, si assegna la stessa probabilit` a. Ne
segue che la probabilit` a di un evento A è uguale al rapporto tra il numero di elementi di A (casi
favorevoli ) e il numero complessivo di elementi di (casi possibili ). Si parla allora di prob-
abilit` a classica e valutazione delle probabilit` a si riduce a questioni di cardinalit` a, che talvolta
non sono semplici e richiedono risultati di calcolo combinatorio.
1) Roulette (onesta): lo 0 è verde, degli altri numeri 18 sono neri e 18 rossi; assumiamo che
la pallina possa fermarsi con la stessa probabilit` a su ogni numero.
= {0, 1, 2, 3, ..., 36}, A = P(), P({n}) = p
n
= p,
dunque per ladditivit` a:
P() =
36
n=0
p
n
= 37p = 1 , p =
1
37
,
P(A) =
nA
p
n
= p card(A)
Cos` levento R = {n/ n ` e rosso
} ha probabilit` a 18/37.
2) Due dadi (non truccati):
= {(1, 1), (1, 2), ..., (2, 1), (2, 2), ..., (6, 5), (6, 6)} , A = P(),
P({(m, n)}) = p
m,n
= p =
1
36
.
Cos` levento A = {(m, n)/ m + n = 4} = {(1, 3), (2, 2), (3, 1)} ha probabilit` a p card(A) =
3/36 = 1/12.
3) Bersaglio circolare:
= {X = (x, y)R
2
/ x
2
+y
2
R
2
}, A = L(),
dunque, supponendo tutti i punti del disco equivalenti ed essendoci in inniti punti:
P({X}) = 0 e P(A) = Cost area(A), P() = Cost R
2
,
dunque Cost = 1/(R
2
) e per
A = {X = (x, y)R
2
/ x
2
+y
2
r
2
} : P(A) =
r
2
R
2
= (
r
R
)
2
.
4) Frequenza di caratteri in una popolazione:
(popolazione) è costituito da un insieme nito di individui; C
1
, C
2
, ..., C
l
sono strati della
popolazione (sottoinsiemi disgiunti, la cui unione è , degli individui che possiedono i caratteri
1, 2, ..., l ).
Supponendo di estrarre a caso un individuo della popolazione (tutti gli individui hanno la
stessa probabilit` a di essere estratti), la probabilit` a che si presenti il carattere k è:
P(C
k
) =
card(C
k
)
card()
.
5) Congurazioni in meccanica statistica:
A) Statistica di Maxwell-Bolzmann: n sistemi distinguibili, ciascuno dei quali pu` o trovarsi in
uno qualunque di l stati, indipendentemente dallo stato degli altri sistemi (oppure: n particelle
distinguibili che possono assumere l livelli di energia senza esclusione). Le congurazioni sono
applicazioni che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo lo
stato numero s
j
) corrispondente:
= (s
1
, s
2
, ..., s
n
), dove 1 s
j
l ,
dunque
card() = l
n
.
Siano K
1
(), K
2
(), ..., K
l
() i numeri di occupazione dei vari stati: K
1
() + K
2
() + ... +
K
l
() = n. Consideriamo, selezionando a caso una congurazione qualunque, levento
A = {|K
1
() = k
1
, K
2
() = k
2
, ..., K
l
() = k
l
},
dove k
1
+k
2
+... +k
l
= n. Allora
P(A) =
n!
k
1
!k
2
!...k
l
!
/l
n
,
infatti si pensi a n posti (lordine con il quale li esaminiamo è indierente), k
1
dei quali devono
essere etichettati con il carattere l
1
(primo stato o livello), k
2
dei quali con l
2
... k
l
con l
l
. Dob-
biamo selezionare k
1
posti tra gli n disponibili, quindi k
2
posti tra gli n k
1
rimasti disponibili
..., e dunque abbiamo
(
n
k
1
) (
n k
1
k
2
)...(
n k
1
... k
l2
k
l1
) =
n!
k
1
!k
2
!...k
l
!
.
Si osservi che
|k|=n
n!
k
1
!k
2
!...k
l
!
1
k1
1
k2
...1
k
l
= (1 + 1 +... + 1)
n
= l
n
.
B) Statistica classica con esclusione: n sistemi distinguibilied l stati, con l n, in ciascuno dei
quali pu` o trovarsi al pi` u un sistema (oppure: n particelle distinguibili che possono assumere l liv-
elli di energia con esclusione). Le congurazioni sono applicazioni iniettive che ad ogni sistema
(diciamo il sistema numero j) associano lo stato (diciamo lo stato numero s
j
) corrispondente:
= (s
1
, s
2
, ..., s
n
), dove 1 s
j
l , s
i
= s
j
se i = j .
dunque
card() = l(l 1)(l 2)...(l n + 1) =
l!
(l n)!
.
Siano K
1
(), K
2
(), ..., K
l
() i numeri di occupazione dei vari stati: K
1
() + K
2
() + ... +
K
l
() = n e ogni K() = 0 oppure 1. Consideriamo, selezionando a caso una congurazione
qualunque, levento
A = {|K
1
() = k
1
, K
2
() = k
2
, ..., K
l
() = k
l
},
dove le k
j
sono assegnate e tali che: k
1
+k
2
+... +k
l
= n e k
j
= 0 oppure 1. Dunque le k
j
= 1
sono esattamente n e individuano una selezione di n stati tra gli l possibili, allora le A
descrivono la disposizione degli n sistemi negli n stati selezionati. Pertanto
card(A) = n! e quindi P(A) =
n!(l n)!
l!
,
ovvero
P(A) =
1
(
l
n
)
.
C) Statistica di Fermi-Dirac: n sistemi indistinguibili ed l stati, con l n, in ciascuno dei
quali pu` o trovarsi al pi` u un sistema (oppure: n particelle indistinguibili che possono assumere
l livelli di energia con esclusione). Le congurazioni sono classi di equivalenza di applicazioni
iniettive che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo lo
stato numero s
j
) corrispondente. Sono equivalenti applicazioni con la stessa immagine (i sistemi
sono indistinguibili) e sono quindi univocamente descritti dallelenco degli stati occupati, che
pu` o essere fatto assegnando un codice k
j
, 1 oppure 0 rispettivamente se lostato j è occupato o
non occupato:
= [(s
1
, s
2
, ..., s
n
), dove 1 s
j
l , s
i
= s
j
se i = j] =
= (k
1
, k
2
, ..., k
l
) dove k
j
= 0 oppure 1 , k
1
+k
2
+... +k
l
= n .
dunque
card() =
l!
n!(l n)!
,
numero di sottoinsiemi di n elementi scelti tra l possibili, ovvero (
l
n
).
Se levento A è denito come nel caso precedente, risulta card(A) = 1 e quindi
P(A) =
1
(
l
n
)
.
D) Statistica di Bose-Eistein: n sistemi indistinguibili, ciascuno dei quali pu` o trovarsi in uno
qualunque di l stati (oppure: n particelle indistinguibili che possono assumere l livelli di energia
senza esclusione). Le congurazioni sono classi di equivalenza di applicazioni, non necessaria-
mente iniettive, che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo
lo stato numero s
j
) corrispondente. Sono equivalenti applicazioni con lo stesso numero k
i
di
sistemi nel medesimo stato i (i sistemi sono indistinguibili):
= [(s
1
, s
2
, ..., s
n
), dove 1 s
j
l] =
= (k
1
, k
2
, ..., k
l
) dove k
i
0, k
1
+k
2
+... + k
l
= n .
Le si possono mettere in corrispondenza biunivoca con le scritture del tipo
pptptpppttptp ,
che in qusto caso (n = 8 e l = 6) indica 2 particelle nel primo livello, 1 nel secondo, 3 nel terzo,
0 nel quarto, 1 nel quinto e 1 nel sesto. Sono scritture che debbono essere formate da l +n 1
lettere, delle quali l 1 sono la lettera t (tagli tra livelli) e n sono la lettera p. Queste scritture
sono tante quanti i sottoinsiemi di l + n 1 elementi (posti) formati da n elementi (lettere p).
Dunque
card() =
(l +n 1)!
n!(l 1)!
,
ovvero (
l +n 1
n
).
Se levento A è denito come ne caso precedente, risulta card(A) = 1 e quindi
P(A) =
1
(
l +n 1
n
)
.
1.6 Probabilità e frequenza
Supponiamo di ripetere un esperimento S n volte: S
1
, S
2
, S
3
, ... , evitando che risultati
precedenti inuenzino esperimenti successivi. Si consideri un evento A di probabilit` a P(A) = p;
sia F
n
(frequenza) il numero di volte che A si verica nel corso delle n prove indipendenti ed
f
n
= F
n
/n la frequenza relativa .
Possiamo denire un esperimento unico
(n)
= S
1
S
2
... S
n
, che consiste nel ripetere
indipendentemente n volte S, e possiamo coerentemente costruire una misura di probabilit` a
P
(n)
associata a tale esperimento., come si comprenderà meglio in seguito, dopo aver precisato
il concetto di indipendenza.
Si pu` o dimostrare che per ogni > o
P
(n)
(|f
n
p| )
p(1 p)
n
2
,
che risulta minore di qualunque > 0 assegnato, purchè n sia sucientemente grande, cioè
maggiore di un opportuno N dipendente da .
Dunque la frequenza relativa converge in probabilit` a alla probabilit` a ideale p (caso particolare
della legge debole dei grandi numeri ).
In un certo senso un grado di ducia p per un evento A implica al crescere di n un sempre
maggior grado di ducia che lo scarto tra la frequenza relativa e la probabilit` a ideale non superi
un livello pressato (comunque piccolo).
1.7 Alcune regole di calcolo delle probabilità
1) P() = 0 ,
infatti P(A) = P(A ) = P(A) +P().
2) P(A
c
) = 1 P(A) ,
perchè A A
c
= , A A
c
= e P() = 1.
3) Se B A , B, AA , allora P(B) P(A) (monotonia ).
infatti A = B (A B) e dunque, essendo B e A B disgiunti, risulta P(A) = P(B) +
P(A B) P(B). Si ha inoltre P(B A) = P(B) P(A).
4) P(A B) = P(A) +P(B) P(A B),
infatti A B = A (B A), B = (B A) (A B), essendo le unioni disgiunte, e dunque
P(A B) = P(A) +P(B A), mentre P(B A) +P(A B) = P(B).
Si osservi che P(B) = P(B A) + P(B A
c
) e quindi per esempio P(B A
c
) = P(B)
P(B A).
5) Se per n = 1, 2, ... A
n
A
n+1
, allora (continuit` a )
P(
_
n
A
n
) = lim
n+
P(A
n
) ,
infatti, posto A
0
= , A =
n
A
n
=
n
(A
n
A
n1
), e poichè lultima unione è disgiunta, in
virt` u delle -additivit` a:
P(A) =
+
k=1
P(A
k
A
k1
) = lim
n+
n
k=1
P(A
k
A
k1
) = lim
n+
P(A
n
).
6) Similmente se per n = 1, 2, ... A
n
A
n+1
, allora
P(
n
A
n
) = lim
n+
P(A
n
) ,
infatti A
c
n
A
c
n+1
,
n
A
c
n
= (
n
A
n
)
c
, dunque
P(
n
A
n
) = 1 P(
_
n
A
c
n
) = 1 lim
n
P(A
c
n
) = lim
n
(1 P(A
c
n
)) = lim
n
P(A
n
).
1.8 Probabilità condizionale e indipendenza
Introduciamo due concetti che avranno un ruolo essenziale negli sviluppi successivi.
Denizione. Siano A, BA e P(B) = 0: si dice probabilit` a condizionale di A dato B il
rapporto
P(A|B) =
P(A B)
P(B)
.
Ne segue che P(A B) = P(A|B)P(B) .
Luguaglianza precedente sarebbe ancora vera con P(B) = 0, se fosse denito (comunque)
P(A|B).
`
E facile dimostrare il seguente
Teorema. (, A, P(|B)) è uno spazio di probabilit` a. Inoltre, posto A
B
= {A B | AA}
e P
B
(E) = P(E|B) per E A
B
, (B, A
B
, P
B
) è uno spazio di probabilit` a .
Infatti A
B
è una -algebra e, se A = A
1
A
2
... con A
1
, A
2
, ... disgiunti, si avr` a A B =
(A
1
B) (A
2
B) ... con (A
1
B), (A
2
B), ... disgiunti, e quindi
P(A B)
P(B)
=
k
P(A
k
B)
P(B)
,
vale a dire
P(A|B) =
k
P(A
k
|B).
Ovviamente P(|B) = P(B|B) = 1.
Osservazione. Nel teorema precedente B è sso. Se al contrario si facesse variare B , tenedo
sso A, non si avrebbe una misura. Infatti lapplicazione B P(A|B) in generale non è additiva.
Sia ad esempio
B = B
1
B
2
, B
1
B
2
= , P(B
1
) > 0 , P(B
2
) > 0 .
Allora
P(A|B) =
P(A B)
P(B)
=
P(A B
1
) +P(A B
2
)
P(B)
=
P(A|B
1
)
P(B
1
)
P(B)
+P(A|B
2
)
P(B
2
)
P(B)
< P(A|B
1
) +P(A|B
2
) .
Regola dela probabilità totale.Sia B
1
, B
2
, ..., B
n
una partizione di , allora
P(A) =
n
k=1
P(A|B
k
)P(B
k
).
Infatti A = (A B
1
) (A B
2
) ...(A B
n
) è una unione disgiunta e quindi
P(A) =
k
P(A B
k
).
La regola vale anche per partizioni B
k
numerabili.
Proposizione.
P(A
1
A
2
A
3
) = P(A
1
)P(A
2
|A
1
)P(A
3
|A
1
A
2
) .
Infatti
P(A
1
)P(A
2
|A
1
)P(A
3
|A
1
A
2
) = P(A
1
)
P(A
1
A
2
)
P(A
1
)
P(A
1
A
2
A
3
)
P(A
1
A
2
)
.
La proposizione si generalizza facilmente al caso di n eventi A
1
, ...A
n
.
Teorema di Bayes. Sia C
1
, C
2
, ..., C
n
una partizione di e P(D) = 0, allora
P(C
k
|D) =
P(D|C
k
)P(C
k
)
P(D)
=
P(D|C
k
)P(C
k
)
j
P(D|C
j
)P(C
j
)
, k = 1, 2, ..., n .
Infatti il secondo denominatore è P(D) = 0, per la regola delle probabilit` a totali, e
P(C
k
|D)P(D) = P(C
k
D) = P(D|C
k
)P(C
k
) .
Lo stesso risultato vale per partizioni numerabili.
Indipendenza di due eventi. Due eventi A e B si dicono indipendenti se
P(A B) = P(A)P(B) .
Dunque se ad esempio P(B) = 0 risulta
P(A|B) = P(A) .
(Linformazione che levento B si è vericato non cambia la probabilit` a che si verichi levento
A.)
Osservazione 1. Se A e B sono indipendenti, anche A
c
e B , oppure A e B
c
, sono indipendenti.
Pertanto A
c
e B
c
sono indipendenti.
Infatti
P(A
c
B) = P(B) P(A B) = P(B) P(B)P(A) = (1 P(A))P(B) = P(A
c
)P(B) .
Osservazione 2. Se A è indipendente sia da B che da C, allora
i) se B C A è indipendente da B C;
ii) se B e C sono disgiunti (B C = ) allora A è indipendente da B C. Infatti
P(A (B C)) = P(A B) P(A C) = P(A)P(B) P(A)P(C) = P(A)(P(B) P(C)) ;
P(A (B C)) = P(A B) +P(A C) = P(A)P(B) +P(A)P(C) = P(A)(P(B C)) .
Eventi mutuamente indipendenti. Gli eventi A
1
, A
2
, ..., A
n
si dicono mutuamente
(congiuntamente) indipendenti (o semplicemente indipendenti, se il contesto non lascia
dubbi) se e solo se per ogni 1 k n e per ogni scelta di indici 1 j
1
< j
2
... < j
k
n
si ha
P(A
j1
A
j2
... A
j
k
) = P(A
j1
)P(A
j2
)...P(A
j
k
) .
Ovviamente eventi indipendenti sono a due a due indipendenti. In generale non vale lim-
plicazione inversa. Per rendersene conto si consideri il seguente semplice esempio:
Unurna contiene quattro biglietti, sui quali compaiono rispettivamente i codici 1,2,3 e 123.
Si estrae a caso un biglietto (tutti i biglietti hanno la stessa probabilit` a di essere estratti). Sia
A
j
levento è comparsa la cifra j. Allora P(A
j
) = 1/2 , P(A
j
A
k
) = 1/4 per j = k e gli eventi
A
1
, A
2
, A
3
sono dunque a due a due indipendenti. Ma essi non sono mutuamente indipendenti
perchè P(A
1
A
2
A
3
) = 1/4 e non 1/8 .
Pi` u in generale gli eventi di un insieme innito I si dicono mutuamente indipendenti se e
solo se ogni sottoinsieme nito di I è costituito da eventi mutuamente indipendenti.
Osservazione 1. Se A
1
, A
2
, ...A
n
sono mutuamente indipendenti, anche A
c
1
, A
2
, ...A
n
sono
mutuamente indipendenti.
Infatti
P(A
j1
A
j2
... A
j
k
) = P(A
j1
)P(A
j2
)...P(A
j
k
)
se nessuna delle j
s
= 1. Altrimenti sia ad esempio j
1
= 1 e poniamo B = A
j2
... A
j
k
. Essendo
A
1
e B indipendenti, tali sono anche A
c
1
e B , dunque
P(A
c
1
A
j2
... A
j
k
) = P(A
c
1
B) = P(A
c
1
)P(B) = P(A
c
1
)P(A
j2
)...P(A
j
k
) .
Pi` u in generale se nella sequenza A
1
, A
2
, ...A
n
si sostituisce un numero arbitrario di eventi con
i loro complementari si ottiene ancora una sequenza di eventi mutuamente indipendenti.
Osservazione 2. Se A
1
, A
2
, ...A
n
sono mutuamente indipendenti, uno qualunque di essi è
indipendente da ogni evento che si pu` o ottenere mediante usuali operazioni insiemistiche sugli
altri.
Limitiamoci ad un esempio: siano A, B, C, mutuamente indipendenti, allora A è indipendente
da B C e da B C. Infatti, esplicitando in questo caso particolare il calcolo sottointeso
nellosservazione precedente, quando si aermava che A
1
e B erano indipendenti,
P(A (B C)) = P(A B C) = P(A)P(B)P(C) = P(A)P(B C)
e, essendo A, B
c
, C
c
indipendenti, A è indipendente da B
c
C
c
. Ma allora A è indipendente da
(B
c
C
c
)
c
, cioè da B C.
Se le A
j
sono a due a due indipendenti, ma non mutuamente indipendenti, il risultato ingenerale
non vale: nellesempio sopra riportato dellurna con quattro biglietti (1, 2, 3 , 123) si ha
P(A
1
(A
2
A
3
)) =
1
4
= P(A
1
)P(A
2
A
3
)) =
1
2

3
4
.
Dunque la famiglia I degli eventi indipendenti da A non è in generale una -algebra, mentre si
vede che, se A, B
1
, B
2
, ... sono mutuamente indipendenti, allora tutti gli eventi della pi` u piccola
-algebra alla quale appartengono B
1
, B
2
, ... (o come si dice la -algebra generata da B
1
, B
2
, ...)
sono indipendenti da A.
Indipendenza condizionata. A e B si dicono indipendenti dato C, o condizionatamente
indipendenti (con C evento condizionante), se e solo se
P(A B | C) = P(A | C)P(B | C) .
Pi` u in generale, gli eventi A
1
, A
2
, ..., A
n
sono condizionatamente indipendenti dato C se e solo
se la probabilit` a condizionata dellintersezione di un numero arbitrario di essi è il prodotto delle
probabilit` a condizionate degli eventi dei quali si fa lintersezione.
Essendo P e P
C
, P
C
(AC) = P(A| C), misure di probabilit` a su e su C, per lindipendenza
condizionata valgono le stesse osservazioni presentate sopra per lindipendenza (non condizion-
ata).
Ad esempio, se A e B sono condizionatamente indipendenti dato C, allora A
c
e B sono con-
dizionatamente indipendenti dato C. Basta osservare che A C e B C sono indipendenti in
C e A
c
C è il complementare in C di A C e dunque indipendente in C da B C:
P(A
c
B | C) = P
C
((A
c
C) (B C)) = P
C
(A
c
C)P
C
(B C) = P(A
c
| C)P(B | C) .
Osservazione. Eventi indipendenti possono non essere condizionatamente indipendenti ed
eventi non indipendenti possono essere condizionatamente indipendenti.
Si considerino i seguenti semplici esempi, nei quali avremo sempre
= {
i,j
}
i,j=1...6
, P(
i,j
) =
1
36
per ogni i e j
(lancio di due dadi indipendenti non truccati).
1) Siano
A = {
i,j
| i = 1 (i > 3 j = 6 } , B = {
i,j
| (j = 1 i 3) i = 6 } ,
C = {
i,j
| i 3 } , C = {
i,j
| i > 3 } .
`
E facile vericare che
P(A B) = P(A)P(B) , ma
P(A B|C) = P(A|C)P(B|C) e P(A B|C) = P(A|C)P(B|C) ,
cioè A e B non sono indipendenti, ma lo sono condizionatamente dato C e anche dato C.
2) Se invece si pone
A = {
i,j
| i = 1 } , B = {
i,j
| j = 1 } ,
C = {
i,j
| max(i, j) 2 } ,
si vede che A e B sono indipendenti, sono condizionatamente indipendenti dato C, ma non sono
condizionatamente indipendenti dato C.
3) Se prendiamo
C = {
i,j
| (i 2 (j 2 j 5)) (i 5 j 2) } ,
allora, restando ovviamente A e B indipendenti, essi non sono condizionatamente indipendenti
ne dato C ne dato C.
4) Se
A = {
i,j
| i = 1 } , B = {
i,j
| j 3 j = 6} , C = {
i,j
| j 4 } ,
allora
P(A|C) = P(A|C) = P(A) =
1
6
, P(B) =
2
3
, P(B|C) =
3
4
, P(B|C) =
1
2
e quindi A e B sono indipendenti e condizionatamente indipendenti sia dato C sia dato C.
In generale, se A e B sono indipendenti e condizionatamente indipendenti, sia dato C, sia
dato C, purche 0 < P(C) < 1, allora uno almeno dei due eventi A e B deve essere indipendente
da C. Infatti, posto
P(A|C) = p
1
, P(A|C) = p
2
, P(B|C) = q
1
, P(B|C) = q
2
, P(C) = , = 1 ,
si trova
f = P(A)P(B) = (p
1
+p
2
)(q
1
+q
2
) ,
g = P(A B) = P(A|C)P(B|C)P(C) +P(A|C)P(B|C)P(C) = p
1
q
1
+p
2
q
2
g f = (p
1
p
2
)(q
1
q
2
) .
Dunque, se 0 < < 1 , g = f se e solo se p
1
= p
2
oppure q
1
= q
2
. Nel primo caso P(A) = p
1
=
P(A|C), cioè A e C sono indipendenti, e nel secondo P(B) = q
1
= P(B|C), cioè B e C sono
indipendenti.
1.9 Esempi di applicazione delle regole elementari di calcolo
Presentiamo alcuni problemi che si propongono di illustrare il ruolo delle regole elementari
di calcolo.
1) Due urne contengono rispettivamente n
1
ed n
2
palline, delle quali k
1
e k
2
bianche, essendo
le rimanenti nere. Si considerano le seguenti due procedure:
i) Si sceglie a caso una delle due urne; da essa si estrae una pallina e si registra se essa è bianca.
Si rimette la pallina nellurna. Si ripetono una seconda volta tutte le operazioni precedenti.
ii) Si sceglie a caso una delle due urne; da essa si estrae una pallina e si registra se essa è bianca.
Si rimette la pallina nellurna. Dalla stessa urna si estrae una seconda volta una pallina e si
registra se essa è bianca.
In ogni caso si vince se sono state registrate due estrazioni di pallina bianca. Quale delle due
procedure è pi` u conveniente?
Denotiamo con 1 e 2 gli eventi selezione dellurna numero 1 oppure 2 , che sono scelte a
caso ovvero ciascuna con probabilit` a 0.5. Siano p
1
= k
1
/n
1
e p
2
= k
2
/n
2
le probabilit` a di
estrazione di una pallina bianca dalle due urne. Indichiamo con B levento registrazione di una
pallina bianca in una estrazione e BB levento registrazione di una pallina bianca in entrambe
le estrazioni:
i) con la prima procedura abbiamo
P(BB) = (P(B|1)P(1) +P(B|2)P(2))
2
= (0.5(p
1
+p
2
))
2
= 0.25(p
1
+p
2
)
2
,
ii) con la seconda procedura abbiamo
P(BB) = P(B|1)
2
P(1) +P(B|2)
2
P(2) = 0.5(p
2
1
+p
2
2
).
Poichè
p
2
1
+p
2
2
2p
1
p
2
2(p
2
1
+p
2
2
) (p
1
+p
2
)
2
,
la seconda procedura è pi` u conveniente.
Se indichiamo con N levento estrazione di una pallina nera, otteniamo che anche P(NN)
è maggiore con la seconda procedura che con la prima.
`
E facile vericare che la probabilit` a di
ottenere esattamente una pallina nera ed una bianca (lordine non ha importanza) è ovviamente
maggiore con la prima procedura che con la seconda.
2) Un sistema S è costituito dai componenti S
1
, S
2
, ..., S
n
. Consideriamo gli eventi, che
assumeremo indipendenti:
C
k
= {S
k
è difettoso }, k = 1, 2, ..., n
e siano dunque indipendenti gli eventi
C
k
= {S
k
non ha difetti }, k = 1, 2, ..., n.
Sia p
k
= P(C
k
) e 1 p
k
= P(C
k
).
Due tecnici T
1
e T
2
eseguono controlli indipendenti su ciascun componente S
k
. Inoltre, supponi-
amo che gli esiti dei due controlli su S
k
siano condizionatamente indipendenti, sia dato C
k
, sia
dato C
k
. Consideriamo gli eventi
D
k,j
= {T
j
segnala un difetto in S
k
} , j = 1, 2 ,
e supponiamo che
P(D
k,j
|C
k
) = q
j
> 0 , P(D
k,j
|C
k
) = 0
e quindi
P(D
k,j
|C
k
) = 1 , P(D
k,j
|C
k
) = 1 q
j
e P(D
k,j
) = q
j
p
k
+ 0(1 p
k
) = q
j
p
k
.
(Si osservi che D
k,1
e D
k,2
non sono indipendenti, se 0 < p
k
< 1).
Se almeno uni dei due tecnici scopre un difetto in almeno uno dei componenti il sistema S viene
revisionato e messo in funzione con ritardo (evento E).
Trovare la probabilit` a dellevento
D = {S è difettoso, ma è messo in funzione senza ritardo } .
Si potrebbero considerare tutti i casi di non adabilit` a di S: S pu` o essere difettoso perchè
un qualunque sottoinsieme non vuoto (ce ne sono 2
n
1) dei suoi componenti è costituito da
componenti tutti difettosi, mentre gli altri componenti sono tutti adabili. In ciasuna di queste
2
n
1 circostanze disgiunte si dovrebbe valutare la probabilit` a condizionale di non rilevare un
difetto.
`
E pi` u semplice seguire un altro procedimento. Consideriamo levento:
F = {S è messo in funzione senza ritardo, abbia o no difetti } ,
allora
E = F, F =
k
(D
k,1
D
k,2
) ,
P(F) = 1 P(E) =
k
P(D
k,1
D
k,2
) .
P(D
k,1
D
k,2
) = P(D
k,1
D
k,2
|C
k
)P(C
k
) +P(D
k,1
D
k,2
|C
k
)P(C
k
) =
= P(D
k,1
|C
k
)P(D
k,2
|C
k
)P(C
k
) +P(D
k,1
|C
k
)P(D
k,2
|C
k
)P(C
k
) =
= (1 q
1
)(1 q
2
)p
k
+ 1 1 (1 p
k
).
Se N è levento {S non è difettoso }, allora
P(N) =
k
(1 p
k
) , F = N D (unione disgiunta) e
P(D) = P(F) P(N) ,
formula che risponde alla domanda proposta.
3) Come nel caso precedente, sia S un sistema costituito dai componenti S
1
, S
2
, ..., S
n
.
Consideriamo gli eventi, che assumeremo indipendenti:
C
k
= {S
k
è difettoso }, k = 1, 2, ..., n
e
C
k
= {S
k
non ha difetti } ,
Sia p
k
= P(C
k
) e 1 p
k
= P(C
k
). (Per esempio potrebbe essere p
k
= 0.01).
Il sistema è controllato da n dispositivi automatici T
k
, k = 1, 2..., n che operano indipendente-
mente. T
k
controlla soltanto S
k
e blocca tale componente se rileva un difetto. Sia
R
k
= {T
k
rivela un difetto in S
k
}
e siano note le probabilit` a condizionali di R
k
rispetto agli eventi C
k
e C
k
:
P(R
k
|C
k
) = q
k
, P(R
k
|C
k
) = e
k
,
( ad esempio q
k
= 0.99 e e
k
= 0.005 ) che qualicano la validit` a del dispositivo di controllo. q
k
grande indica elevata probabilit` a di rilevare un difetto esistente, e
k
piccola indica lieve proba-
bilit` a di segnalare per errore un difetto inesistente.
Perchè si verichi levento A = { il sistema si arresta } è suciente che si verichi almeno uno
degli eventi R
k
.
i) Si chiede di calcolare la probabilit` a di arresto.
Si osservi che
A =
k
R
k
, A =
k
R
k
,
quindi
P(A) = 1 P(A) = 1
k
P(R
k
) ,
P(R
k
) = P(R
k
|C
k
)P(C
k
) +P(R
k
|C
k
)P(C
k
) = (1 q
k
)p
k
+ (1 e
k
)(1 p
k
).
ii) Si chiede inoltre di calcolare la probabilit` a che il componente S
k
sia difettoso, sapendo
che il sistema si è arrestato.
Per calcolare P(C
k
|A) si pu` o ricorrere al Teorema di Bayes, calcolando quindi in primo luogo
P(A|C
j
). Poiche
A = R
j
(R
j

i=j
R
i
) .
unione disgiunta, e
P((R
j

i=j
R
i
) C
j
) = P(R
j
C
j
)P(
i=j
R
i
)
per lindipendenza dei difetti e dei controlli relativi a componenti diversi. Allora
P(A|C
j
) = P(R
j
|C
j
) +P(R
j
|C
j
)P(
i=j
R
i
) = P(R
j
|C
j
) +P(R
j
|C
j
)(1 P(
i=j
R
i
)) .
Dunque
P(A|C
j
) = q
j
+ (1 q
j
)(1
i=j
P(R
i
)) =
= q
j
+ (1 q
j
)(1
i=j
[(1 q
i
)p
i
+ (1 e
i
)(1 p
i
)]) .
Naturalmente
P(C
k
|A) =
P(A|C
k
)p
k
n
j=1
P(A|C
j
)p
j
.
4) Si considera un carattere C che pu` o presentarsi in due varianti A e B (ad esempio occhi
azzurri o bruni). C è determinato dalla copia di geni g
1
, g
2
ereditati dal padre P e rispetti-
vamente dalla madre M, che possono presentarsi nella forma a oppure b. Se g
1
= a e anche
g
2
= a si presenta la variante A, in tutti gli altri casi si presenta la variante B (A recessiva, B
dominante).
Per quanto concerne la popolazione dei genitori le quattro congurazioni possibili hanno prob-
abilit` a assegnate:
P(4
def
= aa) = p
4
, P(3
def
= ab) = p
3
, P(2
def
= ba) = p
2
, P(1
def
= bb) = p
1
.
(Ad esempio potrebbe essere p
j
= 0.25 per j = 1, 2, 3, 4).
Supponiamo che P o M si trovino, indipendentemente, in una delle congurazioni possibili e
supponiamo inoltre che la probabilit` a di eriditare il pimo o il secondo gene, sia da P che da M,
siano eguali e quindi pari a 0.5.
Supponendo di sapere che nel glio il carattere C ha assunto la versione A, calcolare la proba-
bilit` a (condizionale) che entrambi i genitori si trovino nella congurazione 4.
Consideriamo le 16 coppie ij di congurazioni possibili i per P e j per M (i, j = 1, 2, 3, 4).
Pensando di usare il Teorema di Bayes si devono calcolare le probabilit` a condizionali P(AF|ij),
dove AF è levento il glio F presenta la versione A del carattere C, conoscendo gi` a le P(ij) =
p
i
p
j
(1/16 per esempio).
P(AF|1k) = P(AF|k1) = 0 , k = 1, 2, 3, 4 , P(AF|44) = 1 ,
P(AF|j4) = P(AF|4j) =
1
2
se j = 2, 3 ,
P(AF|ij) =
1
4
se i, j = 2, 3 .
Dunque
P(44|AF) =
P(AF|44)p
2
4
i,j
P(AF|ij)p
i
p
j
.
Nellesempio
P(44|AF) =
1
1
16
(7 0 + 1 1 + 4
1
2
+ 4
1
4
)
1
16
=
1
4
è il risultato cercato.
5) Trasmissione di lettere: siano disponibili n (ad esempio 21) caratteri c
1
, c
2
, ..., c
n
e si
considerino trasmissioni di parole casuali T formate da l lettere casuali (ad esempio 5) T
1
T
2
...T
l
,
ciascuna delle quali possa essere uno qualunque degli n caratteri disponibili. Per ogni lettera
trasmessa T
j
, vi sia la stessa probabilit` a (1/n) di essere uno qualunque dei caratteri disponibili.
Le lettere siano trasmesse indipendentemente, quindi per la parola trasmessa T vi sia la stessa
probabilit` a (1/N) di essere una qualunque delle N = n
l
possibili stringhe t di l caratteri t
1
t
2
...t
l
.
La trasmissione delle lettere sia soggetta a disturbi. Si indichi con R la parola ricevuta formata
dalle lettere R
1
R
2
...R
l
. Si indichino con
{T = t} e {R = r}
gli eventi: è stata trasmessa la stringa t ed è stata ricevuta la stringa r.
Si supponga che, per ogni carattere, in qualunque posizione, la probabilit` a di trasmissione senza
errore sia p (ad esempio 0.9), indipendentemente dai caratteri presenti nelle altre posizioni e
dalla trasmissione corretta o meno delle altre lettere; quindi per ogni j:
P(R
j
= T
j
) =
n
k=1
P(R
j
= c
k
|T
j
= c
k
)P(T
j
= c
k
) = n p
1
n
= p .
In caso di errore venga ricevuto uno qualunque degli altri caratteri, ciascuno con probabilit` a
1/(n1). Trovare la probabilit` a che sia stata trasmessa la stringa sapendo che è stata ricevuta
la stringa (ad esempio = ROTTO , = ROSSO).
In questo caso possiamo utilizzare la formula di Bayes nella versione pi` u semplice:
P(T = |R = ) =
P(R = |T = )P(T = )
P(R = )
.
Si vede facilmente che
P(T = ) =
1
N
=
1
n
l
, P(R = ) = (
1
n
p +
n 1
n
(1 p)
1
n 1
)
l
=
1
n
l
,
P(R = |T = ) = p
li
(
1 p
n 1
)
i
= P(T = |R = ) .
dove i è il numero di caratteri diversi tra e .
Nel caso dellesempio P(T = |R = ) = (0.9)
3
(0.1)
2
20
2
== 0.000018225.
6) Ago di Buon. In un piano è presente una griglia costituita da innite rette parallele (li)
r
j
, jZ, con distanza costante tra rette adiacenti pari a 2l. Un segmento (ago) di lunghezza l
viene lanciato a caso sul piano, parallalelamente ad esso.
Trovare la probabilit` a che lago colpisca uno dei li.
Utilizziamo un riferimento cartesiano con lasse x coincidente con il lo r
j
immediatamente
sotto la posizione dellago nellistante in cui questo colpisce il piano. La posizione dellago è
determinata dallintero j, dalle coordinate x, y dellestremo A pi` u basso dellago e dallangolo
formato dal segmento AB con il semiasse positivo delle x.
jZ , < x < + , 0 < y 2l , 0 < .
Interpretiamo la dizione lancio a caso come assunzione di totale equivalenza delle posizioni
possibili, nel senso di equivalenza dei punti (j, x, y, ) e pi` u precisamente ancora nel senso che:
= Z R
r
,
r
=]0, 2l] [0, [ , P(Z RE) =
area(E)
area(
r
)
se E
r
,
supponendo E dotato di area nel senso di Lebesgue: E L(
r
).
Ovviamente area(
r
) = 2l ed il lo immediatamente superiore allasse x è colpito se e
solo se lordinata di B supera 2l. Ci interessa dunque levento
Z RE , E = {y +l sin() 2l} = {y 2l l sin() }
per il quale
area(E) =
_

0
(2l (2l l sin()))d =
_

0
l sin()d = 2l .
Dunque
P(Z RE) =
2l
2l
=
1
.
Capitolo 2
Variabili aleatorie reali discrete
2.1 Variabili aleatorie reali
Una variabile aleatoria reale X è una funzione che assume valori reali dipendenti dal caso e
per la quale è possibile assegnare una probabilit` a ad ogni proposizione di una famiglia sucien-
temente ampia di aermazioni coinvolgenti la funzione X.
Pi` u precisamente, sia (, A, P) uno spazio di probabilit` a, che immaginiamo associato ad un
esperimento S. Una funzione X : R assume un valore X() dipendente dal risultato
dellesperimento S.
`
E importante poter assegnare una probabilit` a alle proposizioni X assume
valori compresi tra a e b, dove a e b suno due numeri reali arbitrari. Consideriamo allora soltanto
funzioni X tali che per ogni a b R linsieme { | a X() < b} sia un evento, cioè
un insieme di A. Essendo A una -algebra, si pu` o vedere che, in tal caso, sono eventi tutti gli
insiemi { | X() B}, dove B è un qualunque insieme Boreliano di R. Si dice allora
che la funzione X è misurabile. I Boreliani costituiscono, per denizione, la pi` u piccola -
algebra alla quale appartengono tutti gli aperti, che nel caso di R si possono sempre presentare
come unione numerabile di intervalli (volendo disgiunti). Daltra parte si vede che è suciente
chiedere che, per ogni c R linsieme { | X() < c} sia un evento. Arriviamo allora alla
seguente
Denizione. Sia (, A, P) uno spazio di probabilit` a. Si dice variabile aleatoria (v.a.)
reale ogni funzione
X : R
misurabile, cioè tale che
cR { | X() < c}A.
Linsieme sopra indicato si scriverà pi` u semplicemente {X < c}.
Sarebbe equivalente chiedere che {X > c} oppure {X c}, o {X c}, o ancora X
1
(]a, b[)
appartengano ad A, ovvero siano eventi.
25
26 Capitolo 2. Variabili aleatoreie reali discrete
2.2 Variabili aleatorie reali discrete
Si dice che X è discreta se pu` o assumere solo un numero nito o al pi` u uninnit` a numerabile
di valori distinti.
`
E certamente questo il caso se è nito o numerabile.
Se x
k
sono i valori distinti che la variabile aleatoria X pu` o assumere, si dice densità di X
la funzione
f
X
(x
k
) = p
X
k
= P(A
k
) , A
k
= { | X() = x
k
} .
Si dice distribuzione (cumulativa) di X la funzione della variabile reale c
F
X
(c) = P({X < c}) .
Indipendenza di variabili aleatorie discrete.
Denizione: le v.a. X e Y , che possono assumere i valori x
k
e y
l
, si dicono indipendenti
se per ogni coppia (k, l) risulta:
p
XY
k,l
= P(X = x
k
Y = y
l
) = P(X = x
k
)P(Y = y
l
) = p
X
k
p
Y
l
.
Osservazione. Se X e Y sono indipendenti, anche X c e Y d, dove c e d sono costanti, sono
indipendenti.
Se X, Y, ...Z sono v.a. discrete che possono assumere i valori x
k
, y
l
, ...z
m
, si dice densità
congiunta di X, Y, ...Z la funzione
f
X,Y,...Z
(x
k
, y
l
, ...z
m
) = P(X = x
k
Y = y
l
... Z = z
m
) .
Talvolta scriveremo pi` u brevemente f
X,Y,...Z
(k, l, ...m).
Le v.a. X
1
, X
2
, ...X
n
, ... si dicono mutuamente indipendenti se, ssati comunque gli indici
1 j
1
< j
2
... < j
m
e i valori ammissibili x
k1
, x
k2
, ...x
km
, per gli eventi { X
j1
= x
k1
}, { X
j2
=
x
k2
}, ... { X
jm
= x
km
} risulta:
P({ X
j1
= x
k1
} { X
j2
= x
k2
}... { X
jm
= x
km
}) =
= P({ X
j1
= x
k1
})P({ X
j2
= x
k2
})...P({ X
jm
= x
km
}) .
Dunque, scelti arbitrariamente lintero n e n valori ammissibili x
1
, x
2
, ...x
n
, gli eventi { X
1
=
x
1
}, { X
2
= x
2
}, ... { X
n
= x
n
} sono mutuamente indipendenti.
Si vede immediatamente che X e Y sono indipendenti se e solo se la densit` a congiunta
f
XY
(k, l) è il prodotto delle densit` a f
X
(k) e f
Y
(l).
2.3 Distribuzione binomiale (Schema di Bernouilli)
Si considerano n prove (mutuamente) indipendenti (un esperimento S viene ripetuto n volte,
essendo i risultati di ciascuna prova indipendenti dai risultati delle altre). In ogni prova un
determinato evento E pu` o vericarsi con probabilit` a p (successo: s) o non vericarsi con prob-
abilit` a q = 1 p (insuccesso o fallimento: f).
Come insieme di riferimento considiamo linsieme delle scritture o stringhe del tipo =
sffsssfsff (in questo esempio n = 10 ), che indica un successo nella prima prova, un fallimento
nella seconda e terza prova, .... Essendo nito possiamo prendere A = P() e introdurre una
misura di probabilit` a ponendo
P({ |
k
= s }) = p , k = 1, 2...n ,
dove
k
indica la k-esima lettera (componente di , coerentemente con lipotesi fatta sulle singole
prove, e assumendo che gli eventi { |
k
= s } siano mutuamente indipendenti. Si trova allora
per un arbitrario , scrivendo brevemente P() in luogo di P({}), e per un arbitrario evento
A:
P() = p
K()
q
nK()
, P(A) =
A
P(),
dove K() è il numero di successi in , cioè il numero di caratteri s nella stringa . Se invece
dei simboli s ed f si usassero le cifre 0 ed 1, indicando sempre con
k
la k-esima componente di
, si avrebbe
K() =
1
+
2
+... +
n
.
K è una variabile aleatoria discreta che pu` o assumere i valori 0, 1, 2, ...n. La probabilit` a che K
assuma un valore determinato k è
P({ | K() = k}) = P(K = k) = C
k
n
p
k
q
nk
,
infatti vi sono C
k
n
elementi di che hanno esattamente k successi e ciascuno di essi ha la stessa
probabilit` a p
k
q
nk
.
Con C
k
n
indichiamo lusuale coeciente binomiale
C
k
n
=
_
n
k
_
=
n!
k!(n k)!
.
che conta il numero di sottoinsiemi costituiti esattamente da k elementi di un insieme di n ele-
menti.
Linsieme degli eventi con k componenti uguali a 1(s) è infatti in corrispondenza biunivoca
con linsieme dei sottoinsiemi S di {1, 2, ...n} formati esattamente da k elementi. Ogni si pu` o
considerare come la funzione caratteristice di un tale sottoinsieme S.
Se siamo interessati solo al numero di successi, lo spazio campione pu` o essere ridotto allinsieme
= 0, 1, 2, ..., n, con le probabilit` a

f(k) = C
k
n
p
k
q
nk
.
Si osservi che
f(k) 0 e
n
k=0
f(k) = (p +q)
n
= 1.
f è la densit` a della variabile aleatoria K. La distribuzione (cumulativa) F della variabile aleatoria
K :
F(c) = P({K < c}),
è data da
F(k) =
k
j=0
f(j) =
k
j=0
C
j
n
p
j
q
nj
ed è detta distribuzione binomiale .
2.4 I teoremi di DeMoivre-Laplace
Teorema del limite locale (DeMoivre-Laplace). Sia P
n
(k) la densit` a binomiale e, con
0 < p < 1 e q = 1 p, ssato x ]a, b[, sia k lintero denito da
k np +x
npq < k + 1 .
k = k(n) = k(n, x) è quindi la parte intera di np +x
npq e, posto
x(n) =
k np
npq
,
la dierenza x x(n) (non negativa e (npq)
1
2
) è O(n
1
2
).
Allora:
lim
n+
npqP
n
(k(n, x)) =
1
2
exp (
x
2
2
) ,
uniformemente per x ]a, b[ .
Osservazione. Pi` u in generale, se k(n) è una successione tale che x(n) si mantiene limitata
in ]a, b[, allora
lim
n+
npqP
n
(k(n))
1
2
exp(
x(n)
2
2
)
= 1
uniformemente, nel senso che dato > 0 il rapporto dista da 1 meno di per n maggiore di una
soglia dipendente soltanto da , a e b.
Dimostrazione del teorema. Ricordiamo in primo luogo la formula di Stirling
n! =
2nn
n
exp(n) exp (
n
) , |
n
|
1
12n
.
Si ha
k = np +x(n)
npq, n k = nq x(n)
npq +
per a < x < b, con a, b ssi .
P
n
(k) = C
k
n
p
k
q
nk
=
2n
2k
_
2(n k)
n
n
exp(n) exp (
n
k

nk
)p
k
q
nk
k
k
(n k)
nk
exp (k) exp((n k))
,
dunque
P
n
(k) = (
n
2k(n k)
)
1
2
n
n
p
k
q
nk
exp()
k
k
(n k)
nk
,
dove =
n
k

nk
e quindi
||
1
12
(
1
n
+
1
k
+
1
n k
)
1
12n
(1 +
1
p + a
_
pq/n
+
1
q b
_
pq/n
).
Dunque 0 per n + , uniformemente in a < x < b e quindi exp() 1 uniformemente.
B
n
= (
n
k(n k)
)
1
2
= (
n
np(1 +x(n)
_
q/np)nq(1 x(n)
_
p/nq)
)
1
2
=
=
1
npq
(1 +x(n)
_
q
np
)
1
2
(1 x(n)
_
p
nq
)
1
2
e quindi

npqB
n
1 uniformemente in x. Inoltre
ln A
n
= ln
n
n
p
k
q
nk
k
k
(n k)
nk
= ln(
np
k
)
k
+ ln(
nq
n k
)
nk
=
= k ln
k
np
(n k) ln
n k
nq
=
= (np +x(n)
npq) ln(1 +x(n)

_
q
np
) (nq x(n)
npq) ln(1 x(n)

_
p
nq
) =
= (np+x(n)
npq)(x(n)
_
q
np
x(n)
2
q
2np
+O(n
3
2
))(nqx(n)
npq)(x(n)
_
p
nq
x(n)
2
p
2nq
+O(n
3
2
)) =
= x(n)
npq +
x(n)
2
q
2
+O(n
1
2
) x(n)
2
q +O(n
1
2
) +...
+x(n)
npq +
x(n)
2
p
2
+O(n
1
2
) x(n)
2
p +O(n
1
2
) +... =
=
x(n)
2
2
+O(n
1
2
) =
x
2
2
+O(n
1
2
)
x
2
2
uniformemente in x e dunque
A
n
/ exp(
x
2
2
) 1.
Pertanto
npqP
n
(k) =
exp()
npqB
n
A
n

1
2
exp(
x
2
2
) q.e.d.
0
1
2
3
4
-4 -2 2 4
x
Figura 2.1: Densità binomiale normalizzata, con n = 20 e p = 0.5 , e Normale standard
Nella Figura 1 sono riportati, in scale opportune, i graci della funzione costante a tratti
npqP
n
(k(n, x)), con p = 0.5 e n = 20, e della funzione limite
1
2
exp(
x
2
2
). I tratti hanno
ampiezza 1/
npq

= 0.447.
Valore massimo di P
n
(k): dobbiamo studiare le disuguaglianze
C
k1
n
p
k1
q
nk+1
C
k
n
p
k
q
nk
C
k+1
n
p
k+1
q
nk1
,
equivalenti alle disuguaglianze
q
p

n k + 1
k
,
q
p

n k
k + 1
,
dalle quali si ricava
np q k np +p .
Vi possono essere dunque uno o due argomenti k per i quali P
n
(k) assume il valore massimo;
per k np +p P
n
(k) è crescente, mentre per np q k P
n
(k) è decrescente.
Teorema del limite integrale di DeMoivre-Laplace. Sia K il numero aleatorio di
successi in n prove indipendenti, in ciascuna delle quali la probabilit` a di successo è p, con
0 < p < 1. Fissati a < b, si ha per n +
P(a
K np
npq
< b)
1
2
_
b
a
e
t
2
2
dt .
Dimostrazione. Si deve studiare il comportamento asintotico della probabilit` a dellevento E
n
=
{K A
n
}, dove
A
n
= {k | a x
k
(n) =
k np
npq
< b}
e, posto i = min A
n
, j = max A
n
, si introduca la funzione
f
n
(x) =
_
0 x < x
i1
x x
j+1
npqP
n
(k) x
k
x < x
k+1
, i k < j
,
osservando che
k = np +x
k
npq , x
k+1
x
k
=
1
npq
e, se a
< a < b < b
, per il teorema del limite locale

f
n
(x) =

npqP
n
(k)
1
2
e
x
2
2
uniformemente su ]a
, b
[ .
Allora, essendo x
i1
< a x
i
< x
j
< b x
j+1
P(E
n
) =
j
k=i
npqP
n
(k)(x
k+1
x
k
) =
=
_
b
a
f
n
(x)dx
_
xi
a
f
n
(x)dx
_
b
xj
f
n
(x)dx .
Inoltre |ax
i
|, |bx
j
| 1/
npq 0. Per la convergenza uniforme delle f

n
si trova il risultato,
che non sarebbe dicile estendere a a = b = +. q.e.d.
2.5 Distribuzione multinomiale
Si considerano ancora n prove indipendenti. In ogni prova si possono presentare gli eventi
disgiunti E
1
, E
2
..., E
l
con probabilit` a p
1
, p
2
, ..., p
l
:
p
1
+p
2
+... +p
l
= 1 e ovviamente 0 p
j
1 .
Allora la probabilit` a che si presentino nelle n prove esattamente k
1
= k
1
(n) occorrenze di E
1
...
k
l
= k
l
(n) occorrenze di E
l
(
j
k
j
= n ) è data da
P
n
(k
1
, k
2
, ..., k
l
) =
n!
k
1
!k
2
!...k
l
!
p
k1
1
p
k2
2
...p
k
l
l
,
come si dimostra facilmente con un percorso ad l stadi. Indicando con K
j
la v.a. che conta il
numero di esiti E
j
nelle n prove, si ha:
P(K
1
= k
1
) =
n!
k
1
!(n k
1
)!
p
k1
1
(1 p
1
)
nk1
,
P(K
1
= k
1
K
2
= k
2
) = P(K
1
= k
1
)P(K
2
= k
2
|K
1
= k
1
) .
Ma se esattamente k
1
prove hanno avuto esito E
1
, le probabilit` a condizionali degli altri esiti in
ognuna delle prove rimanenti è p
j
= p
j
/(1 p
1
). Infatti, se E
m
j
è levento si è vericato E
j
nella prova m-esima e j = 1, P(E
m
j
|E
m
1
)/P(E
m
1
)) = P(E
m
j
)/P(E
m
1
)). Si noti che
j
p
j
= 1.
Dunque
P(K
2
= k
2
|K
1
= k
1
) =
(n k
1
)!
k
2
!(n k
1
k
2
)!
p
k2
2
(1 p
2
)
nk1k2
.
Osservando che 1 p
2
= (1 p
1
p
2
)/(1 p
1
), si ottiene allora
P(K
1
= k
1
K
2
= k
2
) =
n!
k
1
!k
2
!(n k
1
k
2
)!
p
k1
1
p
k2
2
(1 p
1
p
2
)
nk1k2
,
e continuando in questo modo si giunge alla formula che si voleva dimostrare.
Se q
j
= 1 p
j
e p
j
, q
j
= 0, date l successioni k
j
(n) tali che
l
j=1
k
j
(n) = n
e tali che le i loro valori normalizzati
x
j
= x
j
(n) =
k
j
np
j
np
j
q
j
,
che soddisno la relazione
j
x
j
p
j
q
j
= 0 ,
si mantengano limitati, diciamo in ]a, b[, risulta
lim
n+
_
n
l1
p
1
p
2
...p
l
P
n
(k
1
, k
2
, ..., k
l
)/
1
(2)
(l1)/2
e
(q1x
2
1
+q2x
2
2
...+q
l
x
2
l
)/2
= 1 ,
uniformemente, nel senso che dato > 0 il rapporto dista da 1 meno di per n maggiore di una
soglia dipendente soltanto da , a e b.
Per n = 2 si ritrova il risultato di DeMoivre-Laplace.
2.6 Distribuzione geometrica
Come nello schema di Bermouilli si considerano prove indipendenti con probabilit` a p di suc-
cesso, ed ovviamente q = 1 p di fallimento in ogni prova. Questa volta il numero delle prove
non è pressato. Si procede nchè non si ottiene un primo successo.
Prendiamo come spazio campione linsieme di tutte le possibili storie:
= {s, fs, ffs, fffs, ...}
e per ogni sia N() il numero di caratteri in . Dunque in vi sono N() 1 lettere f e
lultima lettera è s. Poniamo, in considerazione dellindipendenza delle prove:
p(k) = P(N = k) = P(ff...fs) = q
k1
p, dove le f sono k 1.
Si osservi che
p(k) 0,
+
k=1
pq
k1
= p
+
j=0
q
j
=
p
1 q
= 1.
La variabile aleatoria N, numero di prove per un primo successo (tempo di attesa di un primo
sucesso), ha per densit` a f(k) = p(k) = pq
k1
e la distribuzione corrispondente:
F(n) = P(N < n) =
n1
k=1
pq
k1
si dice distribuzione geometrica (si dice anche che N è una variabile aleatoria geometrica) .
2.7 Distribuzione binomiale negativa (di parametri p ed r)
Come nel caso della distribuzione geometrica, si considerano prove indipendenti con proba-
bilit` a p di successo, ed ovviamente q = 1 p di fallimento in ogni prova. Il numero delle prove
non è pressato. Si procede nchè non si ottengono esattamente r successi.
Sia ad esempio r = 3. Sia
= {sss, fsss, sfss, ssfs, ffsss, fsfss, ...},
linsieme delle scritture con 3 (in generale r) caratteri s, uno dei quali nellultima posizione, e
con n3 (in generale nr) caratteri f. Poniamo, in considerazione dellipotesi di indipendenza:
P() = p
r
q
nr
.
Vi sono C
r1
n1
scritture di questo tipo, perchè esse sono tante quanti i sottoinsiemi di r 1
posizioni selezionate arbitrariamente tra le prime n1 posizioni, nelle quali scrivere il carattere
s. Dunque la densit` a di N è:
f(n) = P({ | N() = n}) = C
r1
n1
p
r
q
nr
.
N si dice variabile binomiale negativa di parametri p e r e la sua distribuzione si dice distribuzione
binomiale negativa .
2.8 Valor medio (variabili discrete)
Consideriamo in primo luogo il caso in cui stesso è nito o numerabile (e ogni {} sia un
evento). Possiamo allora denire il valor medio di una v.a., necessariamente discreta, nel modo
seguente.
Denizione. Si dice valor medio (o anche valore atteso o speranza matematica) della v.a.
discreta X la quantit` a
E(X) =
X()p() ,
dove p() = P({}).
Se non è nito si pretende che la serie sia assolutamente convergente, perchè E(X) non deve
dipendere dallordine dei termini della serie:
|X()|p() < +.
In altre parole la famiglia di numeri {X()}
è sommabile.
Se non vi è convergenza assoluta si dice che X non è dotata di media.
Siano x
k
i valori distinti che la v.a. X pu` o assumere e sia A
k
= { | X() = x
k
}. Se f(k)
è la probabilit` a del valore x
k
di X, cioè se f(k) = P(A
k
) = f
X
(x
k
), dove f
X
è la densit` a di X,
risulta:
E(X) =
X()p() =
+
k=0
A
k
X()p() =
+
k=0
x
k
P(A
k
) =
+
k=0
x
k
f(k).
Se H(x) è una funzione reale di variabile reale, possiamo considerare la variabile aleatoria
H(X) denita da
H(X)() = H(X()) per ogni .
Il suo valor medio risulta
E(H(X)) =
H(X())p().
Se f(k) è la densit` a di X e g(j) = P(H(X)) = h
j
) è la densit` a di H, dove h
j
sono i valori
distinti che H pu` o assumere, allora
E(H(X)) =
j
h
j
g(j) =
H(X())p() =
A
k
H(X())p() =
=
k
H(x
k
)
A
k
p() =
k
H(x
k
)f(k).
Linearit` a del valor medio:
E(cX) = cE(X) , E(X +Y ) = E(X) +E(Y ),
infatti
(cX() +Y ())p() = c
X()p() +
Y ()p().
Si osservi che per una variabile costante c si ha E(c) = c. Se ne deduce che per ogni v.a. X
E(X E(X)) = 0 .
Positivit` a e monotonia del valor medio:
X 0 E(X) 0 , X Y E(X) E(Y ) .
X 0 signica che X() 0 per tutte le , tranne eventualmente quelle di un sottoin-
sieme di probabilit` a nulla. In modo analogo si interpreta la disuguaglianza X Y . La prima
implicazione è conseguenzza immediata della denizione (tutti i termini X()p() della somma
che fornisce E(X) sono non negativi). La seconda implicazione è immediata perche X Y 0
e il valor medio è lineare e positivo.
Valor medio del prodotto:
in generale il valor medio del prodotto è diverso dal prodotto dei valori medi di due v.a. Ma
nel caso particolare di v.a. indipendenti si ha invece
E(XY ) = E(X)E(Y ).
Infatti gli eventi A
kl
= { | X() = x
k
Y () = y
l
} costituiscono una partizione di e quindi,
poiche p
XY
k,l
= p
X
k
p
Y
l
:
E(XY ) =
X()Y ()p() =
kl
A
kl
X()Y ()p() =
=
l
x
k
y
l
p
XY
k,l
= (
k
x
k
p
X
k
)(
l
y
l
p
Y
l
) = E(X)E(Y ).
Nel caso di uno spazio generale (non necessariamente numerabile), per una v.a.
discreta X che assume i valori x
k
con probabilit` a f(k) = f
X
(x
k
), dove f
X
è la densit` a di X,
cioè f(k) = P(A
k
), dove A
k
= { | X() = x
k
} si denisce il valore atteso mediante la
formula:
E(X) =
+
k=0
x
k
P(A
k
) =
+
k=0
x
k
f(k),
se la serie converge assolutamente, e quindi per essa vale la propriet` a commutativa.
Se si dovesse considerare soltanto la v.a. X, si potrebbe sostituire con lo spazio ridotto
i cui elementi
sono semplicemente gli interi k o i valori distinti x

k
, associando a ciascuno di
essi la probabilit` a f(k), riconducendosi in tal modo al caso di uno spazio campione numerabile.
Molto spesso tuttavia è importante considerare simultaneamente pi` u v.a. X, Y, Z, ... e non sem-
pre è opporuno o possibile ricondursi ad un unico spazio campione numerabile.
Anche nel caso generale si controlla la validit` a delle propriet` a fondamentali del valore atteso
sopra considerate (linearit` a, positivit` a e quindi monotonia). Ad esempio, se X assume i valori
x
k
sui sottoinsiemi A
k
(che formano una partizione di ) e Y assume i valori y
l
sui sottoinsiemi
B
l
(che formano una partizione di ), considerando la partizione pi` u ne costituita dagli insiemi
C
kl
= A
k
B
l
, si ha:
E(X +Y ) =
k,l
(x
k
+y
l
)P(C
kl
) =
k
x
k
l
P(C
kl
) +
l
y
l
k
P(C
kl
) =
=
k
x
k
P(A
k
) +
l
y
l
P(B
l
) = E(X) +E(Y ) ,
per la -additivit` a di P.
La composizione e scomposizine delle somme è lecita, ed X +Y ammette valor medio, in virt` u
della convergenza assoluta delle serie che deniscono E(X) e E(Y ).
2.9 Varianza e deviazione standard (variabili discrete)
Denizione. Se la v.a. X è dotata di media E(X) =
X
, si pone
V (X) =
2
X
= E((X
X
)
2
).
Se V(X) è nita, si dice che essa è la varianza di X e
X
si dice deviazione standard, o
scarto quadratico medio, di X.
X
è un indice importante di dispersione dei valori di X intorno alla sua media.
Regole elementari di calcolo .
V (X) =
2
V (X)
V (X) = E((X E(X))
2
) = E(X
2
2XE(X) +E(X)
2
) = E(X
2
) E(X)
2
Disuguaglianza di Markov. Sia X 0 (i suoi valori x
k
sono 0), sia = E(X) e c un
numero reale positivo arbitrario, allora
P(X c)
1
c
.
Dimostrazione. Sia f la distribuzione di X:
=
k
x
k
f(k)
k{k|x
k
c}
x
k
f(k) c
k{k|x
k
c}
f(k) = cP(X c).
Dividendo per c si ottiene il risultato. q.e.d.
Disuguaglianza di Chebyshev. Sia X una v.a. dotata di media e varianza
2
e sia
> 0 arbitrario:
P(|X | )
1
2
.
Dimostrazione. Posto Y = (X )
2
, risulta Y 0 e E(Y ) =
2
e per la disuguaglianza di
Markov
P(|X | ) = P(Y
2
2
)
1
2
. q.e.d.
La varianza ovviamente non è in generale unoperazione lineare. Abbiamo gi` a visto che:
V (X) =
2
V (X),
inoltre, se X e Y sono v.a. con media
X
e
Y
, allora
V (X +Y ) = E((X +Y ) (
X
+
Y
)
2
) =
= E((X
X
)
2
+(Y
Y
)
2
+2(X
X
)(Y
Y
)) = V (X) +V (Y ) +2E((X
X
)(Y
Y
))
Lultimo addendo, diviso per 2, si dice covarianza delle v.a. X e Y e si indica con Cov(X, Y ).
La variaza della somma di due v.a. è uguale alla somma delle loro varianze se e solo se la
loro covarianza si annulla:
Cov(X, Y ) = 0 V (X +Y ) = V (X) +V (Y ),
Una codizione suciente anche ci` o avvenga è che le v.a. siano indipendenti. Infatti in tal
caso sono indipendenti X E(X) e Y E(Y ) e dunque
Cov(X, Y ) = E((X
X
)(Y
Y
)) = E(X
X
)E(Y
Y
) = 0 .
Se le v.a. X
1
, X
2
, ..., X
n
sono a due a due indipendenti (non è necessaria la mutua
indipendenza), si ha
V (X
1
+X
2
+... +X
n
) = V (X
1
) +V (X
2
) +... +V (X
n
) .
In particolare, se le v.a. X
1
, X
2
, ..., X
n
sono a due a due indipendenti ed hanno stessa media
e varianza
2
, risulta
E(X
1
+X
2
+... +X
n
) = n , V (X
1
+X
2
+... +X
n
) = n
2
,
E(
X
1
+X
2
+ ... +X
n
n
) = , V (
X
1
+X
2
+... +X
n
n
) =
1
n
2
(n
2
) =

2
n
.
I risultati riguardanti le medie non richiedono lindipendenza, che invece è presupposta (quale
condizione suciente, ma non necessaria) per dedurre i risultati precedenti sulle varianze. Si
osservi che la v.a. X media (aritmetica) delle v.a. X
k
ha lo stesso valor medio , ma varianza
2
/n ridotta di un fattore 1/n e quindi tendete a 0 per n +.
2.10 Funzione generatrice dei momenti
Sia t un parametro reale. Si pone
m
X
(t) = E(e
tX
) = E(
+
j=0
t
j
j!
X
j
),
se il valor medio di e
tX
esiste per |t| h (basta che esista per h), con h sucientemente
piccolo. La funzione m
X
(t) si dice funzione generatrice dei momenti della v.a. X. Si pu` o
dimostrare che è lecito permutare loperatore E con la serie esponenziale, e risulta:
E(e
tX
) =
+
j=0
t
j
j!
E(X
j
),
dunque m
X
(t) è sviluppabile in serie di Taylor nellintorno dellorigine e
E(X
k
) = D
k
t
m
X
(t)|
t=0
.
I risultati precedenti si dimostrano facilmente ricorrendo alla teoria generale dellintegrazione.
Infatti
E(X) =
X()p() =
_
XdP
e quindi, posto
+
= { X 0 },
= { X < 0 }, si ha
E(e
hX
) < +
_
e
hX
dP < +
_
e
h|X|
dP < + .
Ma allora
|X|
k
k!
h
k
e
h|X|
E(|X|
k
) =
_
|X|
k
dP < +
e pertanto esistono i momenti di ogni ordine. Inoltre, essendo
N
k=0
t
k
X
k
k!
e
tX
, |
N
k=0
t
k
X
k
k!
| e
h|X|
per ogni , in virt` u del teorema sulla convergenza dominata, si trova
E(e
tX
) =
+
k=0
t
k
k!
E(|X|
k
) .
2.11 Esempi di calcolo di medie, varianze e funzioni generatrici
Variabili K() binomiali.
E(K) =
n
k=0
kC
k
n
p
k
q
nk
= np.
Si consideri infatti la funzine ausiliaria
(x, y) = (x +y)
n
=
k
C
k
n
x
k
y
nk
,
x
x
= nx(x +y)
n1
=
k
kC
k
n
x
k
y
nk
.
Posto x = p , y = q si trova il risultato.
Pi` u facilmente si pu` o scrivere K = K
1
+K
2
+...K
n
, dove K
j
è una v.a. che prende i valori
1 e 0 con probabilit` a p e q, secondo che nella prova j-esima vi sia un successo o un fallimento.
Evidentemente E(K
j
) = 1p + 0q = p e quindi E(K) =
j
E(K
j
) = np.
Poichè K
2
j
= K
j
e quindi E(K
2
j
) = p, si ha V (K
j
) = E(K
2
j
) E(K
j
)
2
= p p
2
= pq . Ma
le v.a. K
j
sono indipendenti e quindi V (K) = npq.
Si potrebbe anche procedere nel modo seguente:
x
2
x
2
= n(n 1)x
2
(x +y)
n2
=
k
k(k 1)C
k
n
x
k
y
nk
,
E posto x = p, y = q
n(n 1)p
2
= E(K
2
) E(K), V (K) = E(K
2
) E(K)
2
=
n(n 1)p
2
+np n
2
p
2
= np(1 p) = npq.
Per la deviazione standard si trova
K
=

npq.
Per quanto concerne la funzione generatrice:
m
K
(t) =
n
i=0
e
ti
C
i
n
p
i
q
ni
=
n
i=0
C
i
n
(pe
t
)
i
q
ni
= (pe
t
+q)
n
.
Dunque
m
X
(0) = (p +q)
n
= 1 ,
Dm
K
(t)|
t=0
= n(pe
t
+q)
n1
pe
t
|
t=0
= np , E(K) = np ,
D
2
m
K
(t)|
t=0
= n(n 1)(pe
t
+q)
n2
p
2
e
2t
+n(pe
t
+q)
n1
pe
t
|
t=0
= n(n 1)p
2
+np = E(K
2
) ,
2
= E(K
2
) E(K)
2
= n
2
p
2
np
2
+np n
2
p
2
= np(1 p) = npq.
Frequenza.
Se consideriamo la frequenza (relativa) di successo in n prove: K/n , abbiamo
E(
K
n
) = p , V (
K
n
) =
pq
n
.
Applicando la disuguaglianza di Chebychev, per ogni > 0 si ha
P({|
K
n
p| })
pq
2
n
.
Basta infatti ricavare dalla relazione
= =
_
pq/n .
Dunque per n + tale probabilit` a tende a 0 . Questa è una prima formulazione di una legge
(debole) dei grandi numeri.
Gioco equo.
Se ogni prova ha un costo C e in caso di successo si ottiene un pagamento uguale ad aC, la
v.a. guadagno complessivo: G = aCK nC ha un valor medio
E(G) = nC(ap 1) .
Dunque il gioco è vantaggioso, equo o svantaggioso per chi sostiene il costo C in ogni prova,
secondo che sia a > 1/p , a = 1/p oppure a < 1/p .
Variabile N() geometrica.
La sua funzione generatrice dei momenti è data da
m
N
(t) =
+
k=1
e
tk
q
k1
p =
p
q
+
k=1
(qe
t
)
k
=
pe
t
1 qe
t
,
per t sucientemente piccolo (qe
t
< 1). Dunque
m
N
(t)|
t=0
=
p
1 q
= 1 ,
Dm
N
(t)|
t=0
= (
pe
t
1 qe
t
+
pe
t
qe
t
(1 qe
t
)
2
)|
t=0
=
=
pe
t
(1 qe
t
)
2
|
t=0
=
p
(1 q)
2
=
1
p
= E(N) .
Dunque il tempo medio di attesa per un primo successo è il reciproco della probabilit` a di suc-
cesso in una singola prova.
D
2
m
N
(t)|
t=0
= (
pe
t
(1 qe
t
)
2
+
2pqe
2t
(1 qe
t
)
3
)|
t=0
=
1
p
+
2q
p
2
=
1 +q
p
2
= E(N
2
) ,
2
=
1 +q
p
2

1
p
2
=
q
p
2
.
Variabile N() binomiale negativa (di parametri n e r).
a) Metodo analitico. La distribuzione di N è data da
F(n + 1) =
n
k=r
C
r1
k1
p
r
q
kr
= p
r
nr
j=0
C
r1
j+r1
q
j
,
avendo posto j = k r ed essendo ovviamente n r.
Conviene allora considerare la funzione ausiliaria
H(z) =
+
j=0
C
r1
j+r1
z
j
=
1
(r 1)!
D
r1
+
j=0
z
j+r1
=
1
(r 1)!
D
r1
z
r1
1 z
,
infatti D
r1
z
j+r1
= (j +r 1)(j +r 2)...(j +1)z
j
. Allora, posto s = r 1, vista la formula
di Leibniz:
H(z) =
1
s!
D
s
(z
s
(1 z)
1
) =
1
s!
s
i=0
C
i
s
s(s 1)...(s i + 1)(s i)...1
z
si
(1 z)
si+1
,
essendo D
i
z
s
= s(s 1)...(s i + 1)z
si
e D
j
(1 z)
1
= 1.2...j(1 z)
1j
, pertanto
H(z) = (1 z)
1
s
i=0
C
i
s
1
i
(
z
1 z
)
si
= (1 z)
1
(1 +
z
1 z
)
s
= (1 z)
1s
= (1 z)
r
.
Dunque H(q) = (1 q)
r
= (p)
r
e F(+) = p
r
(p)
r
= 1.
La funzione H(z) pu` o essere utilizzata per calcolare le caratteristiche della v.a. N, ad esempio
E(N) =
+
k=r
kC
r1
k1
p
r
q
kr
= p
r
+
j=0
(j +r)C
r1
j+r1
q
j
=
= p
r
(qH
(q) +rH(q)) = p
r
(rq(1 q)
r1
+r(1 q)
r
) = r(
q
p
+ 1) =
r
p
.
Analogamente per la funzione generatrice dei momenti:
m
N
(t) =
+
k=r
e
kt
C
r1
k1
p
r
q
kr
= p
r
e
rt
+
j=0
C
r1
j+r1
(qe
t
)
j
= p
r
e
rt
H(qe
t
) = (
pe
t
(1 qe
t
)
)
r
.
Con un semplice esercizio di derivazione si trova
E(N) = Dm
N
(t)|
t=0
=
r
p
, E(N
2
) = D
2
m
N
(t)|
t=0
=
r(r +q)
p
2
,
pertanto
V (N) =
2
= E(N
2
) E(N)
2
=
rq
p
2
.
b) Decomposizione in v.a. pi` u semplici.
La variabile binomiale negativa N pu` o essere scritta come somma di r v.a. geometriche
indipendenti:
N = N
1
+N
2
+... +N
r
,
dove N
1
è il tempo di attesa (numero di prove) per un primo successo, N
2
lulteriore tempo di at-
tesa (ulteriore numero di prove) per un secondo successo... Chiaramente le N
k
sono indipendenti
ed hanno distribuzione geometrica. Siamo in presenza di una situazione dove non vi è memoria
del passato (ne inuenza del futuro sul presente): la v.a. tempo di attesa per il prossimo succes-
so non è condizionata dalla storia delle prove precedenti (da come si è giunti allultimo successo).
Allora
E(N) = E(N
1
) +E(N
2
) +... +E(N
r
) = r(
1
p
) =
r
p
,
V (N) = V (N
1
) +V (N
2
) +...V (N
r
) = r(
q
p
2
) =
rq
p
2
,
m
N
(t) = E(e
Nt
) = E(e
N1t+N2t+...Nrt
) =
E(e
N1t
e
N2t
...e
Nrt
) = (
pe
t
1 qe
t
)
r
.
2.12 Distribuzione ipergeometrica
Si considera una popolazione di N individui , dei quali esattamente r hanno una determinata
caratteristica , mentre gli altri s = N r individui non hanno . Si estrae un campione di n
individui: si possono estrarre gli elementi del campione successivamente, ma quelli gi` a estratti
non debbono essere pi` u presi in considerazione per le estrazioni successive (estrazioni senza
reimmissione). Tutti gli individui della popolazione possono essere estratti con ugual proba-
bilit` a. Pi` u precisamente: in ogni estrazione tutti gli individui rimasti possono essere estratti
con la stessa probabilit` a. Risulta dallanalisi seguente che è equivalente procedere ad una es-
trazione in blocco, supponendo che, qualsiasi k N, tutti i campioni di k individui possano
essere estratti con la stessa probabilit` a.
Si considera la v.a. X che assume quale valore il numero di individui del campione con la
propriet` a . I valori possibili x di X sono vincolati da
x n , x r , e dunque x min(n, r) ;
0 x , y = n x s = N r , e dunque max(0, n s) x .
Per lestrazione in blocco è evidente che, considerando i casi possibili e quelli favorevoli:
P(X = x) =
C
x
r
C
y
s
C
n
N
,
formula che fornisce la densit` a della v.a. ipergeometrica X.
Infatti C
n
N
è il numero dei campioni possibili; i campioni favorevoli si costruiscono ad esempio
prima selezionando x individui tra gli r con la caratteristica , cosa che si pu` o fare in C
x
r
modi
diversi e poi completando il campione con y individui selezionati tra gli s privi della caratter-
istica , cosa che si pu` o fare in C
y
s
modi diversi. Per ciascuna delle prime C
x
r
selezioni si ha
sempre lo stesso numero C
y
s
di seconde selezioni possibili; dunque il numero totale di campioni
favorevoli si ottiene moltiplicando i due coecienti binomiali. (Il numero di campioni favorevoli
si pu` o mettere in corrispondenza biunivoca con RS,dove R è linsieme dei sottoinsiemi formati
da x elementi di un insieme di r elementi, e S è linsieme dei sottoinsiemi formati da y elementi
di un insieme di s elementi.)
Se si conviene che C
k
n
= 0 per k > n, la formula precedente è valida per qualunque valore di x.
Esempio. Si estraggono casualmente da un mazzo di N = 52 carte n = 5 carte. La probabilit` a
di avere tra le 5 carte esattamente 2 assi è
C
2
4
C
3
48
C
5
52
0.0339.
Non è facile calcolare le caratteristiche della v.a. X direttamente dalla densit` a. Meglio scom-
porre X in v.a. semplici che si presentano naturalmente nel
Caso dellestrazioni successive senza reinserimento.
Introduciamo allora uno spazio di riferimento analogo a quello introdotto per lo schema di
Bernouilli
= { | = (
1
,
2
, ...
n
), con al pi` u r
k
= 1 e al pi` u s
k
= 0}.
Si immagina quindi di estrarre successivi elementi dalla popolazione, senza riimmissione, indi-
cando con
k
= 1, 0 il fatto che alla k-esima estrazione si è selezionato un individuo con, o senza,
la caratteristica . Si pu` o assegnare, in modo coerente con le ipotesi fatte, una probabilit` a ad
ogni ; ad esempio se n = 5:
P({(0, 1, 1, 0, 0}) =
s
N
r
N 1
r 1
N 2
s 1
N 3
s 2
N 4
= P({(1, 0, 0, 1, 0}) = ...
Infatti, introducendo le v.a. X
k
() =
k
e gli eventi A
k
= {X
k
= 1}, A
c
k
= {X
k
= 0}:
P({0, 1, 1, 0, 0}) = P(A
c
1
A
2
A
3
A
c
4
A
c
5
) = P(A
c
1
)P(A
2
A
3
...A
c
5
|A
c
1
) =
P(A
c
1
)P(A
2
|A
c
1
)P(A
3
...A
c
5
|A
c
1
A
2
) = ... =
s
N
r
N 1
...
Nei calcolo precedenti si utilizza ripetutamente la regola di calcolo
P(A B|C) = P(A|C)P(B|A C) ,
che si verica immediatamente, ricordando la denizione di probabilit` a condizionata
P(A B C)
P(C)
=
P(A C)
P(C)
P(B (A C))
P(A C)
.
Si vede immediatamente che la probabilit` a dellesempio non dipende dallordine delle
k
.
Quindi ogni permutazione degli indici 1, 2...n induce una bijezione : tale che P() =
P(()). Allora le v.a. X
k
() =
k
hanno tutte la stessa distribuzione, quella ad esempio di
X
1
:
P(X
1
= 1) =
r
N
, P(X
1
= 0) =
s
N
e quindi
E(X
1
) =
r
N
, E(X
1
2
) = E(X
1
) =
r
N
.
Infatti, se ad esempio scambia
j
con
k
e lascia sse le altre componenti, posto
= (),
si ha
P(X
j
= 1) =
{|j=1}
P() =
{|j=1}
P(()) =
k
=1}
P(
) = P(X
k
= 1) .
I campioni con lo stesso numero x di individui con la caratteristica sono in numero di C
x
n
,
dunque
P(X = x) = C
x
n
r(r 1)...(r x + 1)s(s 1)...(s y + 1)
N(N 1)...(N n + 1)
,
che coincide con il valore precedentemente calcolato per altra via, come si verica facilmente
(x +y = n, r +s = N):
_
r
x
__
s
y
_
_
N
n
_ =
n!(N n)!
N!
r!
x!(r x)!
s!
y!(s y)!
=
=
n!
x!(n x)!
r(r 1)...(r x + 1)s(s 1...(s y + 1)
N(N 1)...(N n + 1)
.
Analogamente, sempre per la permutabilit` a delle
k
a parit` a di probabilit` a, per j = k
P(X
j
X
k
= 1) = P(X
1
X
2
= 1) =
r
N
r 1
N 1
.
Allora essendo X = X
1
+X
2
+... +X
n
, risulta
E(X) =
k
E(X
k
) =
nr
N
,
E(X
2
) = E(
k
X
2
k
+
i=j
X
i
X
j
) = n
r
N
+n(n 1)
r
N
r 1
N 1
,
V (X) =
2
= E(X
2
) E(X)
2
=
nrs
N
2
N n
N 1
.
Infatti
n
r
N
+n(n 1)
r
N
r 1
N 1

n
2
r
2
N
2
=
=
nr
N
2
(N 1)
(N(N 1) +N(n 1)(r 1) (N 1)nr) =
=
nr
N
2
(N 1)
(N
2
N +Nnr Nr Nn +N Nnr +nr) =
=
nr
N
2
(N 1)
(N(N r) n(N r)) .
Pi` u in generale si consideri la situazione seguente: una popolazione di N individui è divisa
in l strati , rispettivamente di S
1
, S
2
, ..., S
l
elementi: S
1
+S
2
+... +S
l
= N . Si estrae a caso
un campione di n elementi (n N) . Lo spazio di riferimento è in questo caso linsieme
di tutti i possibili campioni:
card() =
_
N
n
_
.
Dicendo che si procede ad una scelta casuale di un campione si intende che tutti i possibili
campioni sono equiprobabili:
P({}) = p = 1/
_
N
n
_
.
Sia X
j
() la v.a. che conta il numero di elementi di appartenenti allo strato j-esimo :
X
1
() +X
2
() +... +X
l
() = n .
Dati dei numeri 0 x
j
S
j
tali che x
1
+ x
2
+ ... + x
l
= n si chiede la probabilit` a P(A) che,
eseguita lestrazione, risulti X
j
() = x
j
per ogni j, dove
A = { | X
j
() = x
j
j = 1, 2, ..., l}) .
`
E suciente contare il numero di elementi di A. Ogni campione A si pu` o costruire con
la procedura seguente: si selezionano arbitrariamente x
1
elementi dal primo strato, x
2
elementi
dal secodo strato ... x
l
elementi dal l-esimo strato. Questa procedura produce una sola volta
tutti gli elementi di A, quindi:
card(A) =
_
S
1
x
1
__
S
2
x
2
_
...
_
S
l
x
l
_
.
La probabilit` a richiesta è dunque:
P(A) =
_
S
1
x
1
__
S
2
x
2
_
...
_
S
l
x
l
_
_
N
n
_ =
(
n!
x
1
!x
2
!...x
l
!
(N n)!
(S
1
x
1
)!(S
2
x
2
)!...(S l x
l
)!
)/
N!
S
1
!S
2
!...S
l
!
.
2.13 Limite della distribuzione ipergeometrica per N +
Se facciamo crescere il numero N di individui della popolazione, mantenendo il rapporto
r/N = p costante, e quindi costante il rapporto (Nr)/N = q, al limite troviamo la distribuzione
binomiale, di parametri n e p:
C
x
n
r(r 1)...(r x + 1)s(s 1)...(s y + 1)
N(N 1)...(N n + 1)
C
x
n
p
x
q
y
,
E(X) = n
r
N
np , V (X) =
nrs
N
2
N n
N 1
npq ,
restando n ed x costanti, e quindi costante y = n x.
2.14 Distribuzione di Poisson qual limite della distribuzione binomiale
Facciamo tendere a +il numero delle prove indipendenti, facendo simultaneamente tendere
a 0 la probabilit` a di successo nella singola prova, in modo che il prodotto np = resti costante:
f
n
(k) = C
k
n
p
k
q
nk
=
n(n 1)...(n k + 1)
k!
k
n
k
(1

n
)
nk
=
=

k
k!
(1

n
)
n
(1
1
n
)(1
2
n
)...(1
k 1
n
)(1

n
)
k
(k) =

k
k!
e
, k = 0, 1, 2, ...
La funzione (k) è una densit` a
e
k=0
k
k!
= e
= 1 .
Una variabile aleatoria X che abbia tale densit` a si dice variabile di Poisson .
`
E facile calcolarne
le caratteristiche:
m
X
(t) = E(e
tX
) =
+
k=0
e
tk
k
k!
e
= e
k=0
(e
t
)
k
k!
= e
(e
t
1)
,
m
X
(0) = 1 ,
Dm
X
(t)|
t=0
= e
t
m
X
(t)|
t=0
= ,
D
2
m
X
(t)|
t=0
= (e
t
)
2
m
X
(t)|
t=0
+e
t
m
X
(t)|
t=0
=
2
+ ,
dunque
E(X) = ,
V (X) =
2
+
2
= ,
X
=
.
Capitolo 3
Variabili aleatorie reali di tipo
generale e variabili continue
3.1 Distribuzione, indipendenza
Ricordiamo che, se (, A, P) uno spazio di probabilit` a, si dice variabile aleatoria reale
(v.a.) ogni funzione
X : R
misurabile, cioè tale che
cR { | X() < c}A.
Denizione. La funzione reale di variabile reale
F(x) = P(X < x)
si dice distribuzione della v.a. X.
Linsieme { X < x } non decresce al crescere di x e quindi F è una funzione monotona non
decrescente. Inoltre
=
n1
{ X < n } , =
n1
{ X < n }
e per le propriet` a di continuit` a della misura di probabilit` a
lim
x
F(x) = 0 , lim
x+
F(x) = 1 .
Essendo F(x) una funzione monotona, ammette in ogni punto limite destro F(x + 0) e limite
sinistro F(x 0) e linsieme dei punti di discontinuit` a (salti) è al pi` u numerabile. Con la
denizione adottata, F risulta continua a sinistra: F(x) = F(x0). Infatti per ogni successione
di numeri positivi a
n
tendenti a 0 in modo decrescente
F(x) = P({X < x}) = P(
n
{X < x a
n
}) = lim
n
P({X < x a
n
}) = lim
n
F(x a
n
) ,
47
48 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
per la monotonia della successione {X < x a
n
} e la continuit` a di P.
Alcuni autori adottano la denizione: F(x) = P({X x}). In tal caso F risulta continua a
destra: F(x) = F(x + 0).
La distribuzione determina univocamente la probabilit` a di tutti gli eventi concernenti la v.a.
Pi` u precisamente vale la
Proposizione. Se X e Y hanno la stessa distribuzione F, per ogni Boreliano B di R
(B B) risulta
P({ | X() B}) = P({ | Y () B}) .
* * *
Dimostrazione. La tesi si pu` o scrivere nella forma P(X
1
(B)) = P(Y
1
(B)). Consideriamo
allora la famiglia di sottoinsiemi di R
P = { A | P(X
1
(A)) = P(Y
1
(A)) } .
Essa è una -algebra, perche se A, A
n
P, con le A
n
disgiunte, si ha
P(X
1
(A
c
)) = P(X
1
(A)
c
) = 1 P(X
1
(A)) =
= 1 P(Y
1
(A)) = P(Y
1
(A)
c
) = P(Y
1
(A
c
)) ,
P(X
1
(
n
A
n
)) = P(
n
X
1
(A
n
)) =
n
P(X
1
(A
n
)) =
=
n
P(Y
1
(A
n
)) = P(
n
Y
1
(A
n
)) = P(Y
1
(
n
A
n
)) .
Gli intervalli ] , c[ appartengono per ipotesi a P. Ma B è la minima -algebra alla quale tali
intervalli appartengono e quindi B P. q.e.d.
& & &
La misura denita sui Boreliani di R da
(B) = P(X
1
(B))
è la legge di X. Alcuni autori chiamano distribuzione di X e allora F funzione di distribuzione.
Denizione. X e Y si dicono indipendenti se e solo se, pressati comunque gli intervalli
[a, b[ e [c, d[, gli eventi
B = {a X < b} e C = {c Y < d}
sono indipendenti (P(B C) = P(B)P(C)).
Si pu` o vedere che è suciente chiedere che gli eventi
U(x) = {X < x} e V (y) = {Y < y}
siano indipendenti per arbitrari varori reali di x e y. (Si ossrvi che ad esempio B = U(b) U(a)
e U(a) U(b)).
* * *
Ricordiamo che, data una famiglia F di sottoinsiemi, si indica con (F) la pi` u piccola -
algebra contenete F. Essa viene detta la -algebra generata da F . La defnizione è corretta
perchè si vede facilmente che:
1) Se {A
t
}
tT
, dove T è un insieme arbitrario, è una collezione di -algebre, allora
tT
A
t
è
ancora una -algebra.
2) Esiste almeno una -algebra contenete F , ad esempio P(X) .
Dunque (F) è lintersezione di tutte le -algebre contenenti F .
Sia X : S una applicazione ovunque denita e A una -algebra in S. Allora si vede
facilmente che anche X
1
(A) è una -algebra in .
Sia X : S una applicazione ovunque denita. Allora si pu` o dimostrare che
(X
1
(F)) = X
1
((F)) .
In uno spazio topologico i Boreliani sono gli elementi della -algebra generata dagli aperti
(o, equivalentemente, dai chiusi)
Se B è la famiglia dei Boreliani di R e X : R è una v.a. reale, la -algebra generata da
X è denita da
(X) = (X
1
(B)) = X
1
((B)) = X
1
(B) .
Si dice che due famiglie di eventi F e G sono indipendenti se e solo se ogni F F e ogni
G G sono indipendenti: P(F G) = P(F)P(G).
Proposizione. Due v.a. reali X e Y sono indipendenti se e solo se (X) e (Y ) sono
indipendenti.
Premettiamo alla dimostrazione alcuni importanti risultati.
Denizione. Una famiglia F di sottoinsiemi di si dice che è una -classe se e solo se
F e:
1) F, G F , F G GF F ;
2) F
n
F , F
j
F
k
= (j = k)
n
F
n
F .
In luogo di 2) si pu` o invece chiedere
2
) F
n
F , F
n
F
n+1

n
F
n
F .
Infatti gli insiemi F
n+1
F
n
F per 1) e la loro unione è disgiunta e coincide con quella degli F
n
.
Proposizione. Se {F
t
}
tT
, dove T è un insieme arbitrario, è una collezione di -classi,
allora
tT
F
t
è ancora una -classe.
La dimostrazione consiste in veriche immediate.
Si indica con (F) la -classe generata da F, cioè la pi` u piccola -classe contenente F.
Teorema. Sia C una collezione arbitraria di eventi. La famiglia F di tutti gli eventi che
sono indipendenti da ogni elemento C C è una -classe.
Dimostrazione. Basta vedere che la famiglia F
C
degli eventi indipendenti da C è una -classe,
perchè
F =
CC
F
C
.
In primo luogo osserviamo che è indipendente da C. Siano poi G, F, F
n
F
C
, con F G e
gli F
n
disgiunti:
P((GF) C) = P(G C F C) = P(G C) P(F C) =
= P(G)P(C) P(F)P(C) = P(GF)P(C) ;
P((
n
F
n
) C) = P(
n
(F
n
C)) =
n
P(F
n
C) =
=
n
P(F
n
)P(C) = P(
n
F
n
)P(C) q.e.d..
Denizione. Una famiglia di eventi F si dice -sistema se e solo se è chiusa per intersezioni
nite:
F, G F F G F .
Proposizione. Se una famiglia di eventi F è sia una -classe che un -sistema, allora essa
è una -algebra.
Dimostrazione. Essendo F una -classe si ha
A F A
c
= A F .
Inoltre, se A
n
F, denendo
S
1
= A
1
, S
n+1
= S
n
(A
n+1
A
n+1
S
n
) ,
si vede per induzione che S
n
F (sono presenti soltanto intersezioni nite, dierenze tra un
insieme ed un suo sottoinsieme e unioni disgiunte). Ma allora
n
A
n
=
n
S
n
F ,
perchè le S
n
sono una successione monotona. q.e.d.
Teorema (sulle -classi o sulle classi monotone). Se F è un -sistema allora (F) =
(F).
Dimostrazione. Sia
H = { H (F) | F F H F (F) } .
Ovviamente (F) (H F. Inoltre H è una -classe:
G, H H , H G GH (F) e
F F (GH) F = G F H F (F) ,
quindi GH H;
H
n
H , H
n
H
n+1

n
H
n
(F) , F F (
n
H
n
) F =
n
(H
n
F) (F) .
Allora H = (F). Sia poi
K = { K H = (F) | H (F) K H (F) } .
Per la prima parte della dimostrazione K F. Inoltre K è una -classe:
M, K K , K M M K (F) e
H (F) (M K) H = M H K H (F) ,
quindi M K K;
K
n
K , K
n
K
n+1

n
K
n
(F) , H (F) (
n
K
n
) H =
n
(K
n
H) (F) .
Allora K = (F) e, poiche K è un -sistema, K è una -algebra contenete F. Daltra parte
ovviamente (F) (F) (tutti gli insiemi della prima classe devono essere presenti nella sec-
onda) e nalmente K = (F) = (F). q.e.d.
Possiamo ora dimostrare che se due v.a. (reali) X e Y sono indipendenti allora (X) e (Y )
sono indipendenti.
Dimostrazione. Sia R la famiglia degli intervalli aperti e semi-inniti inferiormente di R, pre-
cisamente la famiglia degli insiemi ] , c[, con c reale arbitrario. (R) = B, cioè i Boreliani di
R sono generati da R. Ovviamente R è un -sistema e tali sono dunque le famiglie X
1
(R) e
Y
1
(R), indipendenti per ipotesi. Sia
Y = { F | F è indipendente da X
1
(R) } .
Essendo Y una -classe contenete il -sistema Y
1
(R), si ha
Y (Y
1
(R)) = (Y
1
(R)) = Y
1
((R)) = Y
1
(B) = (Y ) .
Dunque X
1
(R) e (Y ) sono indipendenti. Sia ora
X = { E | E è indipendente da (Y ) } .
Essendo X una -classe contenete il -sistema X
1
(R), si ha
X (X
1
(R)) = (X
1
(R)) = X
1
((R)) = X
1
(B) = (X) .
Dunque (X) e (Y ) sono indipendenti. q.e.d.
& $ &
Pi` u in generale:
Denizione. Le v.a. X
1
, X
2
, ...X
n
si dicono indipendenti (mutuamente) se e solo se
pressati comunque gli intervalli [a
1
, b
1
[, [a
2
, b
2
[, ...[a
n
, b
n
[ , gli eventi
B
1
= {a
1
X
1
< b
1
} , B
2
= {a
2
X
2
< b
2
} , ... B
n
= {a
n
X
n
< b
n
}
sono mutuamente indipendenti.
`
E suciente chiedere che per valori reali arbitrari x
1
...x
n
gli eventi
U(x
1
) = {X
1
< x
1
}...U(x
n
) = {X
n
< x
n
}
siano mutuamente indipendenti.
* * *
Le famiglie F
j
, j = 1, 2...n, si dicono mutuamente indipendenti se per ogni scelta di A
j
F
j
gli eventi A
1
, A
2
, ...A
n
risultano mutuamente indipendenti.
Le v.a. (reali) X
1
, X
2
, ...X
n
sono mutuamente indipendenti se e solo se le -algebre da esse
generate (X
1
), (X
2
), ...(X
n
) sono mutuamente indipendenti.
& & &
Osservazione. Per alcuni risultati è suciente che le v.a. X
j
siano a due a due indipendenti
e non necessariamente indipendenti (mutuamente).
3.2 Valor medio
Denizione. Sia X una v.a. Si dice valor medio o speranza matematica E(X) di X
lintegrale di X su rispetto alla misura di probabilit` a P.
Tale integrale, se esiste, è dento come limite di somme (o serie) integrali. Per esempio,
posto
A
k
n
= { |
k
n
X() <
k + 1
n
} .
si ha
E(X) =
_
XdP = lim
n
kZ
k
n
P(A
k
n
) .
Le serie che compaiono nella formula devono essere assolutamente convergenti (ricordiamo che
la convergenza assoluta è condizione necessaria e suciente per lindipendenza della somma
dallordine dei termini della serie: non vogliamo che la denizione di valor medio dipenda dal-
lordine con il quale i valori approssimanti (k/n nellesempio) sono presi in esame).
Si indica lintegrale anche con la notazione
_
X()dP() .
Se X
n
è la v.a. discreta che assume il valore k/n sullinsieme A
k
n
(le A
j
n
, jZ , costituis-
cono una partizione di ), X
n
converge uniformemente a X su . Infatti per ogni risulta
|X
n
() X()| <
1
n
.
Pi` u in generale possiamo considerare una qualunque successione di v.a. discrete X
n
tali che
1) X
n
X uniformemente in :
> 0 n > |X
n
() X()| < ;
2) X
n
ammette valor medio: E(X
n
) =
k
x
k
n
P(B
k
n
) ,
dove x
k
n
è il valore costante assunto da X
n
su B
k
n
, le B
k
n
costituiscono una partizione di e si
chiede che la serie converga assolutamente . Allora:
E(X) =
_
XdP = lim
n
E(X
n
).
Infatti è facile vericare che:
a) la convergenza uniforme delle X
n
implica la convergenza delle E(X
n
), in quanto
|E(X
n
) E(X
m
)|
_
|X
n
X
m
|dP se n, m opportuno ,
essendo X
n
di Cauchy; dunque E(X
n
) è di Cauchy in R e quindi converge ad un limite l;
b) il limite non dipende dalla successione approssimante, perchè se Y
n
converge uniforme-
mente ad X ed E(Y
n
) converge a m, anche la successione mista X
1
, Y
1
, X
2
, Y
2
, ... converge
unifomemente a X; pertanto la successione E(X
1
), E(Y
1
), ... deve convegere e allora necessaria-
mente a l = m.
`
E inoltre chiaro che se X è discreta e prende i valori x
k
sugli eventi B
k
, il suo valor medio pu o
essere denito sia direttamente, sia come integrale:
E(X) =
k
x
k
P(B
k
) =
_
XdP ,
basta infatti pensare X come limite uniforme della successione approssimante costante X, X, ....
Le propriet` a di linearit` a si conservano nel passaggio al limite e dunque
E(X +Y ) = E(X) +E(Y ) .
Inoltre, se indichiamo, ricorrendo al consueto abuso di linguaggio, con c la v.a. costante uguale
a c, abbiamo
E(1) = 1 , E(X E(X)) = 0 .
Non è vero in generale che il valor medio del prodotto sia uguale al prodotto dei valori medi,
ma una condizione suciente è che X e Y siano indipendenti. In tal caso
E(XY ) = E(X)E(Y ) .
Dimostriamo che E(XY ) = E(X)E(Y ) se X e Y sono indipendenti, supponendo per semplicit` a
che siano v.a. limitate. Poniamo
B
j
n
= {
j
n
X <
j + 1
n
} , C
k
n
= {
k
n
Y <
k + 1
n
} ,
A
j,k
n
= B
j
n
C
k
n
= {
j
n
X <
j + 1
n
e
k
n
Y <
k + 1
n
} ,
X
n
=
j
n
su B
j
n
, Y
n
=
k
n
su C
k
n
,
e quindi
X
n
Y
n
=
jk
n
2
su A
j,k
n
.
La v.a. X
n
Y
n
è discreta e tende uniformemente a XY :
|XY X
n
Y
n
| |X X
n
||Y | +|X
n
||Y Y
n
|
1
n
(sup |X| + 1 + sup|Y |) ,
per n sucientemente grande perche si abbia |X
n
| |X| + 1.
Poichè X e Y sono indipendenti
P(A
j,k
n
) = P(B
j
n
)P(C
k
n
) e
E(X
n
Y
n
) =
j,k
jk
n
2
P(A
j,k
n
) =
j,k
jk
n
2
P(B
j
n
)P(C
k
n
) =
= (
j
j
n
P(B
j
n
))(
k
k
n
P(C
k
n
)) = E(X
n
)E(Y
n
)
(la famiglia di numeri jk/n
2
P(A
j,k
n
) è sommabile) e quindi passando al limite si ottiene il risul-
tato. q.e.d.
La nozione di valor medio acquista particolare signicato alla luce del
Legge forte dei grandi numeri (Kolmogorov). Siano X
1
, X
2
, ... v.a. indipendenti e
con la stessa distribuzione della v.a. X. Allora esiste R tale che
P( lim
n+
X
1
+X
2
+... +X
n
n
= ) = 1
se e solo se X ammette valor medio E(X) =
_
XdP. In tal caso E(X) = .

Osserviamo che, se due v.a. X e Y hanno la stessa distribuzione F, allora E(X) = E(Y ).
Infatti, per ogni n, k risulta
P({ |
k
n
X() <
k + 1
n
}) = P({ |
k
n
Y () <
k + 1
n
})
e basta allora riferirsi alla denizione dellintegrale di X e di Y .
3.3 Variabili aleatorie continue
La v.a. si dice continua se esiste una funzione reale di variabile reale f(x) integrabile (nel
senso di Lebesgue), detta densit` a di X, tale che per ogni intervallo [a, b[ si abbia
P(a X < b) =
_
b
a
f(x)dx .
`
E equivalente chiedere che per ogni xR si abbia
F(x) = P(X < x) =
_
x
f(t)dt .
Valgono ovviamente le seguenti propriet` a
f(x) 0 ,
_
+
f(x)dx = 1 ,
F è continua (assolutamente) e P(a X < b) = F(b) F(a) .
Se B è un qualunque insieme Boreliano di R, risulta
P(XB) =
_
B
f(x)dx .
Essendo f integrabile, per lassoluta continuit` a delintegrale, se la misura di B tende a 0 allora
P(XB) tende a 0. Questo dimostra la continuit` a di F e permette di osservare che per ogni
valore x
P(X = x) = 0 .
Naturalmente, pur valendo ladditivit` a numerabile, ma non essendo numerabile linsieme dei
punti di un intervallo [a, b[ di R, P([a, b[) pu` o essere diverso da 0 senza alcuna contraddizione.
Se la v.a. X ammette la densit` a f, risulta
E(X) =
_
XdP =
_
R
xf(x)dx .
Infatti, posto A
k
n
= {
k
n
X <
k+1
n
}, si ha
_
XdP = lim
n
k
k
n
P(A
k
n
) = lim
n
k
k
n
_ k+1
n
k
n
f(x)dx ,
ma
|
k
n
_ k+1
n
k
n
f(x)dx
_ k+1
n
k
n
xf(x)dx|
1
n
_ k+1
n
k
n
f(x)dx ,
dunque, sommando su k e usando la disuguaglianza triangolare
|
k
k
n
_ k+1
n
k
n
f(x)dx
_
R
xf(x)dx|
1
n
_
R
f(x)dx =
1
n
.
Passando al limite per n 0 si ottiene il risultato.
3.4 Funzioni di variabili aleatorie
Sia H(x) una funzione reale di variabile reale Boreliana, cioè tale che se B R è un Bore-
liano di R, allora H
1
(B) è ancora un Boreliiano di R. Perchè H sia Boreliana è suciente che
per ogni c H
1
(], c[) sia un insieme di Borel.
`
E noto che le funzioni continue sono Boreliane.
Deniamo la v.a. H(X) funzione della v.a. X mediante la relazione
H(X)() = H(X()) ovvero H(X) = H X .
Se X è continua ed f è la sua densit` a, il valor medio di H si pu` o calcolare nel modo seguente
E(H(X)) =
_
+
H(x)f(x)dx purchè
_
+
|H(x)|f(x)dx < + .
Sia infatti
B
j
n
= {|
j
n
H(X()) <
j + 1
n
} = {|X() I
j
n
= H
1
([
j
n
,
j + 1
n
[)}
e dunque
P(B
j
n
) =
_
I
j
n
f(x)dx ,
allora
|
j
j
n
P(B
j
n
)
j
_
I
j
n
H(x)f(x)dx|
j
_
I
j
n
|
j
n
H(x)|f(x)dx
1
n
,
ma la prima serie converge a
_
H(X)dP, mentre la seconda, per la additivit` a dellintegrale

è uguale a
_
R
H(x)f(x)dx. Dunque per n + si ha
E(H(X)) =
_
H(X)dP =
_
R
H(x)f(x)dx .
La distribuzione di H è G(y) = P(H(X) < y) .
Osservazione. Se due v.a. X e Y hanno la stessa distribuzione F e h è una funzione
Boreliana da R in R (cioè tale che per ogni Boreliano B si ha che h
1
(B) è un Boreliano) allora
le v.a. h(X) e h(Y ) hanno la stessa distribuzione.
Infatti, se B è il Boreliano h
1
(] , c[))}, risulta
F
h(X)
(c) = P({h(X) < c}) = P({X
1
(h
1
(] , c[)}) = P({X
1
(B)}) =
P({Y
1
(B)}) = P({Y
1
(h
1
(] , c[)}) = P({h(Y ) < c}) = F
h(Y )
(c) ,
perche, avendo X e Y la stessa distribuzione, P({X B}) = P({Y B}), qualsiasi c R.
Di conseguenza E(h(X)) = E(h(Y )).
La distribuzione G di H(X) pu` o essere eventualmente continua ed ammettere una densit` a
g:
G(y) =
_
y
g(t)dt .
In tal caso, se si dispone di g, si pu` o calcolare E(H(X)) anche mediante la formula
E(H(X)) =
_
R
g(y)dy .
Se ad esempio H(x) = x
2
ed f è la densit` a di X, per c > 0 si ha
G(c) = P(X
2
< c) = P(
c < X < +
c) =
_
+
c
f(x)dx ,
e, posto y = x
2
, quindi x =
y , dy = 2xdx , dx = dy/(2
y) :
G(c) =
_
0
c
f(
y)
2
y
dy +
_
c
0
f(
y)
2
y
dy =
_
c
0
f(
y) +f(
y)
2
y
dy .
Dunque la densit` a di X
2
è
g(y) =
_
0 y 0
f(
y)+f(
y)
2
y
y > 0
.
Se X e Y sono v.a. reali indipendenti e f e g sono funzioni Boreliane da R in R, allora si
pu` o dimostrare che f(X) e g(Y ) sono indipendenti.
* * *
Indicando, come al solito, con B i Boreliani di R, si ha
(f(X)) = {(f X)
1
(B)}
BB
= {X
1
(f
1
(B))}
BB
{X
1
(B)}
BB
= (X) ,
perche gli eventi f
1
(B) sono alcuni dei (in qulache caso tutti i) Boreliani.
Allora (f(X)) e (g(Y )) sono famiglie indipendenti in quanto sottofamiglie rispettivamente di
(X) e (Y ).
& & &
3.5 Varianza
Per variabili aleatorie reali X arbitrarie la varianza V (X) è
V (X) = E((X E(X))
2
) =
_
(X E(X))
2
dP .
Se X è continua, con densit` a f, indicando con la media di X, si ha
V (X) =
_
R
(x )
2
f(x)dx .
La varianza si pu` o calcolare mediante la formula
V (X) = E(X
2
) E(X)
2
.
Infatti
E((X E(X))
2
) = E(X
2
2XE(X) +E(X)
2
) = E(X
2
) 2E(X)E(X) +E(X)
2
.
Per la varianza valgono le propriet` a:
V (X) =
2
V (X) ;
e se le v.a. X, Y sono indipendenti
V (X +Y ) = V (X) +V (Y ) .
Infatti
E((X E(X))
2
) = E(
2
(X E(X))
2
) ;
E((X+Y E(X+Y ))
2
) = E((XE(X))
2
)+2E((XE(X))(Y E(Y )))+E((Y E(Y ))
2
) =
= E((X E(X))
2
) +E((Y E(Y ))
2
) ,
perchè il valor medio centrale, vista lindipendenza di X, Y , è il prodotto dei valori medi, en-
trambi nulli.
Anche la varianza della somma di due v.a. X e Y sia uguale alla somma delle loro varianze è
suciente (e necessario) che X e Y abbiano covarianza nulla:
Cov(X, Y )
def
= E((X E(X))(Y E(Y ))) = 0 .
Ovviamente, se X e Y sono indipendenti, esse hanno covarianza nulla.
Pi` u in generale, se X
1
, X
2
..., X
n
sono a due a due indipendenti, indicando la loro media
aritmentica con
M
n
=
X
1
+X
2
+... +X
n
n
,
si ha
E(M
n
) =
1
n
k
E(X
k
) , V (M
n
) =
1
n
2
k
V (X
k
) .
In particolare, se tutte le v.a. X
k
hanno la stessa media e varianza
2
E(M
n
) = , V (M
n
) =

2
n
.
3.6 Disuguaglianza di Chebyshev
Se X è una v.a. reale 0 e dotata di media > 0 nita, per ogni c > 0 vale la disuguaglianza
di Markov
P(X c)
1
c
Infatti
=
_
{|X()<c}
X()dP() +
_
{|X()c}
X()dP()
c
_
{|X()c}
dP() = cP(X c) .
Se X ammette la densit` a f si ha naturalmente
P(X c) =
_
+
c
f(x)dx ,
che si pu` o stimare in modo pi` u preciso disponendo di opportune approssimazioni di f .
La disuguaglianza di Chebychev per una v.a. dotata media e di varianza
2
nite,
aerma che
P(|X | c)
1
c
2
.
Essa si pu` o dedurre immediatamente ponendo Y = (X )
2
, per la quale E(Y ) =
2
, e
applicando a Y la disuguaglianza di Markov, perchè
P(|X | c) = P(Y c
2
2
) .
Se X ammette la densit` a f si ha naturalmente
P(|X | c) =
_
c
f(x)dx +
_
+
+c
f(x)dx .
Se ad esempio se X N(,
2
) (v. sezione 10), introducendo Y =
1
(X), che è normale
standard, si trova
P(|X | ) = P(|Y | 1) = 1 2(1) = 1 2
_
1
t
2
2
2
dt 0.6826 ,
P(|X | 2) = P(|Y | 2) = 1 2(2) = 1 2
_
2
t
2
2
2
dt 0.9544 ,
P(|X | 3) = P(|Y | 3) = 1 2(3) = 1 2
_
3
t
2
2
2
dt 0.9974 .
3.7 Funzione generatrice dei momenti
Per una v.a. X si indica con m
X
la funzione generatrice dei momenti , denita da
m
X
(t) = E(e
tX
) =
_
e
tX
dP ,
per tutti i valori di t per i quali lintegrale converge. Se X ammette la densit` a f, allora
m
X
(t) =
_
+
e
tx
f(x)dx .
Supponiamo che esista t
0
> 0 tale che lintegrale precedente converga per t
0
, allora m
X
(t) è
denita in [t
0
, t
0
] ed X ammette momenti E(X
k
) di qualsiasi ordine:
_
+
|x|
k
f(x)dx
k!
t
k
0
(
_
0
e
t0x
f(x)dx +
_
+
0
e
t0x
f(x)dx) .
Si osservi che
_
0
e
t0x
f(x)dx +
_
+
0
e
t0x
f(x)dx =
_
+
e
|t0x|
f(x)dx ,
e che t
k
0
|x|
k
/k! e
|t0x|
. Inoltre si ha
E(e
tX
) =
+
0
t
k
k!
E(X
k
)
per il teorema sulla convergenza dominata:
|
n
0
(tx)
k
k!
|
n
0
|tx|
k
k!
e
|tx|
e
|t0x|
.
Dunque, se m
X
(t) è denita in un intorno di 0, essa è analitica in t e si ha
E(X
k
) =
d
k
dt
k
m
X
(t)|
t=0
.
Si vericano immediatamente le seguenti regole di calcolo
1) Se Y = aX +b, dove a e b sono costanti
m
Y
(t) = e
bt
m
X
(at) ,
infatti
E(e
(aX+b)t
) = E(e
(at)X
e
bt
) .
2) Se X e Y sono indipendenti si ha
m
X+Y
(t) = m
X
(t)m
Y
(t) ,
infatti
E(e
t(X+Y )
) = E(e
tX
e
tY
) = E(e
tX
)E(e
tY
)
perchè e
tX
e e
tY
sono indipendenti come X e Y .
Si pu` o dimostrare che due v.a. hanno la stessa distribuzione se hanno la stessa funzione
generatrice dei momenti.
Esempio di applicazione. Se X
1
e X
2
sono v.a. indipendenti con distribuzione di Poisson di
parametri
1
e
2
, allora X
1
+X
2
ha funzione generatrice dei momenti
e
1(e
t
1)
e
2(e
t
1)
= e
(1+2)(e
t
1)
e dunque X
1
+X
2
è una v.a. di Poisson di parametro (
1
+
2
).
3.8 Distribuzione uniforme
Si dice che la v.a. X ha una distribuzione uniforme sullintervallo [a, b] se ammette una
densit` a f
X
costante su tale intervallo e nulla fuori di esso:
f
X
(x) =
_
0 x < a oppure x > b
1
ba
a x b .
Il valore costante deve essere
1
ba
perchè lntegrale di f su R deve valere 1.
In particolare, se si considera lintervallo [0, 1], la densit` a è la funzione caratteristica dellin-
tervallo
f
X
(x) =
[0,1]
(x) .
0
0.1
0.2
0.3
0.4
0.5
-1 1 2 3 4 5
x
Figura 3.1: Densità uniforme, con a = 1, b = 3.
La distribuzione è
F
X
(x) =
_
_
_
0 x < 0
x 0 x 1
1 x 1
.
Per ogni k il momento di ordine k è
E(X
k
) =
_
1
0
x
k
dx =
1
k + 1
e quindi il valor medio, la varianza e la deviazione standard sono
E(X) =
1
2
, V (X) = E(X
2
) E(X)
2
=
1
3

1
4
=
1
12
,
X
=
1
2
3
.
La funzione generatrice dei momenti è
E(e
tX
) =
_
1
0
e
tx
dx =
e
t
1
t
=
+
0
t
k
k!(k + 1)
.
I coecienti della serie permettono di ritrovare immediatamente tutti i momenti di ordine k.
3.9 Distribuzione di Cauchy
Sia A un punto del piano a distanza R > 0 da una retta r: ad esempio, in coordinate cartesiane,
sia r lasse delle ascisse ed A(0, R). Si lanci un proiettile da A verso r in una direzione casuale,
nel senso che la direzione di lancio forma con il semiasse negativo delle ordinate un angolo
aleatorio distribuito uniformemente nellintervallo ] /2, +/2[. Il proiettile colpisce r in un
punto di ascissa aleatoria X = R tan(). Allora X è funzione di e
P(a X < b) = P(arctan(a/R) < arctan(b/R)) =
=
1
(arctan(b/R) arctan(a/R)) =
_
b
a
R
(R
2
+x
2
)
dx .
0.05
0.1
0.15
0.2
0.25
0.3
-3 -2 -1 0 1 2 3
x
Figura 3.2: Densità di Cauchy, con R = 1.
Dunque X ha una distribuzione continua con densit` a
g(x) =
R
(R
2
+x
2
)
.
Si dice che X ha una distribuzione di Cauchy .
La v.a. X non ammette valor medio, perchè lintegrale
_
+
R|x|
(R
2
+x
2
)
dx
diverge a +. A maggior ragione X non ammette momenti di ordine superiore.
3.10 Distribuzione normale o di Gauss
Una v.a. si dice normale di parametri ,
2
, dove > 0, se ammette la densit` a
f(x) =
1
2
e
(x)
2
2
2
.
Pertanto la distribuzione è espressa dallintegrale
F(x) =
1
2
_
x
(x)
2
2
2
dt ,
che non si pu` o esplicitare in termini di trascendenti elementari.
Per indicare che una v.a. X ha una distribuzione normale di parametri ,
2
si scrive
XN(,
2
) oppure X N(,
2
) .
Spesso conviene prendere in considerazione la v.a. ausiliaria normale standard
Y =
X
N(0, 1) .
Infatti
P(a Y < b) = P( +a X < +b) =
1
2
_
+b
+a
e
(x)
2
2
2
dx
e quindi, posto y =
x
, dx = dy, si ha
P(a Y < b) =
1
2
_
b
a
e
y
2
2
dy .
Dunque la densità normale standard è
(x) =
1
2
e
x
2
2
e la distribuzione normale standard si indica con
(x) =
1
2
_
x
t
2
2
dt .
Lintegrale improprio è ovviamente convergente e tende a 0 per x . Inoltre
2(+)
2
=
_
+
x
2
2
dx
_
+
y
2
2
dy =
_
R
2
e
(x
2
+y
2
)
2
dxdy =
(ricorrendo a coordinate polari)
=
_
2
0
d
_
+
0
e
2
2
d = 2[e
2
2
]
+
0
= 2 .
Dunque (+) = 1 e è eettivamente una distribuzione di probabilit` a.
Nel caso della densit` a normale standard
(x) = (x) , (0) = (2)
1
2
è il valore massimo,
(x) = (2)
1
2
x(x) ,
(x) = (2)
1
2
(x
2
1)(x)
e il graco di ha due essi simmetrici in 1.
Nel caso generale, la funzione generatrice dei momenti è data dallintegrale
m(t) =
1
2
_
+
e
tx
e
(x)
2
2
2
dx .
Riscriviamo lesponente
tx
(x )
2
2
2
=
1
2
2
(x
2
2x 2
2
tx +
2
) =
=
1
2
2
[(x ( +
2
t))
2
2
2
2
t
4
t
2
+
2
] .
Allora
m(t) = e
t+
2
t
2
2
1
2
_
+
(x(+
2
t))
2
2
2
dx
ed inne
m(t) = e
t+
2
t
2
2
Si ricava immediatamente
m
(t) = m(t)( +
2
t)
m
(t) = m(t)( +
2
t)
2
+m(t)
2
.
Pertanto
E(X) = , E(X
2
) =
2
+
2
, V (X) =
2
ed i parametri e sono il valor medio e la deviazione standard di X.
s=2
s=1
s=0.5
0
0.1
0.2
0.3
0.4
0.5
-4 -2 2 4 6
x
Figura 3.3: Densità normali, per = 3, 0, 2 e s = = 0.5, 1, 2.
3.11 Distribuzione di Maxwell
In Teoria cinetica dei gas si ricorre, sotto opportune ipotesi (gas perfetto, stato di equilibrio,
temperatura costante) alla distribuzione di Maxwell, con densit` a
f(v) =
_
4/
v
2
3
exp(v
2
/
2
) v 0
0 v < 0
,
dove v è il modulo della velocit` a v della generica molecola del gas, > 0 e
2
= 2kT/m, m è la
massa della molecola, k la costante di Boltzmann e T la temperatura assoluta.
`
E facile calcolare i momenti di una v.a. V che segue la distribuzione di Maxwell:
E(V
k
) =
_
+
0
v
k
f(v)dv ,
ricorrendo alla sostituzione
v = y
1/2
, v
k
=
k
y
k/2
, dv = dy/2y
1/2
.
a=4
a=2
0
0.1
0.2
0.3
0.4
2 4 6 8 10
x
Figura 3.4: Densità di Maxwell, con a = = 2, 4.
Allora si trova
E(V
k
) =
2
k
_
+
0
y
(k+1/2)
e
y
dy =
2
k
(
k + 3
2
) .
Dunque, ricordando che (s + 1) = s(s) e che (1/2) =

, si ottiene:
E(1) = 1 , E(V ) =
2
, E(V
2
) =
3
2
2
, E(V
4
) =
15
4
4
.
Lenergia cinetica è denita da E
c
= mV
2
/2. Allora
V (V ) =
(3 8)
2
2
, V (V
2
) =
3
2
2
,
E(E
c
) =
m
2
E(V
2
) =
3
2
kT , V (E
c
) =
m
2
4
(
15
4

9
4
)
4
=
3
2
(kT)
2
.
3.12 Distribuzione esponenziale e processi di Poisson
Si consideri una situazione nella quale eventi di un determinato tipo si presentano ad istanti
casuali. Indichiamo con X(s, t) il numero di eventi che si presentano nellintervallo [s, t[. Sup-
porremo che siano soddisfatte le condizioni seguenti:
1) La situazione è stazionaria nel senso che il numero e le modalit` a con le quali gli eventi si
presentano dipendono soltanto dallampiezza dellintervallo e non dallistante iniziale:
X(s, t) X(0, t s) , cioè le due v.a. hanno la stessa distribuzione .
2) La storia no allistante s (gli eventi che si sono presentati prima dellistante s e le modalt` a
con le quali si sono presentati) non inuiscono sugli eventi dellintervallo [s, t[. Ad esempio
P(X(s, t) = k | X(0, s) = j) = P(X(s, t) = k) .
Per semplicità scriveremo X
t
in luogo di X(0, t).
3) La probabilit` a che due o pi` u eventi si verichino in un intervallino di tempo t è
trascurabile rispetto a t:
P(X(0, t) > 1) = o(t) .
Se indichiamo con T la v.a. tempo di attesa perche si verichi un primo evento, abbiamo:
P(T t) = P(X
t
= 0) .
`
E facile vericare che la distribuzione di T è
F(t) = P(T < t) = 1 e
t
,
dove è un numero positivo, detta distribuzione esponenziale di parametro . Infatti,
essendo T una v.a. non negativa ed essendo indipendenti eventi riguardanti intervalli di tempo
disgiunti, la funzione
g(t) = P(T t)
soddisfa allequazione funzionale
g(t +s) = g(t)g(s) .
Infatti si ha
P(T t +s) = P(X(0, t +s) = 0) = P(X(0, t) = 0 X(t, t +s) = 0) =
= P(X
t
= 0)P(X
s
= 0) = P(T t)P(T s) .
Ma g(t), essendo ovviamente noncrescente, deve avere la forma indicata, perchè, posto
g(1) = P(T 1) = P(X
1
= 0) = p ,
allora deve essere
g(
1
n
)
n
= p .
Dunque
g(
1
n
) = p
1
n
, g(
k
n
) = p
k
n
.
Ma per
k 1
n
t
k
n
si ha
g(
k 1
n
) g(t) g(
k
n
)
Passando al limite con k ed n tendenti ad innito in modo che
lim
n+
k
n
= t
si ottiene
g(t) = p
t
.
Finalmente 0 p 1 e, non considerando i casi estremi, di poco interesse, si pu` o porre
p = e
,
dunque
g(t) = e
t
e nalmente
F(t) = 1 g(t) = 1 e
t
.
La densit` a della distribuzione esponenziale è
f(x) =
_
e
x
x 0
0 x < 0
e quindi F(t) =
_
t
0
e
x
dx .
La funzione generatrice dei momenti è
m(t) =
_
+
0
e
tx
e
x
dx =

t
per t < .
Ovviamente m(0) = 1 e
E(T) = m
(0) =

( t)
2
|
t=0
=
1
.
Inoltre
E(T
2
) = m
(0) =
2
( t)
3
|
t=0
=
2
2
e quindi
V (T) =
2
2

1
2
=
1
2
,
T
=
1
.
l=1
l=2
0
0.5
1
1.5
2
1 2 3 4
x
Figura 3.5: Densità esponenziale, con l = = 1, 2.
Vediamo ora che nelle ipotesi fatte la v.a. X
t
ha una distribuzione di Poisson di parametro
t. Infatti, posto p(t, k) = P(X
t
= k), si ha
p(t, 0) = P(X
t
= 0) = P(T t) = e
t
e per t 0 e
t
= 1 t +o(t) ,
p(dt, 1) = 1 p(dt, 0) + o(dt)
e, per lindipendenza degli eventi su intervalli disgiunti insieme alla trascurabilit` a rispetto a dt
della probabilit` a di pi` u eventi in un intervallo di ampiezza dt, si ha
p(t +dt, k + 1) = p(t, k + 1)p(dt, 0) +p(t, k)p(dt, 1) +o(dt) =
= p(t, k + 1)(1 dt) +p(t, k)dt +o(dt) .
Dividendo per dt e passando al limite per dt 0 si ottiene un sistema di innite equazioni
dierenziali lineari del primo ordine, che tuttavia si possono risolvere semplicemente in modo
iterativo, conoscendo p(t, 0) = exp(t) :
d
dt
p(t, k + 1) = p(t, k + 1) +p(t, k) ,
p(0, k + 1) = 0 .
`
E facile vericare per induzione che la soluzione è data dalle formule
p(t, k) =
(t)
k
k!
e
t
.
Capitolo 4
Densità congiunta e funzioni di
pi` u variabili aleatorie reali
4.1 Densità congiunta (caso discreto)
Siano X e Y v.a. reali discrete (v.a. che possono assumere un numero nito o una innit` a
numerabile di valori reali x ed y). Per trattare eventi che coinvolgono entrambe le variabili è
suciente conoscere le probabilit` a
f
XY
(x, y) = P(X = x e Y = y) .
La funzione f
XY
(x, y) si dice densit` a congiunta di X e Y . Ovviamente
f
XY
(x, y) 0 per ogni coppia (x, y) e
y
f
XY
(x, y) = 1 .
4.2 Densità congiunta (caso continuo)
Siano X e Y v.a. reali. Per trattare eventi che coinvolgono entrambe le variabili è suciente
conoscere le probabilit` a
P(a X < b e c Y < d)
per tutti i valori reali a, b, c, d.
Per calcolare tale probabilit` a è suciente conoscere la distribuzione congiunta di X e Y :
F
XY
(x, y) = P(X < x Y < y) .
Infatti
[a, b[[c, d[= [, b[[, d[[, b[[, c[([, a[[, d[[, a[[, c[)
72
e quindi
P(a X < b e c Y < d) = F(b, d) F(b, c) F(a, d) +F(a, c) .
Diremo che X e Y ammettono una densit` a congiunta se esiste una funzione integrabile
f
XY
(x, y) tale che
P(a X < b e c Y < d) =
_
b
a
_
d
c
f
XY
(x, y)dxdy .
Ovviamente
f
XY
(x, y) 0 ,
_
+
_
+
f
XY
(x, y)dxdy = 1 .
La densit` a congiunta f
XY
(x, y) è separatamente integrabile rispetto ad x e y (per q.o. y
e rispettivamente per q.o. x) e X ed Y ammettono le densit` a f
X
(x) e f
Y
(y), dette densit` a
marginali, fornite dalle
f
X
(x) =
_
+
f
XY
(x, y)dy , f
Y
(y) =
_
+
f
XY
(x, y)dx .
Se X ed Y sono indipendenti e ammettono ciascuna densit` a f
X
(x), f
Y
(y),
P(a X < b e c Y < d) = P(a X < b)P(c Y < d) =
_
b
a
f
X
(x)dx
_
d
c
f
Y
(y)dy
e dunque f
X
f
Y
è integrabile ed esiste la densit` a congiunta uguale al prodotto delle densit` a:
f
XY
(x, y) = f
X
(x)f
Y
(y) .
Viceversa, se vale la formula precedente, allora X e Y sono indipendenti.
In generale, se A è un insieme Boreliano di R
2
ed E è levento
E = { | (X(), Y ())A} ,
la probabilit` a di E si ottiene nel modo seguente
P(E) =
_ _
A
f
XY
(x, y)dxdy .
Tale risultato si potrebbe vericare facilmente tenendo conto: i) della possibilit` a di approssimare
A tanto bene quanto si vuole mediante unioni nite di rettangoli disgiunti del tipo [a, b[[c, d[ ;
ii) del fatto che il risultato è vero per gli eventi corrispondenti a tali rettangoli, vista la denizione
stessa di densit` a congiunta; iii) delladditivit` a e dellassoluta continuit` a dellintegrale.
Si osservi che E è un evento perchè X ed Y sono v.a. e i Boreliani di R
2
sono la -algebra
generata ad esempio dai rettangoli [a.b[[c, d[.
74 Capitolo 4. Densità congiunta e funzioni di pi` u variabili aleatorie reali
Esempio. Siano X ed Y v.a. indipendenti e uniformi in I = [0, 1[. Pertanto f
X
e f
Y
sono
entrambe la funzione caratteristica
I
di tale intervallo, mentre
f
XY
(x, y) = f
X
(x)f
Y
(y) =
I
(x)
I
(y) =
Q
(x, y) ,
dove Q = I I è il quadrato unitario.
Si voglia calcolare la probabilit` a che la somma delle due variabili sia inferiore ad un valore
pressato s. Si trova
P(X +Y < s) =
_ _
A={(x,y)|x+y<s}
Q
(x, y)dxdy =
_ _
AQ
dxdy .
Al variare di s si ha la distribuzione F
S
della v.a. S = X + Y funzione di X ed Y , nel senso
usuale che per ogni
S() = (X +Y )() = X() +Y () .
Dei calcoli elementari forniscono
F
S
(s) =
_
_
0 s 0
s
2
2
0 s < 1
1
(2s)
2
2
1 s < 2
1 2 s
.
Dunque S è una v.a. continua con densit` a f
S
lineare a tratti
f
S
(s) =
_
_
0 s 0
s 0 s < 1
(2 s) 1 s < 2
0 2 s
,
derivata della fuzione F
S
, che è derivabile a tratti.
In modo analogo per esempio
P(X +Y s e Y < t) =
_ _
x + y s
y < t
(x, y) Q
dxdy .
Ancora nellambito di questo esempio consideriamo il prodotto T = XY . La sua funzione di
distribuzione F
T
(t) è nulla per t < 0 e uguale a 1 per t 1, mentre per 0 t < 1 si ha
P(T < t) = P(XY < t) =
_ _
xy<t
Q
dxdy =
_
t
0
dx
_
1
0
dy +
_
1
t
dx
_ t
x
0
dy =
= t +
_
1
t
t
x
dx = t +t[ln(x)]
1
t
= t(1 ln(t)) .
Dunque T è una v.a. continua di densit` a
f
T
(s) =
_
_
_
0 t 0
ln(t) 0 < t < 1
0 1 t
.
Si osservi che mentre F
T
è continua f
T
non è limitata (ma integrabile).
Proponiamo ancora un esempio riguardante v.a. di Cauchy.
Se X e Y sono due variabili di Cauchy indipendenti con densit` a
g
X
(x) =
R
(R
2
+x
2
)
e g
Y
(y) =
S
(S
2
+y
2
)
,
anche la loro somma Z = X +Y è una v.a. di Cauchy. Infatti
P(Z < t) =
_ _
x+y<t
RS
2
(R
2
+x
2
)(S
2
+y
2
)
dxdy =
con la sostituzione x = x, z = x +y
=
RS
2
_
t
dz
_
+
dx
(R
2
+x
2
)(S
2
+ (z x)
2
)
.
Lintegrale interno si pu` o facilmente calcolare per ogni z ssato, ad esempio con il metodo dei
residui, fornendo
P(Z < t) =
_
t
R +S
((R +S)
2
+ z
2
)
dz
e la densit` a di Z è
g
Z
(z) =
R +S
((R +S)
2
+z
2
)
.
Se X
1
, X
2
, ...X
n
, ... sono v.a. di Cauchy, indipendenti e di ugual densit` a ((1 + x
2
))
1
, le
loro somme
S
n
= X
1
+X
2
+... +X
n
sono v.a. di Cauchy con densit` a n((n
2
+x
2
))
1
e in questo caso il teorema centrale del limite
che studieremo nel Capitolo successivo non vale.
Cambiamento di variabili.
siano X
1
, X
2
v.a. continue di densit` a congiunta f(x
1
, x
2
) e siano
Y
1
= H
1
(X
1
, X
2
) , Y
2
= H
2
(X
1
, X
2
)
due loro funzioni, con H
1
, H
2
regolari. Brevemente scriviamo Y = H(X). La distribuzione
congiunta di Y
1
, Y
2
si ottiene mediante lintegrale doppio
P(Y
1
< c
1
Y
2
< c
2
) =
_
A
f(x
1
, x
2
)dx
1
dx
2
,
dove
A = {(x
1
, x
2
) | H
1
(x
1
, x
2
) < c
1
H
2
(x
1
, x
2
) < c
2
)} .
Se, posto B = {(y
1
, y
2
) | y
1
< c
1
y
2
< c
2
} , la funzione H è invertibile da B in A con inversa
K di classe C
1
, si pu` o eettuare il cambiamento di variabili x = K(y) e dunque
P(Y
1
< c
1
Y
2
< c
2
) =
_
B
f(K(y))| det K
(y)|dy .
Se la sostituzione è possibile per tutti i valori di c
1
, c
2
, si vede che le nuove v.a. Y
1
, Y
2
ammet-
tono la densit` a congiunta f(K(y))| det K
(y)| .
4.3 Covarianza e correlazione
Siano X ed Y due v.a. Si denisce la covarianza delle due variabili nel modo seguente
Cov(X, Y ) = E((X E(X))(Y E(Y ))) =
= E(XY ) E(X)E(Y ) E(X)E(Y ) +E(X)E(Y ) .
Quindi si pu` o calcolare la covarianza mediante la formula
Cov(X, Y ) = E(XY ) E(X)E(Y ) .
Ovviamente se X = Y si ha V (X) = Cov(X, X). Inoltre
V (X +Y ) = V (X) +V (Y ) + 2Cov(X, Y ) .
Osservazione. Sia L
2
= L
2
(, A, P; R) lo spazio delle v.a. che ammettono momento del
secondo ordine e quindi varianza. In L
2
la covarianza è una forma bilineare simmetrica positiva
e la varianza è la seminorma (il suo annullarsi dice che la v.a. è costante) ad essa associata. Nel
sottospazio L
2
0
delle v.a. a media nulla Cov denisce una struttura di spazio di Hilbert.
Se le due variabili sono indipenenti, poichè E(XY ) = E(X)E(Y ) , la covarianza si annulla.
Tuttavia lannullarsi della covarianza non implica in generale che le due variabili siano in-
dipendenti. Ad esempio se X ha una densit` a pari: f(x) = f(x) e ammette momenti no al
terzo ordine, posto Y = X
2
E(X) =
_
+
xf(x)dx = 0 ,
E(Y ) = E(X
2
) = 2
_
+
0
x
2
f(x)dx > 0 ,
Cov(X, Y ) = E(X
3
) E(X)E(X
2
) =
_
+
x
3
f(x)dx = 0 ,
ma X ed Y ovviamente non sono indipendenti e Y è funzione di X. Infatti ad esempio in
generale (cioè tranne che per v.a. speciali o particolari valori di a) si ha
P({0 X
2
< a
2
} {a X < a}) = P({a X < a}) =
= P(0 X
2
< a
2
)P(a X < a) = P(a X < a)
2
.
Osservazione. Levento A è indipendente da se stesso se e solo se
P(A) = P(A A) = P(A)
2
,
dunque se e solo se P(A) = 1 oppure P(A) = 0 .
Una v.a X pu` o essere indipendente da se stessa solo se per ogni intervallo [a, b[ risulta P(X
[a, b[) = 0 o = 1 .
Se le v.a. X e Y ammettono una densit` a comgiunta f
XY
(x, y), per la disuguaglianza di
Schwarz, posto per brevit` a = E(X) e = E(Y ),
|Cov(X, Y )|
2
= |
_ _
(x )(y )f
XY
(x, y)dxdy|
2
_ _
(x )
2
f
XY
(x, y)dxdy
_ _
(y )
2
f
XY
(x, y)dxdy =
=
_
+
(x )
2
f
X
(x)dx
_
+
(y )
2
f
Y
(y)dy .
Dunque
|Cov(X, Y )|
2
V (X)V (Y ) .
La disuguaglianza precedente è vera per v.a. arbitrarie, non essendo aatto necessaria le-
sistenza di una densit` a congiunta, ma solo medie e varianze nite.
Infatti si trova per ogni reale
0 V (Y X) = E((Y X ( ))
2
) = E(((X ) (Y ))
2
) =
=
2
V (X) 2Cov(X, Y ) +V (Y ) .
Considerando il discriminante del polinomio di secondo grado in si ottiene la disuguaglianza
in esame
|Cov(X, Y )|
_
V (X)V (Y )
Se le varianze non si annullano, si pu` o introdurre il coeciente di correlazione (di Pearson),
quale normalizzazione della covarianza
=
XY
=
Cov(X, Y )
_
V (X)V (Y )
,
per il quale si ha
1 1 .
Si pu` o interpretare || come indice della propensione in media di scarti signicativi simul-
tanei delle due v.a. dalla loro media, essendo tali scarti di segno uguale o contrario secondo la
positivit` a di .
Si ha || = 1 se e solo se X ed Y sono linearmente dipendenti
Y = aX +c ,
con a e c costanti opportune (c in eetti è una v.a. costante con probabilit` a 1), perche in tal
caso
V (Y X) ==
2
2
X
2
X
Y
+
2
Y
0
che si pu` o annullare se e solo se || = 1. In tal caso
V (Y X) = (
X

Y
)
2
,
dove necessariamente deve essere
= a =
X
e Y X = c
è una v.a. costante.
Naturalmente si ha in modo simmetrico
X = a
Y +c
.
Coeciente di regressione di Y rispetto a X.
Si pu` o generalizzare il tema precedente della dipendenza lineare, cercando di scomporre Y in
una parte proporzionale a X e in una parte quanto pi` u possibibile prossima ad una costante:
Y = X +Z() .
La decomposizione ottimale si ha per il valore di che minimizza la varianza della v.a. Z:
V (Z()) = min
V (Z()) = min
(
2
2
X
2
X
Y
+
2
Y
) .
Il punto di minimo si trova risolvendo lequazione
2
2
X
2
X
Y
= 0 .
Pertanto
=
X
, V (Z()) = (1
2
)
2
Y
.
Il valore minimo V (Z()) si annulla se e solo se = 1, nel qual caso Z è una v.a. costante.
Osserviamo ancora che risulta
Cov(X, Z()) = 0 .
Infatti, essendo E(Z) = E(Y ) E(X):
Cov(X, Z) = E((X E(X))(Z E(Z))) =
= E((X E(X))(Y X (E(Y ) E(X)))) =
= E((X E(X))(Y E(Y ))) E((X E(X))
2
) =
X
2
X
= 0 .
Quindi
V (Y ) =
2
V (X) +V (Z) =
2
2
X
+ (1
2
)
2
Y
=
2
Y
,
come deve essere.
Osservazione.
`
E equivalente studiare il problema della regressione nello spazio L
2
0
sottraendo
preventivamente a X e Y le loro medie. Si trova
Y
0
= X
0
+Z
0
,
dove X
0
è la proiezione ortogonale (nel senso della forma bilineare Cov ) di Y
0
sul sottospazio
di dimensione 1 generato da X
0
e oviamente Z
0
è a media nulla e ortogonale a tale sottospazio.
4.4 La distribuzione Gaussiana bivariata
Consideriamo due v.a. X e Y con densit` a congiunta
f(x, y) =
1
2
1
_
(1
2
)
X
Y
exp(
1
2(1
2
)
[
(x
X
)
2
X
2
2
(x
X
)(y
Y
)
Y
+
(y
Y
)
2
Y
2
]) ,
dove si suppone che
2
< 1 e
X
Y
= 0.
Se introduciamo la matrice di covarianza
=

X
2
Y

Y
2
=
V (X) Cov(X, Y )
Cov(X, Y ) V (Y )

ed il vettore delle medie = (
X
,
Y
), posto v = (x, y), si pu` o scrivere la densit` a nella forma
f(v) =
1
2
1
det
e
1
2
(v,
1
(v))
.
Si potrebbe facilmente dimostrare che
X
,
Y
,
X
,
Y
, sono rispettivamente la media di
X, la media di Y , la deviazione standard di X, la deviazione standard di Y , il coeciente di
-3
-2
-1
0
1
2
3
x
-6
-4
-2
0
2
4
6
y
0
0.02
0.04
0.06
0.08
Figura 4.1: Densità Gaussiana bivariata, con
X
= 1,
Y
= 2, = 0.5.
correlazione di X ed Y .
Osserviamo che in questo caso se il coeciente di correlazione = 0, ovvero se Cov(X, Y ) =
0, allora le variabili X e Y sono indipendenti. Infatti la densit` a congiunta è in questo caso
f(x, y) =
1
2
X
exp (
(x
X
)
2
2
2
X
)
1
2
Y
exp (
(x
Y
)
2
2
2
Y
) ,
ovvero il prodotto delle densit` a di X e Y . (Si ricordi che in generale per v.a. arbitrarie indipen-
denza implica correlazione nulla ma in caso di correlazione nulla non si ha automaticamente
indipendenza.)
Pi` u in generale sia Z una v.a. a valori in R
m
le cui componenti Z
1
, Z
2
, ..., Z
m
siano v.a.
indipendenti normali standard: Z
j
N(0, 1). Sia A una matrice p m e un vettore di
componenti
1
,
2
, ...,
p
e poniamo
= AA
.
La v.a. X di componenti X
1
, X
2
, ..., X
p
data da
X = AZ +
ha una distribuzione (distribuzione congiunta delle X
j
) detta Gaussiana multivariata N
p
(, ).
Si pu` o vedere che è la media di X, cioè le variabili X
j
hanno media
j
, e è la matrice di
covarianza delle X
j
:
ij
= E((X
i

i
)(X
j

j
)) .
La distribuzione di X non dipende direttamente da A ma solo da , dunque se
Y = BZ + con BB
=
allora X e Y sono equidistribuite.
Nel caso in cui sia invertibile, indicando con x il vettore di componenti x
1
, x
2
, ..., x
p
, la
densit` a congiunta delle X
j
è
f(x) =
1
(2)
n/2
1
det
e
1
2
(x,
1
(x))
.
4.5 Variabili normali indipendenti
Se X
1
, X
2
, ..., X
n
sono v.a. normali indipendenti anche la loro somma segue una distribuzione
normale. Precisamente se
X
k
N(
k
,
2
k
) e =
k
,
2
=
2
k
,
risulta
X =
k
X
k
N(,
2
) .
Infatti essendo la funzione generatrice dei momenti di X
k
m
X
k
(t) = e
k
t+
2
k
t
2
2
,
per lindipendenza delle v.a.
m
X
(t) =
k
m
X
k
(t) = e
t+
2 t
2
2
,
che è la funzione generatrice di una v.a. normale di media e varianza
2
.
Osserviamo che, anche se le X
k
non fossero normali, per lindipendenza si ha
E(X) =
k
E(X
k
) , V (X) =
k
V (X
k
) .
In molti casi praticamente interessanti le v.a. X
k
hanno la stessa media e varianza
2
.In
tal caso si ha
X =
k
X
k
N(n, n
2
) ,
X =
X
n
=
k
X
k
n
N(,

2
n
) ,
X
/
n
N(0, 1) .
Dumque la v.a. media X ha come media la stessa media delle singole X
k
, ma varianza
tanto minore quante pi` u sono le X
k
:
2
diviso n.
Questa osservazione è fondamentale per le applicazioni statistiche. Si supponga infatti di
voler stimare la media incognita di una v.a. normale X, ipotizzando invece di conoscerne la
deviazione standard . Si eettuano n prove indipendenti a ciascuna delle quali è associata una
v.a. X
k
copia identica di X (cioè X
k
e X hanno la stessa distribuzione: X
k
X. Pressato
un livello di rischio o equivalentemente un livello di condenza 1 , si osserva il valore della
v.a. media X e si individua un corrispondente intervallo di condenza [L
1
, L
2
], dove gli estremi
L
1
e L
2
sono v.a., tale che
P(L
1
L
2
) = 1 .
Se Z N(0, 1) e per z
/2
si ha
(z
/2
) =
1
2
_
+
z
/2
e
x
2
/2
dx = /2 ,
allora risulta
P(z
/2

X
/
n
z
/2
) = 1 ,
ovvero
P(X z
/2
/
n X +z
/2
/
n) = 1 .
Dunque lintervallo aleatorio
[X z
/2
/
n, X +z
/2
/
n]
è un intervallo di condenza per la stima di con un livello di condenza pari a 1 .
Il fatto che la somma di v.a. normali indipendenti sia ancora normale pu` o essere controllato
direttamente, senza ricorrere alle funzioni generatrici. Per semplicità consideriamo due v.a. Y
1
ed Y
2
normali standard ed indipendenti. Posto Y = Y
1
+Y
2
, si ha
P(Y < s) = (
1
2
)
2
_ _
y1+y2<s
e
(y
2
1
+y
2
2
)/2
dy
1
dy
2
.
Eettuando il cambiamento di variabili
y
1
= t y
2
, y
2
= y
2
con Jacobiano uguale a 1
si trova
P(Y < s) = (
1
2
)
2
_
s
dt
_
+
dy
2
e
[(ty2)
2
+y
2
2
]/2
=
=
1
2
_
s
dte
t
2
/4
1
2
_
+
dy
2
e
(
2y2
t
2
)
2
/2
=
mediante la sostituzione
2y
2
2
= z, con dy
2
= dz/
2
=
1
2
_
s
dte
t
2
/4
1
2
_
+
dze
z
2
/2
=
=
1
2
_
s
dte
1
2
t
2
/2
.
Dunque Y è normale con media 0 e varianza 2.
4.6 Distribuzioni gamma
Si dice che una v.a. X segue una distribuzione gamma con parametri e se ammette la
densit` a
f(x) =
_
0 x 0
1/(()
)x
1
e
x/
0 < x
,
dove (s) è la funzione speciale denita da
(s) =
_
+
0
z
s1
e
z
dz , s > 0 .
Alcune distribuzioni classiche, legate alla distribuzione normale, sono casi particolari della dis-
tribuzione gamma .
Ricordiamo alcune propriet` a notevoli della funzione speciale .
(1) = 1 ,
(s + 1) = s(s) e dunque (n + 1) = n! ,
(1/2) =
.
Infatti
_
+
0
e
z
dz = [e
z
]
+
0
= 1 ,
(s) =
_
+
0
z
s1
e
z
dz = [z
s
e
z
/s]
+
0
+
1
s
_
+
0
z
s
e
z
dz =
1
s
(s + 1) ,
sostituendo z = t
2
/2 e quindi dz = tdt nellespressione di (s + 1) si trova
(s + 1) =
_
+
0
2
s
t
2s+1
e
t
2
/2
dt ,
dunque per s = 1/2
(1/2) = 2
1/2
_
+
0
e
t
2
/2
dt =
2/2 =
.
Funzione generatrice per la distribuzione gamma .
m
X
(t) =
_
+
0
e
tx
1
()
x
1
e
x/
dx =
1
()
_
+
0
x
1
e
(1/t)x
dx .
Con la sostituzione z = (1/ t)x , quindi x = z/(1 t) e dx = dz/(1 t), con t < 1/ :
m
X
(t) =
1
()(1 t)
_
+
0
z
1
e
z
dz = (1 t)
.
Derivando si trova
m
X
(t) = (1 t)
1
() = (1 t)
1
,
m
X
(t) = ( + 1)
2
(1 t)
2
.
Per t = 0 troviamo
E(X) = , E(X
2
) = ( + 1)
2
, V (X) =
2
.
4.7 Distribuzioni
2
Siano Y
1
, Y
2
, ..., Y
n
v.a. normali standard ( N(0, 1)) e indipendenti tra loro. Calcoliamo la
distribuzione (e la densit` a) della v.a.
2
(n) = Y
2
1
+ Y
2
2
+... +Y
2
n
.
Per lindipendenza, la densit` a congiunta delle Y
k
è il prodotto delle loro densit` a e
y
2
k
/2
, dunque
la densit` a comgiunta è e
(y
2
1
+y
2
2
+...+y
2
n
)/2
e quindi
P(
2
< u) = (2)
n/2
_ _
...
_
y
2
1
+y
2
2
+...+y
2
n
<u
e
(y
2
1
+y
2
2
+...+y
2
n
)/2
dy
1
dy
2
...dy
n
.
Ricorrendo a coordinate polari , S in R
n
P(
2
< u) = (2)
n/2
_
S
n1
dS
_
u
0
e
2
/2
n1
d ,
dove S
n1
è lipersupercie sferica unitaria in R
n
di misura
_
S
n1
dS =
2
n/2
(n/2)
.
Per trovare la densit` a si pu o procedere nel modo seguente. Si eettua la sostituzione
2
= t e
quindi = t
1/2
, d = t
1/2
dt/2,
P(
2
< u) = (2)
n/2
2
n/2
(n/2)
_
u
0
e
t/2
t
(n1)/21/2
dt/2 =
=
1
(n/2)2
n/2
_
u
0
e
t/2
t
n/21
dt .
Dunque
2
(n) segue una distribuzione gamma con parametri = n/2 e = 2. Ad esempio
E(
2
(n)) = n , V (
2
(n)) = 2n .
Si dice che
2
(n) è un v.a.
2
con n gradi di libertà .
Se X
1
, X
2
, ..., X
n
sono v.a. normali con la stessa distribuzione (X
k
N(,
2
)) e indipenden-
ti tra loro e Y
1
, Y
2
, ..., Y
n
sono le corrispondenti v.a. normali standard ( N(0, 1)), indipendenti
tra loro)
Y
k
=
X
k

,
allora
2
=
k
(X
k
)
2
2
=
k
Y
2
k
.
ha una distribuzione
2
con n gradi di libertà.
Si supponga di voler stimare la varianza incognita
2
di una v.a. normale X, ipotizzando di
conoscerne la media . Si eettuano n prove indipendenti a ciascuna delle quali è associata una
v.a. X
k
copia identica di X. Si osserva quindi il valore della v.a. Q
2
=
k
(X
k
)
2
. Q
2
/
2
ha una distribuzione
2
(n). Pressato un livello di rischio o equivalentemente un livello di
condenza 1 , si individua un corrispondente intervallo di condenza [S
1
, S
2
] tale che
P(S
1

2
S
2
) = 1 .
Per esempio, se f
n
è la densit` a di
2
(n) , trovato
2
/2
tale che
_

2
/2
0
f
n
(u)du = 1 /2, cioè
_
+
2
/2
f
n
(u)du = /2
e
2
1/2
tale che
_

2
1/2
0
f
n
(u)du = /2, cioè
_
+
2
1/2
f
n
(u)du = 1 /2 ,
n=9
n=5
n=1
0
0.05
0.1
0.15
0.2
2 4 6 8 10 12 14
x
Figura 4.2: Densità
2
(n), per n = 1, 5, 9.
risulta
P(
2
1/2
Q
2
/
2

2
/2
) = 1 .
Quindi
P(
Q
2
2
/2

2
Q
2
2
1/2
) = 1 .
Lintervallo aleatorio
[
Q
2
2
/2
,
Q
2
2
1/2
]
è un intervallo di condenza per la stima di
2
con livello di condenza 1 .
4.8 Stima simultanea di media e varianza di una variabile normale
Con prove, o misure, indipendenti è anche possibile stimare sia la media che la varianza
incognite di una v.a. X, ipotizzando come prima che X N(,
2
). Se X
k
sono le v.a.
associate alle n prove, ciascuna copia identica di X, è usuale considerare gli stimatori
X =
1
n
k
X
k
e
S
2
=
1
n 1
k
(X
k
X)
2
.
Tali stimatori sono corretti, cioè v.a. con media il parametro da stimare:
E(X) = , V (X) =
1
n
V (X) ,
E(S
2
) =
1
n 1
E(
k
(X
k
(X ))
2
=
=
1
n 1
(
k
E((X
k
)
2
) 2E(
k
(X
k
)(X )) +
k
E((X )
2
)) =
=
1
n 1
(nV (X) 2E(n(X )(X )) +n
1
n
V (X)) =
=
1
n 1
(nV (X) 2V (X) +V (X)) =
1
n 1
(n 1)V (X) = V (X) =
2
.
S
2
permette di ottenere intervalli di condenza per
2
. Infatti la v.a.
C =
(n 1)S
2
2

2
(n 1) ,
cioè segue una distribuzione
2
con n 1 gradi di libertà.
Per dimostrarlo conviene introdurre in primo luogo le variabili Y
k
normali standard associate
alle X
k
:
Y
k
=
X
k

, Y =
1
n
k
Y
k
=
X
.
Allora
C =
(n 1)S
2
2
=
k
Y
2
k
nY
2
=
k
Y
2
k

1
n
(
k
Y
k
)
2
,
come si controlla svolgendo i calcoli seguenti
C =
k
(X
k
X)
2
2
=
k
((X
k
) + ( X))
2
2
=
=
k
(X
k
)
2
2
2
(X )
k
(X
k
)
k
(X )
2
2
=
=
k
(X
k
)
2
2
2n
(X )
2
2
+n
(X )
2
2
.
La densit` a congiunta delle Y
k
è
f(y
1
, y
2
, ..., y
n
) = (2)
n/2
e
(
k
y
2
k
)/2
e per trovare la distribuzione di C si deve allora calcolare
P(C < u) = (2)
n/2
_ _
...
_
k
y
2
k
1
n
(
k
y
k
)
2
<u
e
(
k
y
2
k
)/2
dy
1
dy
2
...dy
n
.
Conviene utilizzara una opportuna trasformazione lineare ortogonale delle variabili, che verr` a
eettuata per semplicità nel caso n = 2.
Poniamo
z
1
=
y
1
+y
2
2
, z
2
=
y
1
+y
2
2
,
da cui segue
z
2
1
+z
2
2
= y
2
1
+y
2
2
e
y
2
1
+y
2
2

(y
1
+y
2
)
2
2
= z
2
1
+z
2
2
z
2
1
= z
2
2
.
Allora
P(C < u) = (2)
1
_
+
e
z
2
1
/2
dz
1
_
z
2
2
<u
e
z
2
2
/2
dz
2
=
= (2)
1/2
_
+
u
e
z
2
2
/2
dz
2
=
=
1
2
1/2
_
u
0
t
1/21
e
t/2
dt .
Dunque in questo caso C ha una distribuzione
2
con 2 1 gradi di libertà.
In generale, con un procedimento perfettamente simile, si vedrebbe che
(n1)S
2
2
ammette la
densit` a f
n1
(t) nulla per t 0 e
f
n1
(t) =
1
(
n1
2
)2
n1
2
e
t/2
t
(n1)/21
,
cioè segue come si era detto una distribuzione
2
con n 1 gradi di libertà.
Come nel paragrafo precedente, ssato un livello di condenza 1 , si trovano
2
/2
=
2
/2
(n 1) tale che
_
+
2
/2
(n1)
f
n1
(u)du = /2
e
2
1/2
=
2
1/2
(n 1) tale che
_

2
1/2
(n1)
0
f
n1
(u)du = /2 .
Allora risulta
P(
2
1/2

(n 1)S
2
2

2
/2
) = 1 .
Quindi
P(
(n 1)S
2
2
/2

2
(n 1)S
2
2
1/2
) = 1 .
Osserviamo che le v.a. Y e
2
= (n 1)S
2
/
2
sono indipendenti . Infatti, per esempio nel
caso n = 2, riprendendo i calcoli precedenti, essendo /Z
1
/sqrt2, si ha
P(a Y < b e
2
u)) = (2)
1/2
_
b
2
a
2
e
z
2
1
/2
dz
1
_
z
2
2
<u
e
z
2
2
/2
dz
2
=
P(a Y < b)P(
2
u) .
4.9 Distribuzioni t di Student
Al ne di determinare intervalli di condenza per la media della v.a. X consideriamo le
v.a. indipendenti
Y =
n Y =
X
/
n
e
2
n1
=
(n 1)S
2
2
.
Fomiamo quindi la v.a.
T
n1
=
Y
_
2
n1
n1
=
X
S/
n
e calcoliamone la distribuzione.
In generale siano Z e
2
q
due v.a. indipendenti, la prima normale standard e la seconda con
una distribuzione
2
a q gradi di libertà, e si ponga
T
q
=
Z
_
2
q
/q
.
Si dice che T
q
ha una distribuzione t di Student con q gradi di libertà. Essa ha come densit` a
g(t) =
((q + 1)/2)
(q)
1/2
(q/2)
(1 +
t
2
q
)
(q+1)/2
.
0
0.1
0.2
0.3
-4 -2 2 4
x
Figura 4.3: Densità di Student, con q = 9 gradi di libertà.
Si osservi che la lettera t, nella frase precedente, prima è il nome di una famiglia di distribuzioni,
poi serve a indicare una variabile reale.
Il risultato si ottiene ricorrendo alla distribuzione congiunta delle variabili Z e
2
q
f(z, x) = (2)
1/2
e
z
2
/2
1
(q/2)2
q/2
x
q/21
e
x/2
per x > 0
e calcolando
P(T
q
< t) = C
_ _
z<t
x/q
x
q/21
e
x/2
e
z
2
/2
dxdz ,
dove
1
C
=
2(q/2)2
q/2
.
Allora
P(T
q
< t) = C
_
+
0
dx x
q/21
e
x/2
_
t
x/q
dz e
z
2
/2
=
con la sostituzione z = u
x nellintegrale interno
= C
_
+
0
dx x
(q1)/2
e
x/2
_
t/
du e
u
2
x/2
=
= C
_
t/
du
_
+
0
dx x
(q1)/2
e
(1+u
2
)x/2
=
posto y = (1 +u
2
)x/2
= C
_
t/
du (
1 +u
2
2
)
(1+q)/2
_
+
0
dy y
(q+1)/21
e
y
=
= C(
q + 1
2
)
_
t/
du (
1 +u
2
2
)
(1+q)/2
.
Finalmente, ponendo s =

qu , du = q
1/2
ds , u
2
= s
2
/q :
P(T
q
< t) = (2)
1/2
(q/2)
1
2
q/2
(
q + 1
2
)q
1/2
2
(1+q)/2
_
t
ds (1 +
s
2
q
)
(1+q)/2
=
=
((q + 1)/2)
(q)
1/2
(q/2)
_
t
ds (1 +
s
2
q
)
(1+q)/2
q.e.d..
`
E bene notare che la densit` a g è simmetrica
g(t) = g(t) .
Tornando alla determinazione di intervalli di condenze per la media incognita , dato un livello
di condenza desiderato 1 , determiniamo t
/2
tale che
_
+
t
/2
g(s)ds = /2
e quindi
_
t
/2
g(s)ds = /2 ,
essendo g = g
n1
la densit` a t di Student con n 1 gradi di libertà.
Allora
P(t
/2
T
n1
=
X
S/
n
< t
/2
) = 1 ,
pertanto
P(X t
/2
S/
n < X +t
/2
S/
n) = 1 .
Lintervallo aleatorio (in quanto i suoi estremi sono combinazione delle v.a. X e S)
[X t
/2
S/
n, X +t
/2
S/
n]
è un intervallo di condenza per la stima della media della v.a. normale X , con livello di
condenza 1 .
4.10 Le variabili F e z di Fisher.
Siano
2
p
e
2
q
due v.a. indipendenti che hanno una distribuzione
2
, rispettivamente con p e q
gradi di libetrtà. Consideriamo un loro rapporto normalizzato:
F
p,q
=
2
p
/p
2
q
/q
=
q
p
2
p
2
q
,
che si dice variabile F con p e q gradi di libertà.
Fisher introdusse una variabile z legata alla precedente dalle relazioni
e
2z
= F
p,q
, z =
1
2
lnF
p,q
.
Queste variabili si incontrano in numerose situazioni, particolarmente in test di analisi della
varianza.
Vogliamo determinare la distribuzione e la densit` a di F.
`
E suciente considerare la variabile
X =
Y
Z
, dove Y =
2
p
, Z =
2
q
.
La densit` a congiunta di Y e Z, per la loro indipendenza è (considerando solo valori positivi delle
variabili):
g(y, z) = Cy
p/21
z
q/21
e
(y+z)/2
,
dove
C =
1
(p/2)2
p/2
(q/2)2
q/2
.
La distribuzione di X risulta
P(X < x) = P(Y < xZ) =
_ _
z>0 , 0<y<xz
g(y, z)dydz =
= C
_
+
0
dz z
q/21
_
xz
0
dy y
p/21
e
(y+z)/2
=
p=9, q=15
p=15, q=87
0
1
2
3
4
5
6
0.2 0.4 0.6 0.8 1
x
Figura 4.4: Densità di Fisher: v.a. X
p,q
con parametri p = 9, q = 15 e p = 15, q = 87.
posto y = uz , dy = zdu
= C
_
+
0
dz z
q/2
_
x
0
du (uz)
p/21
e
(1+u)z/2
=
= C
_
x
0
du u
p/21
_
+
0
dz z
(p+q)/21
e
(1+u)z/2
=
posto t = (1 +u)z/2 , z = 2t/(1 +u) , dz = 2dt/(1 +u)
= C
_
x
0
du u
p/21
(
2
1 +u
)
(p+q)/2
_
+
0
dt t
(p+q)/21
e
t
=
= C(
p +q
2
)2
(p+q)/2
_
x
0
du
u
p/21
(1 +u)
(p+q)/2
.
Dunque la densit` a di X
p,q
è nulla per x 0 e uguale a
((p +q)/2)
(p/2)(q/2)
x
p/21
(1 +x)
(p+q)/2
.
Non sarebbe dicile calcolare media e varianza di F
p,q
(Cramer [1], p.242):
E(F
p,q
) = q/(q 2) per q > 2
V (F
p,q
) =
2q
2
(p +q 2)
p(q 2)
2
(q 4)
per q > 4 .
Capitolo 5
Funzioni caratteristiche e
teorema del limite centrale
5.1 Funzione caratteristica
Sia X una v.a. reale. Si dice funzione caratteristica di X la funzione a valori complessi
X
(t) = E(e
itX
) .
La variabile t è reale; per t ssato itX è una v.a. complessa (cioè a vaori in C).
(Lo studio di una v.a. complessa Z, volendo, si pu` o ricondurre allo studio di due v.a. reali: la
sua parte reale e la sua parte immaginaria. Ad esempio:
E(Z) = E(Z +iZ) = E(Z) +iE(Z) ).
Nel caso discreto, se x
k
sono i valori assunti da X e p
k
le corrispondenti probabilit` a
X
(t) =
k
e
itx
k
p
k
.
Si noti che si tratta di una somma nita o di una serie assolutamente convergente perchè
|e
itx
k
| = 1, p
k
0 e
k
p
k
= 1.
Nel caso continuo, se f
X
(x) è la densit` a di X:
X
(t) =
_
+
e
itx
f
X
(x)dx
e quindi la funzione caratteristica è data dalla trasformata di Fourier della densit` a mediante la
formula: (t) = F(f)(t).
95
96 Capitolo 5. Funzioni caratteristiche e teorema del limite centrale
Osservazione. Assumiamo come denizione della trasformata di Fourier
F(f)(t) =
_
+
e
itx
f(x)dx ,
come ad esempio L.H ormander. Nella letteratura si trovano varie denizioni, lievemente diverse,
che non danno luogo a modiche delle propriet` a fondamentali: invece di exp(itx) si pu` o trovare
exp(itx) (I.M.Gelfand-G.E.
Silov), oppure exp(2itx) (L.Schwatz, E.M.Stein-G.Weiss), oppure

exp(itx)/
2 (F.Riesz-B.Sz.Nagy, A.Kolmogorov-S.Fomin, K.Yosida).

Lintegrale, essendo |e
itx
k
| = 1 ed f integrabile, è ben denito.
Nel caso generale di una distribuzione F
X
, non continua ovunque ne puramente discreta, si
dovrebbe usare un integrale di Stietjes per costruire da F.
Proprietà fondamentali delle funzioni caratteristiche .
Con calcoli elementari nel caso discreto, o ricordando i risulati essenziali sulla trasformata
di Fourier, si dimostrano le propriet` a seguenti, valide anche per v.a. generali:
1) (0) = 1 e, per ogni t, (t) = (t) e |(t)| 1.
2) è una funzione uniformemente continua e se X ha momenti niti no allordine k,
propriet` a che nel caso continuo equivale alla convergenza degli integrali
_
+
x
j
f(x)dx , j = 0.1, ..., k ,
allora è k volte derivabile con continuit` a. In tal caso i momenti di X sono forniti dalle formule
E(X
j
) =
1
i
j
(j)
X
(0) .
3) Se X e Y hanno la stessa funzione caratteristica allora X e Y hanno la stessa distribuzione.
Si pu` o dimostrare che che, se i punti x + h e x h ( h > 0 ) sono punti di continuit` a della
distribuzione F(x) alla quale corrisponde la funzione caratteristica (t) , allora
F(x +h) F(x h) = lim
T+
1
_
T
T
sin(ht)
t
e
itx
(t)dt .
Inoltre, se || è integrabile, F è derivabile e la sua derivata f si ottiene mediante la formula
f(x) =
1
2
_
+
e
itx
(t)dt .
4) Se Y = bX +a allora
Y
(t) = e
iat
X
(bt) .
5) Se X e Y sono indipendenti
X+Y
(t) =
X
(t)
Y
(t) .
Esempi .
Se K è una variabile che assume i valori 1 e 0 con probabilit` a rispettivamente p e q = 1 p:
K
(t) = q +pe
it
.
Quindi se B è una variabile binomiale associata ad n prove indipendenti: B = K
1
+K
2
... +K
n
,
dove le K
j
sono copie indipendenti di K:
B
(t) = (q +pe
it
)
n
.
Se X N(0, 1), allora
X
(t) = (2)
1/2
_
+
e
itx
e
x
2
/2
dx = (2)
1/2
_
+
e
(xit)
2
/2t
2
/2
dx =
posto z = x it
= e
t
2
/2
(2)
1/2
_
Rit
e
z
2
/2
dz = e
t
2
/2
.
Infatti, essendo la funzione e
z
2
/2
analitica in tutto C e rapidamente decrescente per x ,
lintegrale sulla retta Rit risulta uguale a quello sul cammino omotopo R.
Ricordando la denizione della funzione generatrice dei momenti m
X
, si ha la relazione
X
(t) = m
X
(it). Si osservi che, essendo e
it
limitata,
X
è sempre denita, mentre la conver-
genza dellintegrale che fornisce m
X
dipende dal comportamento della distribuzione.
Nel caso di una v.a. normale X N(,
2
), poiche E(e
zX
) è denita per ogni numero
complesso z:
E(e
zX
) = (2)
1/2
1
_
R
e
zx
e
(x)
2
/(2
2
)
dx = e
z+
2
z
2
/2
,
che è una funzione analitica di z in tutto il piano complesso. Si ha dunque in particolare
X
(t) = e
it+
2
(it)
2
/2
= e
it
2
t
2
/2
.
La funzione caratteristica di una v.a. di Cauchy è
R
(t) =
1
_
+
Re
itx
R
2
+x
2
dx = e
R|t|
,
come si pu` o vedere con un utile esercizio di applicazione del metodo dei residui.
5.2 Il teorema di Levy-Cramer
Riportiamo senza dimostrazione (si veda ad esempio H.Cramer [], p.96, oppure B.V.Gnedenko[])
il seguente risultato fondamentale:
Siano
n
(t) le funzioni caratteristiche delle distribuzioni F
n
(x) ed esista per ogni t
(t) = lim
n+
n
(t) .
Sia inoltre continua in 0. Allora (t) è la funzione caratteristica di una distribuzione F(x) e
per ogni punto x nel quale F è continua si ha
lim
n+
F
n
(x) = F(x) .
Una dimostrazione molto interessante e paricolarmente istruttiva è proposta da P.Billingsley.
Essa tuttavia richiede strumenti pi` u avanzati (convergenza in legge o convergenza debole di
misure, teorema di Stone-Weierstrass, famiglie tight di distribuzioni e compattezza relativa).
5.3 Comportamento asintotico della distribuzione binomiale
Utilizzando il teorema di Levy-Cramer possiamo fornire una nuova e semplice dimostrazione
del teorema del limite integrale di Laplace-De Moivre.
Teorema. Sia B
n
una variabile binomiale associata ad n prove indipendenti, in ciascuna
delle quali la probabilit` a di successo è p. Poniamo
= E(B
n
) = np ,
2
= V (B
n
) = npq , Y
n
=
B
n
.
Allora
P(a
B
n
np
npq
< b)
1
2
_
b
a
e
t
2
2
dt .
Dimostrazione. La funzione caratteristica di Y
n
è
n
(t) = e
it/
(pe
it/
+q)
n
= e
it/
(p(e
it/
1) + 1)
n
.
Allora, poichè
e
it/
1 =
it

1
2
t
2
2
+O(n
3/2
) ( =

npq) ,
si trova
ln(1 +p(e
it/
1)) =
itp

1
2
p
t
2
2
+O(n
3/2
)
1
2
p
2
(it)
2
2
+O(n
3/2
) =
=
itp

1
2
(p p
2
)
t
2
2
+O(n
3/2
) .
Ma
ln
n
(t) =
itnp
+nln(1 +p(e
it/
1)) =
essendo n(p p
2
) =
2
=
itnp
+
itnp

1
2
t
2
+O(n
1/2
)
1
2
t
2
.
Pertanto
lim
n+
n
(t) = e
1
2
t
2
.
La funzione limite è continua ed è precisamente la funzione caratteristica di una v.a. normale
standard, inoltre la distribuzione normale standard è continua per ogni valore di x, dunque per
ogni x si ha quando n +
P(
B
n
np
npq
< x)
1
2
_
x
t
2
2
dt .
Ne segue immediatamente il risultato di De Moivre-Laplace.
5.4 Il teorema del limite centrale
Il risultato precedente concernente le variabili binomiali è un caso particolare del teorema cen-
trale del limite e pu` o essere ampiamente generalizzato. Esistono diversi teoremi, che con ipotesi
pi` u o meno forti, conducono alla stessa tesi. Gi` a intravisto da Laplace e Gauss, f` u dimostrato
nel 1901 da Liapunov; successivi risultati, che fanno uso di metodi diversi, sono associati ai nomi
di Levy, Lindeberg, Khinchin, Feller.
Consideriamo in primo luogo un teorema concernente v.a. equidistribuite, la cui dimostrazione
segue il metodo usato per le variabili binomiali.
Teorema. (Lindeberg-Levy) Siano X
1
, X
2
, ... v.a. mutuamente indipendenti aventi la
stessa distribuzione di media e varianza
2
. Allora la somma, v.a. dipendente da n,
S
n
= X
1
+X
2
+... +X
n
,
che ha media E(S
n
) = n e varianza V (S
n
) = n
2
, è asintoticamente normale (n, n
2
) nel
senso che per ogni a e b si ha
lim
n+
P(a
S
n
n
n
< b) =
1
2
_
b
a
e
t
2
2
dt .
Dimostrazione. Solo per semplicità sia = 0 (ipotesi non restrittiva: altrimenti si ra-
gionerebbe sulle v.a. Z
k
= X
k
). Sia inoltre (t) la funzione caratteristica della distribuzione
comune alle singole X
k
, per la quale dunque si ha
(t) = 1
2
t
2
/2 +o(t
2
) .
Poniamo poi
Y
n
=
S
n
n
,
che ha come funzione caratteristica
Yn
(t) = (t/
n)
n
.
Allora, per ogni t
(t/
n) = 1 t
2
/2n +o(1/n) ,
ln (t/
n) = t
2
/2n +o(1/n) ,
ln
Yn
(t) = nln (t/
n) = t
2
/2 +n o(1/n) t
2
/2 .
Si osservi che, essendo t sso e
2
dato, mentre n +, scriviamo brevemente o(1/n) invece
di o(t
2
/n
2
).
Dunque
lim
n+
ln
Yn
(t) = t
2
/2 .
Ricorrendo al teorema di Levy-Cramer si conclude la dimostrazione. q.e.d.
Passando al caso di variabili non equidistribuite enunciamo ora, senza dimostrazione, il
Teorema di Liapunov. Sia X
1
, X
2
, ..., X
n
, ... una successione di v.a.
1) mutuamente indipendenti,
2) dotate di media e varianza nite:
E(X
k
) =
k
, V (X
k
) =
2
k
,
3) per le quali inoltre esista d > 0 tale che siano nite le quantit` a E(|X
k
k
|
2+d
) ed anzi, posto
m
n
=
1
+
2
+... +
n
, s
2
n
= V
n
= V (X
1
) +V (X
2
) +... +V (X
n
) ,
risulti
lim
n+
1
s
2+d
n
n
k=1
E(|X
k

k
|
2+d
) = 0 ,
Allora la v.a.
S
n
= X
1
+X
2
+... +X
n
, per la quale E(S
n
) = m
n
e V (S
n
) = s
2
n
,
è asintoticamente normale (m
n
, s
n
) :
lim
n+
P(a
S
n
m
n
s
n
< b) =
1
2
_
b
a
e
t
2
2
dt .
O ancora, per ogni x
lim
n+
P(
n
k=1
(X
k

k
)
_
n
k=1
2
k
< x) =
1
2
_
x
t
2
2
dt .
Si pu` o vedere che il limite è uniforme in x.
Il signicato delle varie condizioni imposte per dedurre il teorema del limite centrale è
sostanzialmente la trascurabilit` a asintotica dei singoli addendi rispetto alla loro somma. Per
questo il teorema ha un ruolo centrale nel Calcolo delle probabilit` a, essendo frequenti le situ-
azioni in cui eetti o perturbazioni signicative sono la risultante di numerosi eetti o pertur-
bazioni, ciascuna delle quali presa isolatamente sarebbe irrilevante.
A questo proposito, si consideri il seguente semplice esempio: sia K una v.a. che assume i
valori 1, 0 con probabilit` a p, q e Z = K p. Allora Z ha media nulla e varianza uguale a quella
di K, ovvero
2
= pq. Siano poi N
1
, N
2
... v.a. aleatorie normali di media nulla e varianza
2
k
tali che
+
k=1
2
k
=
2
< +
e supponiamo che tutte le v.a. Z, N
k
siano mutuamente indipendenti. Posto
R
n1
= N
1
+N
2
... +N
n1
, S
n
= Z +R
n1
,
2
n1
=
n1
k=1
2
k
risulta
E(S
n
) = 0 , s
2
n
= V (S
n
) =
2
+
2
n1
s
2
=
2
+
2
.
Studiamo allora il comportamento asintotico di Y
n
= S
n
/s
n
. Siano
N
(t) = e
t
2
/2
,
K
(t) = pe
it
+q
le funzioni caratteristiche di una normale standard N e di K. Allora
N
k
(t) =
N
(
k
t) = e
2
k
t
2
/2
,
Z
(t) = e
ipt
K
(t) = pe
iqt
+qe
ipt
,
Yn
(t) =
Z
(
t
s
n
)
n1
k=1
N
(
k
t
s
n
) =
= (pe
iqt/sn
+qe
ipt/sn
)e
2
n1
t
2
/2s
2
n
(pe
iqt/s
+qe
ipt/s
)e
2
t
2
/2s
2
,
funzione continua in t e dunque funzione caratteristica di una distribuzione, la quale tuttavia non
è una normale standard, ma è la distribuzione della somma T = U +V di due v.a. indipendenti:
U, che assume i valori q/s, p/s con probabilit` a p, q e V , normale di media nulla e varianza
2
=
2
/s
2
. Dunque
P(T < c) =
p
2
_
cq/s
v
2
2
dv +
q
2
_
c+p/s
v
2
2
dv ,
distribuzione continua, con densit` a
1
2
(pe
(xq/s)
2
2
+qe
(x+p/s)
2
2
) .
In questo caso, ovviamente, la condizione di Liapunov non è soddisfatta:
E(|Z|
2+d
) +
n1
k=1
E(|N
k
|
2+d
)
(
2
+
2
n1
)
(2+d)/2

pq
2+d
+qp
2+d
(
2
+
2
)
(2+d)/2
> 0
e non pu` o quindi tendere a 0.
Se X
1
, X
2
, ...X
n
, ... sono v.a. di Cauchy, indipendenti e di ugual densit` a ((1 + x
2
))
1
, le
loro somme
S
n
= X
1
+X
2
+... +X
n
sono v.a. di Cauchy con densit` a n((n
2
+x
2
))
1
e in questo caso il teorema del limite centrale
non vale.
Capitolo 6
La legge dei grandi numeri
6.1 La legge debole dei grandi numeri
Si dice che per una successione di v.a. X
1
, X
2
..., dotate di media, vale la legge debole dei
grandi numeri se
> 0 lim
n+
P(|
1
n
n
k=1
X
k

1
n
n
k=1
E(X
k
)| < ) = 1 .
Denizione. La successione X
n
di v.a. converge in probabilit` a alla v.a. X se e solo se
> 0 lim
n
P({ | |X
n
() X()| < }) = 1 .
Equivalentemente
> 0 lim
n
P({ | |X
n
() X()| }) = 0 .
Dunque la legge debole dei grandi numeri si pu` o formulare dicendo che
M
n
=
1
n
n
k=1
(X
k
E(X
k
)) 0
in probabilit` a.
6.2 Convergenza quasi certa, convergenza debole e convergenza in legge
La convergenza in probabilit` a è una convergenza pi` u debole della convergenza puntuale (
M
n
() 0), o anche solo della convergenza q.c. (lim
n
P({M
n
0} = 0). Il termine legge
103
104 Capitolo 6. La legge dei grandi numeri
debole deriva dal fatto che debole è la nozione di convergenza coinvolta.
Se X
n
e X sono v.a. (reali) in e F
n
, F sono le loro distribuzioni, allora
Teorema. La convergenza in probabilit` a di X
n
ad X implica la convergenza di F
n
(c) a
F(c) in tutti i punti di continuit` a della funzione F, o, come si dice, implica la convergenza in
distribuzione (ovvero in legge) di X
n
ad X. Si scrive
X
n
D
X .
Osservazione. Si pu` o vedere che X
n
converge ad X in distribuzione se e solo se per ogni
funzione continua e limitata f
E(f(X
n
)) E(f(X)) .
La convergenza delle distribuzioni F
n
a F nei punti di continuit` a di F equivale alla cosiddetta
convergenza debole delle corrispondenti misure di probabilit` a
n
a (leggi delle v.a. X
n
e X).
* * *
Dimostrazione. Per ogni n ed sia
A = A
n
= { X < X
n
< X + } .
Per lipotesi di convergenza in probabilit` a P(A) 1 e P(A
c
) 0 per n +.
Su A
X < c X + < c X
n
< c ,
dunque
P(X < c ) = F(c ) P(X
n
< c) +P(A
c
) = F
n
(c) +P(A
c
)
e passando al limite per n + e poi per 0 si trova succesivamente
F(c ) liminf
n
F
n
(c) , F
(c) = F(c) liminf

n
F
n
(c) .
In modo analogo, su A,
X
n
< c X < c X < c +
e dunque
F
n
(c) F(c +) +P(A
c
) .
e passando al limite per n + e poi per 0 si trova succesivamente
limsup
n
F
n
(c) F(c +) , limsup
n
F
n
(c) F
+
(c) .
Pertanto nei punti di continuit` a di F, dove F
+
(c) = F
(c) si ha eettivamente lim

n
F
n
(c) =
F(c). q.e.d.
Al contrario, la convergenza delle distribuzioni non permette di avere alcuna informazione
sulla convergenza, anche solo in probabilit` a, delle v.a. corrispondenti. Si consideri ad esempio la
successione di v.a. denite nel seguente modo: sia = [0, 1[ con P uguale alla misura standard
di Lebesgue; per ogni intero naturale n dividiamo in 2
n
sottointervalli di uguale lunghezza
I
n
k
= [(k1)/2
n
, k/2
n
[, k = 1, 2, ...2
n
(P(I
n
k
) = 1/2
n
); sia X
n
la v.a. che assume il valore 1 sugli
intervalli di indice dispari e 0 su quelli di indice pari. Tutte le X
n
hanno la stessa distribuzione:
P({X
n
= 1}) = 1/2 e P({X
n
= 0}) = 1/2, dunque F
n
(x) = 0 per x 0, F
n
(x) = 1/2 per
0 < x 1 e F
n
(x) = 1 per x > 1. Tuttavia la successione X
n
non converge in probabilit` a,
anzi nessuna sua sottosuccessione pu` o convergere in probabilit` a: infatti, presi due indici n ed
n +p, X
n
assume un valore costante (0 o 1) su ciascuno dei 2
n
intervalli I
n
k
, dove invece X
n+p
alterna con uguale probabilit` a i due valori sui successivi 2
p
sottointervallini di ampiezza 1/2
n+p
nei quali I
n
k
è suddiviso. Allora
P({ |X
n
X
n+p
| = 1 }) =
2
n
k=1
P({ |X
n
X
n+p
| = 1 } I
n
k
) =
2
n
k=1
1
2
1
2
n
=
1
2
.
Del resto la distribuzione di una v.a. si occupa del peso probabilistico dei valori assunti dalla
v.a., prescindendo dai punti di nei quali tali valori sono assunti. V.a. che assumono valori
diversi in ogni punto, posono avere la stessa distribuzione: ad esempio se X = 0 su A e X = 1
su A
c
, mentre P(A) = P(A
c
) = 1/2, allora Y = 1 X ha la stessa distribuzione di X, ma è
sempre X() = Y ().
Segnaliamo tuttavia, senza dimostrazione, il seguente notevole risultato:
Teorema (Skorohod). Sia F
n
una successione di distribuzioni convergente alla distribuzione
F (F
n
(x) F(x) in ogni punto di continuit` a di F). Allora esiste uno spazio di probabilit` a sul
quale sono denite v.a. X
n
e X, aventi distribuzione rispettivamente F
n
e F, tali che X
n
X
quasi certamente.
& & &
6.3 Il teorema di Markov, i suoi corollari e il teorema di Khinchin
Teorema di Markov.
Sia X
1
, X
2
, ..., X
n
... una successione di v.a. dotate di media e e varianza, e tali che
lim
n+
1
n
2
V (
n
k=1
X
k
) = 0 .
allora per ogni > 0
lim
n+
P(|
1
n
n
k=1
X
k

1
n
n
k=1
E(X
k
)| < ) = 1 ,
cioè per X
1
, X
2
, ... vale la legge debole dei grandi numeri.
Dimostrazione. Introduciamo la v.a.
Z
n
=
1
n
n
k=1
X
k
,
risulta
E(Z
n
) =
1
n
n
k=1
E(X
k
) , V (Z
n
) =
1
n
2
V (
n
k=1
X
k
)
e applicando la disuguaglianza di Chebychev (con > 0 arbitrario, ponendo c = /
_
V (Z
n
))
P(|Z
n
E(Z
n
)| < ) 1 V (Z
n
)/
2
= 1
1
2
1
n
2
V (
n
k=1
X
k
)
che tende a 1 per n +. q.e.d.
Se le v.a. X
1
, X
2
, ... sono a due a due indipendenti la condizione di Markov diventa
lim
n+
1
n
2
n
k=1
V (X
k
) = 0 .
Si ottiene allora immediatamente il seguente corollollario
Teorema di Chebychev. Sia X
1
, X
2
, ... una successione di v.a. a due a due indipendenti
aventi varianza nita e limitata da una stessa costante:
V (X
k
) C , k = 1, 2, ... ,
allora per ogni > 0 risulta
lim
n+
P(|
1
n
n
k=1
X
k

1
n
n
k=1
E(X
k
)| < ) = 1 .
Infatti in tal caso
1
n
2
n
k=1
V (X
k
)
C
n
0 .
Se inoltre tutte le v.a. hanno la stessa media E(X
k
) = allora
lim
n+
P(|
1
n
n
k=1
X
k
| < ) = 1 .
Questo risultato è il fondamento teorico della procedura di stima di una grandezza x mediante
la media aritmetica dei valori ottenuti in n misure indipendenti che, in presenza di perturbazioni
casuali con dispersione nita e limitata, ma in assenza di errori sistematici, forniscono i valori
x
1
, x
2
, ..., x
n
:
x
x
1
+x
2
+... +x
n
n
.
Infatti ad ogni misura indipendente si pu` o associare una v.a. X
k
, supponendo che il suo valor
medio E(X
k
) sia uguale al valore vero x della grandezza e che i valori da essa assunti siano
distribuiti intorno ad x con una dispesione nita, limitata in modo uniforme: V (X
k
) C.
Un caso particolare del Teorema di Chebychev, con v.a. aventi tutte la stessa media, è il
seguente
Teorema di Bernouilli. Si consideri una successione di prove indipendenti, in ciascuna
delle quali vi è una probabilit` a p di successo e q = 1 p di fallimento. Sia F
n
il numero di
successi in n prove e f
n
= F
n
/n la corrispondente frequenza relativa. Allora per ogni > 0
lim
n+
P(|f
n
p| < ) = 1 .
Ovvero la frequenza relativa tende, in probabilit` a, alla probabilit` a p. Il risultato è immediato
osservando che, associando ad ogni prova una v.a. K
j
che assume il valore 1 in caso di successo
e 0 in caso di fallimento, le K
j
sono indipendenti e
E(K
j
) = p , V (K
j
) = pq = p(1 p) 1/4 .
Un poco pi` u generale è il
Teorema di Poisson. Sempre nellipotesi precedente di prove indipendenti, ma con prob-
abilit` a di successo p
j
variabile nelle diverse prove, si ha
lim
n+
P(|f
n
p
1
+p
2
+... +p
n
n
| < ) = 1 .
Infatti, come sopra
E(K
j
) = p
j
, V (K
j
) = p
j
q
j
1/4 .
In tutti i risultati precedenti si considerano v.a. con varianza nita. Il seguente teorema
evita invece tale ipotesi, considerando però soltanto variabili equidistribuite.
Teorema di Khinchin. Se le v.a. X
1
, X
2
, ... sono a due a due indipendenti ed hanno la
stessa distribuzione con media nita , allora per ogni > 0
lim
n+
P(|
1
n
n
k=1
X
k
| < ) = 1 .
* * *
Dimostrazione. Dato > 0 ed n intero positivo, per k = 1, 2...n scomponiamo X
k
nel modo
seguente:
X
k
= Y
k
+Z
k
,
avendo posto
_
Y
k
= X
k
Z
k
= 0 se |X
k
| < n
Y
k
= 0 Z
k
= X
k
se |X
k
| n
.
Per ipotesi tutte le v.a. hanno la stessa distribuzione, quella ad esempio di X = X
1
, con media
nita . Dunque converge lintegrale
a =
_
|X|dP .
Le v.a. Y
k
hanno media e varianza nite:
n
= E(Y
k
) =
_
|X|<n
XdP per n + ,
2
n
= V (Y
k
) =
_
|X|<n
X
2
dP
2
n
n
_
|X|<n
|X|dP na .
Fissato > 0 arbitrario, per n > sarà |
n
| < e per la disuguaglianza di Chebychev
P(|
1
n
n
k=1
Y
k

n
| )
a
2
.
Infatti V = V (1/n
n
k=1
Y
k
) = n/n
2
2
n
a e, se
2
=
2
V , si ha
2
= V/
2
a/
2
.
Allora, per n > risulta
P(|
1
n
n
k=1
Y
k
| 2)
a
2
.
Osserviamo inoltre che, per n >
opportuno,
nP(Z
k
= 0) = nP(|X| n)
_
|X|n
|X|dP
2
,
in considerazione della convergenza di
_
|X|n
|X|dP a
_
|X|dP, e dunque P(Z

k
= 0) /n.
Allora, essendo Z
k
0,
P(
1
n
n
k=1
Z
k
= 0) = P(
n
k=1
Z
k
= 0)
n
k=1
P(Z
k
= 0)
k
/n = .
Poniamo
A
n
= {|
1
n
n
k=1
X
k
| 2} , B
n
= {|
1
n
n
k=1
Y
k
| 2} , C
n
= {
1
n
n
k=1
Z
k
= 0} .
Ovviamente
A
n
(B
n
C
c
n
) C
n
e dunque
P(A
n
) P(B
n
) +P(C
n
)
a
2
+ .
Per larbitrarietà di e si ha lim
n
P(A
n
) = 0 e il teorema è dimostrato. q.e.d.
& & &
6.4 La legge forte dei grandi numeri
Si dice che per una successione X
1
, X
2
, ... di v.a. dotate di media vale la legge forte dei
grandi numeri se
P( | lim
n+
|
1
n
n
k=1
X
k
()
1
n
n
k=1
E(X
k
)| = 0) = 1 .
Denizione. Le v.a. X
n
convergono quasi certamente (q.c.) (a.s. in inglese: almost
surely), o con probabilit` a 1, alla v.a. X se e solo se
P({ | X
n
() X() } = 1 ,
ovvero
P({ | X
n
() X() } = 0 .
Osservazione. In teoria della misura si usano le espressioni equivalenti quasi ovunque (q.o.)
e almost everywhere (a.e.).
Dunque vale la legge forte dei grandi numeri se e solo se
M
n
=
1
n
n
k=1
(X
k
E(X
k
)) 0
quasi certamente.
Osservazione. Si dimostra che la convergenza quasi certa implica la convergenza in proba-
bilit` a. Invece la convergenza in probabilit` a di X
n
a X non implica che X
n
X q.c. Tuttavia
si pu` o sempre trovare una sottosuccessione X
n
k
che converge q.c. ad X.
* * *
Teorema. Sia X
n
convergente q.c. ad X . Allora X
n
converge in probabilit` a ad X .
Dimostrazione. Sia C linsieme sul quale X
n
converge ad X:
C = { | knp n |X
n
() X()| <
1
k
} .
Allora, ssato comunque j, linsieme
A
j
=
n
pn
{ |X
p
X|
1
j
}
è contenuto nel complementare di C (se A
j
, per inniti indici p si ha |X
p
()X()| 1/j e
non vi pu` o essere convergenza in ). Essendo P(C) = 1, si ha P(A
j
) = 0. Ma per la decrescenza
dellunione al crescere di n
0 = P(A
j
) = lim
n
P(
pn
{ |X
p
X|
1
j
}) lim
n
P({ |X
n
X|
1
j
}) .
Fissato , sia j tale che 1/j , allora
lim
n
P({ |X
n
X| }) = 0
e la convergenza in probabilit` a è stabilita. q.e.d.
Osservazione. Se X
n
X in probabilit` a, non necessariamente X
n
X q.c. Basta fornire un
controesempio: sia = [0, 1[ con P uguale alla misura di Lebesgue standard su tale intervallo;
sia
n,k
=
[(k1)/n,k/n[
n = 1, 2, ... , k = 1, 2, ..., n .
Ordiniamo queste funzioni caratteristiche formando la successione X
p
=
n,k
, p = 1 +2 +...(n
1) + k . Per ogni [0, 1[ vi sono inniti indici p per i quali X
p
() = 1 e inniti per i quali
X
p
() = 0 : quindi la successione X
p
non converge in nessun punto. Ma ovviamente per ogni
0 < < 1
P({ |
n,k
0| }) =
1
n
0
e le v.a. X
p
tendono a 0 in probabilit` a.
Teorema. Sia X
n
convergente in probabilit` a ad X . Allora esiste una sottosuccessione X
n
k
convergente q.c. ad X .
Dimostrazione. Siano
n
e
n
numeri positivi tali che
lim
n+
n
= 0 e
+
n=1
n
< + .
Selezioniamo, in virt` u dellipotesi di convergenza in probabilit` a, degli indici n
1
< n
2
< ... tali
che
P({|X
n
k
X|
k
}) <
k
.
Siano inne
A
j
=
+
k=j
{|X
n
k
X|
k
} e B =
+
j=1
A
j
.
Si ha A
j+1
A
j
e, per la continuit` a di P
+
k=j
k
P(A
j
) P(B) .
Poiche il resto della serie tende a 0 si ottiene P(B) = 0 . Ma
B lim
k
X
n
k
() = X() .
Infatti se / B esiste j tale che / A
j
, cioè per ogni k j
/ {|X
n
k
X|
k
} ovvero |X
n
k
() X()| <
k
.
Ma
k
0 e il teorema è dimostrato.
Osservazione. Spesso è importante considerare convergeze di v.a. di tipo integrale,
principalmente in L
p
, p 1:
X
n
X in L
p
|X
n
() X()|
p
dP() 0 .
`
E ben noto in teoria generale dellintegrazione che per misure nite, quali ovviamente sono le
misure di probabilit` a, se X
n
X in L
p
e q < p allora X
n
X in L
q
e che X
n
X in L
p
allora
esiste una sottosuccessione X
n
k
convergente quasi certamente (anche se lintera successione in
generale non converge q.c.)
Inoltre la convergenza in L
p
implica la convergenza in probabilit` a: per la disuguaglianza di
Markov si ha
P({ |X
n
X| }) = P({ |X
n
X|
p

p
})
E(|X
n
X|
p
)
p
0 .
& & &
Prima di riportare alcuni teoremi fondamentali sulla legge dei grandi numeri, premettiamo
qualche risultato di grande rilievo ed utilit` a in numerose questioni.
Lemma di Cantelli. Data una successione di eventi A
n
tali che
+
n=1
P(A
n
) < + ,
posto
A = lim
n
A
n
=
n
p>n
A
p
= {A
n
i.o. } ,
si ha P(A) = 0.
Osservazione. i.o. signica innitely often , ovvero per inni valori dellindice n. Infatti A
se e solo se A
n
per inniti valori di n.
Dimostrazione. Se E
n
=
p>n
A
p
, allora E
n
E
n+1
, cioè la successione E
n
è generalmente
decrescente. Pertanto
P(A) = lim
n
P(E
n
), ma P(E
n
)
p>n
P(A
p
) 0 per n + . q.e.d.
Il lemma di Cantelli pu` o essere integrato dal seguente risultato dovuto a Borel:
Lemma. Se gli eventi A
n
sono mutuamente indipendenti e
n
P(A
n
) = + ,
allora, posto
A = lim
n
A
n
=
n
p>n
A
p
= {A
n
i.o. } ,
si ha P(A) = 1.
Dimostrazione. Conviene considerare il complementare:
P(A
c
) = P(
n
p>n
A
c
p
)
n
P(
p>n
A
c
p
) = 0 .
Perche per ogni n, per lindipendenza delle A
p
, si ha
P(
p>n
A
c
p
) =
p>n
(1 P(A
p
)) = 0 ,
in virt` u della divergenza della serie
p>n
P(A
p
). q.e.d.
Ricordiamo infatti che
n
(1 x
n
) = exp(
n
ln(1 x
n
)) 0 se
n
ln(1 x
n
)) ,
come avviene certamente se la serie maggiorante
n
x
n
diverge a .
Linsieme dei due risultati (lemma di Cantelli e lemma di Borel) sono spesso presentati con-
giuntamente come lemma di Borel-Cantelli
Molti casi interessanti di eventi per i quali si sa a priori che si vericano o con probabilit` a 1
o con probabilit` a 0 sono forniti dalla legge zero-uno di Kolmogorov.
Premettiamo alcune denizioni.
Denizione. Sia {X
una famiglia arbitraria di v.a. Esse si dicono (mutuamente) in-

dipendenti se e solo se ogni sottofamiglia nita {X
1
, X
2
, ...X
N
} è costituita da v.a. indipendenti,
dunque se le -algebre (X
1
), (X
2
), ...(X
N
) sono indipendenti.
Denizione. Sia {X
una famiglia arbitraria di v.a. Con (X
| ) si indica la
pi` u piccola -algebra generata dalla famiglia di insiemi {X
1
(B) | , B B}.
Denizione. Sia X
1
, X
2
, ...X
n
, ... una successione di v.a. La -algebra
=
+
n=1
(X
n
, X
n+1
...)
si dice -algebra di coda della successione.
Teorema zero-uno di Kolmogorov. Se le v.a. X
n
sono indipendenti, è banale, cioè se
A allora P(A) = 0 oppure P(A) = 1.
Dimostrazione. Sia A . Allora per ogni n si ha A (X
n+1
, X
n+2
, ...). Ma le famiglie
{ X
1
, X
2
...X
n
} e { X
n+1
, X
n+2
, ... } sono indipendenti e quindi per ogni n, A è indipendente
da {X
1
, X
2
, ...X
n
} e dunque è indipendente da {X
1
, X
2
, ...}. Ma A (X
1
, X
2
, ...) e dunque A
è indipendente da se stesso: P(A) = P(A A) = P(A)
2
e P(A) = 0 oppure P(A) = 1. q.e.d.
Osservazione. Eventi concernenti le v.a.
X
= liminf
n
X
n
, X
= limsup
n
X
n
, X = lim
n
X
n
,
appartengono a . Infatti, per ogni n:
(X
) , (X
) , (X) (X
n
, X
n+1
, ...) .
Ad esempio
{ liminf
n
X
n
c } = { sup
n
inf
pn
X
p
c } =
n
pn
{ X
p
c }
e lultima unione appartiene a (X
n
, X
n+1
, ...).
Teorema (criterio di convergenza q.c.). Se, per ogni intero positivo r, si ha
+
k=1
P(|X
n
X|
1
r
) < + ,
allora X
n
X quasi certamente.
Dimostrazione. Sia C linsieme dove X
n
converge ad X e quindi C
c
linsieme dove X
n
non
converge ad X. Per C
c
rn > |X
n
() X()|
1
r
,
ovvero, posto A
r
n
= {|X
n
X| 1/r },
C
c

r

n>
A
r
n
=
r
A
r
, A
r
= lim
n
A
r
n
.
(In eetti i due insiemi coincidono).
Per lipotesi e il lemma di Cantelli P(A
r
) = 0. Allora, per la -subadditivit` a di P, si ha
P(C
c
) = 0. q.e.d.
Teorema (generalizzazione del precedente criterio di convergenza q.c.). Se, per
ogni intero positivo r, esiste una successione di interi 1 = n
1
< n
2
< ...(+) tale che
+
k=1
P( max
n
k
n<n
k+1
|X
n
X|
1
r
) < + ,
allora X
n
X quasi certamente.
Dimostrazione. Indicando sempre con C
c
linsieme di non convergenza e ponendo E
r
k
= {max
n
k
n<n
k+1
|X
n
X| 1/r}, per C
c
rn
k
n > n
k
|X
n
() X()|
1
r
.
Dunque, se n è tale che n
k
< n
p
n < n
p+1
, E
r
p
e
C
c

r

k

p>k
E
r
p
=
r
E
r
, E
r
= lim
n
E
r
n
.
Come nel teorema precedente, per lipotesi e il lemma di Cantelli P(E
r
) = 0. Allora, per la
-subadditivit` a di P, si ha P(C
c
) = 0. q.e.d.
Disuguaglianza di Kolmogorov. Siano X
1
, X
2
...X
k
...X
n
v.a. mutuamente indipendenti
con medie
k
e varianze
2
k
nite. Allora, per ogni > 0, posto
A
k
= {|
k
j=1
(X
j

j
)| < } , E
0
= A
1
A
2
... A
n
,
si ha
P(E
0
) = P( max
1kn
|
k
j=1
(X
j

j
)| < ) 1
1
2
n
k=1
2
k
.
Dimostrazione. Non è restrittivo supporre per semplicità
k
= 0 (altrimenti si ragionerebbe
sulle v.a. Y
k
= X
k

k
). Poniamo
S
k
=
k
j=1
X
j
e dunque A
k
= {|S
k
| < } .
Poniamo inoltre
E
k
= A
1
A
2
... A
k1
A
c
k
,
allora k è il primo indice per il quale |S
j
| , gli eventi E
k
sono disgiunti e E
c
0
=
n
k=1
E
k
.
Dunque
P( max
1kn
|S
k
| ) =
n
k=1
P(E
k
) .
Ora
V (S
n
) =
_
S
2
n
dP =
n
k=0
_
E
k
S
2
n
dP
n
k=1
_
E
k
S
2
n
dP =
=
n
k=1
_
E
k
(S
2
k
+ 2
j>k
S
k
X
j
+ 2
i>j>k
X
i
X
j
+
j>k
X
2
j
)dP
n
k=1
2
P(E
k
) ,
perchè
j>k
X
2
j
0, S
2
k
E
k

2
, le v.a. X
j
, X
i
sono indipendenti da S
k
E
k
,
E
k
e E(X
i
) =
E(X
j
) = 0. Pertanto
P( max
1kn
|S
k
| )
1
2
V (S
n
) . q.e.d.
Siamo ora in grado di dimostrare un risultato fondamentale sulla legge forte dei grandi nu-
meri.
Teorema di Kolmogorov. Se la successione X
1
, X
2
, ... di v.a. mutuamente indipendenti
soddisfa la condizione
+
k=1
V (X
k
)
k
2
< + ,
allora per essa vale la legge forte dei grandi numeri.
* * *
Dimostrazione. Poniamo
k
= E(X
k
),
2
k
= V (X
k
) e
S
n
=
n
k=1
(X
k

k
) , s
n
=
1
n
S
n
.
In virt` u del secondo criterio di convergenza visto sopra, posto per ogni intero q
P
q
= P(max
n
|s
n
| , 2
q
n < 2
q+1
) ,
basta far vedere che per ogni > 0 si ha
+
q=1
P
q
< + .
Ma, ricorrendo alla disuguaglianza di Kolmogorov, si ottiene
P
q
P(max
n
|S
n
| 2
q
, 2
q
n < 2
q+1
)
1
(2
q
)
2
j<2
q+1
2
j
e dunque
+
q=1
P
q

+
q=1
1
(2
q
)
2
j<2
q+1
2
j
=
=
1
2
+
j=1
2
j
2
q+1
>j
2
2q
.
Se 2
s
j < 2
s+1
, allora
2
q+1
>j
2
2q
=
+
q=s
=
4
3
2
2s
16
3j
2
e pertanto
+
q=1
P
q

16
3
2
+
j=1
2
j
j
2
< + ,
per lipotesi del teorema. q.e.d.
& & &
Segue immediatamente come corollario il seguente teorema, gi` a dimostrato nel 1909:
Teorema di Borel. Si consideri uno schema binomiale di prove indipendenti, ciascuna con
probabilit` a p di successo e q = 1 p di fallimento. Sia f
n
= la frequenza relativa dei sucessi
nelle prime n prove. Allora
P( lim
n+
f
n
= p) = 1 .
Infatti la serie
+
k=1
pq
k
2
converge.
Ricordiamo inne il seguente risultato, gi` a segnalato precedentemete, anchesso dovuto a
Kolmogorov.
Teorema. Per una successione di v.a. X
k
identicamente distribuite, cioè tutte con la
distribuzione uguale a quella di una stessa v.a. X (X
k
X), e mutuamente indipendenti vale
la legge forte dei grandi numeri se esse ammettono valor medio nito:
_

|X|dP < + P( lim
n+
X
1
+X
2
+... +X
n
n
=
_

XdP) = 1 ,
e viceversa, se la loro media aritmetica (X
1
+X
2
+... +X
n
)/n converge quasi certamente ad un
limite nito, allora esse ammettono valor medio nito, uguale a tale limite:
P( lim
n+
X
1
+X
2
+... +X
n
n
= ) = 1 , R
_

|X|dP < + e =
_

XdP .
* * *
Dimostrazione. Cominciando dalla seconda parte, osserviamo che X è integrabile se (e solo
se)
+
n=1
P({|X| n }) + .
Infatti in tal caso, essendo
+
n=0
P({|X| n }) =
+
n=0
+
k=n
P({k |X| < k + 1 }) =
+
k=0
(k + 1)P({k |X| < k + 1 }) ,
la v.a. discreta F() = (k + 1) per {k |X| < k + 1 }, dominante X, risulta integrabile e
basta allora applicare il teorema sulla convergenza dominata. (Inversamente se X è integrabile,
allora, essendo F 1 |X|, anche F è integrabile e la prima serie converge).
Ma, ponendo S
n
= X
1
+X
2
+... +X
n
, si ha
S
n
n
q.c.
X
n
n
=
S
n
S
n1
n
=
S
n
n

n 1
n
S
n1
n 1
0 q.c.
e allora, se A
n
= {|X
n
| n } = {|X
n
/n| 1 }, pu` o risultare che A
n
si verichi per inniti
indici n solo con probabilit` a 0:
P(
k

nk
A
n
) = 0 .
Allora, in considerazione del lemma di Borel-Cantelli e poiche X
n
X, deve essere
+
n=1
P({|X
n
| n }) =
+
n=1
P({|X| n }) < +
ed X ammette valor medio nito E(X). Quando avremo dimostrato la prima parte della tesi
risulterà, in virt` u dellunicit` a del limite, che necessariamente = E(X).
Per quanto concerne la prima parte, osserviamo in primo luogo che non è restrittivo supporre
E(X) = 0, altrimenti ragioneremmo sulla successione X
n
E(X). Usiamo poi un metodo di
troncamento simile a quello impiegato nella dimostrazione del teorema di Khintchin, ponendo
Y
n
=
_
X
n
se |X
n
| < n
0 se |X
n
| n
Allora, essendo le X
n
identicamente ditribuite (con la distribuzione di X):
V (Y
n
) E(Y
2
n
)
n
k=0
(k + 1)
2
P({k |X| < k + 1 })
e quindi
+
n=1
V (Y
n
)
n
2

+
n=1
1
n
2
n
k=0
(k + 1)
2
P({k |X| < k + 1 }) =
=
+
k=0
(k + 1)
2
P({k |X| < k + 1 })
nmax(k,1)
1
n
2
4
n
k=0
(k + 1)P({k |X| < k + 1 } < + ,
perche, per k 1:
nk
1
n
2

1
k
2
+
n>k
1
n(n 1)
=
1
k
2
+
n>k
(
1
(n 1)

1
n
) =
1
k
2
+
1
k

2
k
e 2(k + 1)
2
/k 4(k + 1). Dunque per la successione Y
n
vale la legge forte dei grandi numeri e
dunque, posto
k
= E(Y
k
):
P( lim
n+
(Y
1
1
) + (Y
2
2
) +...(Y
n

n
)
n
= 0) = 1 .
Lesistenza di E(X) nita e il fatto che X
n
ha la stessa distribuzione di X implicano che,
indicando con
n
la funzione caratteristica di |x| < n:
n
=
_
|Xn|<n
X
n
dP =
_
X
n
n
(X
n
)dP =
=
_
X
n
(X)dP =
_
|X|<n
XdP 0 .
Dunque anche
lim
n+
1
+
2
+...
n
n
= 0 .
Sia C lnsieme dove per inniti valori dellindice n si ha X
n
= Y
n
:
C =
N

nN
{ X
n
= Y
n
} .
Allora risulta
P(C) = lim
N
P(
nN
{ X
n
= Y
n
}) ,
P(
nN
{ X
n
= Y
n
})
nN
P({ X
n
= Y
n
}) =
nN
P({|X
n
| n}) 0 ,
perche X è integrabile e quindi la serie
n
P({|X
n
| n}) converge. Dunque P(C) = 0.
Ma sul complementare C
c
, che ha probabilit` a 1, si ha denitivamente X
n
= Y
n
e dunque
lim
n+
Y
1
+Y
2
+...Y
n
n
= lim
n+
X
1
+X
2
+...X
n
n
= 0 = E(X) .
q.e.d.
& & &
Osservazione. La legge dei grandi numeri, debole o forte, non fornisce alcuna certezza sul
comportamento asintotico delle medie aritmetiche. I risultati indicano soltanto che la proba-
bilit` a di deviazioni signicative dal valor medio sono trascurabili. Nel caso della legge debole si
aerma che la probabilit` a di uno scostamento, comunque pressato, della media aritmetica dal
suo valor medio pu` o essere resa arbitrariamente piccola per n sucientemente grande. Nel caso
della legge forte si aerma che la probabilit` a di non convergenza della dierenza della media
aritmetica dal suo valor medio è nulla (ma non impossibile).
Anche se questi risultati suggeriscono di interpretare la probabilit` a come limite della fre-
quenza, essi non dimostrano che la probabilit` a si ottiene come limite (nel senso ordinario) della
frequenza.
Bibliograa
[1] BILLINGSLEY, P.: Convergence of Probability Measures. John Wiley & Sons, New York,
1968.
[2] BORKAR, V.S.: Probability Theory. Springer-Verlag, New York, 1995.
[3] CRAM
ER, H.: Mathematical Methods of Statistics. Princeton University Press, Princeton,

1971.
[4] DOOB J.L.: Measure Theory. Springer-Verlag, New York 1993.
[5] GALAMBOS, J.: Introductory Probability Theory. Marcel Dekker, Ney York, 1984.
[6] GALAMBOS, J.: Advanced Probability Theory. Marcel Dekker, Ney York, 1988.
[7] GIHMAN, I.I.-SKOROHOD, A.V.: The Theory of Stochastic Processes I. Springer-Verlag,
Berlin, 1974.
[8] GNEDENKO, B.: The Theory of Probability. Mir Publishers, Moscow, 1973.
[9] KOLMOGOROV, A.N.: Grundbegrie der Wahrscheinlichkeits-Rechnung. Verlag von
Julius Springer, Berlin,1933.
[10] KSENDAL, B.: Stochastic Dierential Equations. Springer-Verlag, Berlin, 1989.
[11] NEGRO, A.: Teoria della Misura. Quaderni del Dipartimento di Matematica, Universit` a
di Torino, 2001.
[12] STONE, M.H.: The Theory of Representations for Boolean Algebras. Trans. Amer. Math.
Soc. 40 (1936), pp. 37-111.
[13] VAN DER WAERDEN, B.L.: Mathematical Statistics. Springer-Verlag, Berlin, 1969.
[14] VENTSEL, A.D.: Teoria dei processi stocastici. Editori Riuniti Edizioni Mir, Roma, 1983.
120

Elem CP

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Elem CP

Uploaded by

Copyright:

Available Formats

Prefazione

, ...} , ai quali verr`a assegnata una probabilit` a,

= 0, 1, 2, ..., n, con le probabilit` a

npq) ln(1 +x(n)

npq) ln(1 x(n)

< a < b < b

, per il teorema del limite locale

npq 0. Per la convergenza uniforme delle f

sono semplicemente gli interi k o i valori distinti x

XdP. In tal caso E(X) = .

H(X)dP, mentre la seconda, per la additivit` a dellintegrale

Silov), oppure exp(2itx) (L.Schwatz, E.M.Stein-G.Weiss), oppure

2 (F.Riesz-B.Sz.Nagy, A.Kolmogorov-S.Fomin, K.Yosida).

(c) = F(c) liminf

(c) si ha eettivamente lim

|X|dP, e dunque P(Z

una famiglia arbitraria di v.a. Esse si dicono (mutuamente) in-

una famiglia arbitraria di v.a. Con (X

ER, H.: Mathematical Methods of Statistics. Princeton University Press, Princeton,

You might also like