Statistic A

Universit degli Studi di Roma Tor Vergata
Facolt di Scienze MM.FF.NN. Corso di laurea in Biotecnologie
Appunti del corso di

STATISTICA
Barbara Pacchiarotti
ultimo aggiornamento 21 maggio 2010
Indice
Distribuzioni di frequenze
1.1 1.2 1.3 Variabili e dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzioni di frequenze. Classi 1.3.1 1.3.2 Istogrammi
6
6 6 8 8 10
Rappresentazione graca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrammi a barre
Indici di posizione e di dispersione

2.1 Indici di posizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 2.1.2 2.2 2.2.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mediana, quartili, percentili
11
11 11 12 15 15
Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianza e scarto quadratico medio . . . . . . . . . . . . . . . . . . .
Correlazione tra variabili e regressione lineare

3.1 3.2 Correlazione tra variabili. Scatterplot . . . . . . . . . . . . . . . . . . . . . . Metodo dei Minimi Quadrati. Regressione Lineare . . . . . . . . . . . . . . .
18
18 20
Introduzione alla probabilit

4.1 4.2 4.3 Spazi di probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spazi di probabilit niti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spazi di probabilit inniti . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
24 26 28
Probabilit condizionata, indipendenza

5.1 5.2 5.3 Probabilit condizionata 5.1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Intersezione di eventi. Regola del prodotto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
30 31 32 32
Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indipendenza
Variabili aleatorie
6.1 6.2 Generalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variabili aleatorie nite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 6.2.2 6.3 6.3.1 Distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media e varianza Distribuzione
35
35 35 35 39 40 40
Variabili aleatorie numerabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.2 6.4 6.4.1 6.4.2 6.5 6.6
Media e Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 42 42 43 44 45
Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media e varianza
Variabili aleatorie indipendenti [cenni] . . . . . . . . . . . . . . . . . . . . . . Propriet della media e della varianza . . . . . . . . . . . . . . . . . . . . . .
Alcune distribuzioni famose

7.1 7.2 7.3 7.4 7.5 7.6 Distribuzione di Bernoulli Distribuzione Binomiale Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
47 47 50 51 51 52
Distribuzione Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzione uniforme (continua) . . . . . . . . . . . . . . . . . . . . . . . . Distribuzione esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Il modello Normale
8.1 8.2 8.3 Distribuzione Normale o Gaussiana . . . . . . . . . . . . . . . . . . . . . . . Il Teorema Limite Centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . Applicazioni del TLC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.1 8.3.2 8.4 Approssimazione della binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Approssimazione della media campionaria
53
53 60 61 61 63 63 63 64
Alcune distribuzioni legate alla normale . . . . . . . . . . . . . . . . . . . . . 2 8.4.1 La distribuzione (chi quadro) . . . . . . . . . . . . . . . . . . . . . 8.4.2 La distribuzione di Student . . . . . . . . . . . . . . . . . . . . . . .
Stima dei parametri

9.1 9.2 Modelli statistici Stima puntuale 9.2.1 9.2.2 9.3 9.3.1 9.3.2 9.3.3 9.3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
68 69 69 71 72 72 75 76 77
Stimatori e stima puntuale della media . . . . . . . . . . . . . . . . . Stima puntuale della varianza
Stima per intervalli. Intervalli di condenza
Stima della media di una popolazione normale con varianza nota
Stima della media di una popolazione normale con varianza incognita Stima della media di una popolazione qualsiasi per grandi campioni . Stima di una proporzione per grandi campioni . . . . . . . . . . . . .
10 Test d'ipotesi
10.1 Generalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2 Test sulla media per una popolazione normale 10.2.2 Varianza incognita . . . . . . . . . . . . . . . . . 10.2.1 Varianza nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Test sulla media di una popolazione qualsiasi per grandi campioni . . . . . . 10.4 Test su una frequenza per grandi campioni . . . . . . . . . . . . . . . . . . . 2 10.5 Il test chi quadro ( ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5.1 Il test chi quadro di adattamento . . . . . . . . . . . . . . . . . . . . 10.5.2 Il test chi quadro di indipendenza . . . . . . . . . . . . . . . . . . . .
79
79 83 83 87 88 89 90 90 95
Introduzione
In questo corso tratteremo argomenti che appartengono a tre discipline distinte. 1.
STATISTICA DESCRITTIVA
2. CALCOLO DELLE PROBABILIT 3. STATISTICA INFERENZIALE

Scopo di questa introduzione dare una prima idea di cosa siano e che relazioni abbiano tra loro. Tutti abbiamo un'idea di cosa sia un'indagine statistica:
censimento decennale della popolazione da parte dell'ISTAT; sondaggio d'opinione; previsioni e proiezioni di risultati elettorali; ispezione di un campione di pezzi da un lotto numeroso per avere un controllo della qualit media di un prodotto; sperimentazione di un nuovo prodotto su un campione di casi (nuovo farmaco su pazienti, nuovo carburante su automobili, etc...).
In breve, in Statistica, vengono rilevate grandezze o caratteri relative ad una popolazione intesa in senso lato come collezioni di individui o oggetti, meglio ancora di misure. Veniamo ora alle dierenze tra Statistica Descrittiva e Inferenziale. Ad esempio volendo vedere come i cittadini di un paese ripartiscono i voti tra i vari partiti vi sono due modi: 1. si chiede a ciascun individuo di esprimere il suo voto, quindi si elaborano i dati Ci si trover di fronte ad una mole ingenti di dati da elaborare che (percentuali varie).
daranno esattamente la ripartizione cercata. 2. si interroga un numero limitato di cittadini (sondaggio). Una volta, per, che si hanno i dati (molti meno che nel caso precedente) occorrer domandarsi quanto i dati relativi al sondaggio siano signicativi e che cosa a partire da essi si possa dire (inferire) sul voto dell'intera popolazione. Il primo una caso di
Statistica Descrittiva, che quindi si occupa di elaborare, orStatistica Inferenziale e pone
dinare e sistemare un insieme di dati. L'altro un caso di
una questione pi delicata: cio in che modo i risultati possono estendersi all'intera popolazione. Si osservi che due sondaggi distinti darebbero, probabilmente, risultati diversi, in altre parole il risultato del sondaggio casuale: ecco perch prima di arontare i problemi di tipo inferenziale sar necessario analizzare la struttura dei fenomeni casuali (o aleatori). Ci l'oggetto del
Calcolo delle Probabilit.
Capitolo 1 Distribuzioni di frequenze
1.1 Variabili e dati

La Statistica riguarda i metodi scientici per raccogliere, ordinare, riassumere e presentare i dati, per trarre valide conclusioni ed eventualmente prendere ragionevoli decisioni sulla base di tale analisi.
Denizione 1.1.1. Le variabili oggetto di osservazione statistica si classicano in tre tipi,

a seconda del tipo di valori che esse assumono.
variabili
numeriche categoriche
discrete continue
Una variabile si dice numerica se i valori che essa assume sono numeri, categorica altrimenti. Una variabile numerica si dice discreta se l'insieme dei valori che essa a priori pu assumere nito o numerabile, continua se l'insieme dei valori che essa a priori pu assumere l'insieme dei numeri reali
o un intervallo
I R. N,
numero di nati in una famiglia.
Esempio 1.1.2. [Variabile discreta] Esempio 1.1.3. [Variabile continua]
N = 0, 1, . . . H R.
H,
altezza in centimetri di un individuo.
Esempio 1.1.4. [Variabile categorica]

blu, verde,...
C, Colore degli occhi di un individuo. C =marrone,
Ci occuperemo per il momento di dati rappresentati da variabili numeriche. Si dicono
grezzi i dati che non sono stati ordinati numericamente. Una serie un ordinamento di dati
grezzi in ordine crescente o decrescente. La dierenza tra il pi grande e il pi piccolo si dice campo di variazione. Per esempio se il peso maggiore tra 100 studenti 74kg e il peso minore 60kg allora il campo di variazione 14kg .
1.2 Distribuzioni di frequenze. Classi

Per studiare i dati a disposizione occorre costruire una distribuzione di frequenze: ovvero una tabella dove in una colonna si mettono i valori assunti dalla variabile e in un'altra
il numero delle volte che tali valori vengono assunti (frequenze).
Ancora pi interessanti
sono le frequenze relative ovvero il numero delle volte in cui un certo valore compare diviso il totale dei dati a disposizione oppure le frequenze percentuali ottenute dalle frequenze relative moltiplicando per 100. Pertanto la somma delle frequenze d il totale delle osservazioni, la somma delle frequenze relative d come somma 1 e la somma delle frequenze relative percentuali d come somma 100. Vediamo quest'esempio relativo al peso in chilogrammi di 10 studenti.
Quando si hanno a disposizione un gran numero di dati si pu costruire una distribuzione di frequenze in classi e determinare il numero di individui appartenenti a ciascuna classe, tale numero detto frequenza della classe. Consideriamo la variabile di 100 studenti.
peso di un gruppo
P Peso 64 < P 66 < P 68 < P 70 < P 72 < P
in
kg 66 68 70 72 74
Numero di studenti 5 18 42 27 8 100
In questo caso si parla di dati raggruppati. Se avessimo considerato tutti e cento i pesi avremmo avuto maggiori informazioni, ma avremmo avuto pi dicolt a maneggiare la tabella. Bench il procedimento distrugga molte delle informazioni contenute nei dati originari, tuttavia si trae un importante vantaggio dalla visione pi sintetica che si ottiene. Si chiama ampiezza della classe la dierenza tra il valore massimo e il valore minimo. Si chiama
valore centrale della classe la semisomma degli estremi. Si noti, che le classi sono state prese aperte a sinistra e chiuse a destra. Questo non un caso, ma un modo abbastanza standard
di procedere ed il motivo esula dallo scopo di queste note. Per scopi di ulteriore analisi matematica tutte le osservazioni di una classe verranno fatte coincidere con il valore centrale della classe. Per esempio tutti i dati della classe 64-66 saranno considerati pari a 65kg . Riassumendo, date un certo numero di osservazioni grezze per formare una distribuzione di frequenze occorre:
determinare il campo di variazione, dopo aver ordinati tutti i dati; dividere il campo di variazione in classi, eventualmente di ampiezza nulla, il che equivale a considerare tutti i valori senza raggrupparli.
Data l'importanza che, vedremo, rivestono i valori centrali fare in modo che questi coincidano quanto pi possibile con valori assunti realmente.
1.3 Rappresentazione graca

Come rappresentare una distribuzione di frequenze? I modi standard sono gli istogrammi per le variabili numeriche, i diagrammi a barre per le variabili categoriche.
1.3.1
Un
Istogrammi
x con punto medio nel valore centrale della classe e altezza proporzionale
istogramma consiste in un insieme di rettangoli adiacenti (ognuno relativo ad una classe)
aventi base sull'asse
alla frequenza della classe e tale che l'area del rettangolo sia pari alla frequenza relativa o percentuale della classe. In questo modo se si sommano le aree di tutti i rettangoli ottenuti si ottiene un valore sso. Precisamente 1 se si sta costruendo l'istogramma con le frequenze relative (si ricorda che la somma delle frequenze relative pari a 1), 100 se si sta costruendo l'istogramma con le frequenze percentuali (si ricorda che la somma delle frequenze percentuali pari a 100). Quindi le altezze dei vari rettangoli si ottengono dividendo le frequenze relative o percentuali per l'ampiezza della classe. Se i dati sono interi, in genere, si prendono classi di ampiezza unitaria, centrate nel valore intero. In tal caso l'altezza dei rettangoli coincide con le frequenze (dato che l'ampiezza della classe 1)! Vediamo alcuni esempi.
Esempio 1.3.1. Si consideri la seguente distribuzione di frequenze:
D 110 < D 130 130 < D 150 150 < D 170 170 < D 210
Frequenze 20 40 60 80 Tot. 200
Riferendosi alla tabella in questione vogliamo determinare le frequenze percentuali e costruire il relativo istogramma. Dapprima completiamo la tabella con le frequenze richieste.
D 110 < D 130 130 < D 150 150 < D 170 170 < D 210
Freq. percentuali 10% 20% 30% 40% 100% gli estremi delle classi; poi ricordando che l'area di ogni per la terza
Quindi riportiamo sull'asse
rettangolo deve dare le frequenze percentuali, si ha: per la prima classe l'altezza
110) = 0.5, per la seconda 20/(150 130) = 1.0, quarta 40/(210 170) = 1.0. Da cui,
10/(130 30/(170 150) = 1.5 e per la
1.5 1 0.5 1
110
130
150
170
210
Esempio 1.3.2. La tabella mostra la distribuzione di frequenze per il dato

gli in 200 famiglie.
X =numero
dei
X 0 1 2 3 4
frequenze 20 50 80 40 10 Tot. 200
Riferendosi alla tabella in questione vogliamo determinare le frequenze relative percentuali e costruire il relativo istogramma. Dapprima completiamo la tabella con le frequenze richieste.
X 0 1 2 3 4
frequenze 20 50 80 40 10 Tot. 200
freq. percentuali 10% 25% 40% 20% 5% 100%
Quindi riportiamo sull'asse gli!)
i valori. Qui abbiamo dati interi (non si possono avere 2.5 Come abbiamo detto in precedenza, scegliamo classi di
non raggruppati in classi.
ampiezza 1. Cos le altezze coincidono con le frequenze. Si ottiene,
40
25 20 10 5
1.3.2
I
Diagrammi a barre
diagrammi a barre somigliano agli istogrammi, ma sono diversi, data la natura diversa
dei dati che rappresentano. Sono sempre dei rettangoli, non adiacenti, in cui l'altezza rappresenta la frequenza relativa o percentuale di quella classe. Sull'asse un ordine deciso dall'osservatore stesso.
si riportano i tipi, in
Esempio 1.3.3. Sia
la variabile colore degli occhi di 300 persone.
C
Marrone Blu Verde Altro
frequenze 150 90 30 30 Tot. 300
freq. percentuali 50% 30% 10% 10% 100%
Un relativo diagramma a barre il seguente.
Marrone
Blu
Verde
Altro
10
Capitolo 2 Indici di posizione e di dispersione

Per variabili numeriche ha senso calcolare alcuni indici, quali la media, la mediana, la varianza, ecc... Vediamo in dettaglio cosa rappresentano.
2.1 Indici di posizione

Si chiamano indici di posizione quegli indici che aiutano a capire dove posizionata, ovvero quali sono i valori che assume una certa distribuzione.
2.1.1
Media
La media un indice di posizione. Come si calcola la media di una distribuzione? Cominciamo dal caso di dati non raggruppati e supponiamo di avere la seguente distribuzione.
rappresenta la numerosit della popolazione,
e soltanto se c' un solo individuo in ogni classe ovvero
n il numero di classi. N = n fi = 1 per ogni i = 1, 2, . . . , n..
se
X x1 x2
. .
frequenze
freq. rel
f1 f2
. . Tot.
p1 p2
. .
xn
fn N
pn
1
Denizione 2.1.1. Si chiama media di
e si indica con
X,
la quantit:
X=
n n 1 xi fi = x i pi . N i=1 i=1
(2.1)
Per chi non ha simpatia per il simbolo di sommatoria possiamo riscrivere, per esteso
X=
1 (x1 f1 + x2 f2 + . . . + xn fn ) = (x1 p1 + x2 p2 + . . . + xn pn ). N
11
Chiariamo con un esempio.
Esempio 2.1.2. Riprendiamo la distribuzione del peso di alcuni studenti gi vista in precedenza. Quanto vale la media di
P?
Frequenze relative 0.2 0.1 0.1 0.2 0.1 0.3 1.0
Peso in
kg
Frequenze 2 1 1 2 1 3 10
65 68 69 70 72 74
Totali
Applicando la (2.1), si ha
P =
1 (65 2 + 68 1 + 69 1 + 70 2 + 72 1 + 74 3) 10 = (65 0.2 + 68 0.1 + 69 0.1 + 70 0.2 + 72 0.1 + 74 0.3) = 70.1

Semplicemente che tutti i valori di
Cosa succede se si dispone di dati raggruppati?
una classe vengono identicati con il valore centrale di quella classe, che quindi il valore utilizzato per il calcolo della media. Anche qui chiariamo con un esempio.
D 110 < D 130 130 < D 150 150 < D 170 170 < D 210
Quanto vale la media di
D?
Si ha,
D=
1 (120 20 + 140 40 + 160 60 + 190 80) = 164. 200
Attenzione! La media, o valore medio, pu anche essere una valore diverso da quelli
assunti... Anzi in generale lo .
2.1.2
La
Mediana, quartili, percentili
mediana un altro indice di posizione. La mediana un valore che provoca la ripartizione
della popolazione in esame in due parti ugualmente numerose: per il 50% della popolazione il dato minore della mediana, per il restante 50% il dato maggiore della mediana. Per chiarire, se diciamo che il reddito mediano dei lavoratori di una certa citt 1500 euro, stiamo dicendo che la met dei lavoratori percepisce meno di 1500 euro e la restante met pi di 1500 euro. Come si calcola la mediana? Se abbiamo i dati non raggruppati, possiamo pensarli sotto forma di la ordinata; allora la mediana il valore centrale, se sono in numero dispari, la semisomma dei valori centrali se sono in numero pari. Vediamo un esempio.
12
si siano osservati i valori 67, 72, 78, 78, 84, 1 85, 87, 91. Si tratta di un campione di numerosit 8 (pari), quindi Med(X) = (78+84) = 81. 2 Supponiamo invece che per il dato X si siano osservati i valori 65, 67, 72, 78, 78, 84, 85, 87, 91. Si tratta di un campione di numerosit 9 (dispari), quindi
Esempio 2.1.4. Supponiamo che per il dato
Med(X) = 78.
Come si procede nel caso in cui si hanno dati raggruppati? In questo caso, si pu calcolare la mediana attraverso l'istogramma. Occorre trovare quel valore sull'asse
x tale che divida esattamente a met l'area delimitata
dall'istogramma. Si ricorda che per come viene costruito l'istogramma l'area totale sottesa ha un valore ssato: vale 1 se si stanno utilizzando le frequenze relative, 100 se si stanno utilizzando le frequenze percentuali. Chiariamo anche qui con un esempio.
Esempio 2.1.5. Riprendiamo una distribuzione gi vista.
D 110 < D 130 130 < D 150 150 < D 170 170 < D 210
Freq. rel % 10% 20% 30% 40% 100%
Il relativo istogramma :
0.5 ............................................... ........................ ............................................... ............................................... ............................................... 110
.. ......................1...................... ............................................... . ............................................... ............................................... ............................................... ............................................... ........................ ............................................... ............................................... ...............................................
1.5 ............................... ............................... ................ ............................... ............................... ............................... ............................... ............... ............................... ............................... ............................... ............................... ................ ............................... ............................... ............................... Med(D)170
130
150
210
Dato che costruito con le frequenze percentuali l'area racchiusa dall'istogramma 100. La mediana quel valore che ripartisce l'area in due parti uguali. Nel nostro caso 50 prima (ombreggiata) 50 dopo (vedi la Figura). Indicando con essere:
la quantit
Med(D) 150,
deve
20 0.5 + 20 1 + x 1.5 = 50,

Quindi
x 1.5 = 20,
x = 13.3,
Med(D) = 150 + x = 150 + 13.3 = 163.3.

quartili sono
In modo analogo alla mediana si possono denire i quartili e i percentili. I
quei valori che ripartiscono la popolazione, pensata sempre come una la ordinata, in quattro parti ugualmente numerose (pari ciascuna al 25% del totale). Il primo quartile sua sinistra il 25% della popolazione (a destra quindi il 75%), il secondo quartile quartile lascia a sinistra il 75% della popolazione (a destra quindi il 25%). Come si calcolano i quartili? Se abbiamo i dati sotto forma di la ordinata,
q1 , lascia alla q2 lascia a
sinistra il 50% (a destra quindi il 50%). Esso chiaramente coincide con la mediana. Il terzo
(x1 , x2 , . . . , xN ),
allora si procede in modo
analogo a quanto fatto per la mediana. Pi precisamente se vogliamo calcolare
p = 0.25
(la percentuale che lascia a sinistra) per la numerosit del
q1 si moltiplica campione N . Ci sono
13
pN un intero, diciamolo k . In tal caso q1 = 1 (xk + xk+1 ). pN non un 2 intero. Sia allora k = [pN ]. In tal caso q1 = xk+1 . Dovendo calcolare gli altri quartili basta mettere al posto di p il valore giusto. Riprendiamo l'Esempio 2.1.4.
due possibilit
Esempio 2.1.6. Supponiamo che per il dato
si siano osservati i valori 67, 72, 78, 78, 84,
85, 87, 91. Si tratta di un campione di numerosit 8, quanto valgono i quartili? Qui
N = 8.
Per il primo quartile dobbiamo considerare la quantit 0.25 8 = 2, intero. Quindi q1 = 1 (x2 + x3 ) = 1 (72 + 78) = 75. q2 = Med(X) (vista nell'Esempio precedente). Per il 2 2 1 terzo quartile dobbiamo considerare la quantit 0.758 = 6, intero. Quindi q3 = (x6 +x7 ) = 2 1 (85 + 87) = 86. 2 Supponiamo invece che per il dato
si siano osservati i valori 65, 67, 72, 78, 78, 84, 85,
87, 91. Si tratta di un campione di numerosit 9, quanto valgono i quartili? Qui Per il primo quartile dobbiamo considerare la quantit considerare la quantit
N = 9. 0.25 9 = 2.25, non intero. Quindi

quartile dobbiamo
q1 = x3 = 72. q2 = Med(X) (vista nell'Esempio precedente). Per il terzo 0.75 9 = 7.75, non intero. Quindi q3 = x8 = 87.
Come si procede nel caso in cui si hanno dati raggruppati? Come visto per la mediana si pu utilizzare l'istogramma.
Supponiamo di voler calcolare il primo quartile (gli altri casi si trattano in modo analogo). Partiamo dal caso in cui si voglia utilizzare l'istogramma. Occorre trovare quel valore sull'asse
x tale che divida l'area
delimitata dall'istogramma in due parti, quella a sinistra pari al 25%
la restante pari al 75%. Si ricorda che per come viene costruito l'istogramma l'area totale sottesa ha un valore ssato: vale 1 se si stanno utilizzando le frequenze relative. 100 se si stanno utilizzando le frequenze percentuali. Chiariamo anche qui con un esempio.
Esempio 2.1.7. Riprendiamo una distribuzione gi vista.
D 110 < D 130 130 < D 150 150 < D 170 170 < D 210
Freq. rel % 10% 20% 30% 40% 100%
Il relativo istogramma :
1.5
.. ..................1........ ............................. . . . . . . . . . ... . . . . ............................. ............................. ............................. ............................. ............................. .............. ............................. ...............
0.5 ....................................... ....................................... ....................................... ....................................... .................... 110
x 130 q1
150
170
210
Dato che costruito con le frequenze percentuali l'area racchiusa dall'istogramma 100. Il primo quartile quel valore che ripartisce l'area in due parti: 25% (ombreggiata), 75% (vedi la Figura). Indicando con
la quantit
q1 130,
deve essere:
20 0.5 + x 1 = 25,
14
x = 15,
Quindi
q1 = 130 + x = 130 + 15 = 145.

percentili, ovvero quei valori che ripartiscono la
In modo analogo si possono denire i
popolazione in 100 parti ugualmente numerose (ciascuna pari pertanto all'1%). Per calcolare i percentili si utilizzano i metodi gi visti per la mediana ed i quartili, ovviamente utilizzando i dovuti aggiustamenti.
2.2 Indici di dispersione

2.2.1 Varianza e scarto quadratico medio
Media e mediana, abbiamo visto essere degli indici di posizione (perch dicono accanto a quale valore il campione di dati posizionato) e sono tanto pi signicative quanto pi i dati sono concentrati vicino ad esse. interessante misurare quindi il grado di dispersione dei dati rispetto, ad esempio, alla media. Si osservi che la somma di tutte le deviazioni dalla media sempre zero, ovvero
n i=1
(xi X)fi = 0,
perci, per misurare in modo signicativo la dispersione dei dati rispetto alla media, si pu considerare, ad esempio, la somma dei moduli delle deviazioni, oppure la somma dei quadrati delle deviazioni. Ci occuperemo di quest'ultimo indice, che, per motivi qui non facilmente spiegabili, occupa un posto decisamente pi importante nell'ambito di tutta la Statistica. Cominciamo dal caso di dati non raggruppati e supponiamo di avere la seguente distribuzione.
rappresenta la numerosit della popolazione. freq. rel
X x1 x2
. .
frequenze
f1 f2
. . Tot.
p1 p2
. .
xn
fn N
pn
1
Denizione 2.2.1. Si chiama varianza di

quadrato, ovvero la quantit
e si indica con
s2 , X
la media degli scarti al
s2 = X
n n 1 (xi X)2 fi = (xi X)2 pi . N i=1 i=1
(2.2)
Denizione 2.2.2. Si chiama scarto quadratico medio o anche deviazione standard

di
e si indica con
sX ,
la radice della varianza, ovvero
sX =
n 1 (xi X)2 fi = N i=1
n i=1
(xi X)2 pi .
(2.3)
15
Per visualizzare meglio si pu aggiungere una colonna alla distribuzione, quella degli scarti al quadrato, e quindi fare la media di quella colonna, ovvero si costruisce la tabelle seguente.
X x1 x2
. .
(X X)2 (x1 X)2 (x2 X)2

.
frequenze
freq. rel
f1 f2
. .
p1 p2
. .
xn
(xn X)
. 2 Tot.
fn N
pn
1
Si osservi che se i dati
xi
rappresentano, ad esempio, lunghezze misurate in metri, la
media, tutti gli altri indici di posizione e la deviazione standard sono misurate in metri, mentre la varianza misurata in metri quadri. La varianza e la deviazione standard sono grandezza non negative, che si annullano solo quando gli
xi sono tutti uguali tra loro e quindi
uguali alla loro media. utile per il calcolo esplicito della varianza (la cui dimostrazione lasciata per esercizio agli studenti pi interessati e volenterosi!) la seguente formula
s2 = X
n n 1 2 2 2 2 x2 p i X = X 2 X . xi fi X = i N i=1 i=1
(2.4)
Ovvero la varianza di una distribuzione pari alla media del quadrato della variabile meno la media della variabile al quadrato. Per visualizzare meglio si pu aggiungere una colonna alla distribuzione, quella della variabile al quadrato, e quindi fare la media di quella colonna, ovvero si costruisce la tabelle seguente.
X x1 x2
. .
X2 x2 1 x2 2
. . 2 xn
frequenze
freq. rel
f1 f2
. . Tot.
p1 p2
. .
xn
fn N
pn
1
Cosa succede se si dispone di dati raggruppati? Semplicemente che tutti i valori di una classe vengono identicati con il valore centrale di quella classe che quindi il valore utilizzato per il calcolo della varianza. Anche qui chiariamo con un esempio.
D 110 < D 130 130 < D 150 150 < D 170 170 < D 210
16
Abbiamo gi trovato la media di
D.
La ricordiamo per completezza.
D=
1 (120 20 + 140 40 + 160 60 + 190 80) = 164. 200
Per il calcolo della varianza possiamo procedere utilizzando la denizione oppure la (2.4). Mostriamo che giungiamo allo stesso risultato. Completiamo la tabella con la colonna degli scarti al quadrato e con quella della variabile al quadrato.
D 110 < D 130 130 < D 150 150 < D 170 170 < D 210
(D D)2 (120 164)2 (140 164)2 (160 164)2 (190 164)2
D2 1202 1402 1602 1902
Proviamo ad applicare la denizione (faccio la media della colonna degli scarti al quadrato)
s2 = D
1 [(120 164)2 20 + (140 164)2 40 + (160 164)4 60 + (190 164)2 80] = 584 200 D2 ,
Invece applicando la (2.4) dobbiamo calcolare
D2 =
e quindi
1 (1202 20 + 1402 40 + 1602 60 + 1902 80) = 27480, 200 s2 = D2 D = 27480 1642 = 584. D
2
Pertanto
sD =
584 = 24.17.
17
Capitolo 3 Correlazione tra variabili e regressione lineare
3.1 Correlazione tra variabili. Scatterplot

Talvolta pi caratteri vengono misurati per ogni individuo: peso, altezza, sesso, reddito, ecc. Si vuole vedere se c' una qualche relazione tra essi. Noi considereremo il caso di due caratteri quantitativi e supporremo che i dati (sempre non raggruppati per questo tipo di analisi) siano sotto forma di coppie rappresenta il primo carattere
(x1 , y1 ), (x2 , y2 ),. . .,(xN , yN )
in cui la prima coordinata
e la seconda coordinata il secondo carattere
Y.
Ogni coppia
relativa ad un individuo. Possono esserci pi coppie coincidenti. In un primo approccio graco si possono disegnare sul piano tutti i punti di coordinate Si possono presentare varie situazioni.
(xi , yi )
e vedere se essi
tendono a disporsi secondo un andamento regolare. Si fa quello che di chiama lo scatterplot.
Figure 3.1
I punti della gura 3.1 sembrano non avere alcuna correlazione, mentre quelli delle altre gure manifestano una certa tendenza. Precisamente i punti della gura 3.2 sembrano avere un andamento quadratico (il graco si accosta a quello di una parabola) e quelli delle ultime due (Figure 3.3 e 3.4) sembrano avere un andamento lineare, ovvero si avvicinano ad una retta.
18

Figure 3.2

Figure 3.3
L'idea quella di trovare la curva (retta, parabola o altro), se esiste, che meglio descriva l'andamento dei dati per poi utilizzarla per stimare il valore di un carattere conoscendo l'altro. Analiticamente ci occuperemo solo dei dati che tendono a disporsi secondo una retta. Molti altri casi poi si possono ricondurre a questo. Puntualizziamo ora alcuni concetti emersi da questi esempi.
Denizione 3.1.1. Supponiamo di avere

ovvero di avere la quantit
osservazioni congiunte di due variabili
Y,
{(x1 , y1 ), . . . , (xN , yN )}. sXY
Si dice
covarianza tra
e si indica con
sXY
(3.1)
N 1 = (xi X)(yi Y ) = XY X Y . N i=1
L'uguaglianza tra le due diverse espressioni di noti anche che immediato vericare che
sXY
si dimostra facilmente svolgendo i Si Se
conti (anche questo lasciato per esercizio agli studenti pi interessati e volenterosi!).
sXY = sY X . X)
Dalla denizione, si vede che la covarianza pu avere segno positivo o negativo.
sXY > 0,
in base alla denizione signica che, mediamente, a valori grandi (o piccoli di
corrispondono valori grandi (o piccoli, rispettivamente) di che, mediamente, a valori grandi (o piccoli di rispettivamente) di
Y.
Se invece
sXY < 0
signica
X)
corrispondono valori piccoli (o grandi,
Y.
questo giustica la seguente denizione.
19
Figure 3.4
Denizione 3.1.2. Si dice che le variabili

Si dice che le variabili
sono direttamente correlate se
sXY > 0.
sono incorrelate se
Y sono inversamente sXY = 0.
correlate se
sXY < 0.
Si dice che le variabili
Un altro importante strumento per studiare la correlazione tra due variabili il coeciente di correlazione.
Denizione 3.1.3. Si chiama coeciente di correlazione di

la quantit
e si indica con
XY
(3.2)
XY =
sXY , sX sY
ovvero la covarianza divisa per il prodotto delle deviazioni standard. L'importanza del coeciente di correlazione (rispetto alla covarianza, che un concetto simile) dipende dal fatto, che non dimostriamo (perch non abbiamo gli strumenti!) che esso risulta sempre in modulo minore o uguale a 1:
1 XY 1.
Pertanto esso un indice normalizzato, la cui grandezza ha un signicato assoluto.
XY = 1 se e soltanto se i punti dati gi sono allineati. Questo vuol dire che tanto pi |XY | si avvicina a 1 tanto pi l'idea di approssimare i punti con una retta buona.
Inoltre
3.2 Metodo dei Minimi Quadrati. Regressione Lineare

Ci occuperemo ora proprio del problema di ricercare, in generale, una relazione del tipo
Y = aX + b
tra le due variabili.
In base a quanto detto nel paragrafo precedente, se il
coeciente di correlazione non vale
1,
non esiste una retta che passi per tutti i punti dati.
Tuttavia possiamo ugualmente cercare una retta che passi abbastanza vicino a tutti i punti. L'idea questa. Abbiamo una nuvola di punti nel piano due numeri
(i coecienti che individuano la retta)
(x1 , y1 ),. . .,(xN , yN ) e cerchiamo per cui la rettaY = aX + b passi il
pi possibile vicino a questi punti. Consideriamo allora l'espressione
N i=1
[yi (axi + b)]2 ,

20
che d per
a, b
ssati, la somma dei quadrati delle distanze tra il punto originale
(xi , yi )
il punto di uguale ascissa che si trova sulla retta
Y = aX + b,
ovvero il punto di coordinate
(xi , yi ),
con
yi = axi + b. a
e
Cerchiamo ora i valori di i seguenti valori
che rendono minima questa quantit (metodo dei minimi
quadrati o regressione). Si trovano (anche questo conto non rientra nelle nostre competenze!)
a =
sXY s2 X
= Y aX. b
Pertanto la retta dei minimi quadrati o di regressione
sXY sXY Y = aX + = 2 X + Y 2 X. b sX sX
Osservazione 3.2.1. Notare che il coeciente angolare della retta ha il segno della covarianza, coerentemente alla denizione data di correlazione diretta e inversa: se tra
c' una correlazione diretta (o inversa), la retta di regressione, sar una retta crescente
(rispettivamente decrescente). Se orizzontale di equazione
sono incorrelate la retta di regressione la retta
Y =Y.
Questo vuol dire che nessuna previsione pu essere fatta su
se si conosce
X. (X, Y ).
Le equazioni che
Si osservi anche che la retta di regressione passa per il punto di coordinate
Attenzione! Aver determinato la retta di regressione non signica aatto che la variabile
sia (in modo pur approssimato) una funzione del tipo
Y = aX + b.
determinano i coecienti
a e servono b
a determinare una relazione di tipo ane presuppo-
nendo che questa ci sia. Per capire se ragionevole che sussista una relazione ane tra le due variabili abbiamo due strumenti:
il calcolo del coeciente di correlazione lineare (che deve essere vicino a l'esame visivo dello scatterplot.
1);
Anche qui chiudiamo il Capitolo con un esempio chiaricatore.
Esempio 3.2.2. Con riferimento a due fenomeni sono state annotate le seguenti osservazioni:
X Y
a) b) c) d)
1 14
4 8
5 4
10 2
determinare il grado di correlazione lineare tra trovare la retta di regressione di
Y;
su
X;
disegnare lo scatter plot dei dati e la retta trovata stimare il valore di
quando
vale 8.
21
Riempiendo la tabella si ottiene 2 2
X
1 4 5
XY
14 32 20 20
14 8 4 2
1 16 25 100
196 64 16 4
10 da cui
X = Y XY = =
X2 = Y2 =
Pertanto,
1 (1 + 4 + 5 + 10) = 5 4 1 (14 + 8 + 4 + 2) = 7 4 1 (14 + 32 + 20 + 20) = 21.5 4 1 (1 + 16 + 25 + 100) = 35.5 4 1 (196 + 64 + 16 + 4) = 70 4
sXY = XY XY = 21.5 7 5 = 13.5 2 s2 = X 2 X = 35.5 52 = 10.5 X s2 Y = Y 2 Y = 70 72 = 21

2
e quindi, il coeciente di correlazione lineare
sXY 13.5 = 0.91, XY = 2 2 = 10.5 21 sX sY

un buon livello di accettabilit.
c) La retta di regressione di
su
X
e
Y = aX + b,
dove
a=
sXY 13.5 = = 1.29 2 sX 10.5
b = Y aX = 7 (1.29) 5 = 13.45,
quindi la retta richiesta 14
Y = 1.29X + 13.45. (0, 13.45)

e
c) La retta di regressione passa per i punti di coordinate
8 4 2
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ... ...
(10, 0.55).
La stellina sul
d) Il valore stimato quando

graco lo rappresenta.
X =8
Y (8) = 1.29 8 + 13.45 = 3.13.
10
22
Osservazione 3.2.3. Facendo riferimento a due caratteri abbiamo sin qui considerato
come variabile dipendente ed scambiare la
come variabile indipendente. Ma, se ha senso logico, si pu
con la
Y.
Nel primo caso si parla di regressione di
rispetto a
(o su
X ),
nel secondo di regressione di di regressione di
rispetto
X rispetto a Y (o su X ). In particolare a X ha equazione, Y = aX + , dove b a = sXY s2 X
l'equazione della retta
= Y aX, b
mentre scambiando il ruolo di equazione
con
si ottiene che la retta di regressione di
su
ha
X = cY + d,
dove
c =
sXY s2 Y
d = X cY .
Si osservi che le due rette non sono la stessa retta! Anzi sono la stessa retta se e solo se
XY = 1,
coordinate
ovvero se i punti dati sono gi allineati. Esse passano entrambe per il punto di
(X, Y ),
hanno coeciente dello stesso segno (ovvero sono entrambe crescenti o
entrambe decrescenti), ma non si sovrappongono. In caso di su
non correlate (sXY
allora le due rette di regressione sono parallele agli assi, quindi perpendicolari. Quella di
= 0), Y
ha (come visto) equazione
Y = Y,
quella di
su
ha equazione
X = X.
Ma in
questo caso la retta di regressione non interessante.
23
Capitolo 4 Introduzione alla probabilit
4.1 Spazi di probabilit

Il calcolo delle probabilit si occupa di studiare i fenomeni casuali o aleatori ovvero i fenomeni dei quali non si pu prevedere con certezza l'esito. Se si lancia un dado o una moneta non c' modo di sapere con esattezza quale sar il risultato del nostro esperimento. Tuttavia si possono fare delle previsioni su quello che accadr. Cominciamo proprio da questo esempio.
Esempio 4.1.1. Si lancia un dado. I possibili risultati di questo esperimento sono 1, 2, 3,

4, 5, 6. Che vuol dire probabilit di avere 1? E probabilit di avere un numero dispari? Se indichiamo con un numero dispari, ecc) pu essere identicato con un sottoinsieme di
= {1, 2, 3, 4, 5, 6} l'insieme dei possibili risultati ogni evento (esce 1, . Per esempio:
esce
esce 1 ={1}; esce un numero dispari ={1, 3, 5}.
Vediamo di formalizzare quanto detto. Sia
l'insieme di tutti i possibili risultati di un esperimento.
Un evento sempre si
detto spazio campionario. A un particolare sottoinsieme di di cui possibile calcolare la probabilit (non pu calcolare la probabilit di tutti i sottoinsiemi di ). detto evento certo,
gli eventi si possono com-
detto evento impossibile. Data l'identicazione di un evento con un sottoinsieme di binare per formarne degli altri. Dati
A, B
eventi in
, B; B;
i) A B ii) A B iii) Ac
l'evento che si verica se si verica
oppure
l'evento che si verica se si vericano sia
che
l'evento che si verica se non si verica
A.
Dunque una buona famiglia di eventi deve essere tale da garantire che tutti gli insiemi ottenuti componendo eventi (con le operazioni classiche: unione, intersezione, complementare) sia ancora un evento (ovvero devo poterne calcolare ancora la probabilit)! famiglia di eventi si chiama Una buona
-algebra.
Vediamone la denizione.
24
Denizione 4.1.2. Una famiglia di sottoinsiemi di

seguenti propriet:
si dice una
-algebra,
se soddisfa le
F;
dato dati dati
A F,
allora in in
Ac F ;
allora allora
A1 , A2 , . . . A1 , A2 , . . .
F F
A1 A2 . . . F . A1 A2 . . . F . A
l'evento esce un numero pari,
Esempio 4.1.3. Torniamo al lancio del dado. Siano

l'evento esce un numero dispari e A B e C c . Si ha
l'evento esce un multiplo di 3. Determiniamo
B A B,
A = B = C =
allora
esce un numero pari esce un esce un
= {2, 4, 6} numero dispari = {1, 3, 5} multiplo di 3 = {3, 6}, C c = {1, 2, 4, 5}.
A B = ,
A B = ,
Esempio 4.1.4. Si lancia tre volte una moneta. In questo caso lo spazio campionario pu
essere descritto dal seguente insieme.
= {(T T T ), (T T C), (T CT ), (T CC), (CT T ), (CT C), (CCT ), (CCC)}.

Siano Siano miniamo
A l'evento due A B e A B. A = B =
o pi teste e
l'evento tutti i lanci stesso risultato. Deter-
due o pi teste tutti i lanci
= {(T T T ), (T T C), (CT T ), (T CT )} stesso risultato = {(T T T ), (CCC)}
allora
A B = {(T T T ), (T T C), (CT T ), (T CT ), (CCC)},

Denizione 4.1.5. Siano
A B = {(T T T )}.
uno spazio campionario e
una famiglia di eventi che sia una
-algebra.
Una (misura di) probabilit su
una funzione
P : F [0, 1],
tale che
i) P() = 1; ii)
Dati
A1 , A 2 , . . .
eventi in
disgiunti
P(A1 A2 . . .) = P(A1 ) + P(A2 ) + . . ..
L'Osservazione che segue contiene alcune importanti propriet di una probabilit.
25
Osservazione 4.1.6.
quindi
1. Si osservi che per ogni evento
A, si ha A Ac = e A Ac = ,
1 = P() = P(A Ac ) = P(A) + P(Ac ),

da cui
P(Ac ) = 1 P(A).
2. Se
sono due eventi in
allora
P(A B) = P(A) + P(B) P(A B).

ATTENZIONE! Una probabilit su
probabilit di un qualunque evento in
si intende nota quando possibile calcolare la
F.
Denizione 4.1.7. La terna spazio campionario, famiglia di eventi, probabilit

prende il nome di spazio di probabilit.
(, F, P)
4.2 Spazi di probabilit niti

Sia
uno spazio campionario nito, ovvero
famiglia, ovvero la
-algebra F ,
= {1 , 2 , . . . , n }.
In questo caso la buona
quella formata da tutti i sottoinsiemi di
Ovvero, per
chi lo ricorda, dall'insieme delle parti di punti. Precisamente occorre conoscere
Per denire una probabilit su
occorre e basta
assegnare la probabilit degli eventi elementari, ovvero dei sottoinsiemi formati dai singoli
P({i }) = pi
Si ha,
per ogni
i = 1, 2 . . . , n.
0 pi 1
perch le
pi
sono delle probabilit;
p1 + p2 + . . . pn = 1,
in quanto la somma delle
pi
d la probabilit di
In questo modo ben denita
P(A)
per ogni evento. Infatti
P(A)
si ottiene sommando
la probabilit degli eventi elementari che compongono
A.
Come caso particolare abbiamo
quello in cui tutti gli eventi elementari hanno la stessa probabilit (lancio del dado: tutti gli esiti sono equiprobabili). Tali spazi si chiamano uniformi o equiprobabili. In tal caso
P({i }) =
e
1 n
per ogni
i = 1, 2 . . . , n,
P(A) =
essendo
r , n
pari alla cardinalit di
A. contiene 6 elementi, quindi qui n = 6 allora dovendo =esce un pari basta osservare che A contiene tre = 1. 2
26
Esempio 4.2.1. Torniamo al dado.
calcolare la probabilit dell'eventoA 3 elementi, quindi qui r = 3 e P(A) = 6
ATTENZIONE! Si pu calcolare la probabiilit di un evento contando quanti elementi

contiene, se solo se, tutti gli eventi elementari hanno la stessa probabilit. Ribadiamo che in generale
P(A) si calcola sommando la probabilit degli eventi elementari che compongono
A.
Vediamo di chiarire con qualche altro esempio.
Esempio 4.2.2. [Spazio non uniforme] Tre cavalli
a, b
sono in gara. La probabilit che
vinca doppia di quella che vinca Dunque
b,
che a sua volta doppia di quella che vinca
c.
Quali
sono le probabilit di vittoria dei tre cavalli? Qual la probabilit che non vinca
a?
= {a, b, c},
e detta
p,
la probabilit che vinca
c,
si ha
P({c}) = p P({b}) = 2p P({a}) = 4p.

Dovendo essere
P() = P({a, b, c}) = 4p + 2p + p = 1, P({c}) = 1/7 P({b}) = 2/7 P({a}) = 4/7.
si ricava
p=
1 . Pertanto, 7
La Probabilit che non vinca 4 3 P({a}) = 1 7 = 7 .
P({a}c ) = P({b, c}) =
2 7
1 7
= 3, 7
o anche
P({a}c ) =
Esempio 4.2.3. [Spazio uniforme] Si sceglie a caso una carta da una mazzo standard da 52.
Siano
A =esce
quadri e
B =esce
una gura calcoliamo
P(A), P(B)
P(A B).
Intanto
= {1 , 2 , . . . , K , 1 , 2 , . . . , K , 1 , 2 , . . . , K , 1 , 2 , . . . , K }. contiene 52 eventi elementari P({}) = 1/52. Inoltre

tutti aventi stessa probabilit, pertanto per ogni
A = {1 , 2 , . . . , K } B = {J , Q , K , J , Q , K , J , Q , K , J , Q , K } A B = {J , Q , K }.
Ora basta contare quanti elementi ha ognuno di questi insiemi: elementi e
A 3 . 52
ha 13 elementi,
12
AB
3 elementi, pertanto
P(A) =
13 , 52
P(B) =
12 52
P(A B) =
27
4.3 Spazi di probabilit inniti

Gli spazi di probabilit inniti possono essere divisi in due grandi categorie molto diverse tra loro: numerabili e continui
Spazi numerabili
In questo caso
= {1 , 2 , . . .}.
Questi sono una generalizzazione degli spazi niti (che infatti sono inclusi in quelli numerabili). Si procede come nel caso nito. In questo caso la buona famiglia, ovvero la
-algebra
F , quella formata da tutti i sottoinsiemi di . Ovvero, per chi lo ricorda, dall'insieme delle parti di . Occorre e basta assegnare la probabilit degli eventi elementari. Precisamente
occorre conoscere
P({i }) = pi
Si ha,
per ogni
i = 1, 2 . . .
0 pi 1 perch le pi sono delle probabilit; + i=1 pi = p1 + p2 + . . . = 1, in quanto la somma

molto pi sosticate che non le somme nite. qualsiasi evento contenuti in
delle
pi
d la probabilit di
Si noti che siamo dinanzi a somme innite, pi precisamente a serie. Esse richiedono tecniche Anche in questo caso la probabilit di un
la somma nita o innita delle probabilit dei singoli eventi elementari
A. = (a, b)
un intervallo di
Spazi continui
In questo caso
R,
eventualmente tutto
R.
Fate attenzione:
in questo caso non si pu procedere assegnando la probabilit di tutti gli eventi elementari! Si procede assegnando una funzione
f 0,
a b
denita su
(a, b)
con
f (x) dx = 1,
tale che per ogni
x 1 < x2
si abbia
P((x1 , x2 )) =
Quindi la gli
x2
f (x) dx.
x1
-algebra F qui quella generata dagli intervalli di R. Ovvero F contiene tutti intervalli di R, tutti i complementari, tutte le intersezioni numerabili, tutte le unioni
numerabili.
28
............ ............. .... ... .... ... ... ... ... ... ... ... ... ... ... ... ... ... . ... ... ... ... . ... ...... ... ... . . ..... ... . ........... ... . . . . ..... ............. ... ... . . . . . . ..... .. . ... .......... ......... ... . . . . . . . . . ... .. .. .......... .............. .... .... . . . . . . . . . . .......... ... ... ....... .......... .......... .............. ............ .............
x1
x2 =R
Esempio 4.3.1. Per esempio se

probabilit dell'intervallo
la funzione rappresentata in gura, allora
e la
(x1 , x2 )
pari all'area ombreggiata.
29
Capitolo 5 Probabilit condizionata, indipendenza
5.1 Probabilit condizionata

Sia
un evento arbitrario in uno spazio di probabilit
(, F, P),
con
P(E) > 0.
La proba-
bilit di un evento
sapendo che
si vericato, si chiama probabilit condizionata di
dato
e si indica con
P(A|E).
Per denizione
P(A|E) =
P(A E) . P(E)
(5.1)
Esempio 5.1.1. Si lancia una coppia di dadi. Si sa (qualcuno lo ha visto) che la somma
sei. Calcoliamo la probabilit che uno dei due dadi abbia dato come esito due. Costruiamo lo spazio campionario. Si tratta di tutti i possibili risultati,
= {(1, 1), . . . , (1, 6), (2, 1), . . . , (2, 6), . . . , (6, 1), . . . , (6, 6)},
si tratta di uno spazio con 36 elementi, tutti equiprobabili, pertanto ciascuna coppia ha probabilit 1/36. Sappiamo che la somma sei, dunque l'evento
E,
noto
E = {(1, 5), (5, 1), (2, 4), (4, 2), (3, 3)}.
Mentre l'evento
di cui dobbiamo calcolare la probabilit condizionata
A = {(1, 2), (2, 1), (2, 2), (3, 2), (2, 3), (4, 2), (2, 4), (5, 2), (2, 5), (6, 2), (2, 6)}.
Ora
A E = {(2, 4), (4, 2)},

Pertanto
P(E) =
e quindi applicando la (5.1) si ha,
5 , 36
P(A E) =
2 36
P(A|E) =
P(A E) = P(E)
30
2 36 5 36
2 = 0.4. 5
La probabilit dell'evento za dell'evento
ha alterato
A, non condizionata, era P(A) = 11 0.31, quindi la conoscen36 la probabilit di A. Precisamente l'ha fatta aumentare (ha dato
un'indicazione utile). Potrebbe anche accadere che la faccia diminuire o anche che la lasci invariata. Quest'ultimo caso risulter piuttosto interessante.
5.1.1
Intersezione di eventi. Regola del prodotto
La denizione di probabilit condizionata fornisce un metodo di calcolo per la probabilit dell'intersezione di due eventi,
P(A E) = P(A|E)P(E).
Questa formula (che pu essere estesa all'intersezione di Vediamo un esempio chiaricatore.
(5.2) eventi), permette di calcolare la
probabilit di un evento che sia il risultato di una successione nita di esperimenti aleatori.
Esempio 5.1.2. Sono date tre scatole.
La scatola La scatola La scatola
A B C
contiene 10 lampade: 4 difettose; contiene contiene 6 lampade: 1 difettosa; 8 lampade: 3 difettose.
Una scatola viene scelta a caso, quindi da essa scegliamo una lampada a caso. In questo caso la successione formata da due esperimenti:
i) ii)
si sceglie la scatola a caso; si sceglie la lampada dalla scatola.
Sia
D =lampada
o dalla
difettosa. Come posso calcolare
La lampada difettosa pu essere pescata dalla
D B)
(evento
D C ).
P(D)? scatola A (evento D A),
dalla
(evento
Pertanto,
P(D) = P(D A) + P((D B) + P(D C),

e per la (5.2) si ha
P(D) = P(D|A)P(A) + P(D|B)P(B) + P(D|C)P(C) =

La situazione si pu rappresentare con il seguente lampada difettosa da
4 1 1 1 31 113 + + = . 10 3 6 3 8 3 360
diagramma ad albero.
Considero i possibili cammini per prendere una lampada difettosa: posso prendere la cammino che porta alla lampada difettosa passando per incompatibili, si ottiene il prodotto delle probabilit segnate sul 1 4 A, ovvero 3 10 . Ripetendo lo stesso ragionamento per la lampada difettosa presa da B e poi da C ed essendo i tre cammini
A,
in tal caso
P(A D)
P(D) =
come gi trovato in precedenza.
113 4 1 1 1 3 1 + + = , 10 3 6 3 8 3 360
31
.. ... ... ... ... ... ... ... ... ... . .. ... ... ... ... ... ... ... ... ... .......................... .. .. .... ........................ .... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
1/3 1/3 1/3
A..............................................
.
4/10............. Difettosa . ..
.. .. ..... ..... . 6/10.............Buona
C...............................................
1/6............... Difettosa ..... ..... 5/6................Buona .. .. 3/8 5/8

.. .
. ..... ..... Difettosa . .... ...... ..... ..... .... . ...... ..... ..... ..... ..... ..... ..... ..... ..... ... ... Buona
5.2 Formula di Bayes

La formula di Bayes serve per calcolare la probabilit condizionata di un evento evento che
dato un
A, quando nota la probabilit di A dato B . P(A B) = P(B A) in quanto l'intersezione
Essa si ottiene facilmente osservando commutativa, pertanto applicando la
(5.2), si ha
P(A|B)P(B) = P(B|A)P(A),
da cui, essendo
P(A) = 0
(si ricorda ch si pu condizionare solo rispetto ad eventi di
probabilit non nulla), si ha
P(B|A) =
P(A|B)P(B) . P(A)
(5.3)
Nella pratica quando un esperimento si compone di pi esperimenti aleatori in successione temporale (come nel caso del paragrafo precedente: prima scelgo la scatola, poi scelgo la lampada), facile calcolare la probabilit di un evento successivo dato uno precedente. Sempre riferendosi al caso precedente facile calcolare la probabilit di ottenere una lampada difettosa se gi so che scatola ho scelto! Pi complicato, conoscendo l'esito del risultaSempre riferendosi all'esempio to nale, calcolare la probabilit di un evento precedente.
precedente, mi posso domandare qual la probabilit di aver scelto la scatola
A sapendo che
la lampada difettosa. Qui ci aiuta la formula di Bayes! La probabilit richiesta allora
P(A|D).
Per la formula di Bayes si ha
P(A|D) =
Si osservi che, guardando l'albero,
P(D|A)P(A) = P(D)
4 1 10 3 113 360
48 . 113
P(D|A)
si calcola facendo il rapporto tra la probabilit
del cammino che porta ad una lampada difettosa passando per quanto il cammino passante per
diviso la somma delle
probabilit di tutti i cammini che portano ad una lampada difettosa. Quindi d la misura di
pesi rispetto a tutti cammini che portano all'esito nale
del nostro esperimento (nel caso specico avere una lampada difettosa).
5.3 Indipendenza
All'inizio di questo capitolo abbiamo visto che se vengono lanciati due dadi la probabilit di avere un 2 condizionata dal fatto di sapere che la somma dei due dadi 6. Precisamente
32
avevamo visto che la probabilit era aumentata. un evento non altera la probabilit di un altro.
Ci sono dei casi in cui la conoscenza di In tal caso diremo che gli eventi sono
indipendenti. Pi precisamente possiamo dare la denizione seguente.
Denizione 5.3.1. Siano A e B due eventi di probabilit non nulla.

da
A si dice indipendente
se
P(A|B) = P(A),
o equivalentemente che
P(A B) = P(A)P(B).
Si osservi che se
indipendente da
allora
indipendente da
A.
La denizione
precedente formalizza un concetto intuitivo, pertanto chiaro che il concetto d'indipendenza sia simmetrico. bene anche osservare che alcune volte l'indipendenza di due eventi ovvia, altre volte assolutamente no.
Esempio 5.3.2. Si lanci tre volte una moneta equa. Scriviamo lo spazio di probabilit che
descrive questo esperimento.
= {(T T T ), (T T C), (T CT ), (T CC), (CT T ), (CT C), (CCT ), (CCC)}.

Questo formato da otto elementi tutti equiprobabili, quindi la probabilit di ciascuna terna 1/8. Si considerino gli eventi. no indipendenti. Abbiamo
A=primo
lancio testa,
B =secondo
lancio croce,
C =testa
si presenta esattamente due volte consecutive. Vediamo se a due a due questi eventi sono o
A = {(T T T ), (T T C), (T CT ), (T CC)} B = {(T CT ), (T CC), (CCT ), (CCC)} C = {(T T C), (CT T )},
pertanto
P(A) =
4 1 = , 8 2
P(B) =
4 1 = , 8 2
P(C) =
2 1 = . 8 4
Passiamo a calcolare la probabiilt delle intersezioni fatte due a due. Abbiamo
A B = {(T CT ), (T CC)} A C = {(T T C)} B C = ,

pertanto
1 1 1 2 = = = P(A)P(B) 8 4 2 2 1 1 1 P(A C) = = = P(A)P(C) 8 2 4 1 1 P(B C) = 0 = = P(B)P(C). 2 4 P(A B) =

33
A e B (ovvio l'evento A si riferisce al primo lancio e l'evento B al secondo lancio) ma anche A e C sono indipendenti, il che non era ovvio sin dall'inizio. B e C sono invece dipendenti e si osservi che due eventi disgiunti (ovvero
Dunque sono risultati indipendenti gli insiemi con intersezione vuota) sono sempre dipendenti. Fate attenzione! Molti studenti confondono eventi disgiunti con eventi indipendenti, mentre le due cose sono sempre incompatibili.
34
Capitolo 6 Variabili aleatorie
6.1 Generalit
Denizione 6.1.1. Sia
una funzione che
(, F, P). Uno spazio di probabilit. ad ogni associa un numero reale, X : E R,
Una
variabile aleatoria su
tale che, per ogni
a b R,
sia possibile calcolare la probabilit dell'insieme
X() < b},

scriveremo:
che quindi deve essere un evento in
{a < X < b}, E
F.
Al posto di
lasciando sottointesa la dipendenza da
{ : a < { : a < X() < b} .
L'insieme
dei valori assunti da
l'immagine di
ed assai importante per la
caratterizzazione della variabile aleatoria.
Denizione 6.1.2. Una variabile aleatoria

particolare si dice nita se l'insieme se l'insieme
si dice discreta, se l'insieme
discreto. In
un insieme nito, numerabile se l'insieme
un
insieme numerabile, (per esempio i numeri interi). Una variabile aleatoria si dice continua,
un insieme continuo (per esempio un intervallo di
R).
In realt la denizione di variabile aleatoria pi complessa, tuttavia questa pu bastare per i nostri scopi. Cominciamo col caso pi semplice di variabili aleatorie nite.
6.2 Variabili aleatorie nite

6.2.1 Distribuzione
X
la variabile che vale zero se esce un pari ed uno dei valori assunti da
Esempio 6.2.1. Si lancia un dado. Sia

se esce un numero dispari. In questo caso
= {1, 2, 3, 4, 5, 6} e l'insieme
E = {0, 1}.
Si ha
X(1) = X(3) = X(5) = 1 X(2) = X(4) = X(6) = 0
35
Esempio 6.2.2. Si lanciano due dadi. Sia
la somma dei due numeri usciti. Lo spazio
campionario che descrive tutte le possibilit che si hanno nelle due estrazioni
= {(1, 1), (1, 2), . . . , (1, 6), . . . , (6, 1), (6, 2), . . . , (6, 6)}.
In questo caso l'insieme dei valori assunti da esempio,
E = {2, 3, . . . , 12}.
Inoltre si ha, per
Y ((1, 1)) = 2,
Y ((2, 1)) = 3 Y ((3, 2)) = 5.
chiaro che essendo una variabile aleatoria funzione di esperimenti aleatori, essa assume i suoi valori con una certa probabilit. Pi precisamente tornando agli esempi precedenti ci si pu fare domande del tipo: qual la probabilit che che
sia zero? Qual la la probabilit
sia cinque? E cos via. Vediamo di rispondere.
Esempio 6.2.3. Torniamo alla variabile

assumere valori in
E = {0, 1}.
Che vuol dire che
risultato pari. Formalizzando abbiamo che
X , come gi detto pu X = 0? Vuol dire che il lancio ha dato un l'evento {X = 0} si pu scrivere come segue,
dell'Esempio 6.2.1.
{X = 0} = {2, 4, 6},
quindi
P(X = 0) = P({2, 4, 6}) =

Analogamente, che vuol dire Formalizzando abbiamo che l'evento
3 1 = . 6 2
risultato dispari.
X = 1? Vuol dire che il lancio ha dato un {X = 1} si pu scrivere come segue, {X = 1} = {1, 3, 5},
quindi
P(X = 1) = P({1, 3, 5}) =

Volendo rappresentare gracamente abbiamo:
....................... ....................... ...... .... ...... .... .... .... .... .... .. . ... .... ... ... ... ... ... ... ... ... ... . ... ... ... ... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . .. .. .. .. .. .. .. .. .. .. . .. .. ... .. ... ... ... ... ... . .. ... ... ... ... ... ... ... ... .... .... ... ... .... ..... .... .... ...... ........ ..... ..... ................... ..............
3 1 = . 6 2
{X = 1} {X = 0}
3 4
Abbiamo cos partizionato
attraverso
X.
Possiamo riassumere quello che abbiamo
trovato nella seguente tabella, in cui in una colonna riportiamo i valori assunti da nell'altra le probabilit con cui questi valori vengono assunti.
36
X
0 1
Prob. 1/2 1/2
Tutto ci vi ricorda qualcosa??!! Quanto fa la somma della colonna delle probabilit? un caso? Passiamo all'altra variabile aleatoria vista sino ad ora.
Esempio 6.2.4. Torniamo alla variabile

assumere valori in dadi hanno dato
Y dell'Esempio 6.2.2. Y , come gi detto E = {2, 3, . . . , 12}. Che vuol dire che Y = 2? Vuol dire che i come risultato (1, 1). Formalizzando abbiamo che l'evento {Y = 2} si {Y = 2} = {(1, 1)},
pu due pu
scrivere come segue,
quindi
1 . 36 Cerchiamo anche qui di scrivere P(Y = k) per k = 2, 3, . . . , 12. Sono un po' pi di valori, ma P(Y = 2) = P({(1, 1)}) =
con un po' di pazienza dovremmo farcela...
P(Y = 2) = P({(1, 1)}) =
1 36 2 36 3 36 4 36 5 36 6 36 5 36
P(Y = 3) = P({(1, 2), (2, 1)}) =
P(Y = 4) = P({(1, 3), (3, 1), (2, 2)}) =
P(Y = 5) = P({(1, 4), (4, 1), (2, 3), (3, 2)}) =
P(Y = 6) = P({(1, 5), (5, 1), (2, 4), (4, 2), (3, 3)}) =
P(Y = 7) = P({(1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3)}) = P(Y = 8) = P({(2, 6), (6, 2), (3, 5), (5, 3), (4, 4)}) = P(Y = 9) = P({(3, 6), (6, 3), (4, 5), (5, 4)}) = P(Y = 10) = P({(4, 6), (6, 4), (5, 5)}) = P(Y = 11) = P({(5, 6), (6, 5))}) = P(Y = 12) = P({(6, 6)}) = 1 36 2 36 3 36 4 36
Possiamo riassumere quello che abbiamo trovato nella seguente tabella (fatta in orizzontale per motivi di spazio!), in cui in una riga riportiamo i valori assunti da probabilit con cui questi valori vengono assunti.
e nell'altra le
Y
Prob
2 1 36
3 2 36
4 3 36
5 4 36
6 5 36
7 6 36
8 5 36
9 4 36 37
10 3 36
11 2 36
12 1 36
Tutto ci vi ricorda qualcosa??!! Quanto fa la somma della colonna delle probabilit? di nuovo un caso? Forse no. Vediamo di generalizzare. aleatoria Cominciamo dal caso (visto negli esempi precedenti) in cui Abbiamo quindi una variabile con una certa probabilit:
la variabile aleatoria assume un numero nito di valori.
X che assume valori in E = {x1 , x2 , . . . , xn }, ciascuno P(X = xi ) = pi , i = 1, 2, . . . , n. Riportando in una tabella si ha X

Prob
x1 p1
x2 p2
... ...
xn pn
Si osservi che:
0 pi 1, in quanto sono probabilit; n i=1 = p1 + p2 + . . . pn = P() = 1.

L'insieme dei valori assunti da
e le probabilit con cui vengono assunti si chiama
legge o distribuzione di
X.
La distribuzione di una variabile aleatoria ha molte analogie
con una distribuzione di frequenze in cui in una colonna ci sono i valori assunti nell'altra le frequenze relative. Anche gracamente la distribuzione di una variabile aleatoria si pu rappresentare gracamente con un istogramma. Vediamo la rappresentazione graca della variabile
dell'Esempio 6.2.2. 6/36 5/36 4/36 3/36 5/36 4/36 3/36 2/36 1/36
2/36 1/36
10
11
12
Osservazione 6.2.5. Si osservi che le probabilit relative ai valori assunti dalla variabile
Pi precisamente sempre riferito alla variabile calcolare
hanno a che fare con le aree individuate dall'istogramma che descrive la sua distribuzione.
somma di dadi, se vogliamo, per esempio,
P(Y = 5)
baster andare a vedere qual l'area del rettangolo centrato in 5 (4/36).
Se invece vogliamo calcolare una probabilit pi complicata, per esempio baster andare a sommare le aree interessate:
4<Y 6
vuol dire
P(4 < Y 6) Y = 5 oppure Y = 6
Quindi la probabilit richiesta la somma delle aree dei due rettangoli interessati,
P(4 < Y 6) = P(Y = 5) + P(Y = 6) =
5 9 1 4 + = = . 36 36 36 4
38
6.2.2
Media e varianza
In analogia a quanto fatto per le distribuzioni di frequenze possiamo introdurre la media e la varianza di una variabile aleatoria.
Denizione 6.2.6. Si chiama media di

n i=1
e si indica con
E[X]
(la
sta per
expectation, in inglese aspettazione o media), la quantit
X = E[X] =
x i p i = x 1 p 1 + x 2 p2 + . . . x n pn .
(6.1)
Come per le distribuzioni di frequenze la media un indice di posizione. D indicazioni intorno a quali valori la variabile aleatoria posizionata.
Denizione 6.2.7. Si chiama varianza di
e si indica con
2 X
Var[X],
la quantit
Var[X] =
n i=1
(xi X )2 pi = (x1 X )2 p1 + (x2 X )2 p2 + . . . (xn X )2 pn .
(6.2)
Denizione 6.2.8. Si chiama scarto quadratico medio o anche deviazione standard

di
e si indica con
X ,
la radice della varianza, ovvero
X =
Si osservi che se i dati
n i=1
(xi X )2 pi .
(6.3)
xi
rappresentano, ad esempio, lunghezze misurate in metri, la
media (e tutti gli altri indici di posizione) e la deviazione standard sono misurate in metri, mentre la varianza misurata in metri quadri. La varianza e la deviazione standard sono grandezza non negative, che si annullano solo quando gli
xi sono tutti uguali tra loro e quindi
uguali alla loro media. utile per il calcolo esplicito della varianza (la cui dimostrazione lasciata per esercizio agli studenti pi interessati e volenterosi!)
2 X =
Vediamo un esempio.
n i=1
x2 pi 2 = E[X 2 ] E[X]2 . i X
(6.4)
Esempio 6.2.9. Sia
la variabile aleatoria dell'Esempio 6.2.2. Si ha
E[X] = 2
Inoltre
1 2 3 4 5 6 5 4 3 2 1 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 = 7. 36 36 36 36 36 36 36 36 36 36 36 1 2 3 4 1 1974 + 32 + 42 + 52 + . . . + 122 = 36 36 36 36 36 36
E[X 2 ] = 22
pertanto
Var[X] = E[X 2 ] E[X]2 =

39
1974 72 = 5.83 36
6.3 Variabili aleatorie numerabili

6.3.1 Distribuzione
X sia una variabile casuale su con un insieme immagine innitamente numerabile. E = {x1 , x2 , . . .}. In questo caso la distribuzione di X si denisce come nel caso precedente (a parte accorgimenti tecnici). La variabili X assume valori in E , ciascuno con una certa probabilit: P(X = xi ) = pi , i = 1, 2, . . . Riportando in una tabella si ha
Supponiamo ora che
X
Prob
x1 p1
x2 p2
... ...
Si osservi che anche in questo caso:
0 pi 1, in quanto sono probabilit; + i=1 pi = p1 + p2 + . . . = P() = 1.

Esempio 6.3.1. Sia
X la prima volta che esce sei in lanci ripetuti di un dado (tempo di primo successo). X pu assumere valori in E = {1, 2, 3, . . .}. Cerchiamo di trovare la distribuzione di questa variabile aleatoria. Indichiamo con A1 =esce 6 al primo lancio, A2 =esce 6 al secondo lancio, ecc... Questi eventi sono chiaramente indipendenti (ognuno
relativo ad un lancio diverso), ed ognuno ha ovviamente probabilit 1/6. Passiamo a calcolare la distribuzione di Che vuol dire
X. X = 1?
Vuol dire che al primo lancio uscito 6, quindi
1 P(X = 1) = P(A1 ) = . 6
Che vuol dire
X = 2?
Vuol dire che al primo lancio non uscito 6 ed invece uscito 6 al
secondo lancio, ovvero, data l'indipendenza dei lanci,
P(X = 2) = P(Ac A2 ) = P(Ac )P(A2 ) = 1 1

Che vuol dire
5 1 5 = . 6 6 36
X = 3?
Vuol dire che ai primi due lanci non uscito 6 ed invece uscito 6 al
terzo lancio, ovvero, data l'indipendenza dei lanci,
P(X = 3) = P(Ac A2 A3 ) = P(Ac )P(Ac )P(A3 ) = 1 2 1 2

Proviamo a generalizzare. Che vuol dire
5 5 1 ( 5 )2 1 26 = = . 6 6 6 6 6 216
hanno dato 6 ed il
X = k?
Vuol dire che i primi
k 1 lanci non ( 5 )k1 1 . 6 6
k -esimo lancio
ha dato 6. In formule, per
k = 1, 2, . . ., P(X = k) =
Volendo riportare i risultati in una tabella (innita!), abbiamo:
X
Prob
1 2 3 ... 1/6 5/36 25/216 . . .

40
Volendo fare una rappresentazione graca, abbiamo il seguente istogramma (innito!) 1/6 5/36
25/216
Osservazione 6.3.2. Si osservi che, anche in questo caso, le probabilit relative ai valori
assunti dalla variabile hanno a che fare con le aree individuate dall'istogramma che descrive la sua distribuzione. Pi precisamente sempre riferito alla variabile il numero 6, se vogliamo, per esempio, calcolare complicata, per esempio vuol dire
prima volta che esce
P(X = 1)
baster andare a vedere qual
l'area del rettangolo centrato in 1 (1/6). Se invece vogliamo calcolare una probabilit pi
X =1
oppure
P(X < 4) baster andare a sommare le aree interessate: X < 4 X = 2 oppure X = 3 Quindi la probabilit richiesta la somma 1 5 25 91 + + = . 6 36 216 216
delle aree dei tre rettangoli interessati,
P(X < 4) = P(X = 1) + P(X = 2) + P(X = 3) =
6.3.2
Media e Varianza
Anche in questo caso possiamo denire media e varianza di una variabile aleatoria numerabile come nel caso precedente. La media e la varianza di
sono denite da
X = E[X] =
e
+ i=1
xi = x1 p 1 + x2 p 2 + . . .
2 X
= Var[X] =
+ i=1
(xi X )2 pi = (x1 X )2 p1 + (x2 X )2 p2 + . . . ,
rispettivamente, quando le rispettive serie sono assolutamente convergenti. Si pu dimostrare + 2 2 che Var[X] esiste se e solo se esiste E[X ] = i=1 xi pi ed in tal caso, come nel caso nito,
Var[X] = E[X 2 ] E[X]2 .

Quando la varianza di
esiste, lo scarto quadratico medio denito da
X =
e varianza sono note.
Var[X].
Nel capitolo
Nel caso di variabili numerabili ci limiteremo al caso di variabili aleatorie in cui media Insomma non sar richiesto di sommare delle serie. successivo vedremo qualche esempio.
41
6.4 Variabili aleatorie continue

6.4.1 Distribuzione
E
sia un insieme continuo. Per esempio un intervallo di Supponiamo ora che l'insieme
R.
Rammentiamo che, dalla denizione di variabile aleatoria, deve essere possibile calcolare
a b. In tal caso allora, dato che non possibile assegnare la probabilit dei singoli punti in E , supporremo che esista una funzione f : R R, tale che P(a < X < b) sia uguale all'area sottesa dal graco di f tra x = a e x = b. Nel linguaggio del calcolo b P(a < X < b) = f (x) dx.
per ogni
P(a < X < b)
a
In questo caso la funzione tervallo in cui la
detta distribuzione o densit di
X.
Essa non nulla nell'in-
prende valori (quindi in
E)
e soddisfa le seguenti propriet:
f (x) 0 per ogni x R; R f (x)dx = 1.

Ovvero,
non negativa e l'area totale sottesa dal suo graco pari ad 1. Il graco di
l'analogo dell'istogramma visto per variabili discrete. Intuitivamente come se, dato che la variabile pu assumere tutti i valori in un certo intervallo, si prendesse un istogramma con classi sempre pi piccole, al limite otterremo il prolo di una funzione. Vediamo anche qui un esempio.
Esempio 6.4.1. Sia
la variabile aleatoria continua con funzione densit
data da
{ f (x) =
1 x 2
0x2 altrimenti,
se
Verichiamo che si tratta veramente di una densit e calcoliamo Tracciamo il graco della funzione
P(1 < X < 1.5).
f.
.. .. .... .... .... .... . .. .... .... .... .. .. .... .... .... .... .... .... .... .... .... .... . ... .... .... .... .... .... ..... ..... . .... . . . .... ....... ............. .. .... . . .... .... ............... .... . . . . . . . . . ..... . . . . . . . . . . .... . . . . . . . . . . . ..... . . . . . . . . . . . . .... . . . . . . . . . . . . . ................................. . .. ..................................... ...................................... ... .... . . .... ............................................. . .... ................................................. .... ...................................................... . .. .......................................................... .... ....................................................... .... ....................................................... .. ... ....................................................... .... .... ............................ .... .... ....................................................... ........................... .... ....................................................... .... . .. ............................ .... ....................................................... .... .... . ........................... .. ....................................................... .... .... . ............................ .. ....................................................... .... .... ........................... ... ....................................................... ... ............................ .... .... ....................................................... .... .... ........................... ....................................................... ... ... ............................ .... .... ....................................................... .... .... ........................... ....................................................... ... ... ............................ .... .... ....................................................... .... .... ....................................................... ... ... ....................................................... .... .... ........................... ....................................................... .... .... . ............................ .... .... ....................................................... ........................... .. . .... ....................................................... .... .... ....................................................... .... ....
1.5
42
Intanto verichiamo che
sia veramente una densit. Che
f 0 immediato.
Mostriamo
che l'area sottesa dal suo graco uno.
f (x) dx =
0
R
Dunque
1 1 x dx = x2 2 4
= 1.
0
una densit.
Per calcolare la probabilit richiesta occorre calcolare l'area
ombreggiata, ovvero
P(1 X 1.5) =
1
1.5
1 1 x dx = x2 2 4
3/2
=
1
5 . 16
Analogamente a quanto fatto per le distribuzioni di frequenze possiamo qui introdurre,
mediana, quartili, percentili. Pi in generale data la distribuzione di una variabile aleatoria
possiamo dare la seguente denizione.
Denizione 6.4.2. Si denisce quantile di ordine
(0, 1)
quel valore
sull'asse
tale
P(X q ) = .
Si osservi, che questa denizione pu essere data, ovviamente, per tutte le variabili aleatorie (discrete e continue). La poniamo qui perch noi la utilizzeremo quasi esclusivamente per variabili aleatorie continue. Torniamo all' Esempio 6.4.1.
Esempio 6.4.3. Calcoliamo la mediana, q.5 della distribuzione dell'esempio precedente.

Qui
= 0.5,
pertanto deve essere
P(X q ) =
Da cui
q.5
1 x dx = 0.5. 2 q.5 = 2 = 1.41.
1 2 x 4
q.5 0
1 2 = q.5 = 0.5, 4
6.4.2
Media e varianza
X
continua sono denite da
La media e la varianza di una variabile aleatoria
X = E[X] =
e
x f (x) dx
R
2 X
= Var[X] =
R
(x X )2 ,
rispettivamente, quando i rispettivi integrali sono assolutamente convergenti. Si pu di 2 2 mostrare che Var[X] esiste se e solo se esiste E[X ] = x f (x) dx ed in tal caso, come nel R caso nito, 2 2
Var[X] = E[X ] E[X] .
Quando la varianza di
esiste, lo scarto quadratico medio denito da
X =
Var[X].
43
Esempio 6.4.4. Calcoliamo media e varianza della variabile aleatoria
dell'Esempio 6.4.1.
E[X] =
0
1 1 x x dx = 2 2
1 x dx = x3 6
2
2 0
4 = . 3
Per il calcolo della varianza abbiamo bisogno di
E[X 2 ]. x3 dx = 1 4 x 8
2
E[X ] =
2 0
quindi
1 1 x x dx = 2 2
2
=
0
2 ,
Var[X] = 2
( 4 )2 3
2 = . 9
6.5 Variabili aleatorie indipendenti [cenni]

Partiamo da un esempio.
Esempio 6.5.1. Si lancia una coppia di dadi. Sia

valori usciti e
la variabile che fornisce il massimo dei
la variabile che fornisce la somma dei valori usciti. Vogliamo studiare come
sono collegati i valori assunti da
e da
Y.
In questo caso abbiamo gi visto che
= {(1, 1), (1, 2), . . . , (1, 6), . . . , (6, 1), (6, 2), . . . , (6, 6)}.
Si tratta di una spazio equiprobabile che contiene 36 elementi e quindi ciascun elemento (coppia) ha probabilit 1/36. Per precisione cerchiamo
P(X = h, Y = k)
per
h = 1, 2, 3, 4, 5, 6
Y = 2, 3, . . . , 12..
Calcoliamo la distribuzione di Precisamente si ha:
X.
Il massimo assume valori in
E = {1, 2, 3, 4, 5, 6}.
{X {X {X {X {X {X
= 1} = 2} = 3} = 4} = 5} = 6}
= = = = = =
{(1, 1)} {(1, 2), (2, 1), (2, 2)} {(1, 3), (3, 1), (2, 3), (3, 2), (3, 3)} {(1, 4), (4, 1), (2, 4), (4, 2), (3, 4), (4, 3), (4, 4)} {(1, 5), (5, 1), (2, 5), (5, 2), (3, 5), (5, 3), (4, 5), (5, 4), (5, 5)} {(1, 6), (6, 1), (2, 6), (6, 2), (3, 6), (6, 3), (4, 6), (6, 4), (5, 6), (6, 5), (6, 6)}
Da cui si ha:
X
Prob
1 1 36
2 3 36
3 5 36
4 7 36
5 9 36
6 11 36
La distribuzione di completezza.
l'abbiamo gi calcolata nell'Esempio 6.2.2. La riportiamo qui per
Y
Prob
2 1 36
3 2 36
4 3 36
5 4 36
6 5 36
7 6 36
8 5 36
9 4 36
10 3 36
11 2 36
12 1 36
44
Adesso cerchiamo di studiare se c' una qualche relazione tra i valori assunti a assunti da Pertanto Pertanto
e quelli
Y.
Per esempio: che vuol dire
{X = 1, Y = 2}? Vuol dire che uscita la coppia (1,1)! P({X = 1, Y = 2}) = 1/36. Che vuol dire {X = 1, Y = 3}? impossibile!! P({X = 1, Y = 3}) = 0. Rappresentiamo con una tabella tutte le probabilit.
2 1/36 0 0 0 0 0 3 0 4 0 5 0 0 2/36 2/36 0 0 6 0 0 7 0 0 0 2/36 8 0 0 0 1/36 9 0 0 0 0 2/36 2/36 10 0 0 0 0 1/36 2/36 11 0 0 0 0 0 2/36 12 0 0 0 0 0 1/36
X Y
1 2 3 4 5 6
2/36 1/36 0 2/36

0 0 0 0 0 0
1/36
2/36
2/36 2/36 2/36 0 2/36 2/36
La domanda ora : le due variabili sono indipendenti? Ovvero il risultato di una variabile indipendente dal risultato dell'altra? In formule, mi chiedo se
P(X = h|Y = k) = P(X = h),

o equivalentemente
P(X = h, Y = k) = P(X = h)P(Y = k).

La risposta qui chiaramente no. Infatti riprendiamo la distribuzione di
e di
Y.
Si ha
P(X = 1, Y = 2) =
1 1 1 = P(X = 1)P(Y = 2) = . 36 36 36 X
una variabile
Alla luce di questo esempio possiamo dire che due variabili aleatorie sono indipendenti, se il risultato di una indipendente dal risultato dell'altra. Per esempio se che riguarda il primo lancio di un dado e
riguarda il secondo lancio le due variabili sono
ovviamente indipendenti perch i due lanci lo sono. Nell'esempio precedente sia la presumibile, anche se non necessario, che fossero dipendenti.
che la
sono variabili legate contemporaneamente al risultato di entrambi i lanci ed era abbastanza
6.6 Propriet della media e della varianza

Siano
due variabili aleatorie sullo spazio di probabilit
(, F, P). a
un numero reale.
Vogliamo qui elencare, senza dimostrarle, delle importanti propriet della media e della varianza che ci risulteranno molto utili in seguito.
media
E[X + Y ] E[a] E[X + a] E[aX]
= = = =
E[X] + E[Y ] a E[X] + a aE[X]
45
varianza
Se
sono indipendenti, si ha
Var[X + Y ] Var[a] Var[X + a] Var[aX]
= = = =
Var[X] + Var[Y ] 0 Var[X] a2 Var[X]
46
Capitolo 7 Alcune distribuzioni famose
7.1 Distribuzione di Bernoulli

La variabile aleatoria con distribuzione di Bernoulli , forse, la pi semplice, ma anche una delle pi importanti. Vediamo a cosa corrisponde. Consideriamo un esperimento con due soli esiti; deniamo successo uno dei due esiti, insuccesso l'altro. Sia quindi
1p
la probabilit di insuccesso. A questo punto sia
p la probabilit di successo, X la variabile aleatoria che

(7.1)
vale 1 se ottengo il successo 0 se ottengo l'insuccesso. Si ha, ovviamente
P(X = 1) = p
Sotto forma di tabella
P(X = 0) = 1 p.
X
Prob
1
p ha distribuzione di Bernoulli di parametro
1p X
Diremo che
X Be(p).
testa e zero quando esce croce, si ha
p (p [0, 1]) X
e scriveremo
Esempio 7.1.1. Si lanci una moneta equa e sia testa il successo. Se
vale 1 quando esce
X Be(1/2).
Calcoliamo media e varianza di una legge di Bernoulli. Applicando la (6.1), si ha
E[X] = 1 p + 0 (1 p),
ed anche
E[X 2 ] = 12 p + 02 (1 p).
Pertanto
Var[X] = E[X 2 ] E[X]2 = p p2 = p(1 p).
7.2 Distribuzione Binomiale

La variabile aleatoria con distribuzione binomiale un esempio molto importante di variabile aleatoria nita. Vediamo a cosa corrisponde.
47
Consideriamo l'altro. Sia
n prove ripetute ed indipendenti di un esperimento con due soli esiti (prove 1p

la probabilit di
bernoulliane); come nel caso precedente deniamo successo uno dei due esiti, insuccesso
la probabilit di successo (in ogni singola prova),
insuccesso. A questo punto sia nelle prove fatte. la somma di formule, se
la variabile aleatoria che conta quanti successi ottenuti
si dice variabile binomiale di parametri
(numero delle prove) e
probabilit di successo (su ogni singola prova). Tale variabile aleatoria si pu vedere come
n variabili indipendenti bernoulliane, ciascuna corrispondente ad una prova. In Y1 , Y2 , . . . , Yn sono bernoulliane indipendenti di parametro p, X = Y1 +Y2 +. . . Yn . Scriveremo X Bi(n, p). Vediamo qual la sua distribuzione. Intanto X pu assumere valori da 0 (nessun successo) a n (tutti successi), ovvero E = {0, 1, 2, . . . , n}. Si pu dimostrare che si ha ( ) n k P(X = k) = p (1 p)nk , k = 0, 1, 2 . . . , n. (7.2) k
Chiariamo con degli esempi.
Esempio 7.2.1. Viene lanciata 6 volte una moneta equa. Sia testa il successo. Calcolare la
probabilit che 1. testa non esca aatto; 2. esca esattamente una testa; 3. escano almeno due teste. Sia
la variabile aleatoria che conta il numero di teste su 6 lanci.
X Bi(6, 1/2).
Si
tratta allora di tradurre in termini di 1. Si richiede
le probabilit richieste.
P (X = 0),
per la (7.2), si ha
( )( ) ( ) 6 1 0 1 6 6! 1 1 = P(X = 0) = = . 6 0 2 2 0!6! 2 64
2. Si richiede
P (X = 1),
per la (7.2), si ha
( )( ) ( ) 6 1 1 1 5 6! 1 6 P(X = 1) = = = . 6 1 2 2 1!5! 2 64
3. Si richiede
P(X 2).
Utilizzando quanto sin qui trovato, si ha
P(X 2) = 1 P(X < 2) = 1 (P(X = 0) + P(X = 1)) = 1

Per completezza possiamo calcolare la distribuzione di la tabella seguente:
57 7 = . 64 64
X.
6
Applicando la (7.2) otteniamo
X
Prob
0 1/64
1 6/64
2 15/64
3 20/64
4 15/64
5 6/64
1/64
48
Vediamo anche come fatto l'istogramma di questa distribuzione.
20/64 15/64 15/64
6/64 1/64 0 1 2 3 4
6/64 1/64 5 6
Questa distribuzione simmetrica ed il valore pi probabile chiaramente 3.
Esempio 7.2.2. Un dado viene lanciato 7 volte; un lancio un successo se esce il numero
1. Calcolare la probabilit 1. di avere 3 successi; 2. di non avere successi. Anche qui il problema modellizzare. Sia
il numero dei lanci che hanno dato 1.
X Bi(7, 1/6).
1. Si richiede
Si tratta di nuovo di tradurre in termini di
le probabilit richieste.
P (X = 3),
per la (7.2), si ha
( )( ) ( ) 7 1 3 5 4 P(X = 3) = . 3 6 6 ( )( ) ( ) 7 1 0 5 7 P(X = 0) = . 0 6 6
2. Si richiede
P (X = 1),
per la (7.2), si ha
Per il calcolo della media e della varianza di una variabile binomiale utilizziamo il fatto che si scrive come somma di variabili bernoulliane indipendenti, pertanto
E[X] = E[Y1 + Y2 + . . . Yn ] = E[Y1 ] + E[Y2 ] + . . . + E[Yn ] = p + p + . . . + p = np,

ed anche
Var[X] = Var[Y1 + Y2 + . . . Yn ] = Var[Y1 ] + Var[Y2 ] + . . . + Var[Yn ] = p(1 p) + p(1 p) + . . . + p(1 p) = np(1 p).
Riassumendo, se
X Bi(n, p):
E[X] = np, Var[X] = np(1 p).

49
(7.3) (7.4)
7.3 Distribuzione Geometrica

Riprendiamo e generalizziamo la variabile aleatoria dell'Esempio 6.3.1. Sia primo successo in prove indipendenti bernoulliane di parametro distribuzione di singole prove. Che vuol dire
p,
ovvero
X X
il tempo di la prima
volta in cui compare il successo (il valore 1) in una serie di prove indipendenti. Qual la
X ? Intanto siano Y1 , Y2 , . . . bernoulliane di parametro p corrispondenti alle X pu assumere valori in E = {1, 2, . . .}, quindi una variabile discrete.
Vuol dire che la prima prova un successo, quindi
Calcoliamo la sua distribuzione.
X = 1?
P(X = 1) = P(Y1 = 1) = p.
Che vuol dire
X = 2?
Vuol dire che la prima prova non un successo ma la seconda prova
s, ovvero, data l'indipendenza delle prove,
P(X = 2) = P(Y1 = 0, Y1 = 1) = P(Y1 = 0)P(Y2 = 1) = (1 p) p.

Che vuol dire
X = 3?
Vuol dire che le prime due prove sono un insuccesso ed invece un
successo la terza prova, ovvero, data l'indipendenza delle prove,
P(X = 3) = P(Y1 = 0, Y2 = 0, Y3 = 1) = P(Y1 = 0)P(Y2 = 0)P(Y3 = 1) = (1 p) (1 p) p = (1 p)2 p.

Proviamo a generalizzare. Che vuol dire
X = k?
Vuol dire che le prime
k -esima
prova ha dato il successo. In formule,
k 1 prove non per k = 1, 2, . . .,
hanno dato il successo e la
P(X = k) = P(Y1 = 0, . . . , Yk1 = 0, Yk = 1) = (1 p)k1 p.

Volendo riportare i risultati in una tabella (innita!), abbiamo:
X
Prob
1 p
2 (1 p)p
3 (1 p)2 p
... ...
Volendo fare una rappresentazione graca, abbiamo il seguente istogramma (innito!)
p p(1 p)
p(1 p)2 p(1 p)3
50
La variabile aleatoria
qui descritta, corrispondente al tempo di primo successo in prove
indipendenti bernoulliane di parametro
detta geometrica di parametro
p.
Scriveremo
X Ge(p).
Si pu dimostrare che, se
X Ge(p): 1 E[X] = , p Var[X] = 1p . p

(7.5)
(7.6)
7.4 Distribuzione di Poisson

Diremo che
ha legge di Poisson di parametro
>0
e scriveremo
X Po(),
se
ha la
seguente distribuzione
P(X = k) = e
k , k!
per
k = 0, 1, . . . .
Questa distribuzione innitamente numerabile si manifesta in molti fenomeni naturali, come il numero di chiamate ad un centralino in un'unit di tempo (minuto, ora, giorno, ecc), il numero di auto che transitano in un certo incrocio sempre in un'unit di tempo e altri fenomeni simili. Segue il diagramma della distribuzione di Poisson per
=2
e2 2! e2 2 1! e2 2 0!
0 1
22
e3 2 3!
e2 2 4!
e2 2 5!
0 1 2 3 4 5
e2 2 6!
6
Si pu dimostrare che, se
X Po(): E[X] = , Var[X] = .

(7.7) (7.8)
7.5 Distribuzione uniforme (continua)

Diremo che
ha distribuzione uniforme su
(a, b),
per
se ha densit costante data da
f (x) =
1 ba
x (a, b).
51
Scriveremo
X Un(a, b).
Questa variabile aleatoria assegna stessa probabilit ad intervalli
della stessa lunghezza ovunque siano posizionati. appunto uniforme. Se sua densit rappresentata dal seguente graco.
X Un(a, b),
la
1 ba
a E[X] =
a b
b 1 1 x2 dx = ba ba 2
b
Calcoliamo media e varianza della legge uniforme. Per la media si ha,
=
a
1 b 2 a2 a+b = . ba 2 2
Per calcolare la varianza abbiamo bisogno di
E[X 2 ].
b
Si ha,
E[X ] =
2 a
Pertanto,
1 x3 1 x dx = ba ba 3
2
=
a
a2 + ab + b2 1 b 3 a3 = . ba 3 3
a2 + ab + b2 ( a + b )2 (b a)2 Var[X] = = . 3 2 6
7.6 Distribuzione esponenziale

Diremo che
ha distribuzione esponenziale di parametro
> 0,
se ha densit data da
f (x) = ex
Scriveremo
per
x > 0.
X Exp().
Questa variabile aleatoria viene usata per modellizzare tempi la sua densit rappresentata dal seguente graco.
aleatori. Il tempo di durata di un apparecchio elettronico, il tempo di attesa per un arrivo in una coda ecc... Se
X Exp(),
..........
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .... .... .... .... .... .... .... .... .... ..... ..... ..... ..... ..... ...... ...... ...... ....... ....... ........ ......... ......... ........... ............ .............. ................ .................... ........................ ..................................... .............................................. ...................
Si pu dimostrare (ci lasciato per esercizio agli studenti pi volenterosi che si ha,
E[X] = Var[X] =
1 . 1 . 2
52
Capitolo 8 Il modello Normale
8.1 Distribuzione Normale o Gaussiana

La distribuzione Normale o Gaussiana una delle pi importanti distribuzioni utilizzate in statistica per diversi motivi. Essa una distribuzione continua a valori su tutto
R.
Molte
variabili casuali reali (la quantit di pioggia che cade in una certa regione, misurazioni varie, ecc...) seguono una distribuzione Normale. Inoltre la distribuzione Normale serve per approssimare (vedremo in che senso) molte altre distribuzioni. La distribuzione Normale una distribuzione continua, pertanto essa caratterizzata dalla sua densit.
Denizione 8.1.1. Diremo che
2 > 0,
e scriveremo
X una variabile aleatoria X N(, 2 ), se la sua densit f (x) = 1 2 2 e

(x)2 2 2
Normale di parametri
R,
x R. f
al variare di
I due diagrammi sottostanti mostrano le variazioni di
particolare che queste curve campaniformi sono simmetriche rispetto alla Si pu dimostrare che, se
2 . Si noti, retta x = .
e
in
X N(, 2 ): E[X] = , Var[X] = 2 .

(8.1) (8.2)
= 2
=0
=2
......... ......... ........... ............ ............. ............. ..... ... ..... ... .... ... .... ... .... ... .... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..... ... ... ... .... ... ... ..... ... ... .... ... . ... .. ... . ... ... .. . ... ... ... ... .... .... . .. .. ... ... ... ... ... ... ... ... ... .... ... ..... . . . ... ... ... ... ... ... ... ... ... ... ... ... ... . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... . . ... . ... .. .. ... .. ... ... .... ... ... .... ...... .... ... ... .... ...... .... .... . . .. .. .... .... .... ..... ..... ..... .... .... .... .... .. .. .. . . ....... ....... .. .. .. . .. . . . ......... .......... ......... ......... ....... ....... ....... .................... . ........ ........ ........ .................... ..... ... .... ....... ....... ....... ....... ....... .......
2
Figura 8.1 Distribuzioni normali con
2 .
=1
sso, al variare di
53
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......... .. . . .... . . . .. ............. .. . ....... . .... .... .. . .... ... .. .. ... ... . ... . ... .. .. . .. . .. . .. ... . ... . . .. . .. . .. ... . ... .. . .. . . .. . ................................................ .. ... ................................................. . ........ . . .. . .. ............ ...... . . ........ . .. ... .... .. ... .... ... ......... . . ... .. ....... ..... ....... ..... . .. ........ ... .... .... .............. .... .. ... .. ......... ........ .. ... ........ ......... ... .... . . .... .. .... ..... ............ ........... ... . ... .... ..... ........... ... ........... ..... . . . .... .... ............ ................ .......... .............. ............ ............. ............. ............
.... ..... .....=..... 1/2
=1 =2
0
2 =0
Figura 8.2 Distribuzioni normali con
sso, al variare di
Quindi i parametri della normale sono proprio la media e la varianza. C'era da as2 2 pettarselo visto che erano stati chiamati e ! Il caso = 0 e = 1 un caso speciale. Una variabile aleatoria di
X N(0, 1), si chiama Normale standard e come vedremo sar per
noi di grande importanza da qui in seguito. Si pu osservare dalle gure sopra, che al variare
la campana viene soltanto traslata mantenendo la stessa forma, sempre simmetrica
rispetto alla retta
x = .
Al variare di
invece la campana si modica, precisamente pi
concentrata vicino alla media per valori piccoli di
e molto pi dispersa per valori grandi di
il che ovvio se si pensa al signicato del parametro 2 Se X N(, ), si pu dimostrare che
X =
X N(0, 1).
Il processo che permette di passare da una Gaussiana qualunque ad una gaussiana standard si chiama, appunto, standardizzazione. Vale anche un viceversa. Se X N(0, 1), allora
X = X + N(, 2 ).
Sia
X N(0, 1).
Supponiamo di voler calcolare
P(1 < X < 2).
Per quanto ne sappiamo
sino ad ora questo pari all'area sottesa dalla densit gaussiana tra
x=1
x = 2,
quindi
P(1 < X < 2) =

1
1 2 ex /2 dx. 2
Ma quanto fa questo integrale? La risposta che questo integrale non si pu risolvere analiticamente. Pertanto ci sono delle tabelle che forniscono l'area sottesa dalla densit di una Gaussiana standard. Noi utilizzeremo la seguente tabella che fornisce la probabilit che una gaussiana standard sia minore di
x,
ovvero l'ara ombreggiata.
54
Tabella 1
Area sottesa dalla Gaussiana Standard ((x) l'area ombreggiata)
..... ........ ... ...... ...... .... . . . . . . . .. .... . . . . . . .... . ... . . . . . . . . . . ..... . ... .......... .......... ..... . ... ...... .......... .......... ........ . ......... .......... .......... .......... . ......... .......... .......... ........... . .. . ... . . . . . . . . . . . . . . . . . . . . ... .. .......... .......... .......... .......... ... ... ..... .......... .......... .......... .......... ..... ... . . . . . . . . . . . . . . . . . . . . . ..... ... .. ........ .......... .......... .......... .......... ... ......... .......... .......... .......... .......... .. ... ... ....... .... . . . . . . . . . . . . . . . . . . . . . . . . ... .... ... . . . . . . . . . . . . . . . . . . . . . . . . . .... . . . . . . . . . . . . . . . . . . . . . . . . . . .... . .... ........ .......... .......... .......... .......... .......... ..... . .. ...... .. ........... .......... .......... .......... .......... .......... ............... .......... .......... .......... .......... .......... .. ............ . .. .......... ........... . . .............. ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(x)
x
.05 .51994 .55962 .59871 .63683 .67364 .70884 .74215 .77337 .80234 .82894 .85314 .87493 .89435 .91149 .92647 .93943 .95053 .95994 .96784 .97441 .97982 .98422 .98778 .99061 .99286 .99461 .99598 .99702 .99781 .99841 1.0000 .06 .52392 .56356 .60257 .64058 .67724 .71226 .74537 .77637 .80511 .83147 .85543 .87698 .89617 .91309 .92786 .94062 .95154 .96080 .96856 .97500 .98030 .98461 .98809 .99086 .99305 .99477 .99609 .99711 .99788 .99846 1.0000 .07 .52790 .56750 .60642 .64431 .68082 .71566 .74857 .77935 .80785 .83398 .85769 .87900 .89796 .91466 .92922 .94179 .95254 .96160 .96926 .97558 .98077 .98500 .98840 .99111 .99324 .99492 .99621 .99720 .99795 .99851 1.0000 .08 .53188 .57142 .61026 .64803 .68439 .71904 .75175 .78230 .81057 .83646 .85993 .88100 .89973 .91621 .93056 .94295 .95352 .96246 .96995 .97615 .98124 .98537 .98870 .99134 .99343 .99506 .99632 .99728 .99801 .99856 1.0000 .09 .53586 .57535 .61409 .65173 .68793 .72240 .75490 .78524 .81327 .83891 .86214 .88298 .90147 .91774 .93189 .94408 .95449 .96327 .97062 .97670 .98169 .98574 .98899 .99158 .99361 .99520 .99643 .99736 .99807 .99861 1.0000
x
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0
.00 .50000 .53983 .57926 .61791 .65542 .69146 .72575 .75804 .78814 .81594 .84134 .86433 .88493 .90320 .91924 .93319 .94520 .95543 .96407 .97128 .97725 .98214 .98610 .98928 .99180 .99379 .99534 .99653 .99745 .99813 1.0000
.01 .50399 .54380 .58317 .62172 .65910 .69497 .72907 .76115 .79103 .81859 .84375 .86650 .88686 .90490 .92073 .93448 .94630 .95637 .96485 .97193 .97778 .98257 .98645 .98956 .99202 .99396 .99547 .99664 .99752 .99819 1.0000
.02 .50798 .54776 .58706 .62552 .66276 .69847 .73237 .76424 .79389 .82121 .84614 .86864 .88877 .90658 .92220 .93574 .94738 .95728 .96562 .97257 .97831 .98300 .98679 .98983 .99224 .99413 .99560 .99674 .99760 .99825 1.0000
.03 .51197 .55172 .59095 .62930 .66640 .70194 .73565 .76731 .79673 .82381 .84850 .87076 .89065 .90824 .92364 .93699 .94845 .95819 .96638 .97320 .97882 .98341 .98713 .99010 .99245 .99430 .99573 .99683 .99767 .99831 1.0000
.04 .51595 .55567 .59483 .63307 .67003 .70540 .73891 .77035 .79955 .82639 .85083 .87286 .89251 .90988 .92507 .93822 .94950 .95907 .96712 .97381 .97933 .98382 .98745 .99036 .99266 .99446 .99585 .99693 .99774 .99836 1.0000
55
.... .... ... ... ... ... ... ... ... ... .. .. ... ... ... ... ... ... ... ... ... ... ... ... .. .. ... ... ... ... . .. ... ... ... ... .... .... . .. ..... ...... ...... .... .... ............. .............
34.1%................................ 34.1% .
13.6%
2.1%
.... .... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .... .... .... .... ..... ..... ........ ........ ........... ...........
13.6%
2.1%
Esaminando un po' pi da vicino il graco della normale standard, possiamo vedere che per
1 < x < 1 si ha il 68.2% della 3 < x < 3 praticamente il 100%. x

positivo.
distribuzione e per
2 < x < 2
ben il 95.4%, e per
La Tabella della pagina precedente fornisce l'area sottesa dalla curva normale standard minore di un La simmetria della curva rispetto all'asse ad ricavare l'area compresa tra due valori qualunque di dell'area sottesa sino ad alla questione prima posta, ovvero quanto fa
x.
Se indichiamo
x = 0 consente di con (x) il valore
x (ovvero il valore fornito dalla tabella), possiamo allora rispondere P(1 < X < 2)? Semplice:
P(1 < X < 2) = (2) (1) = 0.97725 0.84134 = 0.13591.

Si osservi che mezza campana ha area 0.5 proprio per motivi di simmetria. Per chiarire vediamo qualche altro esempio.
Esempio 8.1.2. Sia

1. 2. 3. 4. 5. 6. 7. 8.
X N(0, 1).
Determiniamo
P(0 X 1.42); P(0.73 X 0); P(1.37 < X 2.01); P(1.79 X 0.54); P(X 1.13); P(X 1.42); P(|X| 0.50); P(|X| 0.30). (x) = P(X x),
dove
Per risolvere queste questioni useremo la funzione cui valori possono essere trovati sulla Tabella 1. 1. 2.
X N(0, 1),
P(0 X 1.42) = (1.42) 0.5000 = 0.42220. P(0.73 X 0)=P(0 X 0.73) = (0.73) 0.5000 = 0.26731.
56
3.
P(1.37 < X 2.01) = P(1.37 < X 0) + P(0 < X 2.01) = P(0 < X 1.37) + P(0 < X 2.01) = (1.37) + (2.01) 1 = 0.9147 + 0.9778 1 = 0.8925;
4.
P(0.65 X < 1.26) = (1.26) (0.65) = 0.8962 0.7422 = 0.1540;

5.
P(1.79 X 0.54) = P(0.54 X 1.79) = 0.9633 0.7054 = 0.2579; P(X 1.13) = 1.0000 P(X 1.13) = 1.0000 (1.13) = 1.000 0.8708 = 0.1292; P(X 1.42) = (1.42) = 0.9222;
6.
7.
8.
P(|X| 0.50) = P(0.50 X 0.50) = 2 P(0 X 0.50) = 2((0.50) 0.5000) = 2 (0.6915 0.5000) = 0.3830; P(|X| 0.30) = P(X 0.30) + P((X 0.30) = 2P(X 0.30) = 2(1 P(X 0.30)) = 2(1.0000 0.6179) = 0.7643.
9.
Tramite la Tabella 1 possibile calcolare la probabilit che una gaussiana qualunque sia in un ssato intervallo. Come si fa? Si procede attraverso la standardizzazione. Precisamente X 2 sia X N(, ). Vogliamo calcolare P(a < X < b). Sappiamo che X = N(0, 1), pertanto si ha
P(a < X < b) = P
(a
<
(a X b ) b ) < =P < X < .
Quindi la probabilit che una gaussiana qualunque si trovi in un certo intervallo uguale alla probabilit che una gaussiana standard sia in un intervallo di estremi opportunamente modicati, quindi calcolabile come fatto precedentemente.
Esempio 8.1.3.
Supponiamo che la temperatura T nel mese di giugno sia distribuita normalmente con media = 20o C e scarto quadratico medio = 5o C . Vogliamo determinare la probabilit che la temperatura sia 1. minore di
15o C ;
57
2. maggiore di Se
30o C .
e
T la temperatura nel mese di giugno, allora T N(, 2 ), dove = 200 C T 20 Quindi T = N(0, 1). 5
1.
= 50 C .
2.
( T 20 15 20 ) P(T < 15) = P < = P(T < 1) = 1.000 (1) = 1.000 0.8413 = 5 5 0.1587 ( T 20 30 20 ) P(T > 30) = P > = P(T > 2) = 1.000 (2) = 1.000 0.4772 = 5 5 0.0228
Veniamo ora ad un altro problema importante in statistica. Determinare i quantili di una distribuzione normale. Dalla tabella si pu anche risolvere il problema inverso. Ovvero dato il valore della probabilit (dell'area
(x)) trovare il valore di x. Per esempio, sia X N(0, 1) se P(X x) = 0.85083, quanto vale x? Si cerca 0.85083 nella tabella e si va a vedere quale x corrisponde. Si trova: x = 1.04. E se abbiamo un valore della probabilit che non c' nella tabella? Per esempio, se X N(0, 1) e P(X x) = 0.97 quanto vale x? Se andiamo
nella tabella 0.97 non si trova! Allora si cerca il valore pi vicino a 0.97 0.96995. Pertanto
x = 1.88.
In generale, chiameremo
il quantile di ordine
di una una distribuzione normale
standard, ovvero quel valore sull'asse delle
tale che
P(X z ) = P(X < z ) = ,
X N(0, 1),
(0, 1).
(8.3)
Riportiamo qui, dato che li useremo spesso, alcuni quantili famosi della gaussiana standard.
= 0.95 allora z = z.95 = 1.64; = 0.975 allora z = z.975 = 1.96; = 0.99 allora z = z.99 = 2.29; = 0.995 allora z = z.995 = 2.58.
........... .................. ....... ..... . . . . ...... . . ... . ........ ........ . ..... .. .... ..... .............. .............. ........ .... . ... .................... ....................... ... ... ... .. ..................... ..................... ...... . ........ ..................... ..................... .......... ......... ..................... ..................... ........... . . .... .. ... ... .. ... .............. ..................... ..................... ................ ................. ..................... ..................... ................. . ................. ..................... ..................... .................... . . . . ... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... ... .................. ..................... ..................... ........................ .. . ... ... .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .... ... ..................... ..................... ..................... ..................... ..... . . ... ... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ....... ..................... ..................... ..................... ..................... . ... ... ... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........... ..................... ..................... ..................... ..................... ... ... . ... ... .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... .............. ..................... ..................... ..................... ..................... ... ... .... . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . . . . . .................... ..................... ..................... ..................... ..................... . ... . ... .... . .... ... ..................... ..................... .......... .......... ..................... ..................... .... .... ..................... ..................... ..................... ..................... ..................... . . .... .... ......... ..................... ..................... ..................... ..................... ..................... ..... ...... .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... .... ... ........ ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................ ..................... ..................... ..................... ..................... ..................... ..... . ..... . .. ...... ...... .. ... ... .......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......................... ..................... ..................... ..................... ..................... ..................... .. ........ . .. ........ . .... . .. ....... ... . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................. ..................... ..................... ..................... ..................... ..................... ..................... .............. ............... ... . . ... ....... ...... ............... . . .................... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
0 Anche qui chiariamo con un esempio.
z tR
tale che:
Esempio 8.1.4. Sia

1. 2. 3.
X N(0, 1).
Si determini
P(0 X t) = 0.4332; P(t X 0) = 0.3461; P(t < X 2.01) = 0.0440;

58
4. 5. 6. 7.
P(X t) = 0.5120; P(X t) = 0.6700; P(|X| t) = 0.9750; P(|X| t) = 0.1836. (t) = P(X t),
e quindi dove
Anche per risolvere questo esercizio useremo la funzione
N(0, 1),
1.
i cui valori possono essere trovati sulla Tabella 1. da cui
P(0 X t) = (t) 0.5000 = 0.4332,

tal caso si ha,
(t) = 0.9332
t = 1.50.; t < 0.
In
2. Osserviamo che anch la probabilit
P(t X 0)
abbia senso deve essere
P(t X 0) = P(0 X t) = (t) 0.5000 = 0.3461,

da cui
(t) = 0.9461, t = 1.02
e quindi
t = 1.02; t < 0
e
3. Osserviamo che occorre distinguere le due possibilit allora si avrebbe
t > 0.
Se fosse
t < 0
P(t < X 2.01) = P(t < X 0) + P(0 < X 2.01) = (t) + (2.01) 1 = = (t) + 0.9778 1 = 0.0440,
da cui sempre positiva. Dunque
(t) = 0.4778 + 0.0440 < 0. t > 0 ed in tal P(t < X 2.01)
Il che impossibile perch caso si ha,
una funzione
= (2.01) (t) = 0.9778 (t) = 0.0440,

da cui
(t) = 0.9778 0.0440 = 0.9338 > 0.5,
e quindi
t = 1.50. t < 0.
Si ha,
4. Essendo la probabilit richiesta
segue che
P(X t) = (t) = 0.5120,

da cui
t = 0.03
t = 0.03; > 0.5,

segue che
5. Essendo la probabilit richiesta
t > 00.
Si ha,
P(X t) = (t) = 0.6700,

da cui 6.
t = 0.44;
P(|X| t) = P(t X t) = 2P(0 X t) = 2((t) 0.5000) = 0.98750,

da cui 7.
(t) = 0.9875
t = 2.24;
P(|X| t) = P(X t) + P(X t) = 2P(X t) = 2(1 (t)) = 0.1836,

da cui
(t) = 0.4082
t = 1.33.
59
8.2 Il Teorema Limite Centrale

In questa sezione arontiamo uno dei risultati pi importanti del calcolo delle probabilit e parte delle sue applicazioni in statistica: il Teorema Limite Centrale. In termini semplicistici esso aerma che la somma di un gran numero di variabili aleatorie tutte con la stessa distribuzione tende ad avere una distribuzione normale. L'importanza di ci sta nel fatto che siamo in grado di ottenere stime della probabilit che riguardano la somma di variabili aleatorie indipendenti ed identicamente distribuite (i.i.d), indipendentemente da quale sia la distribuzione di ciascuna. Precisamente siamo in presenza di variabili aleatorie stessa legge, quindi con stessa media
e stessa varianza
X1 , X2 , . . . , Xn indipendenti e con 2 . Posto Sn = X1 + X2 + . . . Xn ,
Sn
si comporta quasi come una variabile normale. Di che parametri? Per sapere i parametri
di una legge normale occorre sapere la sua media e la sua varianza. Ricordando le propriet della media e della varianza si ha:
E[Sn ] = E[X1 + X2 + Xn ] = E[X1 ] + E[X2 ] + . . . + E[Xn ] = n, Var[Sn ] = Var[X1 + X2 + Xn ] = Var[X1 ] + Var[X2 ] + . . . + Var[Xn ] = n 2 .
Riassumendo dove
(8.4) (8.5)
Sn
ha circa una distribuzione
N(n, n ).
Scriveremo
Sn XN(n, n 2 ),
vuol dire che approssimativamente uguale a.
L'enunciato presentato nella sua forma pi generale il seguente.
Teorema 8.2.1. Siano

tribuite tutte con media
X1 , X2 , . . . , variabili aleatorie e varianza 2 . Per n grande,
indipendenti ed identicamente dis-
Sn Z N(n, n 2 ),
o anche standardizzando,
(8.6)
Sn n Sn = Z N(0, 1). 2 n
(8.7)
Che vuol dire tutto ci? Chiariamo con un esempio.
Esempio 8.2.2. Una compagnia americana di assicurazioni ha 10000 (104 ) polizze attive.
Immaginando che il risarcimento annuale medio per ogni assicurato si possa modellizzare con una variabile aleatoria di media 260$ e scarto quadratico medio di 800$ vogliamo calcolare la probabilit (approssimata) che il risarcimento annuale superi i 2.8 milioni di dollari. Numeriamo gli assicurati in modo che Xi sia il risarcimento annuale richiesto dall'i-esimo 104 4 assicurato, dove i = 1, 2, . . . , 10 . Allora il risarcimento annuale totale S104 = i=1 Xi .
Seguendo i dati
= E[Xi ] = 260$ e = Var[Xi ] = 800$. Inoltre possiamo supporre che le variabili Xi siano indipendenti, dato che ciascun assicurato chiede il risarcimento in modo indipendente dagli altri. Per il TLC la variabile aleatoria X ha una distribuzione 2 4 6 approssimativamente normale S104 Z N(n, n ) con n = 10 260$ = 2.6 10 $ e 2 4 2 8 n = 10 800 $ = 64 10 $, quindi P(S104 > 2.8 106 ) P(Z > 2.8 106 ) = ( Z 2.6 106 2.8 106 2.6 106 ) > = P(Z > 2.5) = 0.0062 P 8 8 64 10 64 10
60
Osservazione 8.2.3. importante osservare che nel TLC parliamo di

vuol dire
grande. Ma che
n grande?
Quante variabili aleatorie i.i.d. dobbiamo sommare per avere una buona
n dipende ogni volta dalle distribuzioni di partenza. In ogni caso si tende ad applicarlo quando n > 30. altres molto importante osservare che se le variabili di partenza X1 , X2 , . . . , Xn sono esse stesse Gaussiane il TLC esatto. Ovvero per ogni n,
approssimazione? Purtroppo non esiste una regola generale. Il valore di
Sn = Z N(n, n 2 ),
o anche standardizzando,
(8.8)
Sn n Sn = = Z N(0, 1). n 2
(8.9)
8.3 Applicazioni del TLC

Vediamo alcune importanti applicazioni del TLC che utilizzeremo spesso nel seguito.
8.3.1
Approssimazione della binomiale

X Bi(n, p) allora
Abbiamo visto nella sezione riguardante la distribuzione binomiale che questa pu essere pensata come somma di variabili aleatorie bernoulliane. Precisamente se
X = Y1 + Y2 + . . . Yn ,
con le che
Yi Be(p)
indipendenti. Allora se
grande, possiamo applicare il TLC ed ottenere (8.10)
X Z N(np, np(1 p)),

o ancora,
X np Z N(0, 1). np(1 p) X Bi(8, 1/2) Z N(4, 2).
(8.11)
Questa propriet risulta forse pi chiara se si guarda alla gura che segue che mostra il raronto tra una variabile ed una
............. ................. .... ..... .... .... ... .... ... ... ... ... ... ... ... ... ... . ... ... ... ... ... . ... ... ... ... . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . ... ... ... ... . ... ... ... ... ... . ... ... ... ... . ... ... ... ... ... . ... ... ... ... . ... . ... ... ... ... . ... .. ... ... .... ... . . .... .... .... .... .... .. .. ..... ..... .... .... ...... .. ... ....... ......... ...... ....... . ............ ...... ............ ............
Osservazione 8.3.1. La densit binomiale simmetrica per

metrica quanto pi
p = 0.5
ed tanto pi asim-
lontano da 0.5 (quindi vicino a 0 oppure a 1. buona norma quella
di applicare l'approssimazione normale della binomiale
Bi(n, p),
solo se
np > 5,
n(1 p) > 5.
61
L'idea del TLC quella che le aree sottese dalla distribuzione di partenza (in questo caso le aree sottese dall'istogramma) vengono approssimate con le aree sottese dalla curva gaussiana. L'approssimazione si pu render pi precisa tramite l'introduzione della correzione di
continuit. Per capire di cosa si tratta vediamo un esempio.
Esempio 8.3.2.
Un dado equilibrato viene lanciato 900 volte. Sia
il numero di volte che esce il sei.
Utilizzando l'approssimazione normale della binomiale calcolare: 1. 2. Se
P(X > 180); P(X 160).
X il numero di volte che esce il 6 in 900 lanci di un dado, X Bi(n, p), con n = 900 p = 1/6. E[X] = 150, Var[X] = 125. Allora per il TLC si ha X Z N(150, 125),
oppure
X 150 Z N(0, 1). 125 P(X > 180) P (Z > 180) ( Z 150 180 150 ) = P > = P(Z > 2.68) 11.18 11.18 = 1 (2.68) = 0.0368.
1.
Se avessimo usato la correzione di continuit, indicando con media e stessa varianza di
una gaussiana con stessa
X,
avremmo ottenuto,
( Z 150 180.5 150 ) P(X > 180) P(Z > 180.5) = P > 11.18 11.18 = P(Z > 2.73) = 1 (2.73) = 0.0317.
2.
P(X 160) P(Z 160) = P
( Z 150
11.18 = 1 (0.89) = 0.18673

avremmo ottenuto,
160 150 ) = P(Z 0.89) 11.18

una gaussiana con stessa media e
Usando la correzione di continuit, indicando con stessa varianza di
X,
( Z 150 159.5 150 ) P(X 160) P(Z 159.5) = P 11.18 11.18 = P(Z 0.85) = 1 (0.85) = 0.1977.
ATTENZIONE! La correzione di continuit si usa per avere una approssimazione
migliore quando si passa da una distribuzione discreta ad una continua! casi! Mai negli altri
62
8.3.2
Siano
Approssimazione della media campionaria
Un altro caso importante in cui si pu applicare il TLC quello della media campionaria. X1 , X2 , . . . , Xn variabili aleatorie i.i.d. con media e varianza 2 . Si chiama media
campionaria e si indica con
Xn
la quantit
Xn =
1 Sn (X1 + X2 + . . . Xn ) = . n n 1/n)
(8.12)
Anche qui siamo in presenza di una somma (a parte il fattore Sappiamo che
di variabili aleatorie
i.i.d. ed anche qui possiamo applicare il TLC. Vediamo come diventa in questo caso specico.
Xn
per
n grande
si comporta come una gaussiana. Di che parametri? Occorre
pertanto calcolare media e varianza della variabile aleatoria della media e della varianza, si ha
X n.
Ricordando le propriet
[1 ] 1 E[X n ] = E (X1 + X2 + . . . Xn ) = ( + + . . . ) = , n n
ed inoltre
[1 ] 1 1 Var[X n ] = Var (X1 + X2 + . . . Xn ) = 2 ( 2 + 2 + . . . 2 ) = 2 . n n n

Quindi
X n Z N(, 2 /n),
o ancora,
(8.13)
Xn Xn n Z N(0, 1). = 2
n
(8.14)
Si osservi che se le variabili
X1 , X 2 , . . . , X n
sono gaussiane allora anche in questo caso il TLC (8.15)
esatto, ovvero
X n = Z N(, 2 /n), Xn Xn = n = Z N(0, 1). 2

n
o ancora,
(8.16)
8.4 Alcune distribuzioni legate alla normale

8.4.1 La distribuzione 2 (chi quadro)
X
ha distribuzione
Denizione 8.4.1. Diremo che la variabile aleatoria

libert e scriveremo
con
gradi di
X (n)
2
se
ha densit data da per
f (x) = cn xn/21 ex/2 ,

dove
x > 0,
cn
una costante opportuna.
63
Vediamo l'andamento tipico di una distribuzione di questo tipo (qui
n = 15):
.......... ... . .................. ...... . . ... ..... . ..... ......... ......... ...... ...... .... . ........... .......... .......... ................... . . .... .... .......... .......... .......... .......... ............ . . . .... ......... .......... .......... .......... .......... .......... ....... .. .. .......... .......... .......... .......... .......... .......... ............ . . .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ...... ... .......... .......... .......... .......... .......... .......... .......... ....... . . .... .... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ...... .......... .......... .......... .......... .......... .......... .......... .... .... ... . .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... .... .......... .......... .......... .......... .......... .......... .......... .......... . . .... .... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... ... ......... .......... .......... .......... .......... .......... .......... .......... .... ..... ......... .......... .......... .......... .......... .......... .......... .......... .... ..... ..... ......... .......... .......... .......... .......... .......... .......... .......... ..... ..... ...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........ ......... .......... .......... .......... .......... .......... .......... .......... . ..... . . ..... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... ........... ......... .......... .......... .......... .......... .......... .......... .......... . ..... . ..... .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... .. .......... ......... .......... .......... .......... .......... .......... .......... .......... .. ..... ...... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... ... .. .......... ......... .......... .......... .......... .......... .......... .......... .......... .. ...... ...... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... ........ .......... ......... .......... .......... .......... .......... .......... .......... .......... .. . ....... ....... .. ...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... ........... .......... ......... .......... .......... .......... .......... .......... .......... .......... . ........ . ........ .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... .. .......... .......... ......... .......... .......... .......... .......... .......... .......... .......... ......... .......... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........... ..... .......... .......... ......... .......... .......... .......... .......... .......... .......... .......... .. ............ ............. .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............... ... ..... .......... .......... ......... .......... .......... .......... .......... .......... .......... .......... .. ................. .................... .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................. ............ .......... .......... ......... .......... .......... .......... .......... .......... .......... .......... ...... .. .. . .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... .......... .......... .......... ......... .......... .......... .......... .......... .......... .......... .......... .... ..... .
2 (n)
Anche qui, come per la distribuzione gaussiana utilizzeremo una tabella opportuna. 2 Chiameremo (n) quel valore sull'asse x tale che:
P(X < 2 (n)) = , X 2 (n),
se
X 2 (n),
(0, 1).
(8.17)
Per maggiore chiarezza si veda la gura precedente. Si pu dimostrare che se allora
E[X] = n,
Inoltre se
Var[X] = 2n.
(8.18)
grande
X Z N(n, 2n).
I valori dei quantili di un tipico di
2 (n)
sono tabulati per i primi valori di
e per qualche valore
Per
i quantili delle distribuzioni
grande, grazie alla (8.18) possiamo usare la seguente approssimazione per 2 ,
2 (n) z 2n + n.
Infatti, proprio grazie alla (8.18), si ha
(Z n ( 2 (n) n ) 2 (n) n ) = P(X 2 (n)) P(Z 2 (n)) = P = P Z , 2n 2n 2n

quindi ricordando la denizione di quantile di una gaussiana standard,
2 (n) n z , 2n
e quindi
2 (n) z 2n + n.
8.4.2
La distribuzione di Student
X
ha distribuzione di Student con
Denizione 8.4.2. Diremo che la variabile aleatoria

gradi di libert e scriveremo
X t(n) se X ha densit data da ( t2 ) n+1 2 , per x R, f (x) = cn 1 + n
dove
cn
una costante opportuna.
64
Vediamo l'andamento tipico di una distribuzione di questo tipo (qui
n = 5).
Nella gura,
tratteggiata, riportata anche la densit di una gaussiana standard.

.. ... .. . .. ... ............... ............... . . .. . . . . ... ... . ... . . . . .. .. ........ ...... ...... ...... . ................ .............. .. . . . . . .. ............ .................. ...... ............. ............. .... ...... ............. ............. ..... . . .. .. .. .. . ....... ............. ............. ........ . . ....... ............. ............. ......... .. .. . ........ ............. ............. ......... . . .. .. . .. ........ .......... .. ............. ...... ..... .............. ............. ............. ............. . ............. ............. ............. ............. . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... . . . . . . . . . . ... . . . . . . . . . . . . ..... .................. ............. ............. .................. . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... ............. ............. ............. ............. .... . .. .. .. . ... . . . . . . . . . . . . . . . . . . . . . . . . . .... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... ......... ............. ............. ............. ............. .......... ............. ............. ............. ............. .... .... .... . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ... .. ... . ... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ... ... . . . . . . . . . . . . . . . ... . . . . . . . . . . . . ... ............... ............. ............. ............. ............. ............... ............. ............. ............. ............. . . ... ... ...... ............. ............. ............. ............. ............. ... .. ............. ............. .......... .. ............. ....... . . . ... ... ... . ..... .. .... ..... . .... .......... ............. ............. ............. ............. ............. . ... . . .... .... . ... ............... ............. ............. ............. ............. ............. ................ ............. ............. ............. ............. ............. ........ ........ .. .. ..... . ........ .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......... ............ ............. ............. ............. ............. ............. .. .............. ............... . .. . . .. . . ... .... .. ..... ... .......... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... ............ ............ ............. ............. ............. ............. ............. ... ....... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ...... . .. .... ... ...
0 t (n) Anche qui, come per la distribuzione gaussiana utilizzeremo una tabella opportuna. Chiameremo
t (n)
quel valore sull'asse
P(X < t (n)) = ,
se
X t(n),
(0, 1).
(8.19)
Per maggiore chiarezza si veda la Figura precedente. I valori dei quantili di una distribuzione qualche valore tipico di mata con una
t(n)
sono tabulati per i primi valori di
Si fa presente (ma non possiamo dimostrarlo!) che per
n e per n grande si
ha che la distribuzione di una variabile aleatoria con distribuzione
t(n)
pu essere approssi-
N(0, 1),
quindi per
grande possiamo usare la seguente approssimazione per
i quantili delle distribuzioni
t(n), t (n) z .
65
Tabella 2
Tabella dei quantili
t (n)
della legge di Student
t(n)
. .. .......... . ... . ... . . .. . . . . .. .. .......... .......... .. . ... . . . . . . . . . . ..... ... .......... ............... ... .. . ...... .......... .......... ........ ... ..... .......... .......... .......... .. ......... .......... .......... ........... . ... ... . ... ... .......... .......... .......... .......... ... ... ..... .......... .......... .......... .......... ..... ...... .......... .......... .......... .......... ..... . ... ... ... ... . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . . . . . .... .... ..... . . . . . . . . . . . . . . . . . . . . . . . . ..... .......... .......... .......... .......... .......... .... ...... .......... .......... .......... .......... .......... .... . ... ... . ...... ...... ...... .. ........... ...... .......... .......... .......... .......... .......... .......... ........... . . . . ... .. ... ........ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................... .......... .......... .......... .......... .......... ..........
t (n)
.990 31.82096 6.96455 4.54071 3.74694 3.36493 3.14267 2.99795 2.89647 2.82143 2.76377 2.71808 2.68099 2.65030 2.62449 2.60248 2.58349 2.56694 2.55238 2.53948 2.52798 2.51765 2.50832 2.49987 2.49216 2.48510 2.47863 2.47266 2.46714 2.46202 2.45726 2.42326 2.40327 2.39012 2.38080 2.37387 2.36850 2.36421 2.36072 2.35783 .995 63.65590 9.92499 5.48085 4.60408 4.03212 3.70743 3.49948 3.35538 3.24984 3.16926 3.10582 3.05454 3.01228 2.97685 2.94673 2.92070 2.89823 2.87844 2.86094 2.84534 2.83137 2.81876 2.80734 2.79695 2.78744 2.77872 2.77068 2.76326 2.75639 2.74998 2.70446 2.67779 2.66027 2.64790 2.63870 2.63157 2.62589 2.62127 2.61742
n\
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 110 120
.0900 3.07768 1.88562 1.63775 1.53321 1.47588 1.43976 1.41492 1.39682 1.38303 1.37218 1.36343 1.35622 1.35017 1.34503 1.34061 1.33676 1.33338 1.33039 1.32773 1.32534 1.32319 1.32124 1.31946 1.31784 1.31635 1.31497 1.31370 1.31253 1.31143 1.31042 1.30308 1.29871 1.29582 1.29376 1.29222 1.29103 1.29008 1.28930 1.28865
.0950 6.31375 2.91999 2.35336 2.13185 2.01505 1.94318 1.89458 1.85955 1.83311 1.81246 1.79588 1.78229 1.77093 1.76131 1.75305 1.74588 1.73961 1.73406 1.7213 1.72472 1.72074 1.71714 1.71387 1.71088 1.70814 1.70562 1.70329 1.70113 1.69913 1.69726 1.68385 1.67591 1.67065 1.66692 1.66413 1.66196 1.66023 1.65882 1.65765
.975 12.70615 4.30266 3.18245 2.77645 2.57058 2.44691 2.36462 2.30601 2.26216 2.22814 2.20099 2.17881 2.16037 2.14479 2.13145 2.11990 2.10982 2.10092 2.09302 2.08596 2.07961 2.07388 2.06865 2.06390 2.05954 2.05553 2.05183 2.04841 2.04523 2.04227 2.02107 2.00856 2.00030 1.99444 1.99007 1.98667 1.98397 1.98177 1.97993
Per
n > 120
si pu utilizzare l'approssimazione
t (n) z
66
Tabella 3
Tabella dei quantili
2 (n)
della legge chi-quadro
2 (n)
.. . ...... .......... ................. ... .... . .... .... .... .... .... ..... . ... . . . . . . . . . . . . .. ... ... ... ..... .... .... .... .... ........ .. .. .... ... . . . . . . . . . . . . . . . ....... .. ... .... ..... .... .... .... .... ..... ...... .... ..... .... .... .... .... ..... .... .... ... .... ... ..... .... ..... .... .... .... .... ..... .... .... ..... .... ..... .... .... .... .... ..... .. .... .... .. . .. ..... ..... .. .... ..... .... ..... .... .... .... .... ..... .. . . . . . . . . . . . . . . . . . . . . . ...... .... .... ..... .... ..... .... .... .... .... ..... ...... . .. ....... ....... .. .... .... ..... .... ..... .... .... .... .... ..... ....... .... ..... .... ..... .... .... .... .... ..... ......... ......... .. ... .. . . . . . . . . . . . . . . . . . . . . .............. .... ..... .... ..... .... ..... .... .... .... .... ..... .............. .. ..... ..... .... . ... .... ..... .... ..... .... ..... .... .... .... .... ..... .. ..
2 (n)
.025 0.00098 0.05064 0.21579 0.48442 0.83121 1.23734 1.68986 2.17972 2.70039 3.24696 3.81574 4.40378 5.00874 5.62872 6.26212 6.90766 7.56418 8.23074 8.90651 9.59077 10.28291 10.98233 11.68853 12.40115 13.11971 13.84388 14.57337 15.30785 16.04075 16.79076 .050 0.00393 0.10259 0.35185 0.71072 1.14548 1.63538 2.16735 2.73263 3.32512 3.94030 4.57481 5.22603 5.89186 6.57063 7.26093 7.96164 8.67175 9.23045 10.11701 10.85080 11.59132 12.33801 13.09051 13.84842 14.61140 15.37916 16.15139 16.92788 17.70838 18.49267 .950 3.84146 5.99148 7.81472 9.48773 11.07048 12.59158 14.06713 15.50731 16.91896 18.30703 19.67515 21.02606 22.36203 23.68478 24.99580 26.29622 27.58710 28.86932 30.14351 31.41042 32.67056 33.92446 35.17246 36.41503 3765249 38.88513 40.11327 41.33715 42.55695 43.77295 .975 5.02390 7.37778 9.34840 11.14326 12.83249 14.44935 16.01277 17.53454 19.02278 20.48320 21.92002 23.33666 24.73558 26.11893 27.48836 28.84532 30.19098 31.52641 32.85234 34.16958 35.47886 36.78068 38.07561 39.36406 40.64650 41.92314 43.19452 44.46.79 45.72228 46.97992 .990 6.63489 9.21035 11.34488 13.27670 15.08632 16.81187 18.47532 20.09016 21.66605 23.20929 24.72502 26.21696 27.68818 29.14116 30.57795 31.99986 33.40872 34.80524 36.19077 37.56627 38.93223 40.28945 41.63833 42.97978 44.31401 45.64164 46.96284 48.27817 49.58783 50.89218
n\
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
.010 0.00016 0.02010 0.11483 0.29711 0.55430 0.87208 1.23903 1.64651 2.08789 2.55820 3.05350 3.57055 4.10690 4.66042 5.22936 5.81220 6.40774 7.01490 7.63270 8.26037 8.89717 9.54249 10.19569 10.85635 11.52395 12.19818 12.87847 13.56467 14.25641 14.95346
Per
n 30
si pu utilizzare l'approssimazione 2 (n) z 2n + n
67
Capitolo 9 Stima dei parametri
9.1 Modelli statistici

In questo paragrafo introdurremo le prime nozioni di statistica inferenziale. con un esempio. Cominciamo
Esempio 9.1.1. Consideriamo il seguente problema. Una macchina produce in serie componenti meccanici di dimensioni specicate. Naturalmente, la macchina sar soggetta a piccole imprecisioni casuali, che faranno oscillare le dimensioni reali dei pezzi prodotti. Ci che conta che essi si mantengano entro dei pressati limiti di tolleranza. Al di fuori di questi limiti il pezzo inutilizzabile. Si pone dunque un problema di controllo di qualit. Il produttore, ad esempio, deve essere in grado di garantire a chi compra, che solo lo 0.5% dei pezzi sia difettoso. Per fare ci, occorre anzitutto stimare qual attualmente la frazione di pezzi difettosi prodotti, per intervenire sulla macchina, qualora questa frazione non rientrasse nei limiti desiderati. Modellizziamo la situazione. Supponiamo che ogni pezzo abbia probabilit
p (piccola) di
essere difettoso e che il fatto che un pezzo sia difettoso non renda n pi n meno probabile il fatto che un altro pezzo sia difettoso. Sotto queste ipotesi (ovvero nei limiti in cui queste considerazioni sono ragionevoli) il fenomeno pu essere modellizzato da una successione di variabili aleatorie di Bernoulli di parametro
p. Xi Be(p),
vale 1 se il pezzo
i-esimo
difettoso, 0 altrimenti. Il punto fondamentale che il parametro
la quantit da stimare.
Abbiamo una popolazione, quella dei pezzi via via prodotti; questa popolazione distribuita secondo una legge di tipo noto (Bernoulli), ma contenente un parametro incognito. Per stimare il valore vero del parametro sono difettosi. indipendenti
p,
il modo naturale di procedere estrarre
un campione casuale dalla popolazione: scegliamo a caso
pezzi prodotti, e guardiamo se
L'esito di questa ispezione descritto da una con distribuzione
n-upla
di variabili aleatorie
X1 , X2 , . . . , Xn
Be(p).
Fissiamo ora le idee emerse da questo esempio in qualche denizione di carattere generale.
Denizione 9.1.2. Un modello statistico una famiglia di leggi di variabili aleatorie dipendenti da uno o pi parametri incogniti. Un campione casuale di ampiezza estratte dalla famiglia.
n una n-upla di variabili aleatorie i.i.d. X1 , X2 , . . . , Xn
68
Riassumendo uno dei problemi fondamentali della statistica inferenziale quello di scoprire la vera distribuzione della popolazione, a partire dalle informazioni contenute in un campione casuale estratto da essa. Spesso la natura del problema (come quello appena visto) ci consente di formulare un modello statistico, per cui la distribuzione della popolazione non completamente incognita ma piuttosto di tipo noto (bernoulliana nel problema precedente) ma con parametri incogniti. Quindi il problema ricondotto a stimare il valore vero del parametro a partire dal campione casuale. Questa operazione prende il nome di
stima
dei parametri.
9.2 Stima puntuale

9.2.1
p
Stimatori e stima puntuale della media

X1 , X2 , . . . , Xn .
Si
Torniamo all'Esempio 9.1.1 del controllo qualit. Il nostro obiettivo stimare il parametro della popolazione bernoulliana da cui estraiamo un campione casuale
Xi Be(p), E[Xi ] = p, quindi stimare il valore di p vuol dire stimare la x1 , x2 , . . . , xn i valori osservati sul campione casuale. Si noti la dierenza: prima di eseguire il campionamento, il campione casuale una n-upla di variabili aleatorie (X1 , X2 , . . . , Xn ); dopo aver eseguito il campionamento, cio l'estrazione degli n individui, le n variabili aleatorie assumono valori numerici (x1 , x2 , . . . , xn ). Per
ricordi che essendo
media della popolazione. Siano ora
cogliere bene la dierenza tra questi oggetti, cosa che sar fondamentale nel seguito, si pensi al seguente esempio. Gli stessi 10 biglietti della lotteria sono oggetti ben diversi prima e
dopo l'estrazione dei numeri vincenti: prima sono possibilit di vincere una cifra variabile, dopo sono una somma di denaro (certa) oppure carta straccia. Tenendo presente l'analogia
tra le media di come stima di
numeri e valore atteso di una variabile aleatoria, naturale scegliere
xn
p,
ovvero
p = xn ,
per indicare che il valore stimato di la media campionaria
p, p
il valore della media campionaria. Naturalmente
potremmo essere stati sfortunati ed avere selezionato per caso, un campione di pezzi su cui
xn
lontana dal valore vero del parametro
p.
Per ora, a conforto della scelta fatta, possiamo osservare che se consideriamo la variabile
aleatoria media campionaria
1 Xn = Xi , n i=1
n
sappiamo che
E[X n ] = E[Xi ] = p.
Ovvero il valore atteso della variabile aleatoria come stima del parametro valore
Xn
il vero valore del parametro
p.
Questo
il motivo, o meglio un motivo, perch scegliamo il valore
xn , calcolato dopo il campionamento
p. n.
Questo fatto
Per quanto la sfortuna possa giocare a nostro sfavore, ragionevole aspettarsi che il
xn
risenta tanto meno delle oscillazioni casuali quanto pi grande
pu essere dimostrato in modo rigoroso, noi ci accontenteremo dell'intuizione per dire che,
69
in qualche senso, si ha
Xn
nel nostro caso
n+
E[Xi ], p.
Xn
Si ricordi che
n+
Var[X n ] = 2 /n tende a zero per n +, quindi la media campionaria tende
a diventare costante (quindi uguale alla media). Fissiamo ora qualche altra denizione generale.
(X1 , X2 , . . . , Xn )
un campione casuale di ampiezza
estratto da
una popolazione con legge dipendente da un parametro Si chiama
incognito.
statistica una variabile aleatoria che sia funzione solo del campione, ovvero
sia calcolabile esattamente dopo il campionamento,
T = f (X1 , X2 , . . . , Xn ).
Si chiama
stimatore di
una statistica
T = f (X1 , X2 , . . . , Xn ),
usata per stimare il valore del parametro Si chiama
stima di
il valore numerico,
= f (x1 , x2 , . . . , xn ),
calcolato a campionamento eseguito.
Denizione 9.2.2. Uno stimatore si dice non distorto o corretto, se
E[T ] = E[f (X1 , X2 , . . . , Xn )] = ,

ovvero se la sua media coincide con il parametro da stimare.
Denizione 9.2.3. Uno stimatore si dice consistente se tende al parametro da stimare

quando l'ampiezza del campione
n +.
Esempio 9.2.4. Riprendendo l'esempio del controllo qualit, la variabile aleatoria

uno stimatore non distorto e consistente di campione una stima di
Xn
p.
Il valore numerico, calcolato su un particolare
p. T , ossia una variabile eseguito, il valore di T viene
Ricapitoliamo: per stimare il valore vero del parametro incognito di una distribuzione
a partire da un campione casuale, si costruisce un opportuno stimatore aleatoria funzione del campione casuale. A campionamento
preso come stima del valore del parametro incognito. Criteri (non gli unici) per valutare la bont di uno stimatore sono la correttezza e la consistenza. Questo metodo di stima prende il nome di
stima puntuale.
Vediamo alcune considerazioni importanti.
70
Osservazione 9.2.5. Cambiando campione lo stimatore rimane lo stesso, la stima no!!!

chiaro che stimando il parametro con il valore dello stimatore si commette un errore e che questo, se lo stimatore corretto e consistente, diminuisce all'aumentare dell'ampiezza del campione L'esempio visto in precedenza rientra in un caso pi generale in cui il parametro incognito da stimare la media della popolazione. In questo caso parliamo distima puntuale della
media. Lo stimatore naturale in questo caso sempre la media empirica, che risulta essere
un buon stimatore dato che non distorto e consistente.
9.2.2
Stima puntuale della varianza
In questo caso supponiamo che il parametro incognito della distribuzione da stimare sia la varianza. Vogliamo trovare un buon stimatore della varianza. Partiamo da un caso concreto 2 (che poi quello per noi di maggiore interesse). Supponiamo di voler stimare la varianza 2 di una popolazione N(, ) in base a delle osservazioni X1 , X2 , . . . , Xn estratte da questa popolazione. In statistica descrittiva abbiamo introdotto la varianza campionaria di un dato
X,
che supponendo tutte le frequenze uguali a 1, data da,
s2 = X
Perci sembra naturale stimare
1 (xi xn )2 . n i=1
n
con
1 T1 = (Xi X n )2 . n i=1
n
Si osservi che, quando si ha a che fare con una legge che dipende da due parametri (come la normale, appunto), la stima di uno , diciamo di senza conoscere nemmeno il vero valore di
1 , 2 ,
un problema diverso a seconda 2 che si conosca o no il valore dell'altro parametro 2 . Ad esempio, T1 permette di stimare
(implicitamente viene stimato con X n ). 1 (Xi )2 n i=1

n
Se per conoscessimo
potremmo usare lo stimatore
T2 =
che, intuitivamente, dovrebbe dare una stima migliore di mazione in pi (il vero valore di Sono dei buoni stimatori
2,
visto che utilizza un'infor-
).
e
Si noti che se
incognito,
T2
non uno stimatore, in
quanto dipende da quantit incognite e quindi non calcolabile dal campione.
T1
T2 ?
Si pu dimostrare (non lo facciamo!) che sono entrambi consistenti, ovvero per n grande 2 tendono al parametro da stimare. Tuttavia mentre T2 non distorto (E[T2 ] = ), T1 risulta n1 2 n distorto! Precisamente si ha E[T1 ] = . Per averne uno corretto occorre prendere n1 T1 , n cio n 1 2 (Xi X n )2 . Sn = n 1 i=1 71
Riassumendo se stiamo campionando da una popolazione con due parametri, media e 2 varianza, per la stima puntuale della varianza si utilizza come stimatore SX in caso di media incognita,
T2
in caso di media nota (caso abbastanza poco frequente).
9.3 Stima per intervalli. Intervalli di condenza

Entriamo ora nel vivo dei metodi della statistica inferenziale, parlando di stima per intervalli, ovvero di intervalli di condenza.
9.3.1
Stima della media di una popolazione normale con varianza nota
Esempio 9.3.1. Nella progettazione della cabina di pilotaggio di un aereo (disposizione

della strumentazione, dimensioni dei comandi, ecc.) occorre anche tenere conto dei valori antropometrici medi dei piloti (statura, lunghezza delle braccia, ecc.). Supponiamo che la 2 statura dei piloti sia distribuita secondo una legge normale N(, ). Ci che interessa stimare la media e che risulti
a partire, ad esempio, dalle stature di 100 piloti dell'aviazione civile. In
prima approssimazione supponiamo che la varianza (quindi la deviazione standard) sia nota Dunque abbiamo
= 6.1cm. X1 , X2 , . . . , X100
variabili aleatorie i.i.d.
N(, 6.12 ).
La stima puntuale
della media sar data da
= xn ,
ossia utilizziamo la statistica
Xn
per stimare
Ricordiamo che se le
Xi
sono gaussiane
allora la media campionaria gaussiana, precisamente
( 2 ) ( 6.12 ) X n N , = N , , n 100
e quindi
Xn X = 100 N(0, 1). 0.61 / n (0, 1)

per la (8.3), abbiamo:
Pertanto, ssato
( |X
100
) ( ) | X 100 < z(1+)/2 = P z(1+)/2 < < z(1+)/2 = . 0.61 0.61 = 0.95, z(1+)/2 = z.975 = 1.96, (
quindi
Ad esempio, per
) X 100 P 1.96 < < 1.96 = 0.95, 0.61

ovvero
P( 1.1956 < X 100 < + 1.1956) = 0.95.

Risolvendo la disequazione rispetto a
anzich rispetto a
X 100 ,
P(X 100 1.1956 < < X 100 + 1.1956) = 0.95.

72
Questo signica che prima di eseguire il campionamento valutiamo pari a 0.95 la probabilit che
X 100 1.1956 < < X 100 + 1.1956.

Si noti che l'intervallo
(X 100 1.1956, X 100 + 1.1956)

, prima di eseguire il campionamento, un intervallo aleatorio (i suoi estremi sono variabili aleatorie) che, con probabilit 0.95, contiene il valore vero del parametro dei 100 piloti,
Eseguiamo ora il campionamento, e supponiamo di trovare, dalla misurazione delle stature
x100 = 178.5cm.
L'intervallo di condenza diventa ora un intervallo numerico, non pi aleatorio:
(x100 1.1956, x100 + 1.1956) = (178.5 1.1956, 178.5 + 1.1956) (177.3, 179.7).
Qual il signicato di questo intervallo trovato? Possiamo dire, ancora, che, con probabilit 0.95,
(177.3, 179.7)?
La risposta
NO, perch
non una variabile aleatoria, ma
un numero a noi incognito: il fatto che
appartenga all'intervallo numerico (177.3,179.7) Si dice invece che,
semplicemente vero o falso, ma non dipende da alcun fenomeno aleatorio, e non ha senso, di conseguenza parlare di probabilit a questo riguardo.
con una
condenza del 95% il parametro

intervallo aleatorio
appartiene all'intervallo, e chiameremo questo
intervallo di condenza per
al livello del 95%.
Sintetizziamo ora la discussione fatta su questo esempio con una denizione pi generale.
X1 , X2 , . . . , Xn
un campione casuale estratto da una popolazione
con distribuzione avente un parametro incognito
e siano
T1 = f1 (X1 , X2 , . . . , Xn )
T2 = f2 (X1 , X2 , . . . , Xn ) due statistiche (variabili aleatorie funzione solo del che ( ) P f1 (X1 , X2 , . . . , Xn ) < < f2 (X1 , X2 , . . . , Xn ) = .
A campionamento eseguito l'intervallo numerico
campione) tali
( f1 (x1 , x2 , . . . , xn ), f2 (x1 , x2 , . . . , xn )
si chiama intervallo di condenza al livello I numeri
) per . f2 (x1 , x2 , . . . , xn ) vengono
f1 (x1 , x2 , . . . , xn )
detti limiti di condenza.
Si osservi il diverso uso che si fa dei termini probabilit e condenza: prima di eseguire il campionamento, parliamo di probabilit che una variabile aleatoria assuma certi valori, dopo aver eseguito il campionamento, parliamo di condenza che un certo parametro appartenga o meno a un intervallo numerico. Si pu anche dire, meno rigorosamente, che la probabilit a che fare con avvenimenti futuri, la condenza ha a che fare con fatti gi accaduti. tervallo di condenza al livello Dall'Esempio 9.3.1 estraiamo il procedimento con cui, si determina, in generale, un in per la media di una popolazione N(, 2 ) nel caso in
73
cui
sia nota.
popolazione
X1 , X 2 , . . . , X n N(, ), dato che,

Se 2
un campione casuale di ampiezza
estratto da una
Xn N(0, 1), / n
si ha
( |X | ) ( ) Xn n < z(1+)/2 = , P < z(1+)/2 = P z(1+)/2 < / n / n ( ) = . P X n z(1+)/2 < < X n + z(1+)/2 n n ( ) xn z(1+)/2 < < xn + z(1+)/2 n n
per
o anche
Quindi a campionamento avvenuto l'intervallo numerico
un intervallo di condenza al livello
.
simmetrico ed cen-
Osservazione 9.3.3. Si osservi che l'intervallo di condenza per

Vedremo nel paragrafo successivo cosa accade se
trato nella stima puntuale e che tale intervallo eettivamente calcolabile solo se
nota.
non nota.
Osservazione 9.3.4. Si che la bont della stima dipende da due fattori:
il livello di condenza: pi grande
pi adabile la stima;
l'ampiezza dell'intervallo: pi piccola, pi precisa la stima.
Dato che al crescere di
cresce (ovviamente) anche z(1+)/2 , ssato n, maggiore il livello di
condenza, maggiore sar l'ampiezza dell'intervallo. Pertanto adabilit e precisione della stima sono due obiettivi tra loro antagonisti: migliorando uno si peggiora l'altro. Se si vuole aumentare la precisione della stima senza diminuire l'adabilit (in genere 95% o 99%), occorre aumentare l'ampiezza del campione. Per chiarire riprendiamo l'Esempio 9.3.1.
Esempio 9.3.5. Se, con gli stessi dati campionari, volessimo un intervallo di condenza al
99% cosa cambierebbe? Con limiti di condenza sarebbero
n = 100, = 0.99, = 6.1cm, xn = 178.5cm,
avremmo che i
xn z(1+)/2 = (178.5 2.57 0.61)cm, n

quindi l'intervallo, in centimetri, sarebbe
(176.9, 180, 1).

Abbiamo ottenuto un intervallo pi ampio, quindi una stima pi imprecisa: questo il prezzo da pagare per avere una stima pi adabile.
74
Supponiamo ora di aver estratto (nello stesso esempio) un campione di 1000 individui e di aver trovato ancora quello di estremi
xn = 178.5cm.
L'intervallo di condenza al livello 95% sarebbe ora
xn z(1+)/2 = (178.5 1.96 0.193)cm, n (178.1, 178.9).
quindi l'intervallo, in centimetri, sarebbe
Abbiamo mantenuto la stessa adabilit dell'Esempio iniziale ed abbiamo aumentato anche la precisione (l'intervallo pi stretto) ma abbiamo dovuto aumentare l'ampiezza del campione.
9.3.2
Stima della media di una popolazione normale con varianza incognita
Consideriamo ancora il problema di determinare un intervallo di condenza per la media di una popolazione normale, mettendoci ora nell'ipotesi (pi realistica) che anche la varianza sia incognita. La linea del discorso sempre la stessa: cercheremo un intervallo simmetrico di estremi (aleatori)
Xn E
che contenga il parametro da stimare
con probabilit
Nel
caso precedente abbiamo usato il fatto che
Xn N(0, 1), / n
ma qui ovvero
non la conosciamo! L'idea quella di sostituire con la sua stima non distorta, Sn . La fortuna che la quantit che si ottiene ha anch'essa una distribuzione nota Xn t(n 1). Sn / n
(altrimenti sarebbe del tutto inutile), precisamente
Allora ricordando la denizione di
t data nella (8.19) si ha: ( |X | ) ( ) X n < t(1+)/2 (n 1) = P t(1+)/2 (n 1) < n < t(1+)/2 (n 1) = , P Sn / n Sn / n ( Sn Sn ) P X n t(1+)/2 < < X n + t(1+)/2 = . n n ( s s ) n , xn + t(1+)/2 (n 1) n xn t(1+)/2 (n 1) n n
per
o anche
Quindi a campionamento avvenuto l'intervallo numerico
un intervallo di condenza al livello
Osservazione 9.3.6. A parit di dati l'intervallo di condenza quando noto pi stretto,

ovvero la stima pi precisa. Questo ovvio se si pensa che c' un parametro in meno da stimare e quindi un'approssimazione in meno! Ma se
n > 120,
si ha che
t (n 1) z .
Quindi otteniamo lo stesso intervallo sia in caso di varianza nota che incognita.
75
9.3.3
Stima della media di una popolazione qualsiasi per grandi campioni
Nel paragrafo precedente abbiamo determinato l'intervallo di condenza per la media di una popolazione normale, con varianza incognita. L'ipotesi di normalit era stata usata per aermare che
Se la popolazione non normale,
Xn t(n 1). Sn / n ma n grande si ha Xn Tn t(n 1). Sn / n
Ovvero la quantit utilizzata per costruire l'intervallo di condenza ha ancora una distribuzione approssimativamente numerico
t(n 1).
Di conseguenza, ripetendo lo stesso identico
ragionamento del paragrafo precedente, si ha che a campionamento avvenuto, l'intervallo
sn sn ) xn t(1+)/2 (n 1) , xn + t(1+)/2 (n 1) n n un intervallo di condenza approssimato al livello per . Si ricordi anche che, se n molto grande n > 120 si pu fare l'ulteriore t (n 1) z ed in questo caso l'intervallo numerico ( sn sn ) xn z(1+)/2 , xn + z(1+)/2 n n
un intervallo di condenza approssimato al livello
approssimazione
per
.
incognito. Si decide di misurare
Esempio 9.3.7. Supponiamo che il tempo, misurato in giorni, tra due guasti successivi di
un impianto segua una legge esponenziale di parametro un campione di 30 intertempi trova, sul campione osservato,
X1 , X2 , . . . , X30
per stimare il tempo medio tra due guasti. Si
x30 = 9.07 s30 = 9.45.

Sulla base di queste osservazioni un intervallo di condenza (approssimato) al livello la media di questa popolazione quello di estremi
per
s30 x30 t(1+)/2 (29) , n

quindi al livello 95%, gli estremi sono
9.45 9.07 t.975 (29) . 30

Essendo
t.975 (29) = 2.0452,
l'intervallo richiesto
(5.54, 12.6).
Ricordiamo che la media di una legge di condenza per
Exp()
1/
pertanto quello trovato un intervallo
1/!
Dunque un intervallo di condenza per
( 1 1 ) , = (0.079, 0.18). 12.6 5.54

76
9.3.4
Stima di una proporzione per grandi campioni
Un caso particolarmente interessante di stima della media per una popolazione non normale, sempre per grandi campioni, quello in cui la popolazione bernoulliana. Esempio tipico di questa situazione il problema del sondaggio d'opinione: si vuole stimare la proporzione complessiva che d'accordo con l'opinione
A,
per esempio vota a favore di un certo partito,
osservando il valore che questa proporzione ha su un campione di
individui.
Un altro
esempio di questa situazione il seguente. Supponiamo che un prodotto venga venduto in lotti numerosi; il produttore vuole garantire che la proporzione di pezzi difettosi sia in un certo intervallo pressato. Sappiamo che se bernoulliana 8.3.1,
X1 , X 2 , . . . , X n
un campione casuale estratto da una popolazione
Be(p),
nelle ipotesi in cui vale l'approssimazione normale, vedi Osservazione
( p(1 p) ) X n Z N p, , n Xn p p(1 p)/n Z N(0, 1),
o anche
Perci ssato
risulta
) ( Xn p < z(1+)/2 P(z(1+)/2 < Z < z(1+)/2 ) = . P z(1+)/2 < p(1 p)/n
Per calcolare l'intervallo di condenza per
risolviamo rispetto a
p,
si ottiene
( P X n z(1+)/2
p(1 p) < p < X n + z(1+)/2 n
p(1 p) ) . n p che incognito.
C' ancora un problema! Gli estremi dell'intervallo dipendono ancora da Quindi questo non un intervallo di condenza! approssimazione. La quantit
In genere si fa la seguente (ulteriore)
p(1 p) , n
si stima con
xn (1 xn ) . n xn (1 xn ) ) n
Di conseguenza, si ha che a campionamento avvenuto, l'intervallo numerico
xn z(1+)/2
xn (1 xn ) , xn + z(1+)/2 n
per
un intervallo di condenza approssimato al livello
p.
Esempio 9.3.8. Supponiamo si voglia stimare la proporzione di elettori che approva l'operato del capo del governo. Su un campione di 130 persone intervistate nel mese di maggio, 75 erano favorevoli. Su un secondo campione di 1056 persone intervistate a ottobre 642 erano
77
favorevoli. Per ciascuno dei due campioni si vuole costruire un intervallo di condenza al 95% per la proporzione degli elettori favorevoli al capo del governo. Si vuole inoltre confrontare la precisione delle due stime (ovvero confrontare le ampiezze dei due intervalli). 75 Nel primo caso n = 130 e p = xn = = 0.57692, quindi l'intervallo al livello 95% ha 130 estremi
xn z(1+)/2
Quindi l'intervallo richiesto
xn (1 xn ) 75 = 1.96 n 130 (0.492, 0.662),
75 (1 130
75 130 ) . 130
di ampiezza 0.170. Nel secondo caso ha estremi
= 0.60795, quindi l'intervallo 642 642 (1 1056 ) xn (1 xn ) 642 1056 xn z(1+)/2 = 1.96 . n 1056 1056 n = 1056
e
p = xn =
642 1056
al livello 95%
Quindi l'intervallo richiesto
(0.579, 0.637),
di ampiezza 0.059, questa stima molto pi precisa!
78
Capitolo 10 Test d'ipotesi
10.1 Generalit
Ci sono molte situazioni in cui un'indagine campionaria viene eseguita per prendere una
decisione su un'intera popolazione. Per esempio:
si vaccinano alcune persone per decidere se un vaccino ecace o no; si lancia un certo numero di volte una moneta per decidere se equa o no; si misura il grado di impurit in un certo numero di campioni di acqua per decidere se potabile o no.
Tale decisione viene detta decisione statistica.
Quando si tratta di raggiungere una
decisione statistica occorre fare delle ipotesi statistiche. Se vogliamo testare una moneta per vedere se equa faremo le ipotesi la moneta equa e la moneta non equa. Analogamente se vogliamo testare un vaccino faremo le ipotesi vaccino ecace e vaccino non ecace. Vedremo poi come si modellizzano queste ipotesi. Le ipotesi fatte devono comprendere tutte le possibilit di interesse. Chiameremo ipotesi nulla e la indicheremo con
H0
una delle due
ipotesi, in genere quella che si vuole riutare; ipotesi alternativa e la indicheremo con vengono detti
H1 ogni
altra ipotesi. I procedimenti o regole che permettono poi di accettare o respingere un'ipotesi
test d'ipotesi.
Esempio 10.1.1. Devo decidere se una moneta buona o no. La lancio 100 volte. Facciamo
le ipotesi:
H0 : H1 :
la moneta equa; la moneta non equa.
Se esce un numero di teste compreso tra 40 e 60 dico che la moneta buona, altrimenti dico che truccata. Questo un test d'ipotesi. Ovviamente si pu sbagliare! Sulla base delle osservazioni campionarie posso commettere due tipi di errore.
Errore del
I tipo: Riuto
Errore del II tipo:
H0 , invece H0 vera; Accetto H0 , invece H0 falsa.
79
Riassumendo un test statistico una procedura con cui, a partire dai dati campionari si decide se riutare tabella. Se e noi riutiamo e noi non
H0
o non riutarla.
Tutte le possibilit sono raccolte nella seguente
H0
vera
Se
H0
falsa
H0 riutiamo H0
Errore del I tipo

Decisione corretta
Decisione corretta
Errore del II tipo
Esempio 10.1.2. Nell'Esempio 10.1.1 gli errori sono i seguenti.

Errore del I tipo : Esce un numero di teste minore di 40 o maggiore di 60 ma in realt la moneta equa. Errore del II tipo : Esce un numero di teste compreso tra 40 e 60 ma in realt la moneta truccata. Minimizzare entrambi gli errori impossibile!! Anzi si pu dimostrare (dicile per noi...) che minimizzando uno, l'altro diventa maggiore. Pertanto occorre scegliere quale errore sia pi grave e cercare di contenere quello. La regola vuole che sia pi grave l'errore di I tipo quindi si cerca di tenere quello basso senza far sfuggire fuori controllo l'altro. La scelta delle ipotesi viene fatta (se possibile) in modo tale che sia pi grave riutare
H0
quando invece
H0
vera. Detto in altri termini l'ipotesi nulla quella che vogliamo riutare solo di fronte
a prove schiaccianti. Si chiama livello di signicativit del test la massima probabilit di riutare
H0
quando
H0
vera, ovvero il massimo della probabilit dell'errore di I specie. Il
livello di signicativit va stabilito a priori, cio prima di eseguire il test. Valori tipici per il livello di signicativit sono 1%, 5%.
Esempio 10.1.3. Viene somministrato un nuovo vaccino. Occorre decidere se sia ecace o
no. pi grave decidere che sia ecace quando non lo o che non sia ecace quando lo ? Sicuramente pi grave la prima eventualit. Allora, in questo caso, si pone
H0 : H1 :
vaccino non ecace; vaccino ecace. Se il vaccino non ecace Se il vaccino ecace Decisione corretta
e noi lo riteniamo ecace e noi lo riteniamo non ecace
Errore del I tipo

Decisione corretta
Errore del II tipo
Anche questa situazione pu aiutare a chiarire. Si processa un imputato. pi grave decidere che colpevole quando non lo o che non colpevole quando lo ? Sicuramente pi grave la prima eventualit. Allora, in questo caso,
H0 : H1 :
imputato non colpevole; imputato colpevole. Se l'imputato non colpevole e noi lo riteniamo colpevole Se l'imputato colpevole Decisione corretta
Errore del I tipo

Decisione corretta
e noi lo riteniamo non colpevole
Errore del II tipo
Nei casi precedenti era molto semplice decidere quale fosse l'eventualit pi grave. Vediamo situazioni in cui meno evidente qual la regola generale con cui vengono scelte la ipotesi. Anche qui pi conveniente dedurre un criterio da alcuni esempi.
80
Esempio 10.1.4. Vediamo alcune situazione classiche che si possono presentare.

1. Il contenuto dichiarato delle bottiglie di acqua minerale di una certa marca una quantit inferiore d'acqua. 2. Due amici giocano a testa o croce; uno dei due ha il sospetto che la moneta sia truccata e decide di registrare l'esito di un certo numero di lanci (come nell'Esempio 10.1.1). 3. Un ingegnere suggerisce alcune modiche che si potrebbero apportare ad una linea produttiva per aumentare il numero di pezzi prodotti giornalmente. Si decide di sperimentare queste modiche su una macchina: applicati alle altre macchine. In questi casi si possono fare le seguenti considerazioni. 1. Supponiamo che la quantit d'acqua contenuta in ciascuna bottiglia si possa model2 lizzare con una variabile aleatoria X N(, ). Dobbiamo eseguire un test sulla media. Qui il criterio quello innocentista: ci vuole una forte evidenza per accusare il produttore di vendere bottiglie irregolari. Quindi: se i risultati saranno buoni verranno
990ml.
Un'associazione di consumatori sostiene che in realt le bottiglie contengono, in media,
H0 : = 990ml H1 : < 990ml
o anche
H0 : 990ml
(il produttore non imbroglia);
(il produttore imbroglia).
2. Qui il risultato di un lancio una variabile aleatoria un test sul parametro
(che ricordiamo anche la
X Be(p). Dobbiamo eseguire media di X ). Qui anche seguiamo
una ipotesi innocentista. Supponiamo pertanto che la moneta sia equa, quindi
H0 : p = 0.5; H1 : p = 0.5.
3. Il numero dei pezzi prodotti dalla macchina prima della modica si pu modellizzare con una variabile aleatoria
(con legge non nota) con media
0 ,
nota.
L'idea
che, poich ogni cambiamento ha un costo, si seguir il suggerimento dell'ingegnere solo se i risultati sperimentali forniranno una forte evidenza del fatto che la macchina modicata sia pi produttiva di quella originaria, ovvero che ora il numero dei pezzi prodotti sia una variabile aleatoria
con media
> 0 .
Perci:
H0 : = 0 H 1 : > 0 .
o anche
0 ;
X1 , X2 , . . . , Xn estratto da una popolazione avente una distribuzione dipendente da un parametro sul quale
Vediamo di formalizzare e di generalizzare. Abbiamo un campione vogliamo fare delle ipotesi. viste: Dal punto di vista matematico le ipotesi possono essere cos
H0 : 0 ,
H1 : 1 ,
81
dove o
0 1 = e 0 1 = . Ora dobbiamo decidere il test ovvero la regola per accettare riutare H0 . Si sceglie una statistica, diciamo T (X1 , X2 , . . . , Xn ), quindi si riuta H0 se T (x1 , x2 , . . . , xn ) I,
ovvero se la statistica scelta calcolata sulle osservazioni campionarie cade in una certa regione. L'insieme
dei possibili risultati campionari che portano a riutare
H0
detta
regione
critica o regione di riuto del test:
R = {(x1 , x2 , . . . , xn ) : T (x1 , x2 , . . . , xn ) I}.

Cerchiamo di completare la formalizzazione dei casi visti nell'Esempio 10.1.4.
Esempio 10.1.5.
1. Supponiamo di misurare il contenuto di 100 bottiglie di acqua mine-
rale. Come costruisco un test per decidere se contengono, in media, la quantit d'acqua desiderata? Dunque abbiamo un campione Abbiamo visto che le ipotesi sono:
X1 , X 2 , . . . , X n
(ciascuna
la quantit d'acqua contenuta in una delle bottiglie) e supponiamo che
Xi rappresenta Xi N(, 2 ).
H0 : = ()990ml
Ora devo decidere la regola per riutare seguente: riuto
H1 : < 990ml.
H0 . Una regola ragionevole sembra la X n sul campione assume un valore troppo pi piccolo di 990ml, ovvero se xn < k , dove k un valore da determinare, vedremo come. Quindi la statistica H0
se da utilizzare per il test
T (X1 , X2 , . . . , Xn ) = X n
e la regione critica
R = {(x1 , x2 , . . . , xn ) : xn < k}.

2. Torniamo all'Esempio 10.1.1. Ricordiamo che lanciamo la moneta 100 volte e decidiamo che la moneta non equa se esce un numero di teste minore di 40 o maggiore di 60. Vediamo di formalizzare. Abbiamo un campione vale 1 se se esce testa al lancio sul parametro
X1 , X2 , . . . , X100 dove Xi Be(p) (Xi
i,
0 se esce croce) e vogliamo prendere una decisione
p. H0 : p = 0.5, H1 : p = 0.5.
Qui la statistica da utilizzare per il test
T (X1 , X2 , . . . , Xn ) = X1 + X2 + . . . + Xn ,
mentre la regione di riuto
R = {(x1 , x2 , . . . , xn ) : x1 + x2 + . . . + xn < 40 o x1 + x2 + . . . + xn > 60}.

3. Applichiamo la modica ad una delle macchine e per 100 giorni andiamo a vedere quanti pezzi produce. Abbiamo un campione variabile aleatoria con media
X1 , X2 , . . . , X100
dove ciascuna
Xi
una
(attenzione: la macchina stata modicata, la sua
media ora non so quanto vale, proprio questo il problema!). Ricordiamo che prima
82
della modica il numero dei pezzi prodotti aveva media abbiamo visto, sono
0 .
Le ipotesi che facciamo,
H0 : = ()0
Ora devo decidere la regola per riutare seguente: riuto
H 1 : > 0 . H0 .
Una regola ragionevole sembra la
H0
se
Xn
sul campione assume un valore molto grande, ovvero se
xn > k ,
dove
un valore da determinare, vedremo come. Quindi qui la statistica da
utilizzare per il test ancora la media campionaria,
T (X1 , X2 , . . . , Xn ) = X n
e la regione critica
R = {(x1 , x2 , . . . , xn ) : xn > k}.

La forma della regione critica si decide sulla base di osservazioni ragionevoli. Per esemdeterminare il valore di
{X n > k} o {X n < k}. Mentre l'esatta regione critica, che nei casi precedenti equivale a k (cio quanto grande o quanto piccola deve essere la media empirica per riutare H0 ) si decide in base al livello ssato del test. Come la regione critica ed il livello
pio del test sono legati lo vedremo volta per volta nei casi che andremo a trattare. Consideriamo un campione dipendente da un parametro
X1 , X2 , . . . , Xn estratto da una popolazione con distribuzione e ricapitoliamo i passi in cui si articola un test
statistico:
1. Si scelgono l'ipotesi nulla e l'ipotesi alternativa (questo comporta un giudizio su quale delle due ipotesi sia quella da riutare solo in caso di forte evidenza); 2. si sceglie una statistica (per esempio regione critica (per esempio
X n ) su cui basare il test, e si decide la forma della {X n > k}), questo in base a considerazioni ragionevoli;
3. si sceglie il livello (per esempio critica (per esempio
= 0.05) e quindi si determina esattamente la regione {X n > 15.8}). Come gi detto torneremo su questo punto;
4. si esegue il campionamento e si calcola la statistica coinvolta nel test e si vede se appartiene o no alla regione di riuto. Quindi si prende la decisione se riutare o no l'ipotesi nulla.
10.2 Test sulla media per una popolazione normale

10.2.1
Sia
Varianza nota
un campione estratto da una popolazione normale con media incognita
X1 , X 2 , . . . , X n
(parametro su cui vogliamo fare un'ipotesi) e varianza nota. Quindi 2 con distribuzione N(, ).
Xi
sono variabili i.i.d.
L'ipotesi nulla e l'ipotesi alternativa, rifacendoci agli esempi precedenti sono del tipo:
H0 = 0 = 0 = 0
H1 = 0 > 0 < 0
83
dove ovvero
0 un valore ssato: NOTO! In 0 formato da un unico punto. X n.
questo caso si dice che
H0
una ipotesi semplice,
Nei tre casi la statica che sembra ragionevole utilizzare, dato che devo fare ipotesi sulla media, la media campionaria, rispettivamente, del tipo: si riuti Inoltre la regione critica adatta per riutare
H0
sar,
|X n 0 | > k , ovvero si riuta H0 se la media campionaria lontana dal valore che ci si attende 0 ; si riuti H0 se X n > k , ovvero si riuta H0 se la media campionaria molto maggiore del valore che ci si attende 0 ; si riuti H0 se X n < k , ovvero si riuta H0 se la media campionaria molto minore del valore che ci si attende 0 . Fissiamo ora il livello della regione di riuto. Dobbiamo fare in modo che l'errore di prima specie sia . Ma ricordiamo che l'errore di prima specie la probabilit di riutare H0 quando H0 vera. Quindi la probabilit della regione critica, quando H0 vera. H0
se Quindi deve essere, nel primo caso,
P(|X n 0 | > k) = .
Come fare? Ricordiamo che, nel nostro caso, se l'ipotesi vera,
X n N(0 , 2 /n),
oppure, che lo stesso, standardizzando
X n 0 X n 0 = n = Z N(0, 1). 2 /n
Quindi,
P(|X n 0 | > k) = P
( |X | ( k ) k ) n 0 n> n = P |Z | > n = .
l'area ombreggiata in gura:
Dunque deve essere uguale ad
............... ....................... ....... .... .... ..... .... .... .... .... .... ... ... . .. ... .... ... ... ... ... . . ... ... ... ... . . ... ... ... ... ... . ... . ... ... ... ... . . ... ... ... ... . ... . ... ... ... ... ... . . ... ... ... ... . . ... ... ... ... ... . ... .. ... ... ... ... . .. ... ... ... ... . ..... . ... . .......... ....... ........ . ...... . . . . .............. ...... . . . .. .............. . ... . . . . . ....... . .. ......................... . ..... ...... ............... ...................... . . . . . . . . . . .. ... . ... ................................ ... ... ........ .. . . . . . . . . . . ............ ..................... ..................... ................ . ... . .. ...... . ......... ....... . .. ..................... ....................................... . . ........ ....... ..... ......... . . .................... .................... .....................
/2
/2
x 0 x Quindi quanto vale x ? chiaramente un quantile della gaussiana standard. Ma quale? Quanta area lascia x alla qua sinistra? Facile! L'area non ombreggiata 1 pertanto l'area a sinistra di x 1 + /2 = 1 /2. Pertanto, ricordando che abbiamo indicato con z i quantili della gaussiana standard, abbiamo x = z1/2 . Pertanto deve essere k n = z1/2
84
k = z1/2 . n
Quindi la regione critica di livello
} {|X n 0 | > z1/2 , n

oppure, che lo stesso,
{ |X | } n 0 n > z1/2 .
Passiamo al secondo caso. Deve essere
P(X n > k) = .
Procediamo esattamente come nel caso precedente.
P(X n 0 > k 0 ) = P
(X ( k 0 ) k 0 ) n 0 n> n = P Z > n = .
... .......... ................. ..... ....... ...... .... ... . .... ..... .... . .. ... .... ... ... ... ... ... . .. ... ... ... ... . ... . ... ... ... ... ... . . ... ... ... ... . . ... ... ... ... . ... . ... ... ... ... ... . . ... ... ... ... . . ... ... ... ... ... . ... . ... ... ... ... . .. ... ... ... ... ... ... . .. . .. ... ... .... . .. . .. .......... .... .... . . . ....... .. .. .. ................... .... .... . . . . . ...... . . .. .. ......................... . . ..... ...... .......................... . .. . ... .. . .. .... ... ..................... ...................... ........ ........ . .. ..................... ....................................... ... ................. .. . .................. ...................
Quindi quanto vale Quanta area lascia l'area a sinistra
x ?
0 x chiaramente un quantile della gaussiana standard. Ma quale? sinistra? Facile! L'area non ombreggiata Pertanto, ricordando che abbiamo indicato
x alla qua di x 1 .
1 pertanto con z i quantili
della gaussiana standard, abbiamo
x = z1 .
Pertanto deve essere
k 0 n = z1
k = 0 + z1 . n
} {X n > 0 + z1/2 , n
{X } n 0 n > z1 .
Veniamo al terzo ed ultimo caso. Deve essere
P(X n < k) = .
Procediamo esattamente come nel caso precedente.
(X ( k 0 ) k 0 ) n 0 P(X n 0 < k 0 ) = P n< n =P Z < n = .

85
.................... ..................... ..... .... ..... .... .... .... .... .... .... ... .... ... ... ... ... ... ... ... ... ... . . ... ... ... ... . . ... ... ... ... . ... . ... ... ... ... ... . . ... ... ... ... . . ... ... ... ... ... . ... . ... ... ... ... . . ... ... ... ... ... . ... .. ... ... ... ... . .... ... .... ... .... . .... .... .... ......... .......... .... .... .. ..... ..... ..... ........ ... . . ................. . ...... ...... .. ... ... ...... . . . . . . . .......................... ....... .. ....... .... ........... ............ . . .... . . ....... ... . ... . . . . . . . . . .................. ..................... .. . . ... ............. ........... ............... . . .................... ... . . . . . . . . . . . . . . . . . .
Quindi quanto vale
x x ?
0 Qui chiaramente
x = z1 .
Pertanto deve essere
k 0 n = z1
k = 0 z1 . n
} {X n < 0 z1 , n
{X } n 0 n < z1 .
Riassumendo.
Supponiamo di voler eseguire un test sulla media di una popolazione 2 normale di varianza nota, estraendo un campione casuale di ampiezza n. Se poniamo
z =
xn 0 n,
possiamo esprimere la regola di decisione del test, in dipendenza dall'ipotesi nulla e dal livello di signicativit che abbiamo scelto, nel modo seguente:
H0 = 0 = 0 = 0
H1 = 0 > 0 < 0
H0 se |z | > z1/2 z > z1 z < z1

Riuto
Questo test che utilizza la distribuzione normale si chiama z-test.
ATTENZIONE! Come si procede nel caso in cui

complicato il calcolo di
H0
non sia semplice?
Risulta pi
(in base al livello) tuttavia si trova che il test esattamente lo
stesso che abbiamo ottenuto nel caso in cui
H0
semplice. Precisamente si ha,
H0 = 0 0 0
H1 = 0 > 0 < 0
Riuto
H0
se
|z | > z1/2 z > z1 z < z1
Esempio 10.2.1. Da una popolazione normale di media incognita e deviazione standard
= 2 si estrae un campione di ampiezza 10, per sottoporre a test l'ipotesi nulla H0 : = 20, contro l'alternativa = 20.
86
1. Qual la regione critica, ai livelli 1%, 5%, 10%, per questo test? 2. Supponendo di aver estratto un campione per cui a ciascuno dei tre livelli di signicativit.
xn = 18.58, si tragga una conclusione,
1. La regione critica del test
{ |X | } { |X 20| } n 0 10 n > z1/2 = 10 > z1/2 , 2

con
z1/2
2. Se
2.56 1.96 = 1.64
= 0.01 per = 0.05 per = 0.10
per
x10 = 18.58,
allora
z =
|x10 20| 10 = 2.25, 2
pertanto la conclusione che si trae in ciascuno dei tre casi : i dati campionari non consentono di riutare l'ipotesi nulla, al livello di signicativit dell' 1%. i dati campionari consentono di riutare l'ipotesi nulla, al livello di signicativit del 5%. i dati campionari consentono di riutare l'ipotesi nulla, al livello di signicativit del 10%. Come si vede, la decisione che si prende non dipende solo dai dati campionari, ma anche dal livello di signicativit ssato. In questo caso la discrepanza tra il valore della media osservato (18.58) e quello ipotizzato (20) viene ritenuto statisticamente signicativo al livello del 5% e del 10%, ma non al livello dell'1%. Questo signica che se il valore varo del
parametro 20, la probabilit di ottenere, per eetto delle oscillazioni casuali, uno scostamento della media campionaria dal valore 20 pari a quello osservato, inferiore al 5%, ma superiore all'1%.
10.2.2
Varianza incognita
Consideriamo ancora il problema di determinare un test sulla media di una popolazione normale, mettendoci ora nell'ipotesi (pi realistica) che anche la varianza sia incognita. La linea del discorso sempre la stessa: cercheremo una regione critica ragionevole sempre basata sulla media campionaria. Nel caso precedente abbiamo usato il fatto che, se 2 un campione estratto da una popolazione N(, ), allora
X1 , X 2 , . . . , X n
Xn N(0, 1), / n
87
ma qui ovvero
non la conosciamo! L'idea quella di sostituire con la sua stima non distorta, Sn . La fortuna che la quantit che si ottiene ha anch'essa una distribuzione nota Xn t(n 1). Sn / n
(altrimenti sarebbe del tutto inutile), precisamente
Allora ricordando la denizione di il test.
data nella (8.19) possiamo subito scrivere come verr
Riassumendo.
Supponiamo di voler eseguire un test sulla media di una popolazione 2 normale di varianza incognita, estraendo un campione casuale di ampiezza n. Se poniamo
t=
x n 0 n, sn
H0 = 0 = 0 ( 0 ) = 0 ( 0 )
H1 = 0 > 0 < 0
Riuto
H0
se
|t| > t1/2 (n 1) t > t1 (n 1) t < t1 (n 1)
Questo test, detto t-test.
10.3 Test sulla media di una popolazione qualsiasi per grandi campioni
Nel caso di un campione numeroso (n
30)
estratto da una popolazione
qualsiasi
come gi visto per gli intervalli di condenza, possiamo considerare la relazione
X n 0 Tn t(n 1), Sn / n
ovvero
X n 0 approssimativamente una distribuzione t(n 1). Pertanto si pu fare Sn / n esattamente lo stesso test visto per campioni gaussiani in caso di varianza incognita.
Ricordiamo inoltre che se distribuzione
n > 120
i quantili della distribuzione normale e della
coincidono pertanto il t-test coincide con il z-test.
Esempio 10.3.1. Dall'esperienza passata noto che il numero di rapine che ogni settimana
avvengono in una certa citt una variabile aleatoria di media 1. Nel corso dell'anno passato ci sono state 85 rapine (quindi una media di 85/52 rapine alla settimana) con una deviazione standard (campionaria) pari a 1.5. Si pu aermare che l'entit del fenomeno sia cresciuta in modo signicativo? Per rispondere si faccia un test, al livello dell'1%, sull'ipotesi che il parametro non sia cresciuto.
88
Questa volta abbiamo un campione numeroso estratto da una popolazione non normale (di legge sconosciuta). Le ipotesi sono della forma
{X n > k}.
Possiamo fare un
H0 : = 1 e H1 : > 1. t-test. Calcoliamo
pertanto la regione critica
xn 0 85/52 1 t= = = 3.05. s2 /n 1.52 /52 n

I gradi di libert sono 51, il livello di signicativit 0.01 perci la regola di decisione si riuti
H0
se
t > t.99 (51) = 2.37.
Perci si pu riutare l'ipotesi al livello dell'1% e concludere
che il numero di rapine aumentato.
10.4 Test su una frequenza per grandi campioni

Possiamo ripetere per il test d'ipotesi gran parte dei ragionamenti visti nel Paragrafo 9.3.4 per il calcolo degli intervalli di condenza per la frequenza di una popolazione bernoulliana. Volendo fare un test per le ipotesi seguenti,
H0 p = p0 p = p 0 (p p 0 ) p = p 0 (p p 0 )
H1 p = p0 p > p0 p < p0 H 0 : p = p0
(se l'ipotesi non semplice, si dimostra in modo pi
utilizzeremo il fatto che, per l'approssimazione normale, se il campione sucientemente numeroso, si ha, nell'ipotesi complicato, ma si ottiene lo stesso test),
X n p0 p0 (1 p0 )/n
Z N(0, 1),
pertanto calcoleremo questa quantit in base ai dati del campione e la confronteremo con l'opportuno quantile della legge normale standard. Per la verica delle condizioni di applicabilit dell'approssimazione normale ricordiamo che deve essere
nxn > 5
Si ottiene il test seguente.
n(1 xn ) > 5.
Riassumendo. Supponiamo di voler eseguire un test sulla frequenza di una popolazione

bernoulliana, estraendo un campione casuale di ampiezza
n.
Se poniamo
xn p0 z= , p0 (1 p0 )/n
H0 p = p0 p = p 0 (p p 0 ) p = p 0 (p p 0 )
H1 p = p0 p > p0 p < p0
H0 se |z| > z1/2 z > z1 z < z1

Riuto 89
Esempio 10.4.1. Una partita di pezzi viene ritenuta inaccettabile se contiene (almeno)
l'8% di pezzi difettosi. Per decidere se accettare o no il lotto, si esamina un campione di 100 pezzi. Se tra questi si trovano 9 pezzi difettosi cosa si pu dire? Si tratta qui di eseguire un test sul parametro nulla
p di una popolazione bernoulliana.
L'ipotesi
H0 : p 0.08 e quindi H1 : p > 0.08 dal punto di vista del produttore mentre H0 : p 0.08 e quindi H1 : p < 0.08 dal punto di vista dell'acquirente. Si rietta su questo
fatto! Poniamoci dal punto di vista del produttore ed eseguiamo un test al livello del 5%. Osserviamo che il campione abbastanza numeroso da consentire l'uso dell'approssimazione normale, infatti:
nxn = 9 > 5,
Le ipotesi sono, come osservato, della forma
n(1 xn ) = 91 > 5.
e
{X n > k}.
H0 : p 0.08
H1 : p > 0.08,
pertanto la regione critica
Calcoliamo
x n p0 0.09 0.08 z= = = 0.37. p0 (1 p0 )/n 0.08 0.92/100

Poich
z.95 = 1.96 e z < z.95
l'ipotesi nulla non rigettata ed il lotto non pu essere rigettato.
10.5 Il test chi quadro (2)

10.5.1 Il test chi quadro di adattamento
Ci occupiamo ora di un'importante procedura statistica che ha lo scopo di vericare se certi dati empirici si adattino bene ad una distribuzione teorica assegnata. Il signicato di questo problema sar illustrato dai prossimi esempi che costituiranno la guida del discorso.
Esempio 10.5.1. Negli esperimenti di Mendel con i piselli si rilevarono i dati seguenti.
Tipologia Lisci-gialli Lisci-verdi Rugosi-gialli Rugosi-verdi
No
315 108 101 32
di casi osservati
Secondo la sua teoria sull'ereditariet, i numeri avrebbero dovuto essere nella proporzione 9:3:3:1. Esiste qualche ragione di dubitare della sua teoria?
Esempio 10.5.2. In base ad una ricerca condotta due anni fa, si pu ritenere che il numero
di incidenti automobilistici per settimana, in un certo tratto di autostrada, segua una legge di Poisson di parametro
= 0.4.
Se nelle ultime 85 settimane si sono rilevati i seguenti dati 0 50 1 32 2 3 3 o pi 0 Totale 85
No No
incidenti per settimana di settimane in cui si vericato
si pu aermare che il modello sia ancora applicabile alla descrizione del fenomeno, o qualcosa cambiato?
90
Esempio 10.5.3. I tempi di vita di 100 lampadine estratte casualmente da un lotto sono
stati misurati, e i dati raggruppati come segue. Tempo di vita (in mesi) meno di 1 da 1 a 2 da 2 a 3 da 3 a 4 da 4 a 5 da 5 a 10 pi di 10 Totale
No
24 16 20 14 10 16 0 100
di lampadine
In base questi dati si pu ritenere che il tempo di vita segua una legge esponenziale di parametro
= 0.33?
Per arrivare a rispondere a questi problemi, cominciamo a descrivere la situazione generale di cui quelle precedenti sono esemplicazioni concreta. Supponiamo di avere una tabella che rappresenta
n osservazioni di una variabile raggruppate in k classi (qui k deve essere nito!!).
Le classi possono rappresentare:
a) caratteristiche qualitative (piselli lisci-verdi, lisci-gialli, ecc); b) valori assunti da una variabile discreta (ogni classe un singolo valore, oppure una classe
raggruppa le code, ecc);
c) intervalli di valori assunti da una variabile continua.

Per ciascuna classe
Ai , i = 1, 2, . . . , k
supponiamo di avere oltre la frequenza osservata
anche la frequenza attesa con cui vogliamo confrontare la frequenza osservata e dedurre se la discrepanza tra le due possa essere giusticata dal caso oppure debba essere attribuita ad un errore nel modello scelto. Torniamo ai nostri esempi e cerchiamo di capire in quei casi quali siano le frequenze attese.
Esempio 10.5.4. Riprendiamo qui la situazione vista nell'Esempio 10.5.1. Il numero totale
dei piselli 315+108+101+32=556. Poich i numeri sono attesi nella proporzione 9:3:3:1 e 9+3+3+1=16, avremmo dovuto aspettarci 9 556 = 312.75, lisci-gialli; 16 3 556 = 104.25, lisci-verdi; 16 3 556 = 104.25, rugosi-gialli; 16 1 556 = 34.75, rugosi-verdi. 16 Riassumendo, si ha Tipologia Lisci-gialli Lisci-verdi Rugosi-gialli Rugosi-verdi
No
315 108 101 32
di casi osservati
No
di casi aspettati
312.75 104.25 104.25 34.75
91
Esempio 10.5.5. Riprendiamo qui la situazione vista nell'Esempio 10.5.2. La distribuzione

teorica con cui si vogliono confrontare i dati la legge di Poisson di parametro 0.4. precisamente se Se Pi
il numero degli incidenti per settimana, vogliamo vedere, se
X Po(0.4),
X Po(0.4).
si avrebbe:
P(X = 0) = e0.4 = 0.670 P(X = 1) = 0.4e0.4 = 0.268 0.42 0.4 P(X = 2) = e = 0.054 2 P(X 3) = 1 (0.670 + 0.268 + 0.054) = 0.008.
Pertanto, in 85 settimane, avremmo dovuto aspettarci
0.670 85 = 56.95 0.268 85 = 22.78 0.054 85 = 4.59 0.008 85 = 0.00 No No No
settimane in cui settimane in cui settimane in cui settimane in cui
X X X X
= 0; = 1; = 2; 3.
0 50 56.95 1 32 22.78 2 3 4.59 3 o pi 0 0.00 Totale 85 85
Riassumendo, si ha incidenti per settimana di settimane in cui si vericato di settimane atteso
Esempio 10.5.6. Riprendiamo qui la situazione vista nell'Esempio 10.5.3. La distribuzione

teorica con cui si vogliono confrontare i dati la legge esponenziale di parametro 0.33. Se
X Exp(0.33),
si avrebbe:
P(0 < X 1) =
ex dx = 1 e0.33 = 0.2811 ex dx = e0.33 e0.332 = 0.2021 ex dx = e0.332 e0.333 = 0.1453 ex dx = e0.333 e0.334 = 0.1044 ex dx = e0.334 e0.335 = 0.0.0751 ex dx = e0.335 e0.3310 = 0.1552 ex dx = e0.3310 = 0.0369
0 2 P(1 < X 2) = 1 3 P(2 < X 3) = 2 4 P(3 < X 4) = 3 5 P(4 < X 5) = P(5 < X 10) = P(X > 10) =
10
4 10
5 +
Pertanto, su 100 lampadine, avremmo dovuto aspettarci
0.2811 100 = 28.11 0.2021 100 = 20.21
lampade per cui lampade per cui
0 < X 1; 1 < X 2;
92
0.1453 100 = 14.53 0.1044 100 = 10.44 0.0751 100 = 7.51 0.1552 100 = 15.52 0.0369 100 = 3.69
meno di 1 da 1 a 2 da 2 a 3 da 3 a 4 da 4 a 5 da 5 a 10 pi di 10 Totale
lampade per cui lampade per cui lampade per cui lampade per cui lampade per cui
2 < X 3; 3 < X 4; 4 < X 5; 5 < X 10; X > 10. No

di lampadine atteso 28.11 20.21 14.53 10.44 7.51 15.52 3.69 100.00 24 16 20 14 10 16 0 100
Tempo di vita (in mesi)
No
di lampadine
Veniamo ora al punto fondamentale:
come valutare la bont dell'adattamento delle
frequenze assolute osservate alle frequenza assolute attese?
k classi, A1 , A2 , . . . , Ak ; siano pi le frequenze relative attese di ciascuna classe (p1 + p2 + . . . + pk = 1) e quindi np1 , np2 , . . . , npk le frequenze assolute attese. Siano poi N1 , N2 , . . . , Nk le frequenze assolute
Supponiamo di avere in generale, osservazioni raggruppate in osservate. Calcoliamo in base a questi dati la seguente statistica:
Q=
Si osservi che ogni addendo di i vari addendi. La
k (npi Ni )2 i=1
npi
(10.1)
ha a numeratore lo scarto quadratico tra le frequenza
attesa e quella osservata, e a denominatore la frequenza attesa, che fa pesare diversamente
sar tanto pi piccola quanto migliore l'adattamento delle frequenze
osservate a quelle attese. Inoltre la discrepanza tra frequenze osservate e attese pesata pi o meno a seconda della frequenza attesa. A parit di discrepanza pesa di pi quella relativa a frequenze attese pi piccole. La quantit l'adattamento. Se l'ipotesi nulla ,
pertanto una buona statistica per valutare
H0 :
le osservazioni si adattano ai dati teorici,
il test sar del tipo Si riuti se
H0
se
Q > k
con
opportuno.
Il risultato fondamentale che permette di determinare il
grande allora la statistica
ha una distribuzione che tende ad una legge
opportuno dato dal fatto che 2 (k 1),
ovvero
k (npi Ni )2 i=1
npi ,
W 2 (k 1).
Questo, come gi visto in precedenza permette di calcolare in modo completo la regione di riuto. Se vogliamo un test al livello la regione di riuto
{Q > 2 (k 1)}. 1
93
Gracamente,
.. ........................ ............................ ...... ...... ...... ...... .... ..... ..... .... . .. ..... ..... .... ... ..... ... ..... . . .... .... ... ... . . .... .... ... ... .... .... . .... .... ... ... . .... .... ... .... ... .... .... ..... ... ... ..... ..... ... ... ..... . ..... . ..... .. ..... .. . . ..... ..... .. .. ..... ...... ...... ... ... ...... . ...... ...... ... ... ....... . . ....... ....... .. .. ........ . . ........ ......... .. .. ......... .......... ........... ... ... ............ . . . . ........ . ... .... ... . . . . . .......... .. . . .......... ................... .... .. .......... . ... .. . ... .......... .......... ....................................... . . . . . . . . . . . . . . . . . ... .. . .. . . . . . ... ... .......... .......... .......... .......... .......... .......... ... . .... ... ...
2 (k 1) 1 La condizione di applicabilit dell'approssimazione che npi > 5 per ogni i = 1, 2, . . . , k .

Torniamo agli esempi fatti sinora e vediamo che conclusione possiamo trarre.
Esempio 10.5.7. Nel caso esposto nell'Esempio 10.5.4 le frequenze attese sono tutte maggiori di 5, pertanto possiamo procedere al calcolo della quantit
Q.
Q=
(315 312.75)2 (108 104.25)2 (101 104.25)2 (32 34.75)2 + + + = 0.470. 312.75 104.25 104.25 34.75
Poich ci sono 4 modalit il numero dei gradi di libert 3. Ora,
2 (3) = 11.3, .99 2 (3) = 7.81, .95
cos che non possiamo riutare la teoria al livello dello 0.01; cos che non possiamo riutare la teoria al livello dello 0.05.
Concludiamo che la teoria concorda con l'esperimento.
Esempio 10.5.8. Guardando la tabella che compare nell'Esempio 10.5.5 si osserva che
le ultime due classi hanno frequenze attese <5, perci non possiamo utilizzare la tabella cos com' per eettuare il test; se uniamo le ultime due classi otteniamo una nuova classe
{X 2} con frequenza attesa 4.59+0.68=5.27, e frequenza osservata pari a 3+0=3 (si ricordi che solo la frequenza attesa che deve essere 5). Perci consideriamo la nuova tabella: No No No
incidenti per settimana di settimane in cui si vericato di settimane atteso 0 50 56.95 1 32 22.78 2 o pi 3 5.27 Totale 85 85
Il valore della statistica
Q=
(50 56.95)2 (32 22.78)2 (3 5.27)2 + + = 5.56. 56.95 22.78 5.27
2 (2) = 9.21, .99 2 (2) = 5.99, .95
cosche non possiamo riutare l'ipotesi al livello dello 0.01; cosche non possiamo riutare l'ipotesi al livello dello 0.05.
Concludiamo che non abbiamo reali motivi per credere che le cose siano cambiate.
Esempio 10.5.9. Guardando la tabella che compare nell'Esempio 10.5.6 si osserva che per
poter eettuare il test basta unire le ultime due classi. Introduciamo la nuova classe con frequenza attesa 15.52+3.69=19.21 e frequenza osservata 16. Abbiamo
X>5
94
Tempo di vita (in mesi) meno di 1 da 1 a 2 da 2 a 3 da 3 a 4 da 4 a 5 pi di 5 Totale Il valore della statistica
No
di lampadine 24 16 20 14 10 16 100
No
di lampadine atteso 28.11 20.21 14.53 10.44 7.51 19.21 100.00
Q=
(24 28.11)2 (10 7.51)2 (16 19.21)2 + ... + + = 6.11. 28.11 7.51 19.21
2 (5) = 15.09, .99 2 (5) = 11.07, .95
cos che non possiamo riutare l'ipotesi al livello dello 0.01; cos che non possiamo riutare l'ipotesi al livello dello 0.05.
Concludiamo che i dati statistici quindi confermano che il tempo di vita delle lampadine segue eettivamente una legge
Exp(0.33).
10.5.2
Il test chi quadro di indipendenza
Il test chi-quadro pu essere utilizzato anche per vericare l'indipendenza o meno di due variabili. questo un altro problema che si presenta spesso nelle applicazioni. Disponiamo di
osservazioni
congiunte di due variabili e ci chiediamo: esiste una qualche dipendenza
tra le variabili o no? Nel Capitolo 2, abbiamo visto come si possa valutare la correlazione di due variabili numeriche: utilizzo di scatterplot, coeciente di correlazione, retta dei minimi quadrati... Ora vedremo un metodo diverso che permette di trattare sia variabili numeriche che variabili categoriche, valutando quantitativamente l'indipendenza (o la dipendenza) di queste. Al solito, introduciamo il problema con alcuni esempi.
Esempio 10.5.10. Un certo corso universitario impartito a studenti del terzo anno di tre
diversi indirizzi. Gli studenti frequentano le medesime lezioni di un professore che registra il numero di studenti di ogni indirizzo che hanno superato l'esame. I dati sono i seguenti: Indirizzo esame superato esame non superato Tot Studenti 30 40 70
Indirizzo 15 8 23
Indirizzo 50 37 87
Tot. esami 95 85 180
Il rendimento degli studenti, relativamente all'esame in questione, si pu ritenere sostanzialmente equivalente, oppure le dierenze sono statisticamente signicative? indipendenti o no. Questo equivale a chiedersi se le due variabili (categoriche) indirizzo e rendimento sono tra loro
Esempio 10.5.11. Sono state eettuate delle prove di resistenza su pneumatici di 4 diverse
marche, e si registrata la durata dell'usura). I dati sono i seguenti:
X,
di questi pneumatici (in chilometri percorsi prima
95
X 30000 30000 < X 45000 X > 45000

Marca Marca Marca Marca Tot
Tot. 200 200 200 200 800
A B C D
26 23 15 32 96
118 93 116 121 448
56 84 69 47 256
ci chiediamo se le 4 marche si possano ritenere equivalenti, quanto alla durata degli pneumatici, oppure no. In altre parole, questo equivale a chiedersi se la variabile numerica durata sia indipendente o no dalla variabile categorica marca. Cominciamo ad introdurre un po' di terminologia e notazioni. Una tabella come quelle riportate nei due esempi precedenti si chiama la di questo tipo
tabella di contingenza.
In una tabel-
X in r classi A1 , A2 , . . . , Ar e, contemporaneamente sono classicate secondo un altro criterio Y in s classi B1 , B2 , . . . , Bs . Ogni osservazione appartiene cos ad una ed una sola classe Ai e ad una e una sola classe Bj . L'insieme delle n osservazioni cos ripartito in r s classi (X Ai , Y Bj ). La tabella riporta all'incrocio della colonna Ai con la riga Bj la frequenza nij della classe (X Ai , Y Bj ). Si calcolano poi i totali di riga e di colonna e si ottiene la tabella seguente:
osservazioni sono classicate secondo un certo criterio
B1 B2 ... Bs
Tot
A1 n11 n21 ... ns1 n.1
A2 n12 n22 ... ns2 n.2
. . . Ar . . . n1r . . . n2r ... ... . . . nsr . . . n.r
Tot.
n1. n2. ... ns. n nj.

il totale della riga
Si osservi che abbiamo indicato con classe
j,
quindi la frequenza della
Ai ,
per
Bj , per j = 1, 2, . . . , s e con ni. i = 1, 2, . . . , r.
il totale della colonna i, quindi la frequenza della classe
Vogliamo trovare una regola per testare l'ipotesi
H0 :
Le variabili sono indipendenti.
Come si deve procedere? Quali dovrebbero essere le frequenze in ipotesi di indipendenza? Poich i valori di e
sono raggruppati nelle classi
Ai
e i valori di
nelle classi
Bj ,
se
sono indipendenti, per denizione di variabili indipendenti, deve essere
P(X Ai , Y Bj ) = P(X Ai )P(Y Bj ).

Se stimiamo
P(Ai )
P(Bj )
con le frequenze relative di ciascuna classe, ovvero
P(Ai ) =
allora la frequenza relativa attesa di di indipendenza,
n.i n
P(Bj ) =
nj. , n
(X Ai , Y Bj ), pij = n.i nj. , n n n.i nj. . n
cio quella che si avrebbe in ipotesi
quindi la frequenza della classe attesa
nij = p
96
La situazione si pu ora descrivere in termini simili a quelli usati per il test
di adat-
tamento: abbiamo k = rs classi; di ogni classe conosciamo la osservata nij e la frequenza n.i nj. attesa frequenza . Indipendenza delle variabili X e Y signica allora adattamento n delle frequenze osservate alle frequenze relative attese (che sono quelle calcolate in ipotesi di indipendenza). Costruiamo anche qui la statistica
Q: )2 . Q > k,
con
Q=
r s i=1 j=1
nij
n.i nj. n n.i nj. n
Il test sull'ipotesi di indipendenza sar del tipo: opportuno da calcolare in base al livello.
riutare l'ipotesi se
Il risultato fondamentale che permette di determinare il se ovvero
n grande allora la statistica Q ( r n s ij

i=1 j=1
opportuno dato dal fatto che 2 ha una distribuzione che tende ad una legge (r1)(s1),
n.i nj. n n.i nj. n
)2 W 2 ((r 1)(s 1)).
Questo, come gi visto in precedenza permette di calcolare in modo completo la regione di riuto. Se vogliamo un test al livello
la regione di riuto
{Q > 2 ((r 1)(s 1))}. 1

Anche in questo caso l'approssimazione si pu utilizzare se le frequenze attese sono maggiori di 5. Illustriamo ora il procedimento sui due esempi visti in precedenza.
Esempio 10.5.12. Riprendiamo la tabella di contingenza dell'Esempio 10.5.10.

Indirizzo esame superato esame non superato Tot Studenti 30 40 70
Indirizzo 15 8 23
Indirizzo 50 37 87
Costruiamo a partire da questa la tabella con le frequenze attese in ipotesi di indipendenza. Si ha, Indirizzo esame superato esame non superato Tot Studenti ovvero Indirizzo esame superato esame non superato Tot Studenti 36.94 33.06 70
Indirizzo
Indirizzo
95 70/180 85 70/180 70
95 23/180 85 23/180 23
95 87/180 85 87/180 87
Indirizzo 12.14 10.86 23
Indirizzo 45.92 41.08 87
97
Osserviamo che tutti i numeri che compaiono in quest'ultima tabella sono maggiori di 5. Ci permette di poter applicare l'approssimazione con il chi-quadro. Calcoliamo
Q.
(30 36.94)2 (15 12.14)2 (50 45.92)2 + + + 36.94 12.14 45.92 (40 33.06)2 (8 10.86)2 (37 41.08)2 + + + = 4.55. 33.06 10.86 10.86 Q=
I gradi di libert sono (3-1)(2-1)=2. Il test al livello del 5% : si riuti l'ipotesi di Q > 2 (2) = 5.991. Perci al livello del 5% i dati non consentono di .95 riutare l'ipotesi di indipendenza. indipendenza se
Esempio 10.5.13. Riprendiamo la tabella di contingenza dell'Esempio 10.5.11.
X 30000 30000 < X 45000 X > 45000

Tot. 200 200 200 200 800
A B C D
26 23 15 32 96
118 93 116 121 448
56 84 69 47 256
Costruiamo a partire da questa la tabella con le frequenze attese in ipotesi di indipendenza. In questo caso i calcoli sono semplicati dal fatto che i 4 totali di riga sono tutti uguali tra loro: perci sulla prima colonna compare sempre 96 200/800=24; sulla seconda
colonna sempre 448 200/800=112; sulla terza colonna sempre 256 200/800=64.
X 30000 30000 < X 45000 X > 45000

Tot. 200 200 200 200 800
A B C D
24 24 24 24 96
112 112 112 112 448
64 64 64 64 256
Osserviamo che tutti i numeri che compaiono in quest'ultima tabella sono maggiori di 5. Ci permette di poter applicare l'approssimazione con il chi-quadro. Calcoliamo
Q.
(26 24)2 (23 24)2 (15 24)2 (32 24)2 + + + + 24 24 24 24 (118 112)2 (93 112)2 (116 112)2 (121 112)2 + + + + + 112 112 112 112 (56 64)2 (84 64)2 (69 64)2 (47 64)2 + + + + = 20.7723. 64 64 64 64 Q=
I gradi di libert sono (3-1)(4-1)=6. Il test al livello del 5% : si riuti l'ipotesi di 2 indipendenza se Q > .95 (6) = 12.592. Perci al livello del 5% i dati consentono di riutare l'ipotesi di indipendenza.
98

Statistic A

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistic A

Uploaded by

Copyright:

Available Formats

Universit degli Studi di Roma Tor Vergata

Facolt di Scienze MM.FF.NN. Corso di laurea in Biotecnologie

Appunti del corso di

ultimo aggiornamento 21 maggio 2010

Rappresentazione graca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrammi a barre

Indici di posizione e di dispersione

Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianza e scarto quadratico medio . . . . . . . . . . . . . . . . . . .

Correlazione tra variabili e regressione lineare

Introduzione alla probabilit

Probabilit condizionata, indipendenza

Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indipendenza

Variabili aleatorie numerabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.3.2 6.4 6.4.1 6.4.2 6.5 6.6

Media e Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media e varianza

Variabili aleatorie indipendenti [cenni] . . . . . . . . . . . . . . . . . . . . . . Propriet della media e della varianza . . . . . . . . . . . . . . . . . . . . . .

Alcune distribuzioni famose

Distribuzione Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzione uniforme (continua) . . . . . . . . . . . . . . . . . . . . . . . . Distribuzione esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Stima dei parametri

Stimatori e stima puntuale della media . . . . . . . . . . . . . . . . . Stima puntuale della varianza

Stima per intervalli. Intervalli di condenza

Stima della media di una popolazione normale con varianza nota

2. CALCOLO DELLE PROBABILIT 3. STATISTICA INFERENZIALE

Statistica Descrittiva, che quindi si occupa di elaborare, orStatistica Inferenziale e pone

dinare e sistemare un insieme di dati. L'altro un caso di

Calcolo delle Probabilit.

Capitolo 1 Distribuzioni di frequenze

1.1 Variabili e dati

Denizione 1.1.1. Le variabili oggetto di osservazione statistica si classicano in tre tipi,

Esempio 1.1.2. [Variabile discreta] Esempio 1.1.3. [Variabile continua]

altezza in centimetri di un individuo.

Esempio 1.1.4. [Variabile categorica]

C, Colore degli occhi di un individuo. C =marrone,

Ci occuperemo per il momento di dati rappresentati da variabili numeriche. Si dicono

1.2 Distribuzioni di frequenze. Classi

il numero delle volte che tali valori vengono assunti (frequenze).

P Peso 64 < P 66 < P 68 < P 70 < P 72 < P

Numero di studenti 5 18 42 27 8 100

1.3 Rappresentazione graca

istogramma consiste in un insieme di rettangoli adiacenti (ognuno relativo ad una classe)

aventi base sull'asse

Esempio 1.3.1. Si consideri la seguente distribuzione di frequenze:

Frequenze 20 40 60 80 Tot. 200

Frequenze 20 40 60 80 Tot. 200

Quindi riportiamo sull'asse

10/(130 30/(170 150) = 1.5 e per la

Esempio 1.3.2. La tabella mostra la distribuzione di frequenze per il dato

frequenze 20 50 80 40 10 Tot. 200

frequenze 20 50 80 40 10 Tot. 200

freq. percentuali 10% 25% 40% 20% 5% 100%

Quindi riportiamo sull'asse gli!)

non raggruppati in classi.

ampiezza 1. Cos le altezze coincidono con le frequenze. Si ottiene,

Esempio 1.3.3. Sia

la variabile colore degli occhi di 300 persone.

frequenze 150 90 30 30 Tot. 300

freq. percentuali 50% 30% 10% 10% 100%

Un relativo diagramma a barre il seguente.

Capitolo 2 Indici di posizione e di dispersione

2.1 Indici di posizione

rappresenta la numerosit della popolazione,

e soltanto se c' un solo individuo in ogni classe ovvero

n il numero di classi. N = n fi = 1 per ogni i = 1, 2, . . . , n..

Denizione 2.1.1. Si chiama media di

Universit degli Studi di Roma Tor Vergata

Rappresentazione graca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagrammi a barre

Alcune distribuzioni famose

Stima per intervalli. Intervalli di condenza

Denizione 1.1.1. Le variabili oggetto di osservazione statistica si classicano in tre tipi,

1.3 Rappresentazione graca

Quindi riportiamo sull'asse gli!)

Denizione 2.1.1. Si chiama media di

In modo analogo alla mediana si possono denire i quartili e i percentili. I

In modo analogo si possono denire i

Denizione 2.2.1. Si chiama varianza di

Denizione 2.2.2. Si chiama scarto quadratico medio o anche deviazione standard

Denizione 3.1.1. Supponiamo di avere

Dalla denizione, si vede che la covarianza pu avere segno positivo o negativo.

in base alla denizione signica che, mediamente, a valori grandi (o piccoli di

questo giustica la seguente denizione.