Professional Documents
Culture Documents
2 L’analisi discriminante 7
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 L’analisi discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 L’approccio decisionale: i personaggi della storia . . . . . . . . . . . . . . . . 8
2.4 Variabile casuale normale multipla . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.1 La stima dei parametri della distribuzione normale . . . . . . . . . . . 12
2.4.2 La stima della matrice di varianze e cov con due campioni . . . . . . . 13
2.5 L’analisi discriminante nel caso normale di normalità . . . . . . . . . . . . . 13
2.6 La stima della funzione discriminante . . . . . . . . . . . . . . . . . . . . . . . 14
2.7 La selezione delle variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Lo score e la tabella di confusione . . . . . . . . . . . . . . . . . . . . . . . . . 16
1
Capitolo 1
y = Xa
Nella analisi delle componenti principali, si cercano opportune trasformazioni delle colonne
di X che preservino la variabilità del fenomeno, secondo determinate regole che ora vedremo.
2
E.Stanghellini – Dispense di Statistica IV 3
q(λ) = 0
sono numeri reali o complessi. Inoltre alcune radici possono avere molteplicità superiore ad
uno. Queste radici λi sono dette autovalori. Per ogni λi , |A − λi I| = 0, ovvero la matrice
A − λi I ha rango non pieno. Pertanto esiste una combinazione lineare γ delle colonne di
A − λi I che vale zero. Ovvero esiste un γ tale che:
(A − λi I)γ = 0
da cui:
Aγ = λi γ (1.1)
Si noti che γ ha dimensioni p × 1. Il vettore γ è l’autovettore associato all’autovalore λi .
Esso può non essere unico. Infatti, si noti che se γ è un autovettore allora, dalla (1.1) anche
cγ , con c costante arbitraria, è un autovettore. Inoltre, sempre dalla dalla (1.1), se γ e
δ sono due autovettori associati a λi allora anche γ + δ è un autovettore associato a λi .
Ovvero, l’insieme degli autovettori associati a λi forma uno spazio vettoriale.
Dal momento che se γ è un autovettore allora anche cγ , con c costante arbitraria, è un
autovettore, cerchiamo l’autovettore standardizzato, ovvero tale che
γ T γ = 1.
Seguono alcuni risultati, propri dell’algebra lineare, che si richiamano senza dimostrazione:
p
Y
q(λ) = (λi − λ)
i=1
per ogni λ reale. Vari risultati seguono:
Q
→ Ponendo λ = 0 |A| = pi=1 λi
P P
→ traccia(A) = pi=1 aii = pi=1 λi
1−λ ρ
=0
ρ 1−λ
in quanto γ (1) è l’unco vettore con elmenti uguali tale che γ T(1) γ (1) = 1. In maniera analoga
si trova che µ √ ¶
1\ √2
γ (2) = .
−1\ 2
La matrice Γ che ha per colonne gli autovettori standardizzati è pertanto la seguente:
µ √ √ ¶
1\√2 1\ √2
Γ= .
1\ 2 −1\ 2
Si costruisca inoltre la matrice Λ nel modo seguente:
µ ¶
1+ρ 0
Λ=
0 1−ρ
La matrice diagonale Λ che ha come elementi gli autovalori è detta matrice degli au-
tovalori. La matrice Γ che ha per colonne gli autovettori γ (i) associati agli autovalori λi è
detta matrice degli autovettori.
Il caso di maggiore interesse in statistica è quello in cui A è una matrice simmetrica.
Infatti, come vedremo il metodo di analisi delle componenti principale implica il calcolare
gli autovalori gli autovettori della matrice di varianze e covarianze osservata. Se A è una
matrice simmetrica, allora vale il seguente teorema (Scomposizione Spettrale):
Teorema di Scomposizione Spettrale Ogni matrice simmetrica A può essere scritta
come:
p
X
A = ΓΛΓT = λi γ (i) γ T(i)
i=1
in cui Λ è la matrice diagonale degli autovalori di A e Γ è la matrice degli autovettori.
¯
Inoltre, Γ è una matrice ortogonale, ovvero ΓT Γ = I. Per cui,
ΓT AΓ = Λ.
Esempio 1.2 (segue da 1.1) Si verifichi che ΓT Γ = I. Si verifichi, inoltre, che A = ΓΛΓT .
in cui X̄ è anch’essa una matrice di dimensioni N × p le cui colonne sono ripetizioni delle
medie di ogni variabile. Ovvero:
x̄1 x̄2 x̄3 ... x̄p
x̄1 x̄2 x̄3 ... x̄p
X̄ = x̄1 x̄2 x̄3 ... x̄p
... ... ... ...
x̄1 x̄2 x̄3 ... x̄p
ΓT VΓ = Λ
Xγ (j) .
La implicazione di quanto sopra sta nel fatto che le trasformazioni lineari Xγ (i) Xγ(j) sono
incorrelate.
P
Inoltre, si ricordi che γ T(j) γ (i) = 0 se j 6= i e γ T(i) γ (i) = 1. Di conseguenza aT a = 2
i ci .
Teorema 1 Non esiste una trasformazione lineare standardizzata delle colonne di X che
ha varianza maggiore di λ1 , l’autovettore più grande.
Dim. Sia a un vettore di dimensioni p × 1 tale che aT a = 1. Come già detto, gli
autovettori di V possono essere presi come basi di uno spazio vettoriale di dimensioni p e
pertanto il vettore a si può esprimere come una combinazione lineare degli autovettori γ (i) .
Ovvero:
a = c1 γ (1) + c2 γ (2) + . . . + cp γ (p) .
P 2
Dal fatto che aT a = 1 segue che ci = 1. Ora, poniamo che a siano i coefficienti della
trasformazione lineare che cerchiamo, ovvero y = Xa. La varianza di y è , dal teorema di
scomposizione spettrale:
aT Va = aT ΓΛΓT a
Notando che aT γ (i) = ci , avremo che aT Γ = [c1 c2 . . . cp ].
Di conseguenza, essendo Λ una matrice diagonale:
p
X
T
a Va = λi c2i .
i=1
P
Da sopra sappiamo che i c2i = 1. Allora, dato che λ1 è l’autovalore massimo, il massimo
della sommatoria è λ1 . Esso è ottenuto quando c1 = 1 e c2 = c3 = . . . = cp = 0.
Adesso ci poniamo nell’ottica di sintetizzare le nostre osservazioni, non tanto con una
unica combinazione lineare, ma con un generico numero r, r < p di combinazioni. Come pos-
siamo procedere? Poniamo r = 2. Possiamo cercare una seconda trasformazione che a) sia
incorrelata con la precedente e b) massimizzi la varianza non spiegata dalla trasformazione
precedente. Il prossimo teorema ci dice che il questo caso la migliore trasformazione lineare
standardizzata è quella che ha coefficienti dati dall’autovettore corrispondente al secondo
autovalore più grande.
Teorema 2 Se y = Xa è una trasformazione lineare che è incorrelata con le prime k
componenti principali, allora la varianza di y è massimizzata quando a = γ (k+1) .
La dimostrazione del teorema è omessa. Essa segue da vicino la dimostrazione del
teorema 1.
Discende dal teorema che i primi r autovettori di V costituiscono delle trasformazioni
lineari delle colonne di X che massimizzano la varianza e sono ortogonali fra di loro.
Osservazione importante. La matrice X e la matrice (X − X̄) danno luogo alla stessa
matrice di varianza e covarianza V. Per questo motivo, le componenti principali vengono
spesso effettuate sulla trasformazione (X − X̄). Questo equivale a calcolare Y nella seguente
maniera:
Y = (X − X̄)F.
Anche questo secondo modo è molto utilizzato in pratica. Si noti che in questo secondo
caso si perde l’informazione che deriva dalla unità di misura del fenomeno, e dalla sua
dimensione. Questo può essere positivo in alcuni casi, ma negativo in altri.
Capitolo 2
L’analisi discriminante
2.1 Introduzione
L’analisi discriminante, a differenza del modello logistico, è nata come strumento di classi-
ficazione. La prima formulazione dell’analisi discriminante risale a Fisher (1936), il quale,
dato un campione casuale di N osservazioni, di cui n1 provenienti da una popolazione, e
N − n1 provenienti da una seconda popolazione, determinò la migliore funzione per allocare
ciascuna osservazione alla popolazione di origine. Questa funzione è detta funzione discrim-
inante. Dal lavoro di Fisher ad oggi, i contributi in materia di analisi discriminante sono
stati numerosissimi.
7
8 E.Stanghellini – Dispense di Statistica IV
0.5
aziende insolventi
0.4 aziende sane
0.3
0.2
0.1
FCR.PTP
−0.1
−0.2
−0.3
−0.4
−0.5
0 0.5 1 1.5 2 2.5 3 3.5 4
RI.AT
Si indichi con A l’insieme di tutti i possibili valori x. Come abbiamo detto, l’obbiettivo è
quello di dividere A in due regioni A0 e A1 esaustive e mutualmente esclusive, tali che:
x ∈ A0 se l’unità appartiene a P0 ;
x ∈ A1 se l’unità appartiene a P1 .
Tuttavia, il problema della determinazione di A0 e A1 non ha natura deterministica, in
quanto unità con le stesse caratteristiche x possono appartenere sia ad una popolazione che
all’altra. Lo studio pertanto deve essere fatto o sulle funzioni di densità condizionate di x,
fr (x), r ∈ {0, 1}, oppure sulle probabilità P (Y = r | x).
• una c.v. binaria Y = {0, 1}, che vale 0 se una osservazione appartiene alla popolazione
P0 e 1 altrimenti;
• i due tipi di errore: quello di assegnare un’unità buona alla popolazione P0 quando
invece proviene da P1 , e quello di assegnare un’unità cattiva a P1 ;
• i costi associati ai due errori: C(0 | 1) e C(1 | 0), ovvero, in ordine, il costo di
allocare una unità alla popolazione P0 quando invece proviene da P1 e il costo di
allocare una unità alla popolazione P1 dato che invece proviene da P0 (costo di errata
classificazione);
fr (x)P (Y = r)
P (Y = r | x) = , r ∈ {0, 1}. (2.1)
f (x)
→ La trama. Si indichi con A l’insieme di tutti i possibili valori x. Come abbiamo detto,
l’obbiettivo è quello di dividere A in due regioni A0 e A1 esaustive e mutualmente esclusive,
tali che:
x ∈ A0 se il cliente è cattivo;
x ∈ A1 se il cliente è buono.
Una prima regola intuitiva per determinare A1 è quella di assegnare ad A1 tutti i valori x
tali che ff01 (x)
(x)
> s con s scelto opportunamente. Più formalmente, A1 sarà l’insieme delle x
tali che:
½ ¾
f1 (x)
A1 = x | >s . (2.2)
f0 (x)
Il problema allora della scelta della migliore partizione di A viene riformulato in termini
della scelta del migliore valore di soglia s. E’ intuitivo che il valore s deve tenere conto del
10 E.Stanghellini – Dispense di Statistica IV
rapporto fra i due costi di errata classificazione. Sia C la variabile casuale che descrive il
costo, valore atteso di C è il seguente:
Z
E(C) = C(0 | 1)P (Y = 1) f1 (x)δx +
ZA0
C(1 | 0)P (Y = 0) f0 (x)δx.
A1
Z
E(C) = C(0 | 1)P (Y = 1) + {C(1 | 0)P (Y = 0)f0 (x) −
A1
C(0 | 1)P (Y = 1)f1 (x)}δx.
Dal momento che C(0 | 1)P (Y = 1) è costante, il valore atteso del costo viene minimizzato
scegliendo A1 come l’insieme di tutti e soli i valori di x in cui C(1 | 0)P (Y = 0)f0 (x) − C(0 |
1)P (Y = 1)f1 (x) è negativo, ovvero
→ Le Complicazioni
E.Stanghellini – Dispense di Statistica IV 11
• In pratica, le densità condizionate fr (x) non sono note. Certe volte se ne conosce
la forma, ma i parametri vanno stimati, con qualche metodo statistico. Altre volte
neppure la forma è nota.
→ Due epiloghi
½ ¾
f1 (x) C(1 | 0) P (Y = 0)
A1 = x | log > log + log (2.7)
f0 (x) C(0 | 1) P (Y = 1)
ANALISI DISCRIMINANTE
oppure
½ ¾
P (Y = 1 | x) C(1 | 0)
A1 = x | log > log . (2.8)
P (Y = 0 | x) C(0 | 1)
MODELLO LOGISTICO
NB: Il primo tipicamente vuole dati continui o loro trasformazioni; il secondo può trattare
dati categorici, e quindi è più flessibile.
1 1
f (x) = p exp{− (x − µ)T Σ−1 (x − µ)}
1
(2π) | Σ |
2 2 2
X Np N 1X
L(µ, Σ) = Li = − log2π − log | Σ | − (xi − µ)T Σ−1 (xi − µ).
2 2 2
i i
Inoltre
X X X
(xi − x̄)T Σ−1 (xi − x̄) = tr(xi − x̄)T Σ−1 (xi − x̄) = trΣ−1 (xi − x̄)T (xi − x̄) = N tr(Σ−1 Σ̂)
i i i
e, analogamente,
Di conseguenza,
Np N N N
L(µ, Σ) = − log2π − log | Σ | − trΣ−1 (x̄ − µ)(x̄ − µ)T − tr(Σ−1 Σ̂). (2.9)
2 2 2 2
Le stime di massima verosimiglianza si ottengono uguagliando a zero il sistema delle
derivate parziali di L(µ, Σ) rispetto agli elementi in µ e in Σ e verificando che il punto
trovato sia un massimo.
Si verifica, attraverso la differenziazione parziale della funzione precedente, che
µ̂ = x̄
e, anche,
Σ = Σ̂.
E.Stanghellini – Dispense di Statistica IV 13
N
N Σ̂ 1 X
V= = (xi − x̄)(xi − x̄)T .
N −1 N −1
i=1
Si osservi, infine, che V è una espressione alternativa della matrice delle varianze e delle
covarianze campionarie (1.2) introdotta nella parte precedente. Lo studente è invitato a
verificare.
In questo secondo caso, la stima della matrice di varianza e covarianza Σ si effettua at-
traverso la matrice delle varianze e delle covarianze campionaria pooled.
1
S= W (2.10)
n0 + n1 − 2
+µT1 Σ−1 T −1
1 µ1 − µ0 Σ0 µ0 ]}.
e, pertanto,
La funzione Q(x) è detta funzione discriminante quadratica, dal momento che vi compare
il termine xT (Σ−1 −1
1 − Σ0 )x. Nonostante questa regola sia molto generale dal punto di
vista teorico, non è molto utilizzata nella pratica in quanto non porta a risultati ottimali.
La ragione risiede, nell’elevato numero di parametri da stimare attaverso le osservazioni
campionarie, che dà luogo ad una elevata varianza della funzione discriminante stimata, e
di conseguenza ad una forte instabilità dei risultati.
Si noti che la funzione R(x) è una funzione lineare delle x, ed è pertanto nota come
funzione discriminante lineare. Indicando infatti con α = (α1 , α2 , . . . , αp ) il vettore riga
(µ1 − µ0 )T Σ−1 e con α0 = − 21 (µ1 − µ0 )T Σ−1 (µ1 + µ0 ) possiamo scrivere l’insieme A1
come:
A1 = {x | α0 + α1 x1 + . . . + αp xp > log s}.
Spesso, tuttavia, questi parametri non sono noti e devono essere stimati attraverso
due campioni casuali estratti da P0 e P1 . In questo lavoro facciamo esplicito riferimento
all’approccio detto plug-in.
L’approccio plug-in consiste nel derivare le stime di massima verosimiglianza di µi e
Σi e sostituirle nella funzione discriminante arrivando cosı̀ ad una funzione discriminante
stimata.
1
R̂(x) = (x̄1 − x̄0 )T S−1 [x − (x̄1 + x̄0 )]. (2.12)
2
con S come in (2.10). Ponendo ora α̂ = (α̂1 , α̂2 , . . . , α̂p ) il vettore riga (x̄1 − x̄0 )T S−1 e con
α̂0 = − 21 (x̄1 − x̄0 )T S−1 (x̄1 + x̄0 ) possiamo scrivere la funzione discriminante lineare come:
La stima della matrice delle varianze e covarianze è molto sensibile alla presenza di valori
anomali (si veda ad esempio Azzalini e Scarpa, 2004, cap. 5). Un filone di ricerca riguarda lo
sviluppo di metodi robusti di stima, ovvero metodi di stima poco sensibili ai valori anomali.
in cui si è indicato con sjj il j-esimo elemento sulla diagonale principale di S, ha distribuzione
T di Student con n0 + n1 − 2 gradi di libertà. Si rifiuta H0 se il valore di osservato di T è
elevato in modulo. In caso di numerosità campionaria elevata, questo test si può utilizzare
anche quando l’ipotesi di normalità non vale e le varianze delle due popolazioni sono diverse.
In tal caso la statistica test T ha una distribuzione asintotica normale (si veda Cicchitelli,
2002, cap. 8).
L’estensione multivariata del test precedente è nota come test T 2 di Hotelling per l’ipotesi
H0 : µ0 = µ1 di uguaglianza fra vettori di medie in due popolazioni con uguale matrice
delle varianze e covarianze contro l’alternativa H1 : µ0 6= µ1 (si veda Mardia, Kent e Bibby,
1979, cap. 3). Esso si basa sulla seguente distanza standardizzata fra vettori di medie di
due popolazioni:
∆2 = (µ1 − µ0 )T Σ−1 (µ1 − µ0 )
nota come distanza di Mahalanobis. La sua stima campionaria può farsi attraverso la
grandezza D2 , pari a:
Se l’ipotesi di normalità non può essere accettata, allora si basano su criteri empirici. Il
criterio empirico maggiormente utilizzato è la minimizzazione della frequenza dell’errore di
classificazione, sia esso nel campione di derivazione o nel secondo campione di validazione.
Esso viene calcolato attraverso la tabella di confusione, descritta nel paragrafo successivo.
0.5
Default
0.4
Sane
0.3
0.2
0.1
FCR.PTP
0
−0.1
−0.2
−0.3
−0.4
−0.5
0 0.5 1 1.5 2 2.5 3 3.5 4
RI.AT
Sulla diagonale principale sono riportate le frequenze relative di unità correttamente classifi-
cate. Fuori diagonale, invece, sono riportate le frequenze relative di unità classificate male.
La somma b + c è la stima della probabilità di errore. Le grandezze b/(a + b) e c/(c + d) sono
stime delle probabilità di errore: la prima è la probabilità di assegnare ai buoni un cattivo
e la seconda è la probabilità dell’errore contrario.
Tuttavia, se sono calcolate attraverso lo stesso campione su cui è stata effettuata la sottosti-
ma esse tendono a fornire valori ottimisti. Si noti che aumentando la soglia s si aumenta la
probabilità che le unità che provengono da P0 siano classificate correttamente ma diminuisce
la probabilità che quelle che provengono da P1 siano classificate correttamente.
Nel caso di due variabili, la funzione discriminante può essere rappresentata attraverso una
retta. In figura 2.2 è riportata la retta che corrisponde alla funzione discriminante lineare
per i dati introdotti nel precedente grafico. La funzione è calcolata ponendo s = 1 (ovvero
log s = 0). Un eventuale innalzamento della soglia va ad influire sulla intercetta della retta,
18 E.Stanghellini – Dispense di Statistica IV
Si vede dal grafico che, nel campione, la proporzione di imprese sane classificate male è 3/25,
mentre quella delle imprese insolventi è 2/24. Questi valori sono sottostime delle probabilità
reali di compiere gli errori di classificazione.
P
ESERCIZIO 2.1 Si dimostri che i (xi − x̄)T Σ−1 (x̄ − µ) = 0.