Analisi Matrici Dati

Indice
1 La analisi delle componenti principali 2

1.1 Introduzione al problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Autovalori e autovettori: richiami . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Le componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 L’analisi discriminante 7
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 L’analisi discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 L’approccio decisionale: i personaggi della storia . . . . . . . . . . . . . . . . 8
2.4 Variabile casuale normale multipla . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.1 La stima dei parametri della distribuzione normale . . . . . . . . . . . 12
2.4.2 La stima della matrice di varianze e cov con due campioni . . . . . . . 13
2.5 L’analisi discriminante nel caso normale di normalità . . . . . . . . . . . . . 13
2.6 La stima della funzione discriminante . . . . . . . . . . . . . . . . . . . . . . . 14
2.7 La selezione delle variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Lo score e la tabella di confusione . . . . . . . . . . . . . . . . . . . . . . . . . 16
1
Capitolo 1
La analisi delle componenti

principali
1.1 Introduzione al problema

La analisi delle componenti principali come facciamo in questo corso ha finalità descrittive.
Essa nasce dal problema di sintetizzare in maniera visiva la struttura delle associazioni di
un elevato numero di variabili. Siano X1 , X2 , . . ., Xp un insieme di variabili continue, in
cui p è elevato. Si dispone, di nuovo di un numero N di osservazioni. Le informazioni sono
sintetizzate in una matrice X, in cui le righe sono le osservazioni e le colone sono le variabili.
Lo scatter plot di queste variabili consente di analizzare al massimo l’andamento con-
giunto di 3 variabili per volta. Si pone pertanto il problema di trovare una trasformazione
delle variabili originarie che preservi al massimo la variabilità dei dati ma che ne riduca le
dimensioni, da p ad un numero inferiore. In sintesi, si cercano nuove variabili y1 , y2 , . . . , yr ,
r < p che siano trasformazioni lineare delle variabili originarie, ovvero delle colonne della
matrice X.
Si noti che se a è un vettore p × 1 tale che aT = (a1 , a2 , . . . , ap ) allora
y = Xa
è un vettore di dimensioni N ×1 che è una trasformazione lineare delle colonne di X secondo

i coefficienti in a. L’elemento i-esimo del vettore y è il valore della combinazione lineare
nella i esima osservazione. Ovvero:
yi = a1 xi1 + a2 xi2 + . . . + ap xip .
Nella analisi delle componenti principali, si cercano opportune trasformazioni delle colonne
di X che preservino la variabilità del fenomeno, secondo determinate regole che ora vedremo.
1.2 Autovalori e autovettori: richiami

Sia A una matrice p × p. Sia I la matrice identità di dimensioni p × p. Si crei la matrice
A − λI con λ un numero reale. Sia |A − λI| il determinante di questa matrice. Il polinomio
q(λ),
q(λ) = |A − λI|
è un polinomio in λ di ordine p. Le radici λ1 ,λ2 , . . ., λp , della equazione
2
E.Stanghellini – Dispense di Statistica IV 3
q(λ) = 0
sono numeri reali o complessi. Inoltre alcune radici possono avere molteplicità superiore ad
uno. Queste radici λi sono dette autovalori. Per ogni λi , |A − λi I| = 0, ovvero la matrice
A − λi I ha rango non pieno. Pertanto esiste una combinazione lineare γ delle colonne di
A − λi I che vale zero. Ovvero esiste un γ tale che:
(A − λi I)γ = 0
da cui:
Aγ = λi γ (1.1)
Si noti che γ ha dimensioni p × 1. Il vettore γ è l’autovettore associato all’autovalore λi .
Esso può non essere unico. Infatti, si noti che se γ è un autovettore allora, dalla (1.1) anche
cγ , con c costante arbitraria, è un autovettore. Inoltre, sempre dalla dalla (1.1), se γ e
δ sono due autovettori associati a λi allora anche γ + δ è un autovettore associato a λi .
Ovvero, l’insieme degli autovettori associati a λi forma uno spazio vettoriale.
Dal momento che se γ è un autovettore allora anche cγ , con c costante arbitraria, è un
autovettore, cerchiamo l’autovettore standardizzato, ovvero tale che
γ T γ = 1.
Seguono alcuni risultati, propri dell’algebra lineare, che si richiamano senza dimostrazione:
p
Y
q(λ) = (λi − λ)
i=1
per ogni λ reale. Vari risultati seguono:
Q
→ Ponendo λ = 0 |A| = pi=1 λi
P P
→ traccia(A) = pi=1 aii = pi=1 λi
→ Se C è una matrice invertibile, CAC−1 e A hanno gli stessi autovalori.
Esempio 1.1 Si trovino gli autovalori e gli autovettori della matrice

µ ¶
1 ρ
A=
ρ 1
Gli autovalori sono la soluzione del seguente:
1−λ ρ
=0
ρ 1−λ
che conduce alla:

(1 − λ)2 − ρ2 = 0
le cui soluzioni sono λ1 = 1 + ρ e λ2 = 1 − ρ. Se ρ 6= 0, allora l’autovettore corrispondente
a λ1 = 1 + ρ è µ ¶µ ¶ µ ¶
1 ρ x1 x1
= (1 + ρ)
ρ 1 x2 x2
4 E.Stanghellini – Dispense di Statistica IV
che porta alla soluzione x1 = x2 . Di conseguenza il primo autovettore standardizzato è

µ √ ¶
1\√2
γ (1) = ,
1\ 2
in quanto γ (1) è l’unco vettore con elmenti uguali tale che γ T(1) γ (1) = 1. In maniera analoga
si trova che µ √ ¶
1\ √2
γ (2) = .
−1\ 2
La matrice Γ che ha per colonne gli autovettori standardizzati è pertanto la seguente:
µ √ √ ¶
1\√2 1\ √2
Γ= .
1\ 2 −1\ 2
Si costruisca inoltre la matrice Λ nel modo seguente:
µ ¶
1+ρ 0
Λ=
0 1−ρ
La matrice diagonale Λ che ha come elementi gli autovalori è detta matrice degli au-
tovalori. La matrice Γ che ha per colonne gli autovettori γ (i) associati agli autovalori λi è
detta matrice degli autovettori.
Il caso di maggiore interesse in statistica è quello in cui A è una matrice simmetrica.
Infatti, come vedremo il metodo di analisi delle componenti principale implica il calcolare
gli autovalori gli autovettori della matrice di varianze e covarianze osservata. Se A è una
matrice simmetrica, allora vale il seguente teorema (Scomposizione Spettrale):
Teorema di Scomposizione Spettrale Ogni matrice simmetrica A può essere scritta
come:
p
X
A = ΓΛΓT = λi γ (i) γ T(i)
i=1
in cui Λ è la matrice diagonale degli autovalori di A e Γ è la matrice degli autovettori.
¯
Inoltre, Γ è una matrice ortogonale, ovvero ΓT Γ = I. Per cui,
ΓT AΓ = Λ.
La dimostrazione di questo teorema è omessa. Si può trovare in tutti i testi di Algebra

lineare o di statistica multivariata (si veda ad esempio in Mardia et al.,1979, Multivariate
Analysis).
Esempio 1.2 (segue da 1.1) Si verifichi che ΓT Γ = I. Si verifichi, inoltre, che A = ΓΛΓT .
1.3 Le componenti principali

Ritorniamo al problema originario, ovvero quello di sintetizzare le nostre variabili osservate
in X attraverso combinazioni lineari delle sue colonne. Sia V la matrice di varianze e
covarianze osservate. Ovvero
V = (X − X̄)T (X − X̄)/(N − 1) (1.2)
in cui X̄ è anch’essa una matrice di dimensioni N × p le cui colonne sono ripetizioni delle
medie di ogni variabile. Ovvero:
 
x̄1 x̄2 x̄3 ... x̄p
 x̄1 x̄2 x̄3 ... x̄p 
 
X̄ =  x̄1 x̄2 x̄3 ... x̄p 

 ... ... ... ... 
x̄1 x̄2 x̄3 ... x̄p
Sia a un vettore di dimensioni p × 1, e y = Xa un vettore N × 1. La varianza di y è pari a
(y − ȳ)T (y − ȳ)/(N − 1) = (aT Va).
in cui ȳ è un vettore N × 1 della media di y.

Sia F una matrice di dimensioni p × r. Sia ora Y = XF. La matrice Y ha dimensioni
N × r, in cui ogni riga esprime il valore sulla corrispondente unità delle r variabili ottenute
come combinazione lineare delle variabili in X. La matrice delle varianze e covarianze di
questa trasformazione sarà :
(Y − Ȳ)T (Y − Ȳ)/(N − 1) = (FT VF)
in cui Ȳ è una matrice N × r delle medie delle colonne di Y.

L’obbiettivo della analisi delle componenti principali è quello di trovare una matrice F
tale che la varianza di Y = XF sia la massima possibile e tale che le colonne di Y siano
fra loro incorrelate. Si dimostra ora che questo obbiettivo è raggiunto prendendo come F la
matrice degli autovettori corrispondenti agli r autovalori più grandi di V.
Si consideri la scomposizione spettrale della matrice V delle varianze e delle covarianze
osservate. Si costruisca Γ in modo che nella prima colonna vi sia l’autovettore associato
al massimo autovalore di V. Consideriamo la trasformazione XΓ. La varianza di questa
trasformazione da quanto detto è ΓT VΓ. Ora dal teorema spettrale,
ΓT VΓ = Λ
con Λ una matrice diagonale. Di conseguenza λj è la varianza della trasformazione lineare:
Xγ (j) .
La implicazione di quanto sopra sta nel fatto che le trasformazioni lineari Xγ (i) Xγ(j) sono
incorrelate.
Si consideri per il momento r = 1. Sia a il vettore delle combinazioni lineari, ovvero a

tale che la varianza di Xa sia la massima possibile. Si può dimostrare, attraverso il seguente
teorema, che la combinazione lineare secondo i coefficienti in γ (1) è quella che massimizza
la varianza, ovvero a = γ (1) .
Notiamo innanzi tutto, dal momento che gli autovettori formano una base dello spazio,
che ogni vettore a è scrivibile come una combinazione lineare degli autovettori γ (i) , ovvero:
a = c1 γ (1) + c2 γ (2) + . . . + cp γ (p) .

P
Inoltre, si ricordi che γ T(j) γ (i) = 0 se j 6= i e γ T(i) γ (i) = 1. Di conseguenza aT a = 2
i ci .
Teorema 1 Non esiste una trasformazione lineare standardizzata delle colonne di X che
ha varianza maggiore di λ1 , l’autovettore più grande.
Dim. Sia a un vettore di dimensioni p × 1 tale che aT a = 1. Come già detto, gli
autovettori di V possono essere presi come basi di uno spazio vettoriale di dimensioni p e
pertanto il vettore a si può esprimere come una combinazione lineare degli autovettori γ (i) .
Ovvero:
a = c1 γ (1) + c2 γ (2) + . . . + cp γ (p) .
P 2
Dal fatto che aT a = 1 segue che ci = 1. Ora, poniamo che a siano i coefficienti della
trasformazione lineare che cerchiamo, ovvero y = Xa. La varianza di y è , dal teorema di
scomposizione spettrale:
aT Va = aT ΓΛΓT a
Notando che aT γ (i) = ci , avremo che aT Γ = [c1 c2 . . . cp ].
Di conseguenza, essendo Λ una matrice diagonale:
p
X
T
a Va = λi c2i .
i=1
P
Da sopra sappiamo che i c2i = 1. Allora, dato che λ1 è l’autovalore massimo, il massimo
della sommatoria è λ1 . Esso è ottenuto quando c1 = 1 e c2 = c3 = . . . = cp = 0.
Adesso ci poniamo nell’ottica di sintetizzare le nostre osservazioni, non tanto con una
unica combinazione lineare, ma con un generico numero r, r < p di combinazioni. Come pos-
siamo procedere? Poniamo r = 2. Possiamo cercare una seconda trasformazione che a) sia
incorrelata con la precedente e b) massimizzi la varianza non spiegata dalla trasformazione
precedente. Il prossimo teorema ci dice che il questo caso la migliore trasformazione lineare
standardizzata è quella che ha coefficienti dati dall’autovettore corrispondente al secondo
autovalore più grande.
Teorema 2 Se y = Xa è una trasformazione lineare che è incorrelata con le prime k
componenti principali, allora la varianza di y è massimizzata quando a = γ (k+1) .
La dimostrazione del teorema è omessa. Essa segue da vicino la dimostrazione del
teorema 1.
Discende dal teorema che i primi r autovettori di V costituiscono delle trasformazioni
lineari delle colonne di X che massimizzano la varianza e sono ortogonali fra di loro.
Osservazione importante. La matrice X e la matrice (X − X̄) danno luogo alla stessa
matrice di varianza e covarianza V. Per questo motivo, le componenti principali vengono
spesso effettuate sulla trasformazione (X − X̄). Questo equivale a calcolare Y nella seguente
maniera:
Y = (X − X̄)F.
Anche questo secondo modo è molto utilizzato in pratica. Si noti che in questo secondo
caso si perde l’informazione che deriva dalla unità di misura del fenomeno, e dalla sua
dimensione. Questo può essere positivo in alcuni casi, ma negativo in altri.
Capitolo 2
L’analisi discriminante
2.1 Introduzione
L’analisi discriminante, a differenza del modello logistico, è nata come strumento di classi-
ficazione. La prima formulazione dell’analisi discriminante risale a Fisher (1936), il quale,
dato un campione casuale di N osservazioni, di cui n1 provenienti da una popolazione, e
N − n1 provenienti da una seconda popolazione, determinò la migliore funzione per allocare
ciascuna osservazione alla popolazione di origine. Questa funzione è detta funzione discrim-
inante. Dal lavoro di Fisher ad oggi, i contributi in materia di analisi discriminante sono
stati numerosissimi.
In Figura 2.1 è riportato un esempio relativo ad un campione di 49 aziende finanziate da

una banca. Per esse è nota la storia creditizia, ovvero acce noto se sono state in grado di
ripagare il credito. Il grafico riporta il diagramma di dispersione delle aziende rispetto a due
indicatori di bilancio: il rapporto tra ricavi netti e capitale investito netto (variabile RI.AT
riportata sull’asse delle ascisse) e il rapporto fra flusso di cassa e passività correnti (variabile
FCR.PTP riportata sull’asse delle ordinate). Ogni osservazione è indicata con il simbolo
+ se relativa ad una azienda solvibile e * altrimenti. L’obbiettivo è quello di suddividere
il quadrante in due parti attraverso una funzione delle due variabili, in modo tale che la
percentuale più elevata di aziende solvibili sia in una delle due aree delimitate dalla funzione
e che la percentuale più elevata di aziende non solvibili sia nell’altra. Le informazioni sugli
indicatori di bilancio della prossima azienda verranno utilizzate per valutare a quale delle
due aree appartenga e decidere se procedere o meno al finanziamento.
2.2 L’analisi discriminante

Sia X = (X1 , X2 , . . . , Xp ) il vettore di variabili casuali che descrivono le informazioni disponi-
bili su una osservazione e x = (x1 , x2 , . . . , xp ) un possibile valore di X. Si hanno due popo-
lazioni P0 e P1 . Si suppone l’esistenza di una c.v. binaria Y che vale 0 se una osservazione
appartiene alla popolazione P0 e 1 altrimenti; si suppone inoltre che Y e X ammettano una
funzione di densità congiunta. Siano f1 (x) = f (x | Y = 1) e f0 = f (x | Y = 0) i valori delle
funzioni di densità condizionate valutate in x. Sia inoltre f (x) la funzione di densità delle
X marginale rispetto ad Y , ovvero:
f (x) = f0 (x)P (Y = 0) + f1 (x)P (Y = 1).
7
0.5
aziende insolventi
0.4 aziende sane
0.3
0.2
0.1
FCR.PTP
−0.1
−0.2
−0.3
−0.4
−0.5
0 0.5 1 1.5 2 2.5 3 3.5 4
RI.AT
Figura 2.1: Suddivisione secondo due variabili.
Si indichi con A l’insieme di tutti i possibili valori x. Come abbiamo detto, l’obbiettivo è
quello di dividere A in due regioni A0 e A1 esaustive e mutualmente esclusive, tali che:
x ∈ A0 se l’unità appartiene a P0 ;
x ∈ A1 se l’unità appartiene a P1 .
Tuttavia, il problema della determinazione di A0 e A1 non ha natura deterministica, in
quanto unità con le stesse caratteristiche x possono appartenere sia ad una popolazione che
all’altra. Lo studio pertanto deve essere fatto o sulle funzioni di densità condizionate di x,
fr (x), r ∈ {0, 1}, oppure sulle probabilità P (Y = r | x).
2.3 L’approccio decisionale: i personaggi della storia

Siano X1 , X2 , . . . , Xp le variabili casuali che descrivono le caratteristiche dell’unità statistica
e Y la v.c. di classificazione. Possiamo schematizzare il processo di decisione attraverso una
storia, con i personaggi ed una trama, le complicazioni e possibili epiloghi.
→ I personaggi:
• due popolazioni P0 e P1 , i cattivi e i buoni;
• X = (X1 , X2 , . . . , Xp ) il vettore di variabili casuali che descrivono le informazioni sulle

unità delle due popolazioni con valori x = (x1 , x2 , . . . , xp );
• una c.v. binaria Y = {0, 1}, che vale 0 se una osservazione appartiene alla popolazione
P0 e 1 altrimenti;
• P (Y = 0) e P (Y = 1) probabilità a priori che una unità appartenga a P0 e P1 ;

• f1 (x) = f (x | Y = 1) e f0 (x) = f (x | Y = 0) i valori delle funzioni di densità

condizionate valutate in x;
• i due tipi di errore: quello di assegnare un’unità buona alla popolazione P0 quando
invece proviene da P1 , e quello di assegnare un’unità cattiva a P1 ;
• le probabilità di compiere i due errori;
• i costi associati ai due errori: C(0 | 1) e C(1 | 0), ovvero, in ordine, il costo di
allocare una unità alla popolazione P0 quando invece proviene da P1 e il costo di
allocare una unità alla popolazione P1 dato che invece proviene da P0 (costo di errata
classificazione);
→ Le relazioni fra i personaggi. Le v.c. Y e X ammettono una funzione di densità

congiunta tale che:
• La funzione di densità delle X f (x) marginale rispetto ad Y , ovvero:
f (x) = f0 (x)P (Y = 0) + f1 (x)P (Y = 1);
• le probabilità a posteriori, date dalla formula di Bayes:
fr (x)P (Y = r)
P (Y = r | x) = , r ∈ {0, 1}. (2.1)
f (x)
→ La trama. Si indichi con A l’insieme di tutti i possibili valori x. Come abbiamo detto,
l’obbiettivo è quello di dividere A in due regioni A0 e A1 esaustive e mutualmente esclusive,
tali che:
x ∈ A0 se il cliente è cattivo;
x ∈ A1 se il cliente è buono.
Tuttavia, il problema della determinazione di A0 e A1 non ha natura deterministica, in

quanto unità con le stesse caratteristiche x possono appartenere sia ad una popolazione che
all’altra. Il raffronto pertanto deve essere fatto o sulle funzioni di densità condizionate di x,
fr (x), r ∈ {0, 1}, oppure sulle probabilità P (Y = r | x).
Una prima regola intuitiva per determinare A1 è quella di assegnare ad A1 tutti i valori x
tali che ff01 (x)
(x)
> s con s scelto opportunamente. Più formalmente, A1 sarà l’insieme delle x
tali che:
½ ¾
f1 (x)
A1 = x | >s . (2.2)
f0 (x)
Il problema allora della scelta della migliore partizione di A viene riformulato in termini
della scelta del migliore valore di soglia s. E’ intuitivo che il valore s deve tenere conto del
rapporto fra i due costi di errata classificazione. Sia C la variabile casuale che descrive il
costo, valore atteso di C è il seguente:
Z
E(C) = C(0 | 1)P (Y = 1) f1 (x)δx +
ZA0
C(1 | 0)P (Y = 0) f0 (x)δx.
A1
RIl valore di s coincide

R con quel valore che minimizza il valore atteso del costo. Si noti che
f r (x)δx + f r (x)δx = 1, r ∈ {0, 1}. Pertanto, ponendo nell’espressione precedente a
RA0 A1 R
A0 f1 (x)δx = 1− A1 f1 (x)δx dopo alcune sostituzioni, l’espressione precedente si semplifica
nella seguente:
Z
E(C) = C(0 | 1)P (Y = 1) + {C(1 | 0)P (Y = 0)f0 (x) −
A1
C(0 | 1)P (Y = 1)f1 (x)}δx.
Dal momento che C(0 | 1)P (Y = 1) è costante, il valore atteso del costo viene minimizzato
scegliendo A1 come l’insieme di tutti e soli i valori di x in cui C(1 | 0)P (Y = 0)f0 (x) − C(0 |
1)P (Y = 1)f1 (x) è negativo, ovvero
f1 (x) C(1 | 0)P (Y = 0)

> .
f0 (x) C(0 | 1)P (Y = 1)
Di conseguenza, il valore della soglia s ottimale è determinato dalla espressione sopra, e la

regione è cosı̀ determinata:
½ ¾
f1 (x) C(1 | 0)P (Y = 0)
A1 = x| > (2.3)
f0 (x) C(0 | 1)P (Y = 1)
oppure, facendo uso della formula di Bayes:
½ ¾
P (Y = 1 | x) C(1 | 0)
A1 = x | > . (2.4)
P (Y = 0 | x) C(0 | 1)
Una formulazione alternativa della regione di accettazione A1 si ottiene passando al logar-

itmo dei rapporti fra funzioni di densità :
½ ¾
f1 (x) C(1 | 0) P (Y = 0)
A1 = x | log > log + log (2.5)
f0 (x) C(0 | 1) P (Y = 1)
oppure ½ ¾
P (Y = 1 | x) C(1 | 0)
A1 = x | log > log . (2.6)
P (Y = 0 | x) C(0 | 1)
→ Le Complicazioni
• L’applicabilità della regola di allocazione determinata in precedenza dipende dalla

conoscenza di tutti i personaggi.
• In pratica, le densità condizionate fr (x) non sono note. Certe volte se ne conosce
la forma, ma i parametri vanno stimati, con qualche metodo statistico. Altre volte
neppure la forma è nota.
• Spesso anche le probabilità a priori P (Y = 0) e P (Y = 1) non sono note. Tuttavia se il

campione è estratto casualmente, si possono stimare attraverso le analoghe frequenze
osservate nel campione.
→ Due epiloghi
½ ¾
f1 (x) C(1 | 0) P (Y = 0)
A1 = x | log > log + log (2.7)
f0 (x) C(0 | 1) P (Y = 1)
ANALISI DISCRIMINANTE
oppure
½ ¾
P (Y = 1 | x) C(1 | 0)
A1 = x | log > log . (2.8)
P (Y = 0 | x) C(0 | 1)
MODELLO LOGISTICO
NB: Il primo tipicamente vuole dati continui o loro trasformazioni; il secondo può trattare
dati categorici, e quindi è più flessibile.
2.4 Variabile casuale normale multipla

Sia X = (X1 , . . . , Xp )T un vettore di variabili aleatorie che assume valore x = (x1 , . . . , xp )T .
Si dice che X ha distribuzione normale (o gaussiana) multipla di dimensione p e di parametri
µ e Σ, con Σ una matrice definita positiva, se la funzione di densità congiunta può scriversi:
1 1
f (x) = p exp{− (x − µ)T Σ−1 (x − µ)}
1
(2π) | Σ |
2 2 2
per ogni x ∈ Rp . Sinteticamente, una v.c. p-dimensionale X con distribuzione normale

multipla si indica con X ∼ Np (µ; Σ). Si dimostra che E(X) = µ e V ar(X) = Σ.
2.4.1 La stima dei parametri della distribuzione normale

In questo paragrafo si descrive la stima di massima verosimiglianza del valore atteso e della
matrice delle varianze e delle covarianze della distribuzione normale, che sarà richiamata in
seguito. Si assume X ∼ N (µ, Σ). Si assume, inoltre, di avere un campione di N osservazioni
indipendenti xi estratte da X. Si noti che in questo paragrafo xi è un vettore colonna (e
non riga come nei capitoli precedenti), di dimensioni p × 1. Sia Li = logf (xi , µ, Σ). Nel
caso in cui si abbiano N estrazioni indipendenti da una variabile casuale con distribuzione
normale multipla, la funzione di log-verosimiglianza può scriversi:
X Np N 1X
L(µ, Σ) = Li = − log2π − log | Σ | − (xi − µ)T Σ−1 (xi − µ).
2 2 2
i i
Si indichi con x̄ il vettore delle medie campionarie di espressione

N
1 X
x̄ = xi
N
i=1
e con Σ̂ la matrice delle varianze e covarianze campionaria, di espressione

N
1 X
Σ̂ = (xi − x̄)(xi − x̄)T .
N
i=1
P
Si noti che essendo i (xi − x̄)T Σ−1 (x̄ − µ) = 0 (si veda l’Esercizio 2.1),
X X
(xi − µ)T Σ−1 (xi − µ) = (xi − x̄)T Σ−1 (xi − x̄) + N (x̄ − µ)T Σ−1 (x̄ − µ).
i i
Inoltre
X X X
(xi − x̄)T Σ−1 (xi − x̄) = tr(xi − x̄)T Σ−1 (xi − x̄) = trΣ−1 (xi − x̄)T (xi − x̄) = N tr(Σ−1 Σ̂)
i i i
e, analogamente,
(x̄ − µ)T Σ−1 (x̄ − µ) = trΣ−1 (x̄ − µ)(x̄ − µ)T .
Di conseguenza,
Np N N N
L(µ, Σ) = − log2π − log | Σ | − trΣ−1 (x̄ − µ)(x̄ − µ)T − tr(Σ−1 Σ̂). (2.9)
2 2 2 2
Le stime di massima verosimiglianza si ottengono uguagliando a zero il sistema delle
derivate parziali di L(µ, Σ) rispetto agli elementi in µ e in Σ e verificando che il punto
trovato sia un massimo.
Si verifica, attraverso la differenziazione parziale della funzione precedente, che
µ̂ = x̄
e, anche,
Σ = Σ̂.
Le stime di massima verosimiglianza di µ e Σ sono pertanto x̄ e Σ̂. Una giustificazione

intuitiva del risultato si può trovare notando che, nel caso in cui Σ sia nota, massimizzare
la funzione di log-verosimiglianza rispetto ai parametri coincide con minimizzare i termini
negativi che compaiono nell’espressione (2.9). Essendo Σ definita positiva, anche la sua
inversa è definita positiva, per cui il termine −N (x̄ − µ)T Σ−1 (x̄ − µ) è minimo se x̄ = µ.
Si noti che x̄ e Σ̂ possono essere viste come funzioni delle variabili casuali X. In parti-
colare, essendo Σ̂ una stima distorta per Σ (si veda Mardia Kent e Bibby, 1979, cap. 3), si
preferisce utilizzare al suo posto la stima corretta:
N
N Σ̂ 1 X
V= = (xi − x̄)(xi − x̄)T .
N −1 N −1
i=1
Si osservi, infine, che V è una espressione alternativa della matrice delle varianze e delle
covarianze campionarie (1.2) introdotta nella parte precedente. Lo studente è invitato a
verificare.
2.4.2 La stima della matrice di varianze e cov con due campioni

Si abbiano due campioni di numerosità n0 e n1 estratti in modo indipendente da due popo-
lazioni P0 e P1 . Sia P0 espressa da una v.c. normale multipla con valore atteso µ0 e matrice
delle varianze e delle covarianze Σ0 e sia Ps espressa da una v.c. normale multipla con valore
atteso µs e matrice delle varianze e delle covarianze Σ1 con Σ0 = Σ1 = Σ.
In questo secondo caso, la stima della matrice di varianza e covarianza Σ si effettua at-
traverso la matrice delle varianze e delle covarianze campionaria pooled.
→ Si indichi con W la matrice delle devianze e codevianze interne ai gruppi, ovvero:

"n n1
#
X0
T
X T
W = (n0 − 1)V0 + (n1 − 1)V1 = (x0i − x̄0 )(x0i − x̄0 ) + (x1i − x̄1 )(x1i − x̄1 ) .
i=1 i=1
→ La stima della matrice delle varianze e delle covarianze campionarie ha espressione:
1
S= W (2.10)
n0 + n1 − 2
essa è detta matrice delle varianze e covarianze pooled.
2.5 L’analisi discriminante nel caso normale di normalità

Nei paragrafi precedenti abbiamo derivato la zona di accettazione A1 con un criterio che pre-
suppone la conoscenza completa delle funzioni di densità fr (·) delle v.c. X e delle probabilità
a priori della v.c. Y . La situazione vista in precedenza è una situazione di studio.
Nell’analisi discriminante classica si assume che la forma della fr (·) sia una normale
multipla con valore atteso µr e matrice delle varianze e covarianze Σr .
Dopo alcune semplificazioni si trova che

f1 (x)
f0 (x) = | Σ0 |1/2 | Σ1 |−1/2 exp{− 12 [xT (Σ−1 −1 T −1 −1
1 − Σ0 )x − 2x (Σ1 µ1 − Σ0 µ0 )+
+µT1 Σ−1 T −1
1 µ1 − µ0 Σ0 µ0 ]}.
e, pertanto,
log ff10 (x)

(x) = 1
2 log | Σ0 || Σ1 |−1 − 21 [xT (Σ−1 −1 T −1 −1
1 − Σ0 )x − 2x (Σ1 µ1 − Σ0 µ0 )+
(2.11)
+µT1 Σ−1 T −1
1 µ1 − µ0 Σ0 µ0 ].
L’analisi discriminante quadratica. Si indichi con Q(x) il log ff10 (x)

(x) . Possiamo riscrivere la
(2.2) nel modo seguente:
A1 = {x | Q(x) > log s}.
La funzione Q(x) è detta funzione discriminante quadratica, dal momento che vi compare
il termine xT (Σ−1 −1
1 − Σ0 )x. Nonostante questa regola sia molto generale dal punto di
vista teorico, non è molto utilizzata nella pratica in quanto non porta a risultati ottimali.
La ragione risiede, nell’elevato numero di parametri da stimare attaverso le osservazioni
campionarie, che dà luogo ad una elevata varianza della funzione discriminante stimata, e
di conseguenza ad una forte instabilità dei risultati.
L’analisi discriminante lineare. Qualora sia ragionevole, si assume che Σ0 = Σ1 = Σ. In

tal caso la (2.11) si semplifica molto. Notando che
µT1 Σ−1 µ1 − µT0 Σ−1 µ0 = (µ1 − µ0 )Σ−1 (µ1 + µ0 )
dopo alcuni passaggi la (2.11) si modifica nella seguente:

1
R(x) = (µ1 − µ0 )T Σ−1 [x − (µ1 + µ0 )].
2
Di conseguenza, la (2.2) diventa:
A1 = {x | R(x) > log s}.
Si noti che la funzione R(x) è una funzione lineare delle x, ed è pertanto nota come
funzione discriminante lineare. Indicando infatti con α = (α1 , α2 , . . . , αp ) il vettore riga
(µ1 − µ0 )T Σ−1 e con α0 = − 21 (µ1 − µ0 )T Σ−1 (µ1 + µ0 ) possiamo scrivere l’insieme A1
come:
A1 = {x | α0 + α1 x1 + . . . + αp xp > log s}.
2.6 La stima della funzione discriminante

Nel paragrafo precedente abbiamo determinato la migliore partizione dello spazio A sotto
l’ipotesi che le variabili casuali X abbiano una distribuzione normale multivariata. Le fun-
zioni discriminanti cosı̀ determinate sono funzione dei parametri µr e Σr , se quadratica, µr ,
Σ nel caso lineare.
Spesso, tuttavia, questi parametri non sono noti e devono essere stimati attraverso
due campioni casuali estratti da P0 e P1 . In questo lavoro facciamo esplicito riferimento
all’approccio detto plug-in.
L’approccio plug-in consiste nel derivare le stime di massima verosimiglianza di µi e
Σi e sostituirle nella funzione discriminante arrivando cosı̀ ad una funzione discriminante
stimata.
Sia n0 la numerosità del campione casuale estratto da P0 di osservazioni e n1 la numerosità

del campione casuale estratto da P1 . Siano x̄r e Vr , r ∈ {0, 1}, le stima dei parametri
delle due popolazioni come derivate al paragrafo precedente. La funzione discriminante
quadratica stimata ha espressione:
Q̂(x) = 1
2
log | V0 | / | V1 | − 12 [xT (V1−1 − V0−1 )x − 2xT (V1−1 x̄1 − V0−1 x̄0 )+
+x̄T1 V1−1 x̄1 − x̄T0 V0−1 x̄0 ].
Nel caso lineare, invece, Σ0 = Σ1 = Σ. I parametri da stimare sono pertanto i vettori µr ,

r ∈ {0, 1}, e la matrice delle varianze e delle covarianze Σ.
In tal caso la funzione discriminante lineare stimata sarà:
1
R̂(x) = (x̄1 − x̄0 )T S−1 [x − (x̄1 + x̄0 )]. (2.12)
2
con S come in (2.10). Ponendo ora α̂ = (α̂1 , α̂2 , . . . , α̂p ) il vettore riga (x̄1 − x̄0 )T S−1 e con
α̂0 = − 21 (x̄1 − x̄0 )T S−1 (x̄1 + x̄0 ) possiamo scrivere la funzione discriminante lineare come:
R̂(x) = α̂0 + α̂1 x1 + . . . + α̂p xp .
La stima della matrice delle varianze e covarianze è molto sensibile alla presenza di valori
anomali (si veda ad esempio Azzalini e Scarpa, 2004, cap. 5). Un filone di ricerca riguarda lo
sviluppo di metodi robusti di stima, ovvero metodi di stima poco sensibili ai valori anomali.
2.7 La selezione delle variabili

In analogia con il problema della selezione delle variabili in un modello logistico, anche
nel contesto dell’analisi discriminante si pone il problema di evidenziare le variabili la cui
capacità discriminante è elevata togliendo quelle la cui influenza è irrilevante.
Le procedure per la selezione del modello si differenziano a seconda della natura delle
variabili inserite nella funzione discriminante. Se l’ipotesi di normalità può essere accettata,
allora queste si basano su test statistici. In questo paragrafo descriviamo alcuni test che
sono basati sulla ipotesi di normalità delle variabili (si veda ad esempio Anderson, 2003,
capp. 6-10, per una rassegna completa). Una prima analisi può basarsi su test univariati,
quali il test T di Student per la uguaglianza fra medie di due popolazioni.
Siano µ0j e µ1j il valore atteso di Xj nelle due popolazioni e σ0j 2 e σ
1j la varianza
2
nelle due popolazioni. Si ponga σ0j = σ1j . Il test T di Student sottopone a test l’ipotesi
H0 : µ0j = µ1j contro l’alternativa H1 : µ0j 6= µ1j . Infatti, la statistica

x̄1j − x̄0j
t= q
sjj ( n10 + 1
n1 )
in cui si è indicato con sjj il j-esimo elemento sulla diagonale principale di S, ha distribuzione
T di Student con n0 + n1 − 2 gradi di libertà. Si rifiuta H0 se il valore di osservato di T è
elevato in modulo. In caso di numerosità campionaria elevata, questo test si può utilizzare
anche quando l’ipotesi di normalità non vale e le varianze delle due popolazioni sono diverse.
In tal caso la statistica test T ha una distribuzione asintotica normale (si veda Cicchitelli,
2002, cap. 8).
L’estensione multivariata del test precedente è nota come test T 2 di Hotelling per l’ipotesi
H0 : µ0 = µ1 di uguaglianza fra vettori di medie in due popolazioni con uguale matrice
delle varianze e covarianze contro l’alternativa H1 : µ0 6= µ1 (si veda Mardia, Kent e Bibby,
1979, cap. 3). Esso si basa sulla seguente distanza standardizzata fra vettori di medie di
due popolazioni:
∆2 = (µ1 − µ0 )T Σ−1 (µ1 − µ0 )
nota come distanza di Mahalanobis. La sua stima campionaria può farsi attraverso la
grandezza D2 , pari a:
D2 = (x̄1 − x̄0 )T S−1 (x̄1 − x̄0 ).

La statistica
n0 n1 2
T2 = D
n
si distribuisce sotto H0 con distribuzione detta di Hotelling. Si verifica inoltre, che una sua
semplice trasformazione monotona si distribuisce come una F -di Fisher con gradi di libertà
pari p e n − p − 1. Valori elevati della statistica T 2 (o della F di Fisher) portano al rifiuto di
H0 . Questo test viene utilizzato nel contesto in studio per valutare la capacità discriminante
di un vettore di variabili congiuntamente considerate.
Se l’ipotesi di normalità non può essere accettata, allora si basano su criteri empirici. Il
criterio empirico maggiormente utilizzato è la minimizzazione della frequenza dell’errore di
classificazione, sia esso nel campione di derivazione o nel secondo campione di validazione.
Esso viene calcolato attraverso la tabella di confusione, descritta nel paragrafo successivo.
Talvolta, quando il campione di validazione non è disponibile, la frequenza dell’errore di

classificazione viene calcolata eliminando una unità del campione. Si procede alla stima
della funzione discriminante senza tale unità e si riclassifica l’unità esclusa. Il procedimento
di ripete per ogni unità del campione e al termine si valuta la frequenza di unità classificate
male. Questo criterio è dovuto a Lachenruch ad Mickey (1968) ed è noto com jackknifing o
cross-validation.
2.8 Lo score e la tabella di confusione

Nelle applicazioni, i parametri α vengono sostituiti dalle loro stime, ottenute con i metodi
discussi in precedenza.
0.5
Default
0.4
Sane
0.3
0.2
0.1
FCR.PTP
0
−0.1
−0.2
−0.3
−0.4
−0.5
0 0.5 1 1.5 2 2.5 3 3.5 4
RI.AT
Figura 2.2: Funzione discriminante lineare e dati reali.
Si definisce score il valore formato dalla funzione si = α̂T xi . In pratica, un soggetto

viene assegnato a P1 se lo score si è superiore a s. Altrimenti, esso viene classificato in P0 .
Si riclassifichino le unità nel campione di validazione nel seguente modo. Si costruisca
la variabile Flag stimata che vale 1 se lo score di una unità è maggiore di s e 0 altrimenti.
Si costruisca la seguente tabella 2 × 2 detta di confusione:
Flag stimata Totale

Flag 0 1
0 a b a+b
1 c d c+d
Totale a+c b+d 1
Sulla diagonale principale sono riportate le frequenze relative di unità correttamente classifi-
cate. Fuori diagonale, invece, sono riportate le frequenze relative di unità classificate male.
La somma b + c è la stima della probabilità di errore. Le grandezze b/(a + b) e c/(c + d) sono
stime delle probabilità di errore: la prima è la probabilità di assegnare ai buoni un cattivo
e la seconda è la probabilità dell’errore contrario.
Tuttavia, se sono calcolate attraverso lo stesso campione su cui è stata effettuata la sottosti-
ma esse tendono a fornire valori ottimisti. Si noti che aumentando la soglia s si aumenta la
probabilità che le unità che provengono da P0 siano classificate correttamente ma diminuisce
la probabilità che quelle che provengono da P1 siano classificate correttamente.
Nel caso di due variabili, la funzione discriminante può essere rappresentata attraverso una
retta. In figura 2.2 è riportata la retta che corrisponde alla funzione discriminante lineare
per i dati introdotti nel precedente grafico. La funzione è calcolata ponendo s = 1 (ovvero
log s = 0). Un eventuale innalzamento della soglia va ad influire sulla intercetta della retta,
aumentandola. Viceversa, un abbassamento della soglia va a diminuire l’intercetta.
Si vede dal grafico che, nel campione, la proporzione di imprese sane classificate male è 3/25,
mentre quella delle imprese insolventi è 2/24. Questi valori sono sottostime delle probabilità
reali di compiere gli errori di classificazione.
P
ESERCIZIO 2.1 Si dimostri che i (xi − x̄)T Σ−1 (x̄ − µ) = 0.
Essendo Σ−1 (x̄ −Pµ) costanti rispetto all’indice della sommatoria,

P l’espressione
P sopra si
T −1
può riscrivere come [ i (xi − x̄) ]Σ (x̄ − µ), ed essendo i (xi − x̄) = i xi − nx̄ = 0 il
risultato segue.

Analisi Matrici Dati

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisi Matrici Dati

Uploaded by

Copyright:

Available Formats

Indice

1 La analisi delle componenti principali 2

La analisi delle componenti

1.1 Introduzione al problema

è un vettore di dimensioni N ×1 che è una trasformazione lineare delle colonne di X secondo

yi = a1 xi1 + a2 xi2 + . . . + ap xip .

1.2 Autovalori e autovettori: richiami

→ Se C è una matrice invertibile, CAC−1 e A hanno gli stessi autovalori.

Esempio 1.1 Si trovino gli autovalori e gli autovettori della matrice

Gli autovalori sono la soluzione del seguente:

che conduce alla:

che porta alla soluzione x1 = x2 . Di conseguenza il primo autovettore standardizzato è

La dimostrazione di questo teorema è omessa. Si può trovare in tutti i testi di Algebra

1.3 Le componenti principali

Sia a un vettore di dimensioni p × 1, e y = Xa un vettore N × 1. La varianza di y è pari a

(y − ȳ)T (y − ȳ)/(N − 1) = (aT Va).

in cui ȳ è un vettore N × 1 della media di y.

(Y − Ȳ)T (Y − Ȳ)/(N − 1) = (FT VF)

in cui Ȳ è una matrice N × r delle medie delle colonne di Y.

con Λ una matrice diagonale. Di conseguenza λj è la varianza della trasformazione lineare:

Si consideri per il momento r = 1. Sia a il vettore delle combinazioni lineari, ovvero a

a = c1 γ (1) + c2 γ (2) + . . . + cp γ (p) .

In Figura 2.1 è riportato un esempio relativo ad un campione di 49 aziende finanziate da

2.2 L’analisi discriminante

f (x) = f0 (x)P (Y = 0) + f1 (x)P (Y = 1).

Figura 2.1: Suddivisione secondo due variabili.

2.3 L’approccio decisionale: i personaggi della storia

• due popolazioni P0 e P1 , i cattivi e i buoni;

• X = (X1 , X2 , . . . , Xp ) il vettore di variabili casuali che descrivono le informazioni sulle

• P (Y = 0) e P (Y = 1) probabilità a priori che una unità appartenga a P0 e P1 ;

• f1 (x) = f (x | Y = 1) e f0 (x) = f (x | Y = 0) i valori delle funzioni di densità

• le probabilità di compiere i due errori;

→ Le relazioni fra i personaggi. Le v.c. Y e X ammettono una funzione di densità

• La funzione di densità delle X f (x) marginale rispetto ad Y , ovvero:

f (x) = f0 (x)P (Y = 0) + f1 (x)P (Y = 1);

• le probabilità a posteriori, date dalla formula di Bayes:

Tuttavia, il problema della determinazione di A0 e A1 non ha natura deterministica, in

RIl valore di s coincide

f1 (x) C(1 | 0)P (Y = 0)

Di conseguenza, il valore della soglia s ottimale è determinato dalla espressione sopra, e la

Una formulazione alternativa della regione di accettazione A1 si ottiene passando al logar-

• L’applicabilità della regola di allocazione determinata in precedenza dipende dalla

• Spesso anche le probabilità a priori P (Y = 0) e P (Y = 1) non sono note. Tuttavia se il

2.4 Variabile casuale normale multipla

per ogni x ∈ Rp . Sinteticamente, una v.c. p-dimensionale X con distribuzione normale

2.4.1 La stima dei parametri della distribuzione normale

Si indichi con x̄ il vettore delle medie campionarie di espressione

e con Σ̂ la matrice delle varianze e covarianze campionaria, di espressione

(x̄ − µ)T Σ−1 (x̄ − µ) = trΣ−1 (x̄ − µ)(x̄ − µ)T .

Le stime di massima verosimiglianza di µ e Σ sono pertanto x̄ e Σ̂. Una giustificazione

2.4.2 La stima della matrice di varianze e cov con due campioni

→ Si indichi con W la matrice delle devianze e codevianze interne ai gruppi, ovvero:

→ La stima della matrice delle varianze e delle covarianze campionarie ha espressione:

essa è detta matrice delle varianze e covarianze pooled.

2.5 L’analisi discriminante nel caso normale di normalità

Dopo alcune semplificazioni si trova che

log ff10 (x)

L’analisi discriminante quadratica. Si indichi con Q(x) il log ff10 (x)

L’analisi discriminante lineare. Qualora sia ragionevole, si assume che Σ0 = Σ1 = Σ. In

µT1 Σ−1 µ1 − µT0 Σ−1 µ0 = (µ1 − µ0 )Σ−1 (µ1 + µ0 )

dopo alcuni passaggi la (2.11) si modifica nella seguente:

A1 = {x | R(x) > log s}.

2.6 La stima della funzione discriminante