Professional Documents
Culture Documents
x2 x2
x´=f(x1,x2)
x1 x1
Extracción de características
Análisis de Componentes Principales (PCA): lineal,
no supervisado, basado en vectores propios
Análisis de discriminantes lineales (LDA): lineal,
supervisado, basado en vectores propios.
Análisis de componentes independientes (ICA):
lineal, iterativo, asume independencia fuerte.
Kernel PCA: no lineal, basado en vectores propios,
kernel como producto interno
Escalado Multidimensional (MDS): no lineal,
iterativo
PCA – ANALISIS DE
COMPONENTES PRINCIPALES
ANALISIS DE COMPONENTES
PRINCIPALES –PCA
Encontrar sub-espacio
prinicipal:
proyección de los datos
maximice la varianza de los
puntos proyectados
o minimice error cuadrático
Bishop
entre las proyecciones y las
medidas
Ambas condiciones llevan al
mismo resultado. Transformada de Karhunen- Loève
Aplicaciones PCA
Bishop
Reducción de dimensionalidad
Extracción de características
Explicitar la estructura de los datos
Filtrar ruido
Compresión de datos con pérdidas
Visualización de datos.
Análisis de Componentes Principales (PCA)
x2
no correlacionadas
x1
x x1,x2 ,.........x p caracteris ticas originales
T
Consideremos la variable: y1 a1 j x j
j 1
a T2 Σa 2 (a T2 a 2 1) a T2 a 1 0
diferencia ndo respecto a a 2 j
2Σa 2 2a 2 a 1 0
a T
1 2a Σa 2 0 0
T
1
Σa 2 a 2 a 2 es v.p.de Σ
PCA
p d
xn xn x n a i a i
x n a i a i si aproximamo s ~
T T
i 1 i 1
p 2
1 N
J x n xn a iT Σa i
~
N n 1 i d 1
determinar el subespacio.
Si p d no hay reducción de dimensiona lidad - rotación de ejes.
Reducción de dimensión con PCA
¿Cómo determino d?
Para que la distorsión J esté por debajo de un cierto
valor : p p
var( yi ) i
i 1 i 1
d p d 1
i 1
i i i
i 1 i 1
y y1 , y 2 .... y d y A Td x Ad : p d
T
Bishop
Reducción de dimensión con PCA
Bishop
gaus)
PCA con dimensión de datos muy alta
Costo computacional calculo vectores propios de una matriz dxd es
O(d3), existen algoritmos más eficientes.
X: pxn , XXT:pxp, puede ocurrir que n<p, n puntos definen un
subespacio de dimensión a lo sumo n-1. Al aplicar PCA p-n+1
valores propios son 0. Costo O(p3).
1 1
Σ XX T
XX Tu u
n 1 n 1
1 1
X X( X u ) ( X u )
T T T
X T Xv v
n 1 n 1
1
Σ( X v ) ( X v ) u
T T
X T
v
(n - 1) 1/ 2
w : vector de pesos
w 0 : bias o threshold
asigno x a c1 si y(x) 0 y c 2 en otro caso.
m1 m2
N1 N2
Si consideramos la proyección sobre una dimensión, una
medida de separabilidad es la separación de las medias luego
de proyectar:
y wTx m2 m1 w T (m2 m1 )
Restringiendo a los w con módulo 1 y usando multiplicadores
de Lagrange: w proporcional (m2 –m1).
wT S B w
J (w ) T con S B (m 2 m1 )(m 2 m1 ) T
w S ww
S w (x n m1 )(x n m1 ) (x n m 2 )(x n m 2 )
T T
nc1 nc2
(w T S B w)S w w (w T S w w)S B w S B w S w w
Sw: simétrica y semidefinida positiva, usualmente no singular
si n>p.
S S B w w
1
w
S B w (m 2 m1 )(m 2 m1 )T w (m 2 m1 )
w S w1 (m 2 m1 )
No importa la magnitud de w. Determino una dirección para la
proyección de los datos proyectados.
Análisis de Discriminantes Lineales
Múltiples
La generalización a un problema de C clases involucra
c-1 funciones discriminantes. Se proyecta de un espacio de
dimensión p a un espacio de dimensión c-1, asumiendo p≥c.
Generalización de Σw es directa:
c
1
S w Si S i ( x n m i )( x n m i ) m i
T
xn
i 1 nci N i nci
SB : consideramos media y covarianza global de los datos
1 1 c
m
N
j x j N
i 1
Nimi S T (x j m)(x j m) T
j
LDA Múltiples Generalización
c
S T ( x m i m i m )( x m i m i m ) T
i 1 xci
c c
(x m i )(x m i )T (m i m)(m i m)T
i 1 xci i 1 xci
c
ST S w N i (m i m)(m i m)T S w S B
i 1
LDA Múltiples Generalizado
W [w1 , w 2 .....w c 1 ] W : c 1 p y WT x
c
1 1
Def : μ i
Ni
y
ncn
n μ
N
N μ
i 1
i i
c c
~ ~
S W (y μ i )(y μ i )T S B N i (μ i μ)(μ i μ)T
i 1 ncn i 1
~ ~
S B WT S B W S W WT S W W
Necesitamos un medida de la razón entre la varianza entre
clases y la varianza intra-clases. Una medida escalar simple es
el determinante de la matriz otra la traza de las matrices.
~
det(S B ) det(WT S B W)
J (w ) ~
det(S W ) det(WT S W W)
S B w i i S W w i
Problema de vectores propios generalizado, las columnas de
W son los vectores propios generalizados correspondientes a
los valores propios mayores de:
Si Sw no es singular:
S S B w i i w i
1
W
LDA Múltiples Generalizados
1 .8 2
Σ μ
.8 1 4.5
Componentes Principales
Ejemplo 2
KERNEL PCA
La magia de la alta dimensión
( x1 , 2 x1 x2 , x2 )( z1 , 2 z1 z 2 , z 2 )T (x)T (z )
2 2 2 2
k (x, x´) x, x´
d
Polinómico:
x x´ 2 x x´,x x´
k (x, x´) e e
Kernel PCA
Extender el análisis convencional de PCA a un espacio de
características de mayor dimensión usando “kernel trick”
1 m m
x jx j v Σv x 0
T
i
m j 1 i 1
1 m T
Σv x j x j v v
m j 1
1 m
v j j )v x j , v x j
T
x , v x ( x x
m j 1
j j
m
v α jx j
j 1
1 m
C (x j ) (x j )T V CV
m j 1
m
V αi (x i )T
i 1
(x n ), V (x n ), CV n 1,...., m
Combinando las 2 últimas ecuaciones:
m
1 m m
(x n ), αi (x i ) (x n ), (x i ) (x i ) αi (x i )
T
i 1 m j 1 i 1
m
1 m m
αi (x n ), (x i ) αi (x n ), (x j ) (x j ), (x j )
i 1 m i 1 j 1
n 1..., m
equivalent e : mα Kα
Sean 1 2 ..... m valores p.de K
α1 , α 2 ,....α m vectores p. de K
λp último valor propio no cero
Se normalizan los vectores αi para que los vectores V
en H estén normalizados.
Vn , Vn 1 n 1... p
m m
1 in nj (x i ), (x j ) in nj K ij
i, j i, j
α n , Kα n α n , α n
Kernel PCA
i 1 i 1
~
K (K 1m K K1m 1m K1m ) con (1m )ij 1 / m i, j
Resumen de Kernel PCA
Elegir un kenel k,
Ambiguedades de ICA:
No se puede determinar varianza de los componentes, se
determina A asumiendo que se buscan componentes
independientes con energía =1.
No podemos determinar el orden en los componentes
independientes.
Estimo W que maximice la no gaussianidad de y=w T x.
ICA - Divergencia de Gaussianidad
Encontrar los mejores pesos para que los componentes de salida sean
independientes.
¿Cómo medir la independencia?
Encontrar variables aleatorias que se aparten lo máximo de la distribución
gaussiana.
Se usa estadística de alto- orden para medir divergencia de la Gaussiana:
Momento de cuarto orden, Kurtosis.
y 4
kurt( y ) E 3
Kurtosis