AprendizajeBayesiano 3 PDF

1
Tema2:
Clasificacinsupervisada
Universitat de les
Illes Balears
Departament de Cincies
Matemtiques i Informtica
Alberto ORTIZ RODRGUEZ
10529 Informtica Encastada
i Aplicacions
Mster en Tecnologas de la
Informacin y las Comunicaciones
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 2
Contenido
Introduccin
planteamiento del problema
Clasificacin Bayesiana
introduccin
minimizacin de la probabilidad de error
clasificadores para distribuciones normales y de distancia mnima
Funciones de discriminacin lineales y el algoritmo del perceptrn
algoritmo bsico del perceptrn
variantes
2
ndice
Introduccin
Estimacin de funciones de densidad de probabilidad
Introduccin
Clasificacin supervisada:
Se trata de clasificar un patrn nuevo en la clase correcta, habiendo
inicialmente diseado un clasificador a partir de la informacin proveniente de un
conjunto de entrenamiento, en el que, en particular, los ejemplares estn
etiquetados con la clase a la que pertenecen
El algoritmo de diseo del clasificador hace uso de las etiquetas para generar
los parmetros del clasificador
3
ndice
Introduccin
Objetivo: clasificar un patrn nuevo en la clase ms probable
Dada una tarea de clasificacin en M clases,
1
,
2
, ...,
M
, y un ejemplar
representado por un vector de caractersticas x, se trata de determinar:
Dado x, cul es la probabilidad de que su clase de origen sea
i
El clasificador decide la clase ms probable en base al mximo de las
probabilidades a posteriori:
Regla de clasificacin Bayesiana
p(
i
|x), i = 1, 2, . . . , M (probabilidades a posteriori )
si p(
i
|x) > p(
j
|x), j = i, entonces x es asignado a la clase
i
4
Repaso de probabilidades:
Funcin de probabilidad:
asigna un valor a cada evento v posible en funcin de la frecuencia con que se
presenta dicho evento
puede plantearse como el conjunto de eventos correspondientes a que cierta
variable aleatoria discreta X tome ciertos valores: p(A
i
) = p(X = x
i
)
en particular:
p : [0, 1]
v p(v)
p() =
n
i=1
p(A
i
) = 1
Repaso de probabilidades:
Probabilidad condicionada:
Ley de probabilidades totales:
Regla de Bayes
Todo esto se verifica exactamente en las mismas condiciones sustituyendo
probabilidades por funciones de densidad de probabilidad
Dados M eventos A
i
, i = 1, . . . , M, tales que

M
i=1
p(A
i
) = 1
para cualquier evento arbitrario B:
p(B) =
M
i=1
p(B|A
i
)p(A
i
)
p(B|A
i
) =
p(B
Ai)
p(Ai)
A partir de la denicion de probabilidad condicionada,
dados dos eventos A y B:
p(B|A)p(A) = p(A|B)p(B)
5
Clasificacin Bayesiana: caso de 2 clases (
1
,
2
)
Sean las probabilidades a priori de las clases p(
1
) y p(
2
)
Si se desconocen, se estiman a travs de las muestras de entrenamiento:
Tambin se suponen conocidas las f.d.p. (funciones de densidad de
probabilidad) de las clases
Si se desconocen, se han de estimar a partir
de los datos de entrenamiento disponibles
(existen tcnicas que permiten hacerlo)
Empleando la regla de Bayes, se deduce que:
p(
1
)
n
1
n
1
+n
2
, p(
2
)
n
2
n
1
+n
2
p(x|
i
), i = 1, 2
probabilidades totales
p(
i
|x) =
p(x|
i
)p(
i
)
p(x)
=
p(x|
i
)p(
i
)
2
i=1
p(x|
i
)p(
i
)
x
p(x|
i
)
1
,
2
)
Si las probabilidades a priori son iguales (p(
i
) = 1/M = 0.5), entonces la regla
de clasificacin pasa a depender slo de las f.d.p. de las clases:
En el caso unidimensional
( 1 caracterstica), x
0
es un umbral
que particiona el espacio en dos
regiones, R
1
y R
2
Es obvio que los errores de
clasificacin son inevitables:
x puede encontrarse en la regin R
2
y pertenecer a la clase
1
(lo mismo para R
1
y
2
)
p(
i
|x) =
p(x|
i
)p(
i
)
p(x)
p(
i
|x) > p(
j
|x), j = i
p(x|
i
)p(
i
) > p(x|
j
)p(
j
), j = i
p(x|
i
) > p(x|
j
), j = i
x
0
x
p(x|
1
) p(x|
2
)
R
1
R
2
6
1
,
2
)
En el caso unidimensional, la probabilidad de cometer un error de clasificacin
viene dada por:
TEOREMA
El clasificador Bayesiano minimiza la probabilidad del error de clasificacin
Es decir: si desplazamos x
0
a izquierda o derecha incrementamos P
e
x
0
x
p(x|
1
) p(x|
2
)
R
1
R
2
P
e
= p(x R
2
x es de
1
) +p(x R
1
x es de
2
)
= p(x R
2
|
1
)p(
1
) +p(x R
1
|
2
)p(
2
)
= p(
1
)
_
R2
p(x|
1
)dx +p(
2
)
_
R1
p(x|
2
)dx
=
1
2
__
x0
p(x|
2
)dx +
_
+
x0
p(x|
1
)dx
_
(si p(
1
) = p(
2
) = 0.5)
1
,
2
)
DEMOSTRACIN (de la optimalidad del clasificador Bayesiano)
Por un lado:
Por otro lado:
Por tanto:
_
p(x|
1
)dx = 1
_
p(
1
|x)p(x)
p(
1
)
dx = 1
_
R1
p(
1
|x)p(x)dx +
_
R2
p(
1
|x)p(x)dx = p(
1
)
P
e
= p(x R
2
1
) +p(x R
1
2
) = p(x R
2
|
1
)p(
1
) +p(x R
1
|
2
)p(
2
)
= p(
1
)
_
R2
p(x|
1
)dx +p(
2
)
_
R1
p(x|
2
)dx
=
_
R2
p(
1
|x)p(x)dx +
_
R1
p(
2
|x)p(x)dx
P
e
= p(
1
)
_
R1
(p(
1
|x)p(
2
|x)) p(x)dx
P
e
es minimo si R
1
se escoge de forma que a lo largo de R
1
p(
1
|x) > p(
2
|x)
7
Ejemplo: sea un problema de 2 clases equiprobables (p(
1
) = p(
2
) = 0.5) tales
que (las f.d.p.s son Gaussianas de varianza 0.5 y medias 0 y 1 respectivamente):
Calcular el umbral ptimo x
0
para probabilidad de error mnima :
p(x|
1
) =
1
e
x
2
, p(x|
2
) =
1
e
(x1)
2
x
0
: p(
1
|x
0
) = p(
2
|x
0
)
x
0
: p(x
0
|
1
)p(
1
) = p(x
0
|
2
)p(
2
)
x
0
: e
x
2
0
= e
(x01)
2
x
2
0
= (x
0
1)
2
= x
2
0
2x
0
+ 1 x
0
= 0.5
1
,
2
) y 2 caractersticas
Minimizar la probabilidad
de error es equivalente a
particionar el espacio de
caractersticas en M
regiones (tantas como
clases)
Si las regiones R
i
y R
j
son contiguas, estn
separadas por una
curva de decisin que
viene descrita por la ecuacin:
Corresponde a los puntos del
plano en los que las probabilidades
a posteriori coinciden
p(
i
|x) p(
j
|x) = 0
8
Clasificacin Bayesiana para distribuciones normales
Asumimos que las f.d.p. de las clases obedecen a una distribucin Gaussiana
L-dimensional:
Modeliza adecuadamente
muchos casos y es tratable
matemtica y computacionalmente
En el caso unidimensional:
p(x|
i
) =
1
(2)
L
|i|
e
1
2
(xi)
T
1
i
(xi)
, i = 1, . . . , M
= E[(x
1
, x
2
, . . . , x
L
)]
T
= (
1
,
2
, . . . ,
L
)
T
= E[(x )(x )
T
] =
_
2
1

12
. . .
1L
21

2
2
. . .
2L
.
.
.
.
.
.
.
.
.
L1

L2
. . .
2
L
_
_
p(x|
i
) =
1
2
e
(x)
2
2
2
s
=
1
N
N
k=1
x
sk
st
=
1
N
N
k=1
(x
sk

s
)(x
tk

t
)
Ejemplo:
= (0, 0) =
_
1 1.2
1.2 2
_
9
Objetivo: Derivar el clasificador Bayesiano para el caso
Debido a la forma exponencial de las f.d.p.s, es preferible trabajar con las funciones
de discriminacin g
i
(x) siguientes, las cuales involucran a la funcin montona ln():
Finalmente:
g
i
(x) = ln (p(x|
i
)p(
i
)) = ln p(x|
i
) + ln p(
i
)
g
i
(x) = c
i

1
2
(x
i
)
T
1
i
(x
i
) + ln p(
i
)
c
i
=
L
2
ln 2
1
2
ln |
i
|
p(x|
i
) =
1
(2)
L
|i|
e
1
2
(xi)
T
1
i
(xi)
, i = 1, . . . , M
g
i
(x) =
1
2
x
T
1
i
x +
1
2
x
T
1
i

i
+
1
2
T
i

1
i
x
1
2
T
i

1
i

i
+ ln p(
i
) +c
i
Caso de 2 caractersticas no correlacionadas
Las reglas de decisin vienen ahora dadas por las ecuaciones g
i
(x) g
j
(x) = 0
L = 2: elipses, parbolas, hiprbolas, etc. cnicas, regla = curva 2D
L = 3: elipsoides, paraboloides, hiperboloides, etc. cudricas, regla = superficie 3D
L > 3: hipercudricas
CLASIFICADOR
CUADRTICO
g
i
(x) =
1
2
_
x
2
1
2
i1
+
x
2
2
2
i2
_
+
_
i1
x
1
2
i1
+

i2
x
2
2
i2
_
1
2
_
2
i1
2
i1
+

2
i2
2
i2
_
+ ln p(
i
) +c
i
L = 2,
i
=
_
2
i1
0
0
2
i2
_
g
i
(x) =
1
2
x
T
1
i
x +
1
2
x
T
1
i

i
+
1
2
T
i

1
i
x
1
2
T
i

1
i

i
+ ln p(
i
) +c
i
10
Ejemplo: (clases equiprobables)
1
= (0, 0)
T
,
2
= (1, 0)
T
,
1
=
_
0.10 0.00
0.00 0.15
_
,
2
=
_
0.20 0.00
0.00 0.25
_
g
1
(x) = 5.0 x
1
2
3.3 x
2
2
+ 0.2620
g
2
(x) = 2.5 x
1
2
2.0 x
2
2
+ 5.0 x
1
2.840
g
1
(x) g
2
(x) = 2.500 x
1
2
1.333 x
2
2
+ 3.102 5.0 x
1
= 0
-5 0 5
-6
-4
-2
0
2
4
6
x
1
x
2
1
2
Ejemplo: (clases equiprobables)
1
= (0, 0)
T
,
2
= (1, 0)
T
,
1
=
_
0.10 0.00
0.00 0.15
_
,
2
=
_
0.15 0.00
0.00 0.10
_
g
1
(x) = 5.0 x
1
2
3.333 x
2
2
+ 0.2620
g
2
(x) = 3.333 x
1
2
5.0 x
2
2
+ 6.667 x
1
3.071
g
1
(x) g
2
(x) = 1.667 x
1
2
+ 1.667 x
2
2
+ 3.333 6.667 x
1
= 0
-5 0 5
-6
-4
-2
0
2
4
6
x
1
x
2
2
2
11
Clases con la misma matriz de covarianza: hiperplanos de decisin
Si las clases tienen la misma matriz de covarianza (
i
= ) entonces el trmino
cuadrtico y parte del constante coinciden en todas las funciones de discriminacin:
Por tanto, desaparece de las ecuaciones g
i
(x) g
j
(x) = 0. Esto permite definir unas
funciones de discriminacin ms tiles:
De esta forma, las funciones de discriminacin son lineales (y no cuadrticas) y las
reglas de decisin pasan a ser hiperplanos de decisin: (2D) rectas, (3D) planos, ...
Veamos dos casos para la matriz de covarianza: (1) =
2
I y (2) cualquier
g
i
(x) =
1
2
x
T
1
x +
1
2
x
T
i
+
1
2
T
i

1
x
1
2
T
i

1
i
+ ln p(
i
) +c
g
i
(x) = w
T
i
x +w
i0
w
T
i
=
T
i

1
, w
i0
= ln p(
i
)
1
2
T
i

1
i
CLASIFICADOR
LINEAL
Clases con la misma matriz de covarianza: =
2
I
Entonces, las funciones de discriminacin pasan a tener las siguientes expresiones:
de forma que las reglas de decisin se pueden escribir como:
g
i
(x) =
1
T
i
x +w
i0
=
1
T
i
x + ln p(
i
)
1
2
2
T
i

i
g
ij
(x) g
i
(x)g
j
(x) = 0
2
(
T
i

T
j
)x + ln p(
i
) ln p(
j
)
1
2
2
_
T
i

i

T
j

j
_
= 0
(
i

j
)
T
x +
2
ln
p(
i
)
p(
j
)

1
2
(
i

j
)
T
(
i
+
j
) = 0
(
i

j
)
T
_
x +
2
ln
_
p(
i
)
p(
j
)
_

i

j
i

j
2

1
2
(
i
+
j
)
_
= 0
w
T
(x x
0
) = 0
w =
i

j
, x
0
=
1
2
(
i
+
j
)
2
ln
_
p(
i
)
p(
j
)
_

i
i

j
2
12
2
I
reglas de decisin:
caso de 2 caractersticas:
CUL es esta recta?
g
ij
(x) : w
T
(x x
0
) = 0
w =
i

j
, x
0
=
1
2
(
i
+
j
)
2
ln
_
p(
i
)
p(
j
)
_

i

j
i

j
2
g
ij
(x) : w
T
(x x
0
) = 0
1
x
1
+
2
x
2

1
x
01
2
x
02
= 0
Ax
1
+Bx
2
+C = 0
2
I
reglas de decisin: caso de 2 caractersticas
cualquier punto x
tal que x x
0
sea
ortogonal a
i
-
j
pertenece a la recta
x
0
siempre est sobre
el vector
i
-
j
si p(
i
) = p(
j
), x
0
es el
promedio de
i
y
j
si p(
i
) < p(
j
), x
0
se desplaza hacia
i
sobre
i
-
j
x
2
x
1
i
-
j
x
0
x
g
ij
(x) : w
T
(x x
0
) = 0
w =
i

j
, x
0
=
1
2
(
i
+
j
)
2
ln
_
p(
i
)
p(
j
)
_

i

j
i

j
2
13
2
I
los crculos corresponden a 3 98%
Clases con la misma matriz de covarianza: cualquier
Recuperamos las funciones de discriminacin lineales originales:
Entonces:
g
i
(x) = w
T
i
x +w
i0
w
T
i
=
T
i

1
, w
i0
= ln p(
i
)
1
2
T
i

1
i
g
ij
(x) g
i
(x)g
j
(x) = 0
(
i

j
)
T
1
x + ln
_
p(
i
)
p(
j
)
_
1
2
(
i

j
)
T
1
(
i
+
j
) = 0
(
i

j
)
T
1
_
x + ln
_
p(
i
)
p(
j
)
_

i

j
(
i

j
)
T
1
(
i

j
)

1
2
(
i
+
j
)
_
= 0
w
T
(x x
0
) = 0
w =
1
(
i

j
) , x
0
=
1
2
(
i
+
j
) ln
_
p(
i
)
p(
j
)
_

i

j
(
i

j
)
T
1
(
i

j
)
14
Clases con la misma matriz de covarianza: cualquier
el hiperplano de decisin ya no es necesariamente
ortogonal a
i
-
j
sino a
-1
(
i
-
j
)

-1
(
i
-
j
) es el resultado de transformar (
i
-
j
) a travs
de la matriz
-1
x
0
siempre est sobre el vector
i
-
j
si p(
i
) = p(
j
), x
0
es el promedio de
i
y
j
si p(
i
) < p(
j
), x
0
se desplaza hacia
i
sobre
i
-
j
g
ij
: w
T
(x x
0
) = 0
w =
1
(
i

j
)
x
0
=
1
2
(
i
+
j
) ln
_
p(
i
)
p(
j
)
_

i

j
(
i

j
)
T
1
(
i

j
)
x
2
x
1
i
-
j
x
0
x
Ejemplo: en un problema de clasificacin bidimensional en dos clases
equiprobables, las clases presentan dos distribuciones normales con los
siguientes parmetros:
Clasificar el vector x = (1.0,2.2)
T
utilizando un clasificador Bayesiano.
Por tanto, x
1
.
1
= (0, 0)
T
,
2
= (3, 3)
T
, =
1
=
2
=
_
1.1 0.3
0.3 1.9
_
g
12
= w
T
(x x
0
)
w =
1
(
1

2
)
x
0
=
1
2
(
1
+
2
) ln
_
p(
1
)
p(
2
)
_

1

2
(
1

2
)
T
1
(
1
2
)
g
12
= (3, 3)
_
1.1 0.3
0.3 1.9
_
1
_
(1, 2.2)
T
(1.5, 1.5)
T
_
= 0.36 > 0
15
> 0 > 0 > 0
Hasta ahora hemos considerado pares de clases y hemos derivado las fronteras
entre pares de clases a travs de las funciones de discriminacin:
En el caso de un problema de 2 clases:
Si hay ms clases, hay que determinar g
i
| g
i
> g
j
, j i, por lo que hay que
emplear varias g
ij
para decidir, ya que las g
ij
aisladas slo nos sirven para trazar
las fronteras. Por ejemplo, para 3 clases:
para determinar R
i
necesitamos las {g
ik
, g
ki
}
M clases: M-1 pares; 1 con las M-1 restantes
si g
12
> 0, entonces x
1
si g
12
< 0, entonces x
2
g
ij
(x) = g
i
(x) g
j
(x)
R
1
(
1
): g
12
> 0
g
13
> 0
R
3
(
3
):
g
13
< 0
g
23
< 0
R
2
(
2
):
g
12
< 0
g
23
> 0
i
( 0, 0)
(-2, 2)
(+2, 2)
= 1
Clasificadores de distancia mnima
Vamos a ver lo anterior desde otro punto de vista
Asumimos clases equiprobables con la misma matriz de covarianza. Entonces:
Asignamos x a la clase para la que la probabilidad es mayor g
i
(x) > g
j
(x) j i
(1) Si =
2
I, g
i
(x) es mayor cuanto ms cerca est x de
i
asignar x a la clase cuyo centro
i
est ms prximo (distancia eucldea)
(2) Para genrico, hay que asignar x a la clase para la que la expresin siguiente es
menor:
d
m
distancia de Mahalanobis
g
i
(x) = c
i

1
2
(x
i
)
T
1
i
(x
i
) + ln p(
i
)
c
i
=
L
2
ln 2
1
2
ln|
i
|
_
_

g
i
(x) =
1
2
(x
i
)
T
1
(x
i
)
d
2
m
= (x
i
)
T
1
(x
i
)
16
Clasificadores de distancia mnima
En el caso (1), los puntos a la misma distancia (eucldea) se
encuentran sobre circunferencias (hiperesferas en el caso
general):
En el caso (2), los puntos a la misma distancia (de mahalanobis) se
encuentran sobre elipses (hiperelipsoides en el caso general):
d
2
m
= (x
i
)
T
1
(x
i
) = c
2
=
T
1
=
T
1
=
1
T
(x
i
)
T
T
(x
i
) = c
2
(x
i
)
T
1
(x
i
) = c
2
(x1i1)
2
1
+
(x2i2)
2
2
= c
2
d
e
=
_
x
i
= c
(x
1

i1
)
2
+ (x
2

i2
)
2
= c
2
Ejemplo: en un problema de clasificacin bidimensional en dos clases
equiprobables, las clases presentan dos distribuciones normales con los
siguientes parmetros:
Clasificar el vector x = (1.0,2.2)
T
utilizando un clasificador Bayesiano.
d
m
(x,
1
) < d
m
(x,
2
) x
1
.
NOTA: las distancias eucldeas seran d
e
(x,
1
) = 2.417 y d
e
(x,
2
) = 2.154, por lo que,
si las utilizramos, haramos x
2
.
1
= (0, 0)
T
,
2
= (3, 3)
T
, =
1
=
2
=
_
1.1 0.3
0.3 1.9
_
d
2
m
(x,
1
) = (x
1
)
T
1
(x
1
)
= (1.0, 2.2)
_
0.95 0.15
0.15 0.55
__
1.0
2.2
_
= 2.952
d
2
m
(x,
2
) = (x
2
)
T
1
(x
2
)
= (2.0, 0.8)
_
0.95 0.15
0.15 0.55
__
2.0
0.8
_
= 3.672
17
ndice
Introduccin
El clasificador Bayesiano asume que disponemos de f.d.p.s de las clases del
problema.
Hay diferentes mtodos para obtener este tipo de informacin:
Se conoce la expresin de la f.d.p. pero se desconocen los parmetros
Estimadores de mxima verosimilitud
otros ...
No se conoce la expresin de la f.d.p. estimacin no paramtrica
Mtodo de las ventanas de Parzen
Mtodo de los k vecinos ms prximos (KNN, K-nearest neighbour)
otros ...
Estimacin de funciones de
densidad de probabilidad
18
Sea un problema de clasificacin en M clases cuyos vectores de caractersticas se
distribuyen de acuerdo con p(x|
i
;
i
), i = 1,...,M, donde
i
es el vector de
parmetros para la clase
i
Se trata de estimar
i
a partir de un conjunto de muestras x
1
, x
2
, ..., x
N
correspondientes a la
clase
i
Asumimos que las muestras de una clase no afectan a la estimacin de parmetros
para las otras clases para poder formular el problema independientemente de la clase
La estimacin se repite para cada clase
De esta forma, dadas las muestras estadsticamente independientes x
1
, x
2
, ..., x
N
provenientes de p(x;), calculamos la f.d.p. conjunta siguiente:
Entonces la estimacin de de mxima verosimilitud corresponde a:
Representa el que mejor se adecua a las muestras x
1
, x
2
, ..., x
N
ML
| p(X;
ML
) = max{p(X; )}
p(X; ) p(x
1
, x
2
, . . . , x
N
; ) =

N
k=1
p(x
k
; )
Para ello hay que derivar e igualar a 0. Para simplificar los clculos acudiremos una
vez ms a la funcin ln() para definir la funcin log-verosimilitud:
Ahora s derivamos e igualamos a 0:
Para valores de N suficientemente elevados, el estimador de mxima verosimilitud es
asintticamente no sesgado, responde a una distribucin normal y presenta la
mnima varianza posible
L() ln
N
k=1
p(x
k
; ) =

N
k=1
ln p(x
k
; )
L()
=
N
k=1
ln p(x
k
; )
=
N
k=1
1
p(x
k
; )
p(x
k
; )
= 0
19
Distribucin Gaussiana L-dimensional y conocida
Distribucin Gaussiana L-dimensional, y desconocidas

ML
=
1
N
N
k=1
x
k

ML
=
1
N
N
k=1
x
k
,

ML
=
1
N
N
k=1
(x
k

ML
)(x
k

ML
)
T
Estimacin no paramtrica
Se trata de estimar una cierta f.d.p. p(x) sin estimar previamente sus parmetros. De
hecho, ni siquiera se intenta asimilar p(x) a alguna f.d.p. conocida.
Sea una cierta regin R del espacio de caractersticas. La probabilidad P
R
de que un
cierto x pertenezca a R viene dada por:
Supongamos que disponemos de N muestras independientes x
1
, x
2
, ..., x
N
correspondientes a la f.d.p. que queremos estimar.
k
N,R
= cuntas de las N muestras pertenecen a la regin R
k
N,R
/ N es una estimacin de P
R
para cada x, lo cual es a su vez una estimacin de p(x)
P
R
= p(x R) =
_
R
p(x
)dx
para diferentes
regiones R
20
Estimacin no paramtrica
Ahora hacemos R suficientemente pequea como para que p(x) sea aproximadamente
constante dentro de R. Entonces:
... donde V es el (hiper)volumen ocupado por la regin R (1D longitud, 2D rea,
3D volumen, etc)
p.e. si R es un (hiper)cubo de dimensin L y longitud de lado h, V = h
L
Por tanto:
p
N,R
(x) p(x) a medida que N si se verifica:
V 0 (regiones pequeas)
k
N,R
(nmero suficiente de muestras en cada R)
k
N,R
/N 0 (nmero total de muestras elevado)
En resumen: para cada x, p(x) se aproxima definiendo una regin R pequea
alrededor de x y contando cuntos de los x
i
caen en R ( = k
N,R
);
k
N,R
>>> y N >>>, entonces p
N,R
(x) p(x)
P
R
=
_
R
p(x
)dx
p(x)
_
R
dx
= p(x)V
p(x)V
k
N,R
N
p(x)
k
N,R
/N
V
=
P
R
V
= p
N,R
(x)
Estimacin no paramtrica: ventanas de Parzen (Parzen, 1962)
Supongamos una regin R con forma de (hiper)cubo L-dimensional de lado h
N
.
Entonces:
Sea la siguiente funcin (funcin de ventana o kernel):
Entonces, para un cierto x:
Entonces, el nmero de muestras que se encuentran dentro del (hiper)cubo centrado
en x es:
V
N
= (h
N
)
L
(u) =
_
1 |u
j
|
1
2
, j = 1, . . . , L
0 en caso contrario
_
xxi
h
N
_
= 1 si x
i
(hiper)cubo de volumen V
N
centrado en x
k
N
(x) =
N
i=1
_
x x
i
h
N
_
21
Estimacin no paramtrica: ventanas de Parzen
Finalmente:
Por tanto, dado cierto x, para obtener la estimacin de p(x): (caso 1D)
function p = parzen_cubo_1D(x,X,h)
% x = punto a evaluar
% X = vector de muestras
% h = longitud del lado del (hiper)cubo
N = length(X); kn = 0;
for i=1:N
if abs((x-X(i))/h) <= 0.5, kn = kn+1; end
end
p = (kn/N)/h;
p
N
(x) =
k
N
(x)/N
V
N
=
1
N
N
i=1
1
h
L
N
_
x x
i
h
N
_
Comentarios sobre p
N
:
p
N
es una f.d.p. legtima
_
1
N
N
i=1
1
h
L
N
_
x x
i
h
N
_
dx =
1
N
N
i=1
1
h
L
N
_

_
x x
i
h
N
_
dx =
= {u = x x
i
} =
1
N
N
i=1
1
h
L
N
_

_
u
h
N
_
du =
=
1
N
N
i=1
1
h
L
N
_
(+hN/2,...,+hN/2)
(hN/2,...,hN/2)
du =
1
N
N
i=1
1
h
L
N
h
L
N
= 1
1. p
N
(x) 0, x (obvio, es una suma de 1s)
2.
_
p
N
(x)dx = 1
22
Comentarios sobre p
N
:
p
N
es el promedio de N funciones centradas en las muestras x
i
Si h
N
es grande, la amplitud de
N
es pequea y p
N
es la superposicin
de N funciones anchas
Si h
N
es pequeo, la amplitud de
N
es grande y p
N
es la superposicin
de N pulsos agudos
h
N
0
N
p
N
(x) =
1
N
N
i=1
N
(x x
i
)
N
(u) =
1
h
L
N
_
u
h
N
_

N
1

N
2

N
3

N
4
x
1
x
2
x
3
x
4
x
5

N
5
1
N
i=1
x
1
x
2
x
3
x
4
x
5
1
hN
pN(x) =
1
N
N
i=1
1
h
L
N
_
x xi
hN
_
Ejemplo: N valores aleatorios extrados de una distribucin N(0,1) kernel rectangular
ms suave
ms ruidoso
mejor estimacin
23
Como ya hemos visto en el ejemplo anterior, al aproximar funciones continuas [p()]
por funciones escaln discontinuas [()], la estimacin resultante presenta tambin
discontinuidades
Para evitarlo, el propio Parzen sugiri utilizar kernels ( ) continuos
Se puede demostrar que la estimacin p
N
(x) resultante es una f.d.p. legtima si:
Uno de los ms utilizados es el kernel Gaussiano
de media 0 y varianza 1:
(u) 0 y
_
(u)du = 1
function p = parzen_gauss_1D(x,X,h)
% h = ancho de banda (desviacion tipica)
N = length(X); kn = 0;
for i=1:N
kn = kn + 1/(sqrt(2*pi))*exp(-0.5*((x-X(i))/h)^2);
end
p = (kn/N)/h;
(u) =
1
(2)
L
e
1
2
u
T
u
Ahora p
N
(x) se obtiene como el promedio de N Gaussianas
centradas en las muestras x
i
Efecto de variar
el ancho de banda h
N
24
Ejemplo: N valores aleatorios extrados de una distribucin N(0,1) kernel Gaussiano
ms suave
ms ruidoso
mejor estimacin
Estimacin no paramtrica: k vecinos ms prximos
Dado x y una coleccin de muestras x
1
, x
2
,..., x
N
, provenientes de una cierta f.d.p.
p(x), para estimar p(x):
Mtodo de las ventanas de Parzen se fija un volumen de bsqueda alrededor de x, V
N
, y
se determina el nmero k
N
de muestras pertenecientes a dicho volumen
Mtodo de los k vecinos ms prximos se buscan las k
N
muestras ms prximas a x y
se determina el volumen que las contiene V
kN
p
N
(x) =
k
N
/N
VN
p
N
(x) =
kN/N
V
kN
function p = knn_1D(x,X,k)
% k = nmero de vecinos
N = length(X);
d = abs(X - x);
ds = sort(d);
V = 2*ds(min(N,k));
p = (k/N)/V;
25
Estimacin no paramtrica: k vecinos ms prximos
Ejemplo: N valores aleatorios extrados de una distribucin N(0,1)
En este caso, se ha empleado:
En el caso de las ventanas de Parzen, se sugiere:
mejor estimacin
h
N
=
h
1
N
k
N
=

N
ndice
Introduccin
26
Ya hemos visto que, dependiendo de las f.d.p.s de las clases (caso
Gaussiano), un clasificador Bayesiano puede derivar en un conjunto de
funciones de discriminacin lineales. Por ejemplo, para 2 clases:
clasificador simple y computacionalmente muy interesante
En esta seccin del tema, nos volvemos a concentrar en funciones de
discriminacin lineales, pero desde una perspectiva diferente: no
asumimos una f.d.p. para las clases
Por tanto, independientemente de la f.d.p. de las clases, esperamos que stas
sean separables mediante (hiper)planos (1D punto, 2D recta, 3D plano, etc.)
En este caso se dice que las clases son linealmente separables
Veremos cmo se puede encontrar un (hiper)plano que separe las clases entre s
(algoritmo del perceptrn)
Funciones de discriminacin lineales y
el algoritmo del perceptrn
g
12
(x) = w
T
(x x
0
) , g
12
(x)
_
> 0 x
1
< 0 x
2
Funciones de discriminacin lineales
Objetivo: encontrar un (hiper)plano que permita separar las muestras de
entrenamiento de 2 clases
Por ejemplo, L = 2 caractersticas:
??
g
12
(x) = w
T
(x x
0
) , g
12
(x)
_
> 0 x
1
< 0 x
2
(hiper)plano: x | g
12
(x) = w
T
(x-x
0
) = 0
(w
1
, w
2
)
__
x
1
x
2
_
_
x
01
x
02
__
= 0
w
1
x
1
+w
2
x
2
(w
1
x
01
+w
2
x
02
) = 0
w
1
x
1
+w
2
x
2
+w
0
= 0
x
1
x
2
w0
w2
w0
w1
27
Funciones de discriminacin lineales
Por el momento, consideramos (hiper)planos que pasan por el origen:
x
0
= 0 es equivalente a
hacer w
0
= 0 en el caso
general
x
1
x
2 w
0
= 0
w
1
x
1
+w
2
x
2
= 0
w
T
x = 0
x
w
w = 1
w
T
x
i
= wx
i
cos = 0
x
i
cos = d
x
1
x
2
x
i
d
w

d > 0
d < 0
w es un vector ortogonal
a la recta
w
T
x
i
indica cmo de lejos est la muestra del
(hiper)plano de discriminacin
_
[
2
, +
2
] w
T
x
i
= d > 0
|| >

2
w
T
x
i
= d < 0
0
Funciones de discriminacin lineales: planteamiento del problema
Asumimos que las clases
1
y
2
son linealmente separables y, por tanto, que
existe un (hiper)plano definido por w
T
x = 0 tal que:
Para encontrar el (hiper)plano, planteamos la siguiente funcin (coste del
perceptrn):
donde:
J(w) =

xiY
(
xi
w
T
x
i
)
w
T
x
i
> 0 , x
i

1
w
T
x
i
< 0 , x
i

2
Y es el conjunto de muestras x
i
mal clasicadas por w

xi
= 1 si x
i

1
y
xi
= +1 si x
i

2
J(w) > 0, w
(x
i

1
pero x
i

2
, entonces
xi
w
T
x
i
= (1)(< 0) > 0)
J(w) = 0 si las muestras estan bien clasicadas (Y = )
J(w) es continua y lineal a trozos (si variamos w, J vara
linealmente hasta que Y cambia) minimizacion no trivial
28
Funciones de discriminacin lineales: algoritmo del perceptrn
El siguiente esquema iterativo (algoritmo del perceptrn, Rosenblatt 1950s)
encuentra un hiperplano que separa las 2 clases si stas son linealmente
separables:
La convergencia se produce si las clases son linealmente separables y si la
secuencia de valores
t
cumple ciertas condiciones:
por ejemplo,
t
= c/t y
t
= ( acotado) cumplen con las condiciones
la secuencia
t
determina la velocidad de convergencia
lim
t
t
k=0
k
= , lim
t
t
k=0
2
k
<
w(t + 1) = w(t)
t
xiY
xi
x
i
w(0) = cualquier vector de R
L
Variantes del algoritmo bsico:
(1a) Para tratar clases que necesitan un (hiper)plano que no pase por el origen, los
vectores de caractersticas pasan a ser x
i
* = (x
i
,1)
T
y se plantea el (hiper)plano:
Para simplificar, emplearemos w
T
en vez de (w*)
T
y x en vez de x*
(1b) Por otro lado, el clculo de la
modificacin de w en cada
iteracin se puede ver como:
w
T
x +w
0
= 0
(w
)
T
..
(w
1
, w
2
, ..., w
L
. .
w
T
, w
0
)
_
_
_
_
_
_
_
x
#1
x
#2
.
.
.
x
#L
1
_
_
_
_
_
_
_
= (w
)
T
x
= 0
w(t + 1) = w(t)
t
xiY
xi
x
i
S = (
L+1
..
0, 0, . . . , 0)
T
para i = 1 hasta n total muestras
si xi 1 y w(t)
T
xi < 0, entonces S = S + txi
sino
si xi 2 y w(t)
T
xi > 0, entonces S = S txi
n para
w(t + 1) = w(t) +S
29
(1) Ejemplo:
La lnea discontinua corresponde a:
donde el vector w = (1,1,-0.5)
T
es el
resultado del paso anterior del algoritmo
del perceptrn original con
t
= = 0.7
Las muestras clasificadas incorrectamente son
(0.40,0.05)
T
y (-0.20,0.75)
T
Aplicando un nuevo paso del algoritmo:
El resultado clasifica correctamente todas las muestras y el algoritmo termina con el
(hiper)plano:
+
+
+
+
+ +
+
+
+
x
1
x
2
-0.5
-0.5
1
1
1.42x
1
+ 0.51x
2
0.5 = 0
w(t + 1) =
_
_
1
1
0.5
_
_
0.7(1)
_
_
0.40
0.05
1
_
_
0.7(+1)
_
_
0.20
0.75
1
_
_
=
_
_
1.42
0.51
0.5
_
_
w(t + 1) = w(t)
xiY
xi
x
i
(1, 1, 0.5)x =
x
1
+x
2
0.5 = 0
2
(1) Ejemplo:
= 1.5
w(0) = +0.74 +0.67 +0.92
w(1) = -218.29 +77.27 +23.42
w(2) = -152.98 +179.38 +11.42
w(3) = -139.43 +188.33 +9.92
w(4) = -125.88 +197.29 +8.42
30
(1) Implementacin:
function ww = perceptron_2D(data,rho,nit)
n = size(data,1)/2; % n de elementos de cada clase
w0 = rand; w1 = rand; w2 = sqrt(1-w1^2); % inicializacin aleatoria de w
w = [w1 w2 w0]';
x = [data(:,1:2)'; ones(1,2*n)]; % paso de x a x*
for t = 1:nit
sumato = zeros(3,1); ic = 0; % inicializacin de la iteracin
for k = 1:2*n % sumatorio
xi = x(:,k);
if w'*xi < 0 & data(k,3) == 1, sumato = sumato + rho*xi; ic = ic + 1;
elseif w'*xi > 0 & data(k,3) == 2, sumato = sumato - rho*xi; ic = ic + 1;
end
end
w = w + sumato; % actualizacin de w
if ic == 0, break; end % incorrectamente clasificados = 0?
end
(2) Algoritmo del bolsillo
Se detiene al cabo de T iteraciones y proporciona el mejor (hiper)plano que ha
encontrado
Resuelve parcialmente el problema de convergencia del algoritmo del perceptrn
cuando las clases no son linealmente separables
(1) Inicializar w(0) aleatoriamente
(2) w
s
w(0),
h
s
no. de patrones clasicados correctamente por w(0)
(3) para t = 0 hasta T
(3.1) w(t + 1) = w(t) t
x
i
Y
x
i
xi
(3.2) h = no. de patrones clasicados correctamente por w(t + 1)
(3.3) si h > hs
entonces ws w(t + 1), hs h
n para
31
(3) Construccin de Kesler
Permite tratar M > 2 clases
Para cada muestra de la clase
i
, x
ik
, se definen M-1 vectores de dimensin
(L+1)M 1, de forma que en la posicin de bloque i se coloca x
ik
(posicin de
i
)
y en la posicin de bloque j coloca x
ik
(posicin de
j
)
Los (M-1)N vectores resultantes son luego clasificados mediante el algoritmo del
perceptrn forzando a que se verifique ( el algoritmo se detiene cuando ...):
El vector resultante contiene en la posicin de bloque i el vector w
i
para la clase
i
, de forma que x es asignado a la clase
i
si:
y:
w
T
x
k
= (w
T
1
, w
T
2
, . . . , w
T
M
) x
k
> 0 , k
g
ij
= (w
i
w
j
)
T
x
w
T
i
x > w
T
j
x, j = i
(3) Ejemplo: sean las muestras de un
problema de clasificacin en 3 clases:
2
: (1, 2)
T
(
x[1]
..
1, 2, 1,
x[2]
..
1, 2, 1,
0
..
0, 0, 0)
T
(
0
..
0, 0, 0,
x[2]
..
1, 2, 1,
x[3]
..
1, 2, 1, )
T
2
: . . .
3
: (2, 1)
T
(
x[1]
..
2, 1, 1,
0
..
0, 0, 0,
x[3]
..
2, 1, 1)
T
(
0
..
0, 0, 0,
x[2]
..
2, 1, 1,
x[3]
..
2, 1, 1)
T
3
: . . .
1
: (1, 1)
T
(
x[1]
..
1, 1, 1,
x[2]
..
1, 1, 1,
0
..
0, 0, 0)
T
(
x[1]
..
1, 1, 1,
0
..
0, 0, 0,
x[3]
..
1, 1, 1)
T
1
: . . .
resolver exigiendo: w
T
x > 0 , x
w = (
w
T
1
..
w
11
, w
12
, w
13
,
w
T
2
..
w
21
, w
22
, w
23
,
w
T
3
..
w
31
, w
32
, w
33
)
T
1

2

3
(1, 1)
T
(1, 1)
T
(1, 1)
T
(2, 2)
T
(1, 2)
T
(0, 1)
T
(1, 2)
T
(0, 1)
T
(2, 1)
T
(2, 1)
T
(0, 2)
T
(1, 0)
T
t
= = 0.5 w
1
= (2.47, 1.66, 0.37)
T
w
2
= (1.01, 1.36, 0.18)
T
w
3
= (2.07, 1.39, 2.23)
T
32
(3) Ejemplo:
1

2

3
(1, 1)
T
(1, 1)
T
(1, 1)
T
(2, 2)
T
(1, 2)
T
(0, 1)
T
(1, 2)
T
(0, 1)
T
(2, 1)
T
(2, 1)
T
(0, 2)
T
(1, 0)
T
w
1
= (2.47, 1.66, 0.37)
T
w
2
= (1.01, 1.36, 0.18)
T
w
3
= (2.07, 1.39, 2.23)
T
g
12
= 1.46x
1
+3.02x
2
+0.55
g
13
= 4.54x
1
+0.3x
2
1.86
g
23
= 3.08x
1
2.75x
2
2.41
Implementacin de la operacin de clasificacin
Una vez el algoritmo del perceptrn ha convergido hacia un cierto (hiper)plano
caracterizado por w = (w
1
,w
2
,...,w
L
,w
0
), la siguiente estructura permite implementar la
operacin de clasificacin:
Constituye el ejemplo ms simple de mquina que aprende ( estructura cuyos parmetros
libres son actualizados mediante un algoritmo de aprendizaje para aprender una cierta tarea
en base a datos de entrenamiento)
x
#1
x
#2
x
#L
f
nodos de
entrada
w
1
w
2
w
L
w
0
pesos
sinpticos
umbral
funcin de
activacin
p.e. limitador estricto
f(u) =
_
1 u < 0
+1 u > 0
w
T
x +w
0
> 0 , x
1
w
T
x +w
0
< 0 , x
2
perceptrn o
neurona [artificial]
(de McCulloch-Pitts)

AprendizajeBayesiano 3 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

AprendizajeBayesiano 3 PDF

Uploaded by

Copyright:

Available Formats

1

You might also like