You are on page 1of 32

1

Tema2:
Clasificacinsupervisada
Universitat de les
Illes Balears
Departament de Cincies
Matemtiques i Informtica
Alberto ORTIZ RODRGUEZ
10529 Informtica Encastada
i Aplicacions
Mster en Tecnologas de la
Informacin y las Comunicaciones
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 2
Contenido
Introduccin
planteamiento del problema
Clasificacin Bayesiana
introduccin
minimizacin de la probabilidad de error
clasificadores para distribuciones normales y de distancia mnima
Funciones de discriminacin lineales y el algoritmo del perceptrn
algoritmo bsico del perceptrn
variantes
2
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 3
ndice
Introduccin
Clasificacin Bayesiana
Estimacin de funciones de densidad de probabilidad
Funciones de discriminacin lineales y el algoritmo del perceptrn
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 4
Introduccin
Clasificacin supervisada:
Se trata de clasificar un patrn nuevo en la clase correcta, habiendo
inicialmente diseado un clasificador a partir de la informacin proveniente de un
conjunto de entrenamiento, en el que, en particular, los ejemplares estn
etiquetados con la clase a la que pertenecen
El algoritmo de diseo del clasificador hace uso de las etiquetas para generar
los parmetros del clasificador
3
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 5
ndice
Introduccin
Clasificacin Bayesiana
Estimacin de funciones de densidad de probabilidad
Funciones de discriminacin lineales y el algoritmo del perceptrn
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 6
Clasificacin Bayesiana
Objetivo: clasificar un patrn nuevo en la clase ms probable
Dada una tarea de clasificacin en M clases,
1
,
2
, ...,
M
, y un ejemplar
representado por un vector de caractersticas x, se trata de determinar:
Dado x, cul es la probabilidad de que su clase de origen sea
i
El clasificador decide la clase ms probable en base al mximo de las
probabilidades a posteriori:
Regla de clasificacin Bayesiana
p(
i
|x), i = 1, 2, . . . , M (probabilidades a posteriori )
si p(
i
|x) > p(
j
|x), j = i, entonces x es asignado a la clase
i
4
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 7
Clasificacin Bayesiana
Repaso de probabilidades:
Funcin de probabilidad:
asigna un valor a cada evento v posible en funcin de la frecuencia con que se
presenta dicho evento
puede plantearse como el conjunto de eventos correspondientes a que cierta
variable aleatoria discreta X tome ciertos valores: p(A
i
) = p(X = x
i
)
en particular:
p : [0, 1]
v p(v)
p() =
n
i=1
p(A
i
) = 1
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 8
Clasificacin Bayesiana
Repaso de probabilidades:
Probabilidad condicionada:
Ley de probabilidades totales:
Regla de Bayes
Todo esto se verifica exactamente en las mismas condiciones sustituyendo
probabilidades por funciones de densidad de probabilidad
Dados M eventos A
i
, i = 1, . . . , M, tales que

M
i=1
p(A
i
) = 1
para cualquier evento arbitrario B:
p(B) =
M

i=1
p(B|A
i
)p(A
i
)
p(B|A
i
) =
p(B

Ai)
p(Ai)
A partir de la denicion de probabilidad condicionada,
dados dos eventos A y B:
p(B|A)p(A) = p(A|B)p(B)
5
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 9
Clasificacin Bayesiana
Clasificacin Bayesiana: caso de 2 clases (
1
,
2
)
Sean las probabilidades a priori de las clases p(
1
) y p(
2
)
Si se desconocen, se estiman a travs de las muestras de entrenamiento:
Tambin se suponen conocidas las f.d.p. (funciones de densidad de
probabilidad) de las clases
Si se desconocen, se han de estimar a partir
de los datos de entrenamiento disponibles
(existen tcnicas que permiten hacerlo)
Empleando la regla de Bayes, se deduce que:
p(
1
)
n
1
n
1
+n
2
, p(
2
)
n
2
n
1
+n
2
p(x|
i
), i = 1, 2
probabilidades totales
p(
i
|x) =
p(x|
i
)p(
i
)
p(x)
=
p(x|
i
)p(
i
)

2
i=1
p(x|
i
)p(
i
)
x
p(x|
i
)
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 10
Clasificacin Bayesiana
Clasificacin Bayesiana: caso de 2 clases (
1
,
2
)
Si las probabilidades a priori son iguales (p(
i
) = 1/M = 0.5), entonces la regla
de clasificacin pasa a depender slo de las f.d.p. de las clases:
En el caso unidimensional
( 1 caracterstica), x
0
es un umbral
que particiona el espacio en dos
regiones, R
1
y R
2
Es obvio que los errores de
clasificacin son inevitables:
x puede encontrarse en la regin R
2
y pertenecer a la clase
1
(lo mismo para R
1
y
2
)
p(
i
|x) =
p(x|
i
)p(
i
)
p(x)
p(
i
|x) > p(
j
|x), j = i
p(x|
i
)p(
i
) > p(x|
j
)p(
j
), j = i
p(x|
i
) > p(x|
j
), j = i
x
0
x
p(x|
1
) p(x|
2
)
R
1
R
2
6
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 11
Clasificacin Bayesiana
Clasificacin Bayesiana: caso de 2 clases (
1
,
2
)
En el caso unidimensional, la probabilidad de cometer un error de clasificacin
viene dada por:
TEOREMA
El clasificador Bayesiano minimiza la probabilidad del error de clasificacin
Es decir: si desplazamos x
0
a izquierda o derecha incrementamos P
e
x
0
x
p(x|
1
) p(x|
2
)
R
1
R
2
P
e
= p(x R
2

x es de
1
) +p(x R
1

x es de
2
)
= p(x R
2
|
1
)p(
1
) +p(x R
1
|
2
)p(
2
)
= p(
1
)
_
R2
p(x|
1
)dx +p(
2
)
_
R1
p(x|
2
)dx
=
1
2
__
x0

p(x|
2
)dx +
_
+
x0
p(x|
1
)dx
_
(si p(
1
) = p(
2
) = 0.5)
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 12
Clasificacin Bayesiana
Clasificacin Bayesiana: caso de 2 clases (
1
,
2
)
DEMOSTRACIN (de la optimalidad del clasificador Bayesiano)
Por un lado:
Por otro lado:
Por tanto:
_

p(x|
1
)dx = 1
_

p(
1
|x)p(x)
p(
1
)
dx = 1

_
R1
p(
1
|x)p(x)dx +
_
R2
p(
1
|x)p(x)dx = p(
1
)
P
e
= p(x R
2

1
) +p(x R
1

2
) = p(x R
2
|
1
)p(
1
) +p(x R
1
|
2
)p(
2
)
= p(
1
)
_
R2
p(x|
1
)dx +p(
2
)
_
R1
p(x|
2
)dx
=
_
R2
p(
1
|x)p(x)dx +
_
R1
p(
2
|x)p(x)dx
P
e
= p(
1
)
_
R1
(p(
1
|x)p(
2
|x)) p(x)dx
P
e
es minimo si R
1
se escoge de forma que a lo largo de R
1
p(
1
|x) > p(
2
|x)
7
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 13
Clasificacin Bayesiana
Clasificacin Bayesiana
Ejemplo: sea un problema de 2 clases equiprobables (p(
1
) = p(
2
) = 0.5) tales
que (las f.d.p.s son Gaussianas de varianza 0.5 y medias 0 y 1 respectivamente):
Calcular el umbral ptimo x
0
para probabilidad de error mnima :
p(x|
1
) =
1

e
x
2
, p(x|
2
) =
1

e
(x1)
2
x
0
: p(
1
|x
0
) = p(
2
|x
0
)
x
0
: p(x
0
|
1
)p(
1
) = p(x
0
|
2
)p(
2
)
x
0
: e
x
2
0
= e
(x01)
2
x
2
0
= (x
0
1)
2
= x
2
0
2x
0
+ 1 x
0
= 0.5
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 14
Clasificacin Bayesiana
Clasificacin Bayesiana: caso de 2 clases (
1
,
2
) y 2 caractersticas
Minimizar la probabilidad
de error es equivalente a
particionar el espacio de
caractersticas en M
regiones (tantas como
clases)
Si las regiones R
i
y R
j
son contiguas, estn
separadas por una
curva de decisin que
viene descrita por la ecuacin:
Corresponde a los puntos del
plano en los que las probabilidades
a posteriori coinciden
p(
i
|x) p(
j
|x) = 0
8
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 15
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Asumimos que las f.d.p. de las clases obedecen a una distribucin Gaussiana
L-dimensional:
Modeliza adecuadamente
muchos casos y es tratable
matemtica y computacionalmente
En el caso unidimensional:
p(x|
i
) =
1

(2)
L
|i|
e

1
2
(xi)
T

1
i
(xi)
, i = 1, . . . , M
= E[(x
1
, x
2
, . . . , x
L
)]
T
= (
1
,
2
, . . . ,
L
)
T
= E[(x )(x )
T
] =
_

2
1

12
. . .
1L

21

2
2
. . .
2L
.
.
.
.
.
.
.
.
.

L1

L2
. . .
2
L
_

_
p(x|
i
) =
1

2
e

(x)
2
2
2

s
=
1
N

N
k=1
x
sk

st
=
1
N

N
k=1
(x
sk

s
)(x
tk

t
)
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 16
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Ejemplo:
= (0, 0) =
_
1 1.2
1.2 2
_
9
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 17
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Objetivo: Derivar el clasificador Bayesiano para el caso
Debido a la forma exponencial de las f.d.p.s, es preferible trabajar con las funciones
de discriminacin g
i
(x) siguientes, las cuales involucran a la funcin montona ln():
Finalmente:
g
i
(x) = ln (p(x|
i
)p(
i
)) = ln p(x|
i
) + ln p(
i
)
g
i
(x) = c
i

1
2
(x
i
)
T

1
i
(x
i
) + ln p(
i
)
c
i
=
L
2
ln 2
1
2
ln |
i
|
p(x|
i
) =
1

(2)
L
|i|
e

1
2
(xi)
T

1
i
(xi)
, i = 1, . . . , M
g
i
(x) =
1
2
x
T

1
i
x +
1
2
x
T

1
i

i
+
1
2

T
i

1
i
x
1
2

T
i

1
i

i
+ ln p(
i
) +c
i
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 18
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Caso de 2 caractersticas no correlacionadas
Las reglas de decisin vienen ahora dadas por las ecuaciones g
i
(x) g
j
(x) = 0
L = 2: elipses, parbolas, hiprbolas, etc. cnicas, regla = curva 2D
L = 3: elipsoides, paraboloides, hiperboloides, etc. cudricas, regla = superficie 3D
L > 3: hipercudricas
CLASIFICADOR
CUADRTICO
g
i
(x) =
1
2
_
x
2
1

2
i1
+
x
2
2

2
i2
_
+
_

i1
x
1

2
i1
+

i2
x
2

2
i2
_

1
2
_

2
i1

2
i1
+

2
i2

2
i2
_
+ ln p(
i
) +c
i
L = 2,
i
=
_

2
i1
0
0
2
i2
_
g
i
(x) =
1
2
x
T

1
i
x +
1
2
x
T

1
i

i
+
1
2

T
i

1
i
x
1
2

T
i

1
i

i
+ ln p(
i
) +c
i

10
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 19
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Ejemplo: (clases equiprobables)

1
= (0, 0)
T
,
2
= (1, 0)
T
,
1
=
_
0.10 0.00
0.00 0.15
_
,
2
=
_
0.20 0.00
0.00 0.25
_
g
1
(x) = 5.0 x
1
2
3.3 x
2
2
+ 0.2620
g
2
(x) = 2.5 x
1
2
2.0 x
2
2
+ 5.0 x
1
2.840
g
1
(x) g
2
(x) = 2.500 x
1
2
1.333 x
2
2
+ 3.102 5.0 x
1
= 0
-5 0 5
-6
-4
-2
0
2
4
6
x
1
x
2
1

2
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 20
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Ejemplo: (clases equiprobables)

1
= (0, 0)
T
,
2
= (1, 0)
T
,
1
=
_
0.10 0.00
0.00 0.15
_
,
2
=
_
0.15 0.00
0.00 0.10
_
g
1
(x) = 5.0 x
1
2
3.333 x
2
2
+ 0.2620
g
2
(x) = 3.333 x
1
2
5.0 x
2
2
+ 6.667 x
1
3.071
g
1
(x) g
2
(x) = 1.667 x
1
2
+ 1.667 x
2
2
+ 3.333 6.667 x
1
= 0
-5 0 5
-6
-4
-2
0
2
4
6
x
1
x
2
2

2
11
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 21
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Clases con la misma matriz de covarianza: hiperplanos de decisin
Si las clases tienen la misma matriz de covarianza (
i
= ) entonces el trmino
cuadrtico y parte del constante coinciden en todas las funciones de discriminacin:
Por tanto, desaparece de las ecuaciones g
i
(x) g
j
(x) = 0. Esto permite definir unas
funciones de discriminacin ms tiles:
De esta forma, las funciones de discriminacin son lineales (y no cuadrticas) y las
reglas de decisin pasan a ser hiperplanos de decisin: (2D) rectas, (3D) planos, ...
Veamos dos casos para la matriz de covarianza: (1) =
2
I y (2) cualquier
g
i
(x) =
1
2
x
T

1
x +
1
2
x
T

i
+
1
2

T
i

1
x
1
2

T
i

1

i
+ ln p(
i
) +c
g
i
(x) = w
T
i
x +w
i0
w
T
i
=
T
i

1
, w
i0
= ln p(
i
)
1
2

T
i

1

i
CLASIFICADOR
LINEAL
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 22
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Clases con la misma matriz de covarianza: =
2
I
Entonces, las funciones de discriminacin pasan a tener las siguientes expresiones:
de forma que las reglas de decisin se pueden escribir como:
g
i
(x) =
1

T
i
x +w
i0
=
1

T
i
x + ln p(
i
)
1
2
2

T
i

i
g
ij
(x) g
i
(x)g
j
(x) = 0

2
(
T
i

T
j
)x + ln p(
i
) ln p(
j
)
1
2
2
_

T
i

i

T
j

j
_
= 0
(
i

j
)
T
x +
2
ln
p(
i
)
p(
j
)

1
2
(
i

j
)
T
(
i
+
j
) = 0
(
i

j
)
T
_
x +
2
ln
_
p(
i
)
p(
j
)
_

i

j

i

j

2

1
2
(
i
+
j
)
_
= 0
w
T
(x x
0
) = 0
w =
i

j
, x
0
=
1
2
(
i
+
j
)
2
ln
_
p(
i
)
p(
j
)
_

i

i

j

2
12
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 23
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Clases con la misma matriz de covarianza: =
2
I
reglas de decisin:
caso de 2 caractersticas:
CUL es esta recta?
g
ij
(x) : w
T
(x x
0
) = 0
w =
i

j
, x
0
=
1
2
(
i
+
j
)
2
ln
_
p(
i
)
p(
j
)
_

i

j

i

j

2
g
ij
(x) : w
T
(x x
0
) = 0

1
x
1
+
2
x
2

1
x
01

2
x
02
= 0
Ax
1
+Bx
2
+C = 0
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 24
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Clases con la misma matriz de covarianza: =
2
I
reglas de decisin: caso de 2 caractersticas
cualquier punto x
tal que x x
0
sea
ortogonal a
i
-
j
pertenece a la recta
x
0
siempre est sobre
el vector
i
-
j
si p(
i
) = p(
j
), x
0
es el
promedio de
i
y
j
si p(
i
) < p(
j
), x
0
se desplaza hacia
i
sobre
i
-
j
x
2
x
1

i
-
j
x
0
x
g
ij
(x) : w
T
(x x
0
) = 0
w =
i

j
, x
0
=
1
2
(
i
+
j
)
2
ln
_
p(
i
)
p(
j
)
_

i

j

i

j

2
13
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 25
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Clases con la misma matriz de covarianza: =
2
I
los crculos corresponden a 3 98%
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 26
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Clases con la misma matriz de covarianza: cualquier
Recuperamos las funciones de discriminacin lineales originales:
Entonces:
g
i
(x) = w
T
i
x +w
i0
w
T
i
=
T
i

1
, w
i0
= ln p(
i
)
1
2

T
i

1

i
g
ij
(x) g
i
(x)g
j
(x) = 0
(
i

j
)
T

1
x + ln
_
p(
i
)
p(
j
)
_

1
2
(
i

j
)
T

1
(
i
+
j
) = 0
(
i

j
)
T

1
_
x + ln
_
p(
i
)
p(
j
)
_

i

j
(
i

j
)
T

1
(
i

j
)

1
2
(
i
+
j
)
_
= 0
w
T
(x x
0
) = 0
w =
1
(
i

j
) , x
0
=
1
2
(
i
+
j
) ln
_
p(
i
)
p(
j
)
_

i

j
(
i

j
)
T

1
(
i

j
)
14
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 27
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Clases con la misma matriz de covarianza: cualquier
el hiperplano de decisin ya no es necesariamente
ortogonal a
i
-
j
sino a
-1
(
i
-
j
)

-1
(
i
-
j
) es el resultado de transformar (
i
-
j
) a travs
de la matriz
-1
x
0
siempre est sobre el vector
i
-
j
si p(
i
) = p(
j
), x
0
es el promedio de
i
y
j
si p(
i
) < p(
j
), x
0
se desplaza hacia
i
sobre
i
-
j
g
ij
: w
T
(x x
0
) = 0
w =
1
(
i

j
)
x
0
=
1
2
(
i
+
j
) ln
_
p(
i
)
p(
j
)
_

i

j
(
i

j
)
T

1
(
i

j
)
x
2
x
1

i
-
j
x
0
x
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 28
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Ejemplo: en un problema de clasificacin bidimensional en dos clases
equiprobables, las clases presentan dos distribuciones normales con los
siguientes parmetros:
Clasificar el vector x = (1.0,2.2)
T
utilizando un clasificador Bayesiano.
Por tanto, x
1
.

1
= (0, 0)
T
,
2
= (3, 3)
T
, =
1
=
2
=
_
1.1 0.3
0.3 1.9
_
g
12
= w
T
(x x
0
)
w =
1
(
1

2
)
x
0
=
1
2
(
1
+
2
) ln
_
p(
1
)
p(
2
)
_

1

2
(
1

2
)
T

1
(
1

2
)
g
12
= (3, 3)
_
1.1 0.3
0.3 1.9
_
1
_
(1, 2.2)
T
(1.5, 1.5)
T
_
= 0.36 > 0
15
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 29
> 0 > 0 > 0
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Hasta ahora hemos considerado pares de clases y hemos derivado las fronteras
entre pares de clases a travs de las funciones de discriminacin:
En el caso de un problema de 2 clases:
Si hay ms clases, hay que determinar g
i
| g
i
> g
j
, j i, por lo que hay que
emplear varias g
ij
para decidir, ya que las g
ij
aisladas slo nos sirven para trazar
las fronteras. Por ejemplo, para 3 clases:
para determinar R
i
necesitamos las {g
ik
, g
ki
}
M clases: M-1 pares; 1 con las M-1 restantes
si g
12
> 0, entonces x
1
si g
12
< 0, entonces x
2
g
ij
(x) = g
i
(x) g
j
(x)
R
1
(
1
): g
12
> 0
g
13
> 0
R
3
(
3
):
g
13
< 0
g
23
< 0
R
2
(
2
):
g
12
< 0
g
23
> 0

i
( 0, 0)
(-2, 2)
(+2, 2)
= 1
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 30
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Clasificadores de distancia mnima
Vamos a ver lo anterior desde otro punto de vista
Asumimos clases equiprobables con la misma matriz de covarianza. Entonces:
Asignamos x a la clase para la que la probabilidad es mayor g
i
(x) > g
j
(x) j i
(1) Si =
2
I, g
i
(x) es mayor cuanto ms cerca est x de
i
asignar x a la clase cuyo centro
i
est ms prximo (distancia eucldea)
(2) Para genrico, hay que asignar x a la clase para la que la expresin siguiente es
menor:
d
m
distancia de Mahalanobis
g
i
(x) = c
i

1
2
(x
i
)
T

1
i
(x
i
) + ln p(
i
)
c
i
=
L
2
ln 2
1
2
ln|
i
|
_

_

g
i
(x) =
1
2
(x
i
)
T

1
(x
i
)
d
2
m
= (x
i
)
T

1
(x
i
)
16
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 31
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Clasificadores de distancia mnima
En el caso (1), los puntos a la misma distancia (eucldea) se
encuentran sobre circunferencias (hiperesferas en el caso
general):
En el caso (2), los puntos a la misma distancia (de mahalanobis) se
encuentran sobre elipses (hiperelipsoides en el caso general):
d
2
m
= (x
i
)
T

1
(x
i
) = c
2
=
T

1
=
T

1
=
1

T
(x
i
)
T

T
(x
i
) = c
2
(x

i
)
T

1
(x

i
) = c
2
(x1i1)
2
1
+
(x2i2)
2
2
= c
2
d
e
=
_
x
i
= c
(x
1

i1
)
2
+ (x
2

i2
)
2
= c
2
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 32
Clasificacin Bayesiana
Clasificacin Bayesiana para distribuciones normales
Ejemplo: en un problema de clasificacin bidimensional en dos clases
equiprobables, las clases presentan dos distribuciones normales con los
siguientes parmetros:
Clasificar el vector x = (1.0,2.2)
T
utilizando un clasificador Bayesiano.
d
m
(x,
1
) < d
m
(x,
2
) x
1
.
NOTA: las distancias eucldeas seran d
e
(x,
1
) = 2.417 y d
e
(x,
2
) = 2.154, por lo que,
si las utilizramos, haramos x
2
.

1
= (0, 0)
T
,
2
= (3, 3)
T
, =
1
=
2
=
_
1.1 0.3
0.3 1.9
_
d
2
m
(x,
1
) = (x
1
)
T

1
(x
1
)
= (1.0, 2.2)
_
0.95 0.15
0.15 0.55
__
1.0
2.2
_
= 2.952
d
2
m
(x,
2
) = (x
2
)
T

1
(x
2
)
= (2.0, 0.8)
_
0.95 0.15
0.15 0.55
__
2.0
0.8
_
= 3.672
17
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 33
ndice
Introduccin
Clasificacin Bayesiana
Estimacin de funciones de densidad de probabilidad
Funciones de discriminacin lineales y el algoritmo del perceptrn
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 34
Estimacin de funciones de densidad de probabilidad
El clasificador Bayesiano asume que disponemos de f.d.p.s de las clases del
problema.
Hay diferentes mtodos para obtener este tipo de informacin:
Se conoce la expresin de la f.d.p. pero se desconocen los parmetros
Estimadores de mxima verosimilitud
otros ...
No se conoce la expresin de la f.d.p. estimacin no paramtrica
Mtodo de las ventanas de Parzen
Mtodo de los k vecinos ms prximos (KNN, K-nearest neighbour)
otros ...
Estimacin de funciones de
densidad de probabilidad
18
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 35
Estimacin de funciones de densidad de probabilidad
Estimadores de mxima verosimilitud
Sea un problema de clasificacin en M clases cuyos vectores de caractersticas se
distribuyen de acuerdo con p(x|
i
;
i
), i = 1,...,M, donde
i
es el vector de
parmetros para la clase
i
Se trata de estimar
i
a partir de un conjunto de muestras x
1
, x
2
, ..., x
N
correspondientes a la
clase
i
Asumimos que las muestras de una clase no afectan a la estimacin de parmetros
para las otras clases para poder formular el problema independientemente de la clase
La estimacin se repite para cada clase
De esta forma, dadas las muestras estadsticamente independientes x
1
, x
2
, ..., x
N
provenientes de p(x;), calculamos la f.d.p. conjunta siguiente:
Entonces la estimacin de de mxima verosimilitud corresponde a:
Representa el que mejor se adecua a las muestras x
1
, x
2
, ..., x
N

ML
| p(X;

ML
) = max{p(X; )}
p(X; ) p(x
1
, x
2
, . . . , x
N
; ) =

N
k=1
p(x
k
; )
Estimacin de funciones de
densidad de probabilidad
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 36
Estimacin de funciones de densidad de probabilidad
Estimadores de mxima verosimilitud
Para ello hay que derivar e igualar a 0. Para simplificar los clculos acudiremos una
vez ms a la funcin ln() para definir la funcin log-verosimilitud:
Ahora s derivamos e igualamos a 0:
Para valores de N suficientemente elevados, el estimador de mxima verosimilitud es
asintticamente no sesgado, responde a una distribucin normal y presenta la
mnima varianza posible
L() ln

N
k=1
p(x
k
; ) =

N
k=1
ln p(x
k
; )
Estimacin de funciones de
densidad de probabilidad
L()

=
N

k=1
ln p(x
k
; )

=
N

k=1
1
p(x
k
; )
p(x
k
; )

= 0
19
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 37
Estimacin de funciones de densidad de probabilidad
Estimadores de mxima verosimilitud
Distribucin Gaussiana L-dimensional y conocida
Distribucin Gaussiana L-dimensional, y desconocidas

ML
=
1
N
N

k=1
x
k

ML
=
1
N
N

k=1
x
k
,

ML
=
1
N
N

k=1
(x
k

ML
)(x
k

ML
)
T
Estimacin de funciones de
densidad de probabilidad
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 38
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica
Se trata de estimar una cierta f.d.p. p(x) sin estimar previamente sus parmetros. De
hecho, ni siquiera se intenta asimilar p(x) a alguna f.d.p. conocida.
Sea una cierta regin R del espacio de caractersticas. La probabilidad P
R
de que un
cierto x pertenezca a R viene dada por:
Supongamos que disponemos de N muestras independientes x
1
, x
2
, ..., x
N
correspondientes a la f.d.p. que queremos estimar.
k
N,R
= cuntas de las N muestras pertenecen a la regin R
k
N,R
/ N es una estimacin de P
R
para cada x, lo cual es a su vez una estimacin de p(x)
Estimacin de funciones de
densidad de probabilidad
P
R
= p(x R) =
_
R
p(x

)dx

para diferentes
regiones R
20
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 39
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica
Ahora hacemos R suficientemente pequea como para que p(x) sea aproximadamente
constante dentro de R. Entonces:
... donde V es el (hiper)volumen ocupado por la regin R (1D longitud, 2D rea,
3D volumen, etc)
p.e. si R es un (hiper)cubo de dimensin L y longitud de lado h, V = h
L
Por tanto:
p
N,R
(x) p(x) a medida que N si se verifica:
V 0 (regiones pequeas)
k
N,R
(nmero suficiente de muestras en cada R)
k
N,R
/N 0 (nmero total de muestras elevado)
En resumen: para cada x, p(x) se aproxima definiendo una regin R pequea
alrededor de x y contando cuntos de los x
i
caen en R ( = k
N,R
);
k
N,R
>>> y N >>>, entonces p
N,R
(x) p(x)
Estimacin de funciones de
densidad de probabilidad
P
R
=
_
R
p(x

)dx

p(x)
_
R
dx

= p(x)V
p(x)V
k
N,R
N
p(x)
k
N,R
/N
V
=
P
R
V
= p
N,R
(x)
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 40
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: ventanas de Parzen (Parzen, 1962)
Supongamos una regin R con forma de (hiper)cubo L-dimensional de lado h
N
.
Entonces:
Sea la siguiente funcin (funcin de ventana o kernel):
Entonces, para un cierto x:
Entonces, el nmero de muestras que se encuentran dentro del (hiper)cubo centrado
en x es:
V
N
= (h
N
)
L
(u) =
_
1 |u
j
|
1
2
, j = 1, . . . , L
0 en caso contrario
Estimacin de funciones de
densidad de probabilidad

_
xxi
h
N
_
= 1 si x
i
(hiper)cubo de volumen V
N
centrado en x
k
N
(x) =
N

i=1

_
x x
i
h
N
_
21
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 41
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: ventanas de Parzen
Finalmente:
Por tanto, dado cierto x, para obtener la estimacin de p(x): (caso 1D)
function p = parzen_cubo_1D(x,X,h)
% x = punto a evaluar
% X = vector de muestras
% h = longitud del lado del (hiper)cubo
N = length(X); kn = 0;
for i=1:N
if abs((x-X(i))/h) <= 0.5, kn = kn+1; end
end
p = (kn/N)/h;
Estimacin de funciones de
densidad de probabilidad
p
N
(x) =
k
N
(x)/N
V
N
=
1
N
N

i=1
1
h
L
N

_
x x
i
h
N
_
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 42
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: ventanas de Parzen
Comentarios sobre p
N
:
p
N
es una f.d.p. legtima
_
1
N
N

i=1
1
h
L
N

_
x x
i
h
N
_
dx =
1
N
N

i=1
1
h
L
N
_

_
x x
i
h
N
_
dx =
= {u = x x
i
} =
1
N
N

i=1
1
h
L
N
_

_
u
h
N
_
du =
=
1
N
N

i=1
1
h
L
N
_
(+hN/2,...,+hN/2)
(hN/2,...,hN/2)
du =
1
N
N

i=1
1
h
L
N
h
L
N
= 1
1. p
N
(x) 0, x (obvio, es una suma de 1s)
2.
_
p
N
(x)dx = 1
Estimacin de funciones de
densidad de probabilidad
22
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 43
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: ventanas de Parzen
Comentarios sobre p
N
:
p
N
es el promedio de N funciones centradas en las muestras x
i
Si h
N
es grande, la amplitud de
N
es pequea y p
N
es la superposicin
de N funciones anchas
Si h
N
es pequeo, la amplitud de
N
es grande y p
N
es la superposicin
de N pulsos agudos
h
N
0
N

p
N
(x) =
1
N
N

i=1

N
(x x
i
)

N
(u) =
1
h
L
N

_
u
h
N
_

N
1

N
2

N
3

N
4
x
1
x
2
x
3
x
4
x
5

N
5
1
N

i=1
x
1
x
2
x
3
x
4
x
5
1
hN
Estimacin de funciones de
densidad de probabilidad
pN(x) =
1
N
N

i=1
1
h
L
N

_
x xi
hN
_
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 44
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: ventanas de Parzen
Ejemplo: N valores aleatorios extrados de una distribucin N(0,1) kernel rectangular
ms suave
ms ruidoso
mejor estimacin
Estimacin de funciones de
densidad de probabilidad
23
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 45
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: ventanas de Parzen
Como ya hemos visto en el ejemplo anterior, al aproximar funciones continuas [p()]
por funciones escaln discontinuas [()], la estimacin resultante presenta tambin
discontinuidades
Para evitarlo, el propio Parzen sugiri utilizar kernels ( ) continuos
Se puede demostrar que la estimacin p
N
(x) resultante es una f.d.p. legtima si:
Uno de los ms utilizados es el kernel Gaussiano
de media 0 y varianza 1:
(u) 0 y
_
(u)du = 1
function p = parzen_gauss_1D(x,X,h)
% x = punto a evaluar
% X = vector de muestras
% h = ancho de banda (desviacion tipica)
N = length(X); kn = 0;
for i=1:N
kn = kn + 1/(sqrt(2*pi))*exp(-0.5*((x-X(i))/h)^2);
end
p = (kn/N)/h;
Estimacin de funciones de
densidad de probabilidad
(u) =
1

(2)
L
e

1
2
u
T
u
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 46
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: ventanas de Parzen
Ahora p
N
(x) se obtiene como el promedio de N Gaussianas
centradas en las muestras x
i
Efecto de variar
el ancho de banda h
N
Estimacin de funciones de
densidad de probabilidad
24
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 47
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: ventanas de Parzen
Ejemplo: N valores aleatorios extrados de una distribucin N(0,1) kernel Gaussiano
ms suave
ms ruidoso
mejor estimacin
Estimacin de funciones de
densidad de probabilidad
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 48
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: k vecinos ms prximos
Dado x y una coleccin de muestras x
1
, x
2
,..., x
N
, provenientes de una cierta f.d.p.
p(x), para estimar p(x):
Mtodo de las ventanas de Parzen se fija un volumen de bsqueda alrededor de x, V
N
, y
se determina el nmero k
N
de muestras pertenecientes a dicho volumen
Mtodo de los k vecinos ms prximos se buscan las k
N
muestras ms prximas a x y
se determina el volumen que las contiene V
kN
Estimacin de funciones de
densidad de probabilidad
p
N
(x) =
k
N
/N
VN
p
N
(x) =
kN/N
V
kN
function p = knn_1D(x,X,k)
% x = punto a evaluar
% X = vector de muestras
% k = nmero de vecinos
N = length(X);
d = abs(X - x);
ds = sort(d);
V = 2*ds(min(N,k));
p = (k/N)/V;
25
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 49
Estimacin de funciones de densidad de probabilidad
Estimacin no paramtrica: k vecinos ms prximos
Ejemplo: N valores aleatorios extrados de una distribucin N(0,1)
En este caso, se ha empleado:
En el caso de las ventanas de Parzen, se sugiere:
mejor estimacin
Estimacin de funciones de
densidad de probabilidad
h
N
=
h
1

N
k
N
=

N
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 50
ndice
Introduccin
Clasificacin Bayesiana
Estimacin de funciones de densidad de probabilidad
Funciones de discriminacin lineales y el algoritmo del perceptrn
26
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 51
Ya hemos visto que, dependiendo de las f.d.p.s de las clases (caso
Gaussiano), un clasificador Bayesiano puede derivar en un conjunto de
funciones de discriminacin lineales. Por ejemplo, para 2 clases:
clasificador simple y computacionalmente muy interesante
En esta seccin del tema, nos volvemos a concentrar en funciones de
discriminacin lineales, pero desde una perspectiva diferente: no
asumimos una f.d.p. para las clases
Por tanto, independientemente de la f.d.p. de las clases, esperamos que stas
sean separables mediante (hiper)planos (1D punto, 2D recta, 3D plano, etc.)
En este caso se dice que las clases son linealmente separables
Veremos cmo se puede encontrar un (hiper)plano que separe las clases entre s
(algoritmo del perceptrn)
Funciones de discriminacin lineales y
el algoritmo del perceptrn
g
12
(x) = w
T
(x x
0
) , g
12
(x)
_
> 0 x
1
< 0 x
2
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 52
Funciones de discriminacin lineales
Objetivo: encontrar un (hiper)plano que permita separar las muestras de
entrenamiento de 2 clases
Por ejemplo, L = 2 caractersticas:
Funciones de discriminacin lineales y
el algoritmo del perceptrn
??
g
12
(x) = w
T
(x x
0
) , g
12
(x)
_
> 0 x
1
< 0 x
2
(hiper)plano: x | g
12
(x) = w
T
(x-x
0
) = 0
(w
1
, w
2
)
__
x
1
x
2
_

_
x
01
x
02
__
= 0
w
1
x
1
+w
2
x
2
(w
1
x
01
+w
2
x
02
) = 0
w
1
x
1
+w
2
x
2
+w
0
= 0
x
1
x
2

w0
w2

w0
w1
27
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 53
Funciones de discriminacin lineales
Por el momento, consideramos (hiper)planos que pasan por el origen:
Funciones de discriminacin lineales y
el algoritmo del perceptrn
x
0
= 0 es equivalente a
hacer w
0
= 0 en el caso
general
x
1
x
2 w
0
= 0

w
1
x
1
+w
2
x
2
= 0

w
T
x = 0
x
w
w = 1
w
T
x
i
= wx
i
cos = 0

x
i
cos = d
x
1
x
2
x
i
d
w

d > 0
d < 0
w es un vector ortogonal
a la recta
w
T
x
i
indica cmo de lejos est la muestra del
(hiper)plano de discriminacin
_
[

2
, +

2
] w
T
x
i
= d > 0
|| >

2
w
T
x
i
= d < 0
0
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 54
Funciones de discriminacin lineales: planteamiento del problema
Asumimos que las clases
1
y
2
son linealmente separables y, por tanto, que
existe un (hiper)plano definido por w
T
x = 0 tal que:
Para encontrar el (hiper)plano, planteamos la siguiente funcin (coste del
perceptrn):
donde:
Funciones de discriminacin lineales y
el algoritmo del perceptrn
J(w) =

xiY
(
xi
w
T
x
i
)
w
T
x
i
> 0 , x
i

1
w
T
x
i
< 0 , x
i

2
Y es el conjunto de muestras x
i
mal clasicadas por w

xi
= 1 si x
i

1
y
xi
= +1 si x
i

2
J(w) > 0, w
(x
i

1
pero x
i

2
, entonces
xi
w
T
x
i
= (1)(< 0) > 0)
J(w) = 0 si las muestras estan bien clasicadas (Y = )
J(w) es continua y lineal a trozos (si variamos w, J vara
linealmente hasta que Y cambia) minimizacion no trivial
28
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 55
Funciones de discriminacin lineales: algoritmo del perceptrn
El siguiente esquema iterativo (algoritmo del perceptrn, Rosenblatt 1950s)
encuentra un hiperplano que separa las 2 clases si stas son linealmente
separables:
La convergencia se produce si las clases son linealmente separables y si la
secuencia de valores
t
cumple ciertas condiciones:
por ejemplo,
t
= c/t y
t
= ( acotado) cumplen con las condiciones
la secuencia
t
determina la velocidad de convergencia
Funciones de discriminacin lineales y
el algoritmo del perceptrn
lim
t
t

k=0

k
= , lim
t
t

k=0

2
k
<
w(t + 1) = w(t)
t

xiY

xi
x
i
w(0) = cualquier vector de R
L
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 56
Funciones de discriminacin lineales: algoritmo del perceptrn
Variantes del algoritmo bsico:
(1a) Para tratar clases que necesitan un (hiper)plano que no pase por el origen, los
vectores de caractersticas pasan a ser x
i
* = (x
i
,1)
T
y se plantea el (hiper)plano:
Para simplificar, emplearemos w
T
en vez de (w*)
T
y x en vez de x*
(1b) Por otro lado, el clculo de la
modificacin de w en cada
iteracin se puede ver como:
Funciones de discriminacin lineales y
el algoritmo del perceptrn

w
T
x +w
0
= 0
(w

)
T
..
(w
1
, w
2
, ..., w
L
. .
w
T
, w
0
)
_
_
_
_
_
_
_
x
#1
x
#2
.
.
.
x
#L
1
_
_
_
_
_
_
_
= (w

)
T
x

= 0
w(t + 1) = w(t)
t

xiY

xi
x
i
S = (
L+1
..
0, 0, . . . , 0)
T
para i = 1 hasta n total muestras
si xi 1 y w(t)
T
xi < 0, entonces S = S + txi
sino
si xi 2 y w(t)
T
xi > 0, entonces S = S txi
n para
w(t + 1) = w(t) +S
29
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 57
Funciones de discriminacin lineales: algoritmo del perceptrn
Variantes del algoritmo bsico:
(1) Ejemplo:
La lnea discontinua corresponde a:
donde el vector w = (1,1,-0.5)
T
es el
resultado del paso anterior del algoritmo
del perceptrn original con
t
= = 0.7
Las muestras clasificadas incorrectamente son
(0.40,0.05)
T
y (-0.20,0.75)
T
Aplicando un nuevo paso del algoritmo:
El resultado clasifica correctamente todas las muestras y el algoritmo termina con el
(hiper)plano:
Funciones de discriminacin lineales y
el algoritmo del perceptrn
+
+
+
+
+ +
+
+
+
x
1
x
2
-0.5
-0.5
1
1
1.42x
1
+ 0.51x
2
0.5 = 0
w(t + 1) =
_
_
1
1
0.5
_
_
0.7(1)
_
_
0.40
0.05
1
_
_
0.7(+1)
_
_
0.20
0.75
1
_
_
=
_
_
1.42
0.51
0.5
_
_
w(t + 1) = w(t)

xiY

xi
x
i
(1, 1, 0.5)x =
x
1
+x
2
0.5 = 0

2
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 58
Funciones de discriminacin lineales: algoritmo del perceptrn
Variantes del algoritmo bsico:
(1) Ejemplo:
Funciones de discriminacin lineales y
el algoritmo del perceptrn
= 1.5
w(0) = +0.74 +0.67 +0.92
w(1) = -218.29 +77.27 +23.42
w(2) = -152.98 +179.38 +11.42
w(3) = -139.43 +188.33 +9.92
w(4) = -125.88 +197.29 +8.42
30
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 59
Funciones de discriminacin lineales: algoritmo del perceptrn
Variantes del algoritmo bsico:
(1) Implementacin:
Funciones de discriminacin lineales y
el algoritmo del perceptrn
function ww = perceptron_2D(data,rho,nit)
n = size(data,1)/2; % n de elementos de cada clase
w0 = rand; w1 = rand; w2 = sqrt(1-w1^2); % inicializacin aleatoria de w
w = [w1 w2 w0]';
x = [data(:,1:2)'; ones(1,2*n)]; % paso de x a x*
for t = 1:nit
sumato = zeros(3,1); ic = 0; % inicializacin de la iteracin
for k = 1:2*n % sumatorio
xi = x(:,k);
if w'*xi < 0 & data(k,3) == 1, sumato = sumato + rho*xi; ic = ic + 1;
elseif w'*xi > 0 & data(k,3) == 2, sumato = sumato - rho*xi; ic = ic + 1;
end
end
w = w + sumato; % actualizacin de w
if ic == 0, break; end % incorrectamente clasificados = 0?
end
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 60
Funciones de discriminacin lineales: algoritmo del perceptrn
Variantes del algoritmo bsico:
(2) Algoritmo del bolsillo
Se detiene al cabo de T iteraciones y proporciona el mejor (hiper)plano que ha
encontrado
Resuelve parcialmente el problema de convergencia del algoritmo del perceptrn
cuando las clases no son linealmente separables
Funciones de discriminacin lineales y
el algoritmo del perceptrn
(1) Inicializar w(0) aleatoriamente
(2) w
s
w(0),
h
s
no. de patrones clasicados correctamente por w(0)
(3) para t = 0 hasta T
(3.1) w(t + 1) = w(t) t

x
i
Y
x
i
xi
(3.2) h = no. de patrones clasicados correctamente por w(t + 1)
(3.3) si h > hs
entonces ws w(t + 1), hs h
n para
31
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 61
Funciones de discriminacin lineales: algoritmo del perceptrn
Variantes del algoritmo bsico:
(3) Construccin de Kesler
Permite tratar M > 2 clases
Para cada muestra de la clase
i
, x
ik
, se definen M-1 vectores de dimensin
(L+1)M 1, de forma que en la posicin de bloque i se coloca x
ik
(posicin de
i
)
y en la posicin de bloque j coloca x
ik
(posicin de
j
)
Los (M-1)N vectores resultantes son luego clasificados mediante el algoritmo del
perceptrn forzando a que se verifique ( el algoritmo se detiene cuando ...):
El vector resultante contiene en la posicin de bloque i el vector w
i
para la clase

i
, de forma que x es asignado a la clase
i
si:
y:
Funciones de discriminacin lineales y
el algoritmo del perceptrn
w
T
x
k
= (w
T
1
, w
T
2
, . . . , w
T
M
) x
k
> 0 , k
g
ij
= (w
i
w
j
)
T
x

w
T
i
x > w
T
j
x, j = i
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 62
Funciones de discriminacin lineales: algoritmo del perceptrn
Variantes del algoritmo bsico:
(3) Ejemplo: sean las muestras de un
problema de clasificacin en 3 clases:
Funciones de discriminacin lineales y
el algoritmo del perceptrn

2
: (1, 2)
T
(
x[1]
..
1, 2, 1,
x[2]
..
1, 2, 1,
0
..
0, 0, 0)
T
(
0
..
0, 0, 0,
x[2]
..
1, 2, 1,
x[3]
..
1, 2, 1, )
T

2
: . . .

3
: (2, 1)
T
(
x[1]
..
2, 1, 1,
0
..
0, 0, 0,
x[3]
..
2, 1, 1)
T
(
0
..
0, 0, 0,
x[2]
..
2, 1, 1,
x[3]
..
2, 1, 1)
T

3
: . . .

1
: (1, 1)
T
(
x[1]
..
1, 1, 1,
x[2]
..
1, 1, 1,
0
..
0, 0, 0)
T
(
x[1]
..
1, 1, 1,
0
..
0, 0, 0,
x[3]
..
1, 1, 1)
T

1
: . . .
resolver exigiendo: w
T
x > 0 , x
w = (
w
T
1
..
w
11
, w
12
, w
13
,
w
T
2
..
w
21
, w
22
, w
23
,
w
T
3
..
w
31
, w
32
, w
33
)
T

1

2

3
(1, 1)
T
(1, 1)
T
(1, 1)
T
(2, 2)
T
(1, 2)
T
(0, 1)
T
(1, 2)
T
(0, 1)
T
(2, 1)
T
(2, 1)
T
(0, 2)
T
(1, 0)
T

t
= = 0.5 w
1
= (2.47, 1.66, 0.37)
T
w
2
= (1.01, 1.36, 0.18)
T
w
3
= (2.07, 1.39, 2.23)
T
32
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 63
Funciones de discriminacin lineales: algoritmo del perceptrn
Variantes del algoritmo bsico:
(3) Ejemplo:
Funciones de discriminacin lineales y
el algoritmo del perceptrn

1

2

3
(1, 1)
T
(1, 1)
T
(1, 1)
T
(2, 2)
T
(1, 2)
T
(0, 1)
T
(1, 2)
T
(0, 1)
T
(2, 1)
T
(2, 1)
T
(0, 2)
T
(1, 0)
T
w
1
= (2.47, 1.66, 0.37)
T
w
2
= (1.01, 1.36, 0.18)
T
w
3
= (2.07, 1.39, 2.23)
T

g
12
= 1.46x
1
+3.02x
2
+0.55
g
13
= 4.54x
1
+0.3x
2
1.86
g
23
= 3.08x
1
2.75x
2
2.41
Alberto Ortiz / EPS (ltima revisin 25/06/2010) 64
Funciones de discriminacin lineales: algoritmo del perceptrn
Implementacin de la operacin de clasificacin
Una vez el algoritmo del perceptrn ha convergido hacia un cierto (hiper)plano
caracterizado por w = (w
1
,w
2
,...,w
L
,w
0
), la siguiente estructura permite implementar la
operacin de clasificacin:
Constituye el ejemplo ms simple de mquina que aprende ( estructura cuyos parmetros
libres son actualizados mediante un algoritmo de aprendizaje para aprender una cierta tarea
en base a datos de entrenamiento)
Funciones de discriminacin lineales y
el algoritmo del perceptrn

x
#1
x
#2
x
#L
f
nodos de
entrada
w
1
w
2
w
L
w
0
pesos
sinpticos
umbral
funcin de
activacin
p.e. limitador estricto
f(u) =
_
1 u < 0
+1 u > 0
w
T
x +w
0
> 0 , x
1
w
T
x +w
0
< 0 , x
2
perceptrn o
neurona [artificial]
(de McCulloch-Pitts)

You might also like