You are on page 1of 22

INDICE

2.1 Decisin Bayesiana (MAP)


2.2. Estimacin de mxima verosimilitud (ML) y
estimacin Bayesiana de parmetros
2.2.1
2.2.2
2.2.3
2.2.4

Introduccin
Estimacin ML
Estimacin Bayesiana
Conclusiones

2.2.1

INTRODUCCIN

La clasificacin bayesiana precisa del conocimiento de fx(x |i) y


de Pr(i). Para el clculo de estas magnitudes se requiere:
- Disponer de una serie de datos previamente
clasificados de forma fiable.
- Disponer de un estimador de esas probabilidades.
La estimacin de fx(x |i) requiere muchos datos a menos que
podamos definir una funcin que dependa de unos pocos
parmetros i.
Caso gaussiano: i contiene la media y la matriz de covarianza

=
f x (x | i , i )

( 2 )

d /2

Ci

1/ 2

T
1

exp ( x i ) Ci1 ( x i )
2

Existen dos alternativas:


1.

Estimacin de mxima verosimilidud (ML): Los


parmetros a estimar se consideran deterministas
(aunque desconocidos).

2.

Estimacin bayesiana: Los parmetros son variables


de las que se tiene un conocimiento a priori
(relacionado con el concepto de creencia y asociado
a una funcin de densidad de probabilidad). La
definicin del estimador bayesiano permite mejorar
fcilmente la estimacin de fx(x|i) cuando se dispone
de nuevos datos.

Suponemos que disponemos de una base de datos etiquetada (un


conjunto de vectores de caractersticas clasificados por categoras).
A partir de una particin aleatoria de sta (base de datos de
entrenamiento) hemos de determinar fx(x|i):

c1 : 1

D1 = x1,1 , x 2,1 ,..., x Nc ,1


1

c2 : 2

c3 : 3

D2 = x1,2 , x 2,2 ,..., x Nc

,2
2

D3 = x1,3 , x 2,3 ,..., x Nc

,3

El resto de vectores se usar para evaluar las prestaciones del


clasificador (base de datos de test).

2.2.2

ESTIMACIN DE MXIMA VEROSIMILITUD (ML)

Si en cada clase i los datos xk,iDi observados son


independientes:
Nc

f ( Di | i ) =

f (x
i

k ,i

| i )

k =1

es la funcin de verosimilitud. El estimador ML maximiza esta


funcin (o su logaritmo):

max f ( Di | i ) arg max ln f ( Di | i )


=
i , ML arg
=
i

Un conjunto de condiciones necesarias para obtener el


estimador vienen dadas por:

i ln f ( Di | i ) =
0
5

Funciones fx(xk,i| i)
asociadas a cada uno
de los vectores de Di

f(Di|i)

xk,i Di
N ci

f ( Di | i ) = f x ( x k ,i | i )
ML

k =1

ln f(Di|i)

Caracterizacin de un estimador
Un estimador es una funcin que aplica sobre los vectores de
caractersticas xk,i seleccionados de la base de datos para entrenar el
clasificador. Si la seleccin se hace de forma aleatoria, los valores
proporcionados por el estimador sern tambin aleatorios: para cada
posible particin l de la base de datos obtenemos una estimacin
distinta l ,i .
1.

Sesgo: diferencia entre el valor verdadero del parmetro y el


promedio de los valores sobre las posibles particiones aleatorias de
la base de datos de entrenamiento. Mide si el estimador comete un
error sistemtico.

{ }

1
B l ,i =
L

l ,i

l =1

2. Varianza: desviacin de los valores aleatorios proporcionados por el


estimador respecto a un valor medio. Mide si el resultado del
estimador depende mucho o poco de la seleccin concreta de
vectores.
L
L

1
1

var
=
l , i
s ,i
l , i
L
L
s 1
=l 1 =

{ }

Propiedades del estimador ML:


1.
2.

Es asintticamente insesgado (en muchos casos es


insesgado aunque N sea pequeo)
Es asintticamente eficiente (cuando N es grande, su
varianza es la de Crmer-Rao)

Sin embargo
1.

No tiene porqu ser el que proporcione menor error de


clasificacin cuando utilicemos

f x (x | i , i , ML )
2.

Si la pdf asumida es muy distinta de la real las


estimaciones pueden ser de poca calidad.
9

Ejemplo 1:
Estimador ML de la media i si la matriz de covarianza Ci es
conocida, en el caso gausiano multivariable. Demostrad que:

i , ML

1
=
N ci

N ci

k =1

Ejemplo 2:
Estimador ML de la media i y la matriz de covarianza Ci en el
caso gausiano multivariable. Demostrad que:

i , ML

1
=
N ci

N ci

x
k =1

i , ML =
C

1
N ci

N ci

(x
k =1

i , ML )( x k i , ML )

10

Ejemplo 3:
Estimador ML de la probabilidad pk de aparicin de 1 para
cada una de las componentes del vector de datos binarios
x {0,1}d :

f x ( D | , p)
=

Ni

pk

xk , j

1 xk , j

(1 pk )

=j 1 =
k 1

p = [ p1 ,..., pd ]

11

2.2.3

ESTIMACIN BAYESIANA

Si se dispone de algn conocimiento a priori sobre los posibles valores


de i podemos aprovecharlo. Ese conocimiento estar incluido en una
funcin f(i) con todas las propiedades de una fdp y que expresa
nuestra creencia sobre los posibles valores de i:
1.

i , MAP
2.

Mejorar la estimacin ML de i (usando MAP)

arg=
max f ( Di | i ) f ( i ) arg max ln f ( Di | i ) + ln f ( i )
i
i
Estimar directamente las probabilidades a posteriori Pr(i|x)

Calculando fx(x|i) y Pr(i). Es el procedimiento ms aconsejable


en una aplicacin de clasificacin.
12

ESTIMACIN BAYESIANA y ESTIMACIN ML


Comparacin:
La funcin f ( Di | i ) tendr un pico tanto ms abrupto alrededor
de i = i cuanto mayor sea Ni.
Si f(i) no es cero y no vara mucho cerca de i = i entonces

f ( Di | i ) f (i )
f (i | Di ) =
f ( Di )
tambien tiene un pico en i = i y los estimadores obtenidos por
Bayes y mediante ML coinciden.
En la prctica, si el nmero de vectores de Di es pequeo, es
mejor la estimacin bayesiana. Cuando se tienen muchas
muestras, ambos estimadores coinciden
13

f(D|)

1
0.9

Ejemplo 5:

0.8

f()

5 muestras
35 muestras
200 muestras

0.7
0.6

Estimacin ML de la media
(0=2) sobre un nmero
variable
de
muestras
Gaussianas.
La fdp a priori de es
Gaussiana.

0.5
0.4
0.3
0.2
0.1
0
1.4

1.6

1.8

2.2

2.4

2.6

2.8

3.2

3.2

f(D|) f()

0.9

5 muestras
35 muestras
200 muestras

0.8
0.7

Estimacin Bayesiana de la
media (0=2) sobre un
nmero
variable
de
muestras Gaussianas.
La fdp a priori de es
Gaussiana.

0.6
0.5
0.4

f()

0.3
0.2
0.1
0
1.4

1.6

1.8

2.2

2.4

2.6

2.8

14

f(D|) f()
1
5 muestras
35 muestras
200 muestras

0.9
0.8
0.7

Estimacin Bayesiana de la
media (0=2) sobre un
nmero
variable
de
muestras Gaussianas.
La fdp a priori de es
uniforme.

0.6

f()

0.5
0.4
0.3
0.2
0.1
0
1.4

1.6

1.8

2.2

2.4

2.6

2.8

3.2

15

2. Estimar directamente las probabilidades a posteriori Pr(i|x)


Suposiciones
Queremos determinar la probabilidad a posteriori a partir de las
observaciones en Di , y supondremos que:
-

La forma de fx(x|i) es conocida pero no el parmetro i

Nuestro conocimiento a priori de i est en f(i)

El resto de nuestro conocimiento sobre i viene dado por


los datos en Di

16

Procedimiento:
1. Promediar la forma conocida para la funcin de verosimilitud
respecto a la probabilidad a posteriori del parmetro:

f x (x | i ) f x (x | Di ) =
f (x | i ) f (i | Di )di
2. Calculamos la probabilidad a posteriori del parmetro como

=
f (i | Di )

f ( Di | i ) f (i )

f ( D | ) f ( )d
i

f ( Di | i ) f (i )
i

3. Suponiendo independencia de los datos en Di

f ( Di | i ) =

Ni

f (x

k ,i

| i )

k =1

17

Ejemplo 4:
Estimador bayesiano de fx(x|D) si

f x ( x | ) N ( , C )

f () N ( 0 , C0 )

donde se suponen conocidas 0, C0 y C, y se dispone de los


datos observados D = {x1,, xN}
A partir de 2 y 3 podemos escribir:
N

f ( D) =
f x (x k | ) f ()
k =1

N
1 T


1
1
T
1
1
= exp ( NC + C0 ) + 2 C
xk + C0 0
2
k =1

18

La ecuacin puede escribirse tambin como:


T
1

) exp ( N ) CN1 ( N )
f ( D=
2

Igualando ambas expresiones:

1 N

1
( NC + C ) 2 C
xk + C0 0 = T CN1 2TN CN1 + K
k =1

1
0

donde los trminos que no dependen de y otras constantes


quedan asimilados en K. Comparando el termino cuadrtico en :

=
CN1 NC1 + C01

(1)

Comparando los trminos lineales en :


1
N

=
C N C

xk + C01 0

(2)

k =1

19

A partir de (1) y usando la igualdad: A 1 + B 1

=
C N C 0 ( C + NC 0 ) C
1

=A ( A + B ) B
1

(3)

Teniendo en cuenta que si A y B son invertibles

A ( A + B ) B =B ( A + B ) A
1

podemos usar (3) en (2) para obtener


1

1
1
1

N =C0 C0 + C m N + C C0 + C 0
N
N
N

1
mN =
N

k =1

20

Ntese que la media es una combinacin lineal del


conocimiento a priori de la media 0 y la informacin aportada
por los datos mN. Integrando la ecuacin 1:

=
f x (x | ) f x (x | D)

f (x | ) f ( | D) d N (

, C + CN )

Cuando N la estimacion de a partir de f(|D) tiende a


ser ML

=
N m
=
CN
N

1
C
N

21

2.2.3 CONCLUSIONES
Si se puede suponer una forma paramtrica para fx(x|i)
entonces la fase de entrenamiento del clasificador se
reduce a la estimacin de los parmetros
Pueden utilizarse dos soluciones para la estimacin de
parmetros: ML (ms simple computacionalmente) o
bayesiana (si se dispone de conocimiento a priori sobre los
parmetros)

22

You might also like