CLP Teoria 2.2 ML Tar2015

INDICE
2.1 Decisin Bayesiana (MAP)

2.2. Estimacin de mxima verosimilitud (ML) y
estimacin Bayesiana de parmetros
2.2.1
2.2.2
2.2.3
2.2.4
Introduccin
Estimacin ML
Estimacin Bayesiana
Conclusiones
2.2.1
INTRODUCCIN
La clasificacin bayesiana precisa del conocimiento de fx(x |i) y

de Pr(i). Para el clculo de estas magnitudes se requiere:
- Disponer de una serie de datos previamente
clasificados de forma fiable.
- Disponer de un estimador de esas probabilidades.
La estimacin de fx(x |i) requiere muchos datos a menos que
podamos definir una funcin que dependa de unos pocos
parmetros i.
Caso gaussiano: i contiene la media y la matriz de covarianza
=
f x (x | i , i )
( 2 )
d /2
Ci
1/ 2
T
1
exp ( x i ) Ci1 ( x i )
2
Existen dos alternativas:

1.
Estimacin de mxima verosimilidud (ML): Los

parmetros a estimar se consideran deterministas
(aunque desconocidos).
2.
Estimacin bayesiana: Los parmetros son variables

de las que se tiene un conocimiento a priori
(relacionado con el concepto de creencia y asociado
a una funcin de densidad de probabilidad). La
definicin del estimador bayesiano permite mejorar
fcilmente la estimacin de fx(x|i) cuando se dispone
de nuevos datos.
Suponemos que disponemos de una base de datos etiquetada (un

conjunto de vectores de caractersticas clasificados por categoras).
A partir de una particin aleatoria de sta (base de datos de
entrenamiento) hemos de determinar fx(x|i):
c1 : 1
D1 = x1,1 , x 2,1 ,..., x Nc ,1

1
c2 : 2
c3 : 3
D2 = x1,2 , x 2,2 ,..., x Nc
,2
2
D3 = x1,3 , x 2,3 ,..., x Nc
,3
El resto de vectores se usar para evaluar las prestaciones del

clasificador (base de datos de test).
2.2.2
ESTIMACIN DE MXIMA VEROSIMILITUD (ML)
Si en cada clase i los datos xk,iDi observados son

independientes:
Nc
f ( Di | i ) =
f (x
i
k ,i
| i )
k =1
es la funcin de verosimilitud. El estimador ML maximiza esta

funcin (o su logaritmo):
max f ( Di | i ) arg max ln f ( Di | i )

=
i , ML arg
=
i
Un conjunto de condiciones necesarias para obtener el

estimador vienen dadas por:
i ln f ( Di | i ) =
0
5
Funciones fx(xk,i| i)
asociadas a cada uno
de los vectores de Di
f(Di|i)
xk,i Di
N ci
f ( Di | i ) = f x ( x k ,i | i )
ML
k =1
ln f(Di|i)
Caracterizacin de un estimador
Un estimador es una funcin que aplica sobre los vectores de
caractersticas xk,i seleccionados de la base de datos para entrenar el
clasificador. Si la seleccin se hace de forma aleatoria, los valores
proporcionados por el estimador sern tambin aleatorios: para cada
posible particin l de la base de datos obtenemos una estimacin
distinta l ,i .
1.
Sesgo: diferencia entre el valor verdadero del parmetro y el

promedio de los valores sobre las posibles particiones aleatorias de
la base de datos de entrenamiento. Mide si el estimador comete un
error sistemtico.
{ }
1
B l ,i =
L
l ,i
l =1
2. Varianza: desviacin de los valores aleatorios proporcionados por el

estimador respecto a un valor medio. Mide si el resultado del
estimador depende mucho o poco de la seleccin concreta de
vectores.
L
L
1
1
var
=
l , i
s ,i
l , i
L
L
s 1
=l 1 =
{ }
Propiedades del estimador ML:

1.
2.
Es asintticamente insesgado (en muchos casos es

insesgado aunque N sea pequeo)
Es asintticamente eficiente (cuando N es grande, su
varianza es la de Crmer-Rao)
Sin embargo
1.
No tiene porqu ser el que proporcione menor error de

clasificacin cuando utilicemos
f x (x | i , i , ML )
2.
Si la pdf asumida es muy distinta de la real las

estimaciones pueden ser de poca calidad.
9
Ejemplo 1:
Estimador ML de la media i si la matriz de covarianza Ci es
conocida, en el caso gausiano multivariable. Demostrad que:
i , ML
1
=
N ci
N ci
k =1
Ejemplo 2:
Estimador ML de la media i y la matriz de covarianza Ci en el
caso gausiano multivariable. Demostrad que:
i , ML
1
=
N ci
N ci
x
k =1
i , ML =
C
1
N ci
N ci
(x
k =1
i , ML )( x k i , ML )
10
Ejemplo 3:
Estimador ML de la probabilidad pk de aparicin de 1 para
cada una de las componentes del vector de datos binarios
x {0,1}d :
f x ( D | , p)
=
Ni
pk
xk , j
1 xk , j
(1 pk )
=j 1 =
k 1
p = [ p1 ,..., pd ]
11
2.2.3
ESTIMACIN BAYESIANA
Si se dispone de algn conocimiento a priori sobre los posibles valores

de i podemos aprovecharlo. Ese conocimiento estar incluido en una
funcin f(i) con todas las propiedades de una fdp y que expresa
nuestra creencia sobre los posibles valores de i:
1.
i , MAP
2.
Mejorar la estimacin ML de i (usando MAP)
arg=
max f ( Di | i ) f ( i ) arg max ln f ( Di | i ) + ln f ( i )
i
i
Estimar directamente las probabilidades a posteriori Pr(i|x)
Calculando fx(x|i) y Pr(i). Es el procedimiento ms aconsejable

en una aplicacin de clasificacin.
12
ESTIMACIN BAYESIANA y ESTIMACIN ML

Comparacin:
La funcin f ( Di | i ) tendr un pico tanto ms abrupto alrededor
de i = i cuanto mayor sea Ni.
Si f(i) no es cero y no vara mucho cerca de i = i entonces
f ( Di | i ) f (i )
f (i | Di ) =
f ( Di )
tambien tiene un pico en i = i y los estimadores obtenidos por
Bayes y mediante ML coinciden.
En la prctica, si el nmero de vectores de Di es pequeo, es
mejor la estimacin bayesiana. Cuando se tienen muchas
muestras, ambos estimadores coinciden
13
f(D|)
1
0.9
Ejemplo 5:
0.8
f()
5 muestras
35 muestras
200 muestras
0.7
0.6
Estimacin ML de la media
(0=2) sobre un nmero
variable
de
muestras
Gaussianas.
La fdp a priori de es
Gaussiana.
0.5
0.4
0.3
0.2
0.1
0
1.4
1.6
1.8
2.2
2.4
2.6
2.8
3.2
3.2
f(D|) f()
0.9
5 muestras
35 muestras
200 muestras
0.8
0.7
Estimacin Bayesiana de la
media (0=2) sobre un
nmero
variable
de
muestras Gaussianas.
Gaussiana.
0.6
0.5
0.4
f()
0.3
0.2
0.1
0
1.4
1.6
1.8
2.2
2.4
2.6
2.8
14
f(D|) f()
1
5 muestras
35 muestras
200 muestras
0.9
0.8
0.7
Estimacin Bayesiana de la
media (0=2) sobre un
nmero
variable
de
muestras Gaussianas.
uniforme.
0.6
f()
0.5
0.4
0.3
0.2
0.1
0
1.4
1.6
1.8
2.2
2.4
2.6
2.8
3.2
15
2. Estimar directamente las probabilidades a posteriori Pr(i|x)

Suposiciones
Queremos determinar la probabilidad a posteriori a partir de las
observaciones en Di , y supondremos que:
-
La forma de fx(x|i) es conocida pero no el parmetro i
Nuestro conocimiento a priori de i est en f(i)
El resto de nuestro conocimiento sobre i viene dado por

los datos en Di
16
Procedimiento:
1. Promediar la forma conocida para la funcin de verosimilitud
respecto a la probabilidad a posteriori del parmetro:
f x (x | i ) f x (x | Di ) =
f (x | i ) f (i | Di )di
2. Calculamos la probabilidad a posteriori del parmetro como
=
f (i | Di )
f ( Di | i ) f (i )
f ( D | ) f ( )d
i
f ( Di | i ) f (i )
i
3. Suponiendo independencia de los datos en Di
f ( Di | i ) =
Ni
f (x
k ,i
| i )
k =1
17
Ejemplo 4:
Estimador bayesiano de fx(x|D) si
f x ( x | ) N ( , C )
f () N ( 0 , C0 )
donde se suponen conocidas 0, C0 y C, y se dispone de los

datos observados D = {x1,, xN}
A partir de 2 y 3 podemos escribir:
N
f ( D) =
f x (x k | ) f ()
k =1
N
1 T

1
1
T
1
1
= exp ( NC + C0 ) + 2 C
xk + C0 0
2
k =1
18
La ecuacin puede escribirse tambin como:

T
1
) exp ( N ) CN1 ( N )
f ( D=
2
Igualando ambas expresiones:
1 N
1
( NC + C ) 2 C
xk + C0 0 = T CN1 2TN CN1 + K
k =1
1
0
donde los trminos que no dependen de y otras constantes

quedan asimilados en K. Comparando el termino cuadrtico en :
=
CN1 NC1 + C01
(1)
Comparando los trminos lineales en :

1
N
=
C N C
xk + C01 0
(2)
k =1
19
A partir de (1) y usando la igualdad: A 1 + B 1
=
C N C 0 ( C + NC 0 ) C
1
=A ( A + B ) B
1
(3)
Teniendo en cuenta que si A y B son invertibles
A ( A + B ) B =B ( A + B ) A
1
podemos usar (3) en (2) para obtener

1
1
1
1
N =C0 C0 + C m N + C C0 + C 0
N
N
N
1
mN =
N
k =1
20
Ntese que la media es una combinacin lineal del

conocimiento a priori de la media 0 y la informacin aportada
por los datos mN. Integrando la ecuacin 1:
=
f x (x | ) f x (x | D)
f (x | ) f ( | D) d N (
, C + CN )
Cuando N la estimacion de a partir de f(|D) tiende a

ser ML
=
N m
=
CN
N
1
C
N
21
2.2.3 CONCLUSIONES
Si se puede suponer una forma paramtrica para fx(x|i)
entonces la fase de entrenamiento del clasificador se
reduce a la estimacin de los parmetros
Pueden utilizarse dos soluciones para la estimacin de
parmetros: ML (ms simple computacionalmente) o
bayesiana (si se dispone de conocimiento a priori sobre los
parmetros)
22

CLP Teoria 2.2 ML Tar2015

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

CLP Teoria 2.2 ML Tar2015

Uploaded by

Copyright:

Available Formats

INDICE

2.1 Decisin Bayesiana (MAP)

La clasificacin bayesiana precisa del conocimiento de fx(x |i) y

Existen dos alternativas:

Estimacin de mxima verosimilidud (ML): Los

Estimacin bayesiana: Los parmetros son variables

Suponemos que disponemos de una base de datos etiquetada (un

D1 = x1,1 , x 2,1 ,..., x Nc ,1

D2 = x1,2 , x 2,2 ,..., x Nc

D3 = x1,3 , x 2,3 ,..., x Nc

El resto de vectores se usar para evaluar las prestaciones del

ESTIMACIN DE MXIMA VEROSIMILITUD (ML)

Si en cada clase i los datos xk,iDi observados son

es la funcin de verosimilitud. El estimador ML maximiza esta

max f ( Di | i ) arg max ln f ( Di | i )

Un conjunto de condiciones necesarias para obtener el

Sesgo: diferencia entre el valor verdadero del parmetro y el

2. Varianza: desviacin de los valores aleatorios proporcionados por el

Propiedades del estimador ML:

Es asintticamente insesgado (en muchos casos es

No tiene porqu ser el que proporcione menor error de

Si la pdf asumida es muy distinta de la real las

Si se dispone de algn conocimiento a priori sobre los posibles valores

Mejorar la estimacin ML de i (usando MAP)

Calculando fx(x|i) y Pr(i). Es el procedimiento ms aconsejable

ESTIMACIN BAYESIANA y ESTIMACIN ML

2. Estimar directamente las probabilidades a posteriori Pr(i|x)

La forma de fx(x|i) es conocida pero no el parmetro i

Nuestro conocimiento a priori de i est en f(i)

El resto de nuestro conocimiento sobre i viene dado por

3. Suponiendo independencia de los datos en Di

donde se suponen conocidas 0, C0 y C, y se dispone de los

La ecuacin puede escribirse tambin como:

Igualando ambas expresiones:

donde los trminos que no dependen de y otras constantes

Comparando los trminos lineales en :

A partir de (1) y usando la igualdad: A 1 + B 1

Teniendo en cuenta que si A y B son invertibles

podemos usar (3) en (2) para obtener

Ntese que la media es una combinacin lineal del

Cuando N la estimacion de a partir de f(|D) tiende a

You might also like