You are on page 1of 18

CONSTRUCCIN DE KERNELS Y FUNCIONES DE DENSIDAD DE PROBABILIDAD

Luis Rodrguez Ojeda1

Resumen. En este artculo se describen los detalles del conocido mtodo kernel para construir una
funcin de densidad de probabilidad para una muestra univariada. Se proponen nuevas formas para los
kernels y criterios adicionales para su eleccin y para estimar el ancho de banda ptimo. Como soporte
para esta investigacin se instrument un software para experimentacin y obtencin de resultados
grficos y numricos.

Palabras clave: Kernel. Densidad de Probabilidad. Ancho de banda. Estimacin no Paramtrica

Abstract. This paper describes the details of the well known kernel method used to construct a
probability density function for a univariate sample. New forms for the kernels are proposed and
additional criteria for their election and for estimating the optimal bandwidth. As support for this research
a software was implemented for experimentation and obtaining of graphical and numerical results.

Keywords: Kernel. Probability Density. Bandwidth. Nonparametric Estimation

Recibido:

Aprobado

1
Luis Rodrguez Ojeda, M.Sc., Departamento de Matemticas, ESPOL. (e-mail: lrodrig@espol.edu.ec)
1. INTRODUCCIN 2. PROPIEDADES DE KERNELS
La distribucin de probabilidad de una variable 2.1 Definicin de kernel
aleatoria continua X se describe mediante una Un kernel es una funcin de variable real:
funcin denominada funcin de densidad f(x) : con las siguientes propiedades
con la cual se pueden determinar valores de
probabilidad con la definicin: ) () [, ), x [-1, 1]
) () = , x [-1, 1]

( ) = () ) () = (-)

Si f(x) no es un modelo conocido, es de inters ) () =

para la investigacin poder estimar f(x) a partir ) () =
de una muestra de observaciones x1, x2, xn
) () +
que suponemos son resultados independientes y
tienen la misma distribucin de probabilidad. De aqu en adelante, nos referiremos solamente
Como ocurre frecuentemente en problemas de al intervalo en el cual no es negativo. En la
ingeniera, la obtencin de estos datos se basa definicin este intervalo es [-1, 1] pero puede
en ensayos que involucran tiempo y costo, por modificarse mediante un parmetro. Adems, es
lo tanto su cantidad es limitada. deseable que sea diferenciable
El mtodo kernel utiliza un conjunto de datos 2.2 Parametrizacin de kernels
que provienen de una distribucin continua, Sea h R+, el kernel parametrizado en h es
univariada y desconocida para aproximar esta
h(x) = ( ), x [-h, h]
funcin. Los fundamentos matemticos son
Esta modificacin mantiene las propiedades
conocidos pero la investigacin an continua en
anteriores, pero referidas al intervalo [-h, h].
la seleccin de los parmetros de ajuste
h se denomina el ancho de banda de y es la
adecuados para su aplicacin. En este
semi-amplitud del kernel en el intervalo de
documento se describe en detalle la formulacin
inters.
y se proponen algunos criterios para la
aplicacin de este mtodo. La propiedad d) se prueba mediante la
sustitucin: u = x/h: x=-h u = -1, x=h u=1
Los kernels son funciones que se asocian a cada x=hu, dx=hdu
uno de los datos. Entonces, la suma ponderada
de estas funciones es un estimador para dx = ()


aproximar la funcin de densidad desconocida. = () =
Estas funciones son objetos matemticos Es importante interpretar el rol de h en h(x)
conocidos, pero en esta contribucin se Si h se incrementa, h > 1, la amplitud de
desarrollan nuevas formas basadas en aumenta, pero el factor 1/h, reduce el rango de
consideraciones geomtricas y se establecen para mantener el rea igual a 1
otros criterios para compararlos.
Si h se reduce, h < 1, la amplitud de se
Como ocurre en muchas reas del conocimiento, reduce, pero el factor 1/h incrementa el rango de
la formulacin desarrollada no es adecuada para para mantener el rea igual a 1
el tratamiento manual, por lo que se ha
construido un programa computacional para su 2.3 Traslacin de kernels
aplicacin. Existen programas para usar el El kernel se puede centrar en cualquier punto
mtodo Kernel, pero no incluyen los modelos xi R. El kernel parametrizado en h y centrado
para experimentar como se describe en este en xi es:

trabajo. h(x) = ( ), x [xi - h, xi + h]

El programa usa como soporte el lenguaje Esta modificacin mantiene las propiedades
MATLAB y constituye un pequeo laboratorio anteriores en el nuevo intervalo de inters:
con el que se pueden probar diferentes modelos [xi - h, xi + h]
para construir el estimador de la funcin f(x) Para verificar la propiedad d) se realiza la

realizando pruebas con los parmetros de ajuste. sustitucin: u = : x = xi - h u =-1,

Los resultados que se muestran son grficos, x = xi + h u=1, dx=hdu
simblicos y numricos. +
( )dx = ()



= () =

Se concluye que la funcin h(x) = ( ),

x [xi - h, xi + h] es una funcin de densidad
de probabilidad centrada en el punto xi .
3. MODELOS DE KERNELS
Polinomio cbico en el tramo derecho:
Se describen a continuacin algunos kernels que
son bien conocidos [1]. K(x) = ax3 + bx2 + cx + d, x [0, 1]
K(x)=3ax2 + 2bx + c, K(x) = 6ax + 2b
3.1 Kernel Rectangular o Uniforme
Es un rectngulo que se coloca sobre cada Condiciones geomtricas:
punto. Al interactuar con los kernels de los otros a) K(1) = 0 a + b + c + d = 0
puntos, el efecto en la suma es un cambio b) K(0) = 0 c = 0
abrupto. c) K(1) = 0 3a + b = 0
(x) = 0.5, x [-1, 1] La altura t del kernel es el parmetro para
convertirlo en funcin de densidad:
3.2 Kernel Triangular
Es un tringulo que se coloca sobre cada punto. d) K(0) = t d = t
Al interactuar con los otros kernels el efecto Resolviendo y sustituyendo se obtiene
combinado es lineal pero ms liso que los
K(x) = +
rectngulos

(x) = 1 - |x|, x [-1,1] Para que K sea funcin de densidad:



3.3 Kernel de Epanechnikov () = t =
Es el kernel ms estudiado. Es un segmento del
Entonces
perfil de un arco de parbola que se coloca
sobre cada punto. K(x) = ( + ), x [0,1]



(x) = (1-x2), x [-1,1] K(-x) = ( + ), x [-1,0]


3.4 Kernel Normal o Gaussiano Se pueden escribir con una regla:

Este kernel es un caso especial. Para este kernel (x) = (|| + ), x [-1,1]
se define como intervalo el conjunto R, por lo

que cada kernel influye en todos los otros 4.2 Kernel Cbico Plano
kernels colocados en los puntos de la muestra.
El perfil son dos segmentos de un polinomio
La suma resultante es continua y suave.
cbico que se conectan manteniendo
continuidad hasta la segunda derivada

(x)= , x(-, +)

(x) = ( || ), x [-1,1]
3.5 Kernel Biweight o Curtico
4.3 Kernel Cbico Sujeto
(x) = (1-x ) , x [-1,1]
2 2

El perfil son dos segmentos de un polinomio
3.6 Kernel Arco Coseno
cbico que se conectan manteniendo
continuidad hasta la primera derivada, pero con
(x)= cos( x), x [-1,1]
los extremos horizontales (primera derivada
nula), con el objetivo de que al combinarse con
4. CONSTRUCCIN DE KERNELS otros kernels, la interaccin sea lisa.
El diseo de nuevas formas para los kernels es
(x) = 2|| + , x [-1,1]
un ejercicio matemtico. El diseo se basa en
consideraciones geomtricas. Estos objetos 4.4 Kernel Coseno
matemticos son los componentes con los que
El perfil es un segmento modulado de la funcin
se construye el estimador de la funcin de
coseno.
densidad.
(x) = (() + ), x [-1,1]
Las formas propuestas difieren en algn aspecto

las formas conocidas que normalmente son 4.5 Kernel Arco Circular
funciones de potencia par. Las funciones
El perfil es un arco de una circunferencia:
propuestas usan polinomios cbicos entre otros.
4.1 Kernel Cbico Natural () = . . ,
x [-1,1]
El perfil son dos segmentos de un polinomio
cbico que se conectan manteniendo En la Figura 18 al final de este artculo se
continuidad hasta la primera derivada y con los muestra el perfil de algunos kernels formulados.
extremos libres, sin curvatura. Se ilustra su
obtencin. Similarmente se obtienen los otros.
5. CONSTRUCCIN DE FUNCIONES DE En el lmite, cuando h 0, la contribucin de
DENSIDAD DE PROBABILIDAD cada kernel estar concentrada en cada punto xi
Sea X una variable aleatoria con distribucin as el estimador (x) tendr una distribucin
de probabilidad continua, univariada y puntual concentrada en cada dato. Por otra
desconocida f(x) de la cual se dispone de una parte, cuando h , la distribucin de (x) se
muestra aleatoria de n observaciones aplanar, con un solo cmulo y con mayor
independientes: x1, x2, , xn. El objetivo es dispersin. Es necesario buscar un ancho de
usar estos datos para obtener un estimador (x) banda adecuado para construir el estimador.
de la funcin de densidad de probabilidad f(x) Ejemplo. Dados los siguientes datos de una
El mtodo clsico para construir (x) es el muestra aleatoria (variables independientes y
histograma que agrupa los datos en clases con con la misma distribucin de probabilidad),
amplitud que debe elegirse. La representacin analizar un modelo de densidad de
grfica son rectngulos excluyentes cuya altura probabilidad:
es el conteo de observaciones en cada clase y se X: 1.1, 2.1, 2.3, 2.7, 3.8
denomina frecuencia de clase.
Todos los resultados grficos y numricos que
El histograma es una funcin continua pero se muestran a continuacin fueron obtenidos
cambia con saltos entre clases. La altura de cada con el software KDEN desarrollado para esta
rectngulo puede asociarse a valores de investigacin. El programa puede mostrar
probabilidad. Esta altura solo depende de la tambin el modelo matemtico del estimador
cantidad de datos incluidos en cada clase (x) y algunas medidas estadsticas de inters.
ignorando la influencia de los datos adyacentes
aunque estn muy prximos. Figura 1
Diagrama de puntos
5.1 El Mtodo Kernel Puntos
1
Un kernel es una funcin de densidad. Si se 0.5
coloca un kernel en cada uno de los datos de la 0
0.5 1 1.5 2 2.5 3 3.5 4
muestra, la suma ponderada de estas funciones
tambin ser una funcin de densidad de
Figura 2
probabilidad. Esta suma es una funcin continua
Histograma, amplitud de clase = 1
que suaviza el perfil de la distribucin captando
3
la influencia de los datos cercanos y constituye
el estimador (x) del modelo terico del cual 2.5

provienen los datos, permitiendo observar 2

diferencias que los rectngulos del histograma 1.5

no puede mostrar [2].



1

Sea h(x) = ( ), x [xi - h, xi + h]


0.5

kernel parametrizado y centrado en cada punto 0

xi, i=1, 2, 3, , n 1 1.5 2 2.5 3 3.5 4 4.5 5

h es una funcin de densidad de probabilidad. La representacin del histograma muestra


Si cada kernel se multiplica por 1/n, entonces la solamente parte de la informacin de los datos.
suma de los n kernels tambin ser una funcin Kernel elegido: Cbico Sujeto
de densidad de probabilidad.
Figura 3
Definicin: Estimador por kernels (x): Grfico de kernels con h=0.3

(x) = = () = = ( )
1


x [xi - h, xi + h] en cada kernel i 0.8

Intervalo de (x): [x1 - h, xn + h] 0.6

Se supondr que x1 x2 x3 xn
0.4

El ancho de banda h es el parmetro de ajuste o


suavizado de (x) su eleccin es crtica para el 0.2

modelo. 0
1 1.5 2 2.5 3 3.5 4
Mientras ms pequeo es h, ms concentrada x

est la contribucin del kernel en cada punto xi Si h es muy pequeo, los kernels estn
Mientras ms grande es h, mayor es la concentrados en cada punto y no interactan con
influencia e interaccin del kernel hacia los los otros. La suma es la funcin de densidad
puntos vecinos. (x) y su perfil se muestra superpuesto al grfico
de los kernels en la siguiente figura.
Figura 4 Clculo de probabilidad
Kernels y la funcin de densidad (x) con Calcular la probabilidad que la variable X tome
h=0.3 un valor entre 1.5 y 2.5
.
(. . ) = . () = .
1

Medidas estadsticas de (x)


0.8

0.6
Para el ejemplo anterior:
0.4
Media 2.4000
Varianza 0.8532
0.2 Sesgo 0.1092
Rango [0.3, 4.6]
0
1 1.5 2 2.5
x
3 3.5 4 Amplitud 4.3000
Mediana 2.3578
Figura 5
Primer Cuartil 1.8302
Kernels y la funcin de densidad (x) con Tercer Cuartil 2.9226
h=2.0
0.4
En resumen, el mtodo kernel proporciona un
estimador continuo (x).
0.35

0.3
Si se elige
adecuadamente el ancho de banda h los
0.25
rectngulos del histograma son reemplazados
0.2
por cmulos suavizados que se solapan e
0.15
interactan de tal manera que al sumarlos
0.1
producen una funcin que presenta detalles que
0.05 el histograma no puede mostrar.
0
0 1 2 3 4 5
x
5.2 Propiedades de la variable aleatoria con
Si h es muy grande hay un sobre ajuste y la densidad (x)
distribucin sumada ser ms plana, con un solo
cmulo y con mayor dispersin Sea X: variable aleatoria con densidad (x)

Figura 6 (x) = = () = = ( ) ,

Kernels y la funcin de densidad (x) con (), x [xi - h, xi + h], Kernel
h=0.8 h: Ancho de banda
(x), x [x1 - h, xn + h]
0.6 x1 x2 x3 xn
0.5 5.2.1 (x) es una funcin de densidad
0.4 Demostracin
+ +
0.3 () = =


+
0.2
= ( )

0.1
=

Con la sustitucin: u = : x = xi h u = -1
0
x = xi + h u = 1, dx = hdu
0.5 1 1.5 2 2.5 3 3.5 4 4.5
x
+
Si el valor de h es adecuado, la distribucin se = ( ) = = ()

suaviza y permite observar ms detalles de la
distribucin de probabilidad. = () =

Figura 7 5.2.2 Valor esperado de la variable aleatoria
Funcin de densidad (x) con h=0.8 y el
histograma Sea x [x1-h, xn+h] una variable aleatoria con
distribucin (x). Su valor esperado:
Funcin de densidad Cbico Sujeto h = 0.8
() =
+ +
3

() = = ( )
0.6

2.5
0.5

2
0.4

0.3 vs 1.5 Mediante la sustitucin



0.2 1
u = : x = xi h u =-1, x = xi + h u = 1,
0.1 0.5

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
0
x = hu+xi , dx = hdu
x

() = = ( + )() = calculados estn en la primera columna de la

Tabla 1 al final de este artculo
= () + = ()

5.3.2 Enlace


= () + = () = = =

Definimos el coeficiente = || , en donde

d es el valor de la tangente en el borde.
() =
El valor ms alto es 1 como en el modelo
El valor esperado de la variable aleatoria x con normal, que se conecta con suavidad a los otros
densidad (x) coincide con la media muestral, kernels. El menor valor es 0, como en el kernel
independientemente del kernel . rectangular. Los valores calculados estn en la
5.2.3 Varianza de la variable aleatoria segunda columna de la Tabla 1.
Sea x [x1-h, xn+h] una variable aleatoria 5.3.3 Efecto del factor enlace
con densidad (x) [7].
Su varianza: Al sumar kernels el perfil resultante puede ser
= ( ) () liso y continuo como el caso del kernel
( ) = gaussiano, o cambiar abruptamente como el
+ +
() = = ( )
caso del kernel rectangular. Se debe seleccionar

el kernel y el ancho de banda que permitan
Mediante la sustitucin:
detectar detalles y una apariencia aceptable. A
u = : x = xi h u =-1,
esto contribuye tambin el factor enlace. El
x = xi + h u=1, x = hu+xi , dx=hdu
siguiente ejemplo muestra dos kernels con
diferente factor de enlace. Se observa la
( ) = = ( + ) ()
diferencia significativa alrededor de x = 3.

= = () +
Suponer una muestra X: 2, 4, 5

= () +

Figura 8
= () Kernel Epanechnikov, h = 1.5, enlace=0.2231


= = () + Densidad y Kernels Epanechnikov h = 1.5

0.35


= () + = ()
0.3

0.25


= = + = () + = () 0.2

0.15


= + =
0.1

0.05

= ( ) () 0
1 2 3
x
4 5 6


Figura 9
= +
Kernel Coseno, h = 1.5, enlace = 1
= = y

= +
0.35

0.3

En donde 0.25

es la varianza del Kernel original


0.2

0.15

es un valor asociado a la muestra 0.1

(varianza muestral) 0.05

0
1 2 3 4 5 6

La varianza de la variable aleatoria depende


x

Como se ver ms adelante, la valoracin de los


linealmente de la varianza del kernel, pero
kernels cambia al analizarlos mediante otros
cuadrticamente del ancho de banda h, por ello
criterios. Para esto se considerarn las restantes
este es el factor crtico.
columnas de la Tabla 1.
5.3 Criterios para elegir el kernel
En esta primera valoracin, es mejor el kernel
5.3.1 Varianza
cuya varianza sea menor, adicionalmente el
El primer criterio para elegir al kernel ms
coeficiente de enlace debe ser alto para que el
eficiente es seleccionar el de menor varianza.
perfil del estimador sea liso.
Este valor se suma al construir el estimador (x)
y aumentar su dispersin. Los valores
6. EFICIENCIA DEL ESTIMADOR (x) 6.1 Sesgo del estimador (x)
CON RESPECTO A f(x)
Sustituyendo en ((x)) y siendo la varianza
Sean del kernel original se obtiene
f(x): Funcin de densidad de probabilidad
((x)) ()
terica (desconocida)
(x): Estimador de f(x) basado en los datos y Sesgo del estimador (x) con respecto a f(x)
el kernel elegido El sesgo de (x) con respecto a f(x) depende
Definiciones linealmente de la varianza del kernel y
((x)) = [(x)] f(x): Sesgo del estimador cuadrticamente del ancho de banda h.
Adicionalmente, aparece un nuevo factor, la
(x) con respecto a f(x)
derivada de la densidad terica desconocida f
((x)) = [(x)- ((x))]2 : Varianza del
Se puede notar que el sesgo de (x) no depende
estimador (x) con respecto a ((x))
del tamao muestral. Tambin se observa que
(()) = [(x) f(x)]2: Error cuadrtico lim (((x)) = 0, cuando h0. Este resultado
medio. (Medicin de la diferencia puntual) parece contradecir el hecho que si , la
Si se desarrolla el cuadrado y se sustituyen las distribucin de () se hace puntual.
definiciones se obtiene [7]. 6.2 Varianza del estimador (x) [3]
(())= ((x)) + ((x)) ((x)) = ( = (

)) =


La siguiente definicin determina la exactitud = ( )

global del estimador, integrando
xi independientes, con igual distribucin
(()) = (()) =
( ) = E(( )) [( )]
(()) + (())



= () - [ ()]

Desarrollo de los componentes

(()) = = [ ] = ((x)) = ()
=

= ( )() = ( )()
[ ()]
=

Con las sustituciones: z =

, t = hz, dt = h dz = () -


(()) = ()( ) ( () )

Esto muestra que (()) () pero Mediante la sustitucin:



(()) () cuando siempre que f = t = x-hz, dt = -hdz

sea continua y acotada. Entonces () es
((x)) = () ( )
asintticamente insesgado. Este resultado parece

extrao pues cuando , la distribucin de ( () ( ) )

() se hace puntual.
Desarrollo de los componentes usando dos
Para obtener alguna aproximacin, y trminos de la Serie de Taylor
suponiendo que f es diferenciable alrededor de x
() ( ) =
se desarrolla f(x-hz) con la serie de Taylor. x
es la variable aleatoria del estimador (x), t, z () [() () + ( )]
son variables aleatorias del modelo terico f(x)
pero x tambin depende de t, z = ()[() ()] + ( )

f(x hz) = f(x) hzf(x) + (hz)2f(x) + O(h3)
() ( ) =
(()) = ()()

()[() () + ( )]
() () +
() () ()
+ O(h3)
= ()() ()() + ( )

(()) = ()() ()() +
= () () () () + ( )
() () + O(h3)

= ()() ()() + = () + ( )
= () + () + O(h ) 3

Sustituyendo en la definicin de varianza: Los mtodos usados en la actualidad para

((x)) = () ( ) obtener se basan en mtodos para estimar

f(x) mediante una aproximacin basada en los
( () ( ) )
mismos datos muestrales y en suposiciones

= [ ()[() ()] + acerca del modelo f(x). Es importante anotar


( )] [() + ( )]
que la validez de esta frmula requiere n

grande y h pequeo.
Si se supone que n es grande y h pequeo se
En resumen, existe bastante incertidumbre en la
llega a la siguiente aproximacin
estimacin de pero si se dispone de software
((x)) () ()
se puede experimentar directamente con los
Segn este resultado ((x)) aumenta si h se modelos, los datos y el valor de h.
reduce.
Sustituyendo en (()) se obtiene la
6.3 Medicin de la exactitud de (x) expresin con el valor mnimo para el error
Sustituyendo ((x)) en la definicin de global del estimador ()
((x)) [3]

(()) = 2((x)) + ((x)) ( () ) ( ) ( ( ()) )


( () ) + () ()

La exactitud global del estimador depende del
Finalmente, integrando sobre x
tamao de la muestra en el orden y del

(()) ( ) ( ()) + kernel elegido , pero tambin de la densidad

() desconocida que se desea estimar f(x), por lo

()
que no se puede calcular directamente. La
Pero () = , y se llega a la siguiente columna 4 de la Tabla 1 muestra la
expresin contribucin de cada kernel para el valor de

(()) ( ) ( ()) + (()) y se puede constatar que el kernel

()
que ms reduce este valor es el de

Epanechnikov. La diferencia con respecto a los
Se puede ver que ambos componentes actan en otros kernels no es muy significativa, por lo
forma inversa al variar h. tanto, si n es un valor fijo, la medida de
(()) depende principalmente del factor
Para determinar el ancho de banda h, tal que
desconocido, la densidad f(x).
(()) sea mnimo [1]:
(()) 6.4 Clculo del ancho de banda ptimo

=0
Para evaluar () se supondr que f(x) tiene
( ) ( ()) () =
distribucin normal. Este el caso ms comn.
De donde se obtiene la siguiente frmula para Sea () = (, ) densidad normal con
estimar h que minimiza a (()) media cero y varianza

( ) () /
= [ ] () =

( ())

Separando en sus tres componentes: Entonces

() ()) ( )
=
[ ( ())
]
[ ] ( = =

( )

Se observa que el valor ptimo que minimiza ( + )

el valor de (()) depende de tres


componentes independientes: el tamao de la
muestra n, el modelo de densidad terico
desconocido f(x), y el kernel elegido: y .
Con la sustitucin = , = obtuvo en la Figura 6, con otro kernel y con un
ancho de banda elegido intuitivamente.
( ()) = ( ()) ,
Figura 10

= ( Kernel Gaussiano, h = 0.2901


+ )
0.6



0.5

=
(. (. ) + . )
0.4

= .
0.3

6.5 Ancho de banda ptimo para el kernel


0.2
Gaussiano
0.1
Para obtenerlo se elige el kernel Gaussiano. Los
valores se toman de las columnas 1 y 3 de la 0
0 1 2 3 4 5

Tabla 1 y se reemplazan en la frmula de x

6.6 Ancho de banda ptimo para otro kernel




() = , x (-,+) Si se requiere usar un kernel diferente, se puede

() = . , = usar el valor ptimo del kernel Gaussiano


para convertirlo en un valor ptimo para el
Sustituyendo en , kernel seleccionado.
.
= (. ) ( ) Sean

(): Kernel Gausiano con h = 1
= . (): Kernel elegido

Este resultado es bien conocido. Es adecuado si () = ( ): Kernel parametrizado con h

f(x) se parece a la distribucin normal. En este
trabajo se usaron mtodos numricos para Proponemos la siguiente expresin para
calcularlo. encontrar el valor para el kernel
seleccionado . Este es el valor de h que
Se han desarrollado modificaciones a esta
minimiza la diferencia global con respecto al
frmula. La siguiente se debe a Silverman y
kernel Gaussiano :
funciona bien para diferentes tipos de

densidades [6].
= ( | () () | +

= . (, )
. () )

En donde puede sustituirse con una
Su interpretacin grfica es el rea sombreada
estimacin tomada de la muestra.
en la Figura 19 en la que se muestra el caso del
Ejemplo. Para entender la aplicacin de la kernel Coseno respecto al kernel Gaussiano. Los
frmula usamos el micro ejemplo anterior: resultados calculados para los kernels
X: 1.1, 2.1, 2.3, 2.7, 3.8 requirieron usar mtodos numricos y estn en
la antepenltima columna de la Tabla 1.
S2 = 0.96 (varianza muestral)
En la penltima columna de la Tabla 1 est la
= S 2 = 0.96 = 0.9798
varianza para el kernel y en la ltima columna
Rango intercuartil = 2.7 2.1 = 0.6 est un criterio adicional para comparacin de
kernels segn el cual es preferible el que tiene la
= . ( ) (. , . /. )
mayor amplitud con menor varianza. Segn este
= .
criterio, el mejor sera el kernel Coseno.
Estos datos suministrados al programa KDEN
Se puede estimar el valor ptimo para un
produjeron el siguiente grfico con el estimador
kernel especfico con la siguiente frmula:
kernel Gaussiano. El resultado se muestra en la
Figura 10, muy similar en forma al que se =
Ejemplo. Para los datos del ejemplo anterior, Rango intercuartil = 4.75 3 = 1.75
determine el ancho de banda ptimo si se
= . ( )(. , . /. )
desea usar el kernel Cbico Sujeto.
= .
= = . (. ) = . Para el modelo Coseno
El grfico obtenido con el programa KDEN para = = . (. ) = .
el kernel Cbico Sujeto y h = 0.7296 es muy
Figura 13
parecido en el nivel de detalle al que muestra el
Kernel Coseno, h = 1.2036
grfico del kernel Gaussiano con h = 0.2901
Figura 11 0.35

Kernel Cbico Sujeto, h = 0.7296 0.3


j
0.7
0.25
0.6
0.2

0.5
0.15

0.4
0.1

0.3
0.05

0.2
0
1 2 3 4 5 6 7
x
0.1

Calcule la probabilidad que el tiempo de


0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
x atencin sea mayor a 5
Con el histograma
Ejemplo. La siguiente es una muestra ordenada
7/40 = 17.5%
del tiempo (minutos) que se utiliz para atender
a 40 personas en una estacin de servicio: Con el modelo kernel y el programa KDEN
19.01%
1.80 2.10 2.20 2.50 2.50 2.70 2.80 2.80
2.90 2.90 3.10 3.10 3.50 3.50 3.60 3.60
El programa KDEN calcula y sugiere el ancho
3.60 3.70 3.70 3.80 3.90 4.10 4.10 4.20
de banda ptimo, pero si se desea observar ms
4.20 4.30 4.40 4.50 4.60 4.70 4.80 4.90
detalles de la funcin de densidad se puede
4.90 5.10 5.10 5.10 5.60 5.70 6.10 6.20
experimentar con el programa, y as como se
Analizar un modelo de densidad con KDEN puede afinar el histograma reduciendo la
Figura 12 amplitud de clase, tambin se puede ensayar con
Histograma, amplitud de clase = 1 el estimador kernel cambiando el ancho de
12
Histograma banda y probando otros kernels. En los
siguientes grficos se muestran algunos
10
resultados con los mismos 40 datos del ejemplo
8 anterior. En estos casos el ancho de banda ya no
es el valor ptimo.
6

Figura 14
4
Histograma, amplitud de clase = 0.5
9
2
8

0
1 2 3 4 5 6 7 8 7

6
Mtodo kernel (modelo Coseno) 5

Determinar el ancho de banda ptimo 4

S2 = 1.2259 (Varianza) 3

2
= S 2 = 1.2259 = 1.1072
1
Q1 = 0.5(x10 + x11) = 3 (Cuartiles)
0
1 2 3 4 5 6 7 8
Q3 = 0.5(x30 + x31) = 4.75
Figura 15 7. CONCLUSIONES
Kernel Coseno, h=0.8
0.4
Se realizaron ensayos con muestras de diferente
0.35
tamao y se obtuvieron resultados coherentes.
0.3
Sin embargo siempre ser conveniente realizar
pruebas con varios kernels y sus parmetros y
0.25
constatar si el modelo de probabilidad muestra
0.2
los detalles que uno desea. Por ello la necesidad
0.15
de tener un programa para experimentar hasta
0.1
llegar al modelo que nuestra intuicin nos dice
0.05
que es adecuado. Esto ocurre especialmente
0
1 2 3 4 5 6 7 cuando los datos tienen un patrn multimodal.
x

Figura 16 El programa KDEN calcula y sugiere el valor


Kernel Coseno, h=0.6 ptimo del ancho de banda usando el criterio
desarrollado en este artculo. La literatura
0.4
contiene otros mtodos ms complejos, para
0.35
estimar este valor crtico del mtodo kernel.
0.3

0.25 Es importante anotar que el desarrollo de este


0.2 trabajo tuvo como soporte la aplicacin de
0.15 mtodos numricos y de un lenguaje
0.1 computacional para disear e instrumentar el
0.05 software para facilitar la investigacin.
0
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 El cdigo fuente MATLAB del programa
x
KDEN est disponible en el Repositorio de la
Figura 17 ESPOL para que usuarios interesados puedan
Kernel Coseno, h=0.4 descargarlo y mejorarlo.
0.5

0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5
x
Figura 18
Grfico de algunos kernels
1
Cbico Sujeto
0.8
Triangular
0.6
Epanechnikov
0.4
Gaussiano
0.2

0
-3 -2 -1 0 1 2 3
x

Figura 19
Grfico del Kernel Coseno parametrizado sobre el kernel Gaussiano

Tabla 1
Algunas medidas desarrolladas para comparar kernels

Kernel Enlace () /

Normal 1.0000 1.0000 0.2821 0.3633 1.0000 1.0000 1.0000


Rectangular 0.3333 0.0000 0.5000 0.3701 1.3800 0.6348 2.1739
Triangular 0.1666 0.3679 0.6666 0.3531 2.2120 0.8155 2.7125
Epanechnikov 0.2000 0.2231 0.6000 0.3491 1.9470 0.7582 2.5681
Arco coseno 0.1894 0.2912 0.6169 0.3492 1.9850 0.7464 2.6594
Biweight 0.1429 1.0000 0.7143 0.3508 2.3700 0.8024 2.9536
Arco circular 0.2228 0.0729 0.5709 0.3503 1.7810 0.7049 2.5267
Coseno 0.1307 1.0000 0.7500 0.3520 2.5260 0.8339 3.0292
Cbico plano 0.2222 0.1353 0.5714 0.3502 1.9530 0.8476 2.3042
Cbico natural 0.1867 0.3012 0.6217 0.3494 2.0180 0.7602 2.6547
Cbico sujeto 0.1333 1.0000 0.7429 0.3521 2.5150 0.8434 2.9821
APNDICE A

DISEO CONCEPTUAL DEL PROGRAMA KDEN


Desarrollado modularmente en el lenguaje MATLAB con el soporte de su capacidad simblica, numrica
y grfica.

A.1 Estructura de KDEN


KDEN

Ingreso y validacin
de datos

KDENN KDENT KDENP


Proceso del kernel Proceso de kernels Proceso de kernels
normal tpicos propuestos

A.2 Mdulos subyacentes


Graficacin de puntos
Graficacin de histograma
Graficacin de kernels
Graficacin de la funcin de densidad
Graficacin de kernels y la funcin de densidad
Clculos estadsticos muestrales
Clculos estadsticos de densidad
Clculo del ancho de banda ptimo
Clculo de probabilidad
Descripcin simblica matemtica de funciones
Funcin para integracin numrica
Funciones para manejo de vectores y texto

A.3 Estructuras de datos


Vector de celdas para almacenar kernels
Vectores para almacenar bordes de kernels
Vector para almacenar puntos de cambio de intervalo para la funcin de densidad
Vector de celdas para almacenar sumas de kernels
A.4 Algoritmo para construir la funcin de densidad ()

()

1) Seleccionar el kernel
2) Ingresar el vector con las observaciones
3) Ingresar el ancho de banda h
4) Aplicar la ponderacin y colocar el kernel en cada punto muestral
5) Crear el vector con los bordes izquierdos y derechos a distancia h alrededor de cada punto muestral
6) Combinar los vectores de bordes, en un solo vector Z con los puntos de cambio de intervalo
7) Recorrer cada intervalo del vector Z y sumar los kernels en ese intervalo
8) Almacenar la suma en el vector de sumas de kernels
9) El vector de sumas de kernels es el estimador ()

A.5 Interaccin con el programa KDEN

Estudio de kernels
1) Grfico de puntos
2) Histograma
3) Kernels
Kernels disponibles
4) Salir
1) Normal o Gaussiano
Elija una opcin
2) Rectangular
3) Triangular
4) Epanechnikov
5) Biweigth
6) Arco coseno
7) Arco circular
8) Coseno
9) Cbico plano
10) Cbico natural Opciones disponibles
11) Cbico sujeto 1) Grfico de kernels
12) Salir 2) Grfico de la funcin de densidad
Elija Kernel 3) Grfico de la funcin de densidad y kernels
4) Estadsticas del estimador
5) Clculo de probabilidad
6) Definicin de la funcin de densidad
7) Salir
Elija una opcin
REFERENCIAS BIBLIOGRFICAS Y ELECTRNICAS

(1) BERTIN, KARINE. (2012)


Estimacin no-paramtrica de (6) BRUFMAN, JUANA, URBISAIA,
funciones. Universidad de Valparaiso, HERIBERTO. (2006). Distribucin
Chile, pp26-pp63
del Ingreso Segn Gnero: Un enfoque
no paramtrico. Cuadernos del
(2) CORTES DE LA FUENTE, JORGE.
CIMBAGE N0. 8, pp9-pp16
(2011). La informacin mutua como
medida de asociacin y su utilidad en
(7) PONOMAREVA, MARIA. (2010).
anlisis genticos. Universidad
Nonparametrics: regresin smoothing
Politcnica de Catalunya, pp29-pp32
with kernels. Northern Illinois
University, pp2-pp13
(3) ZUCCHINI, WALTER. (2003).
Kernel Density Estimation, pp2-pp19
(8) HANSEN, BRUCE (2004).
Bandwidth Selection for
(4) HANSEN, BRUCE (2009). Lecture
Nonparametrics Distribution
Notes on Nonparametrics. University
Estimation. University of Wisconsin,
of Wisconsin, pp3-pp16
pp3-pp9
(5) MURAT, KAIRY. (2009). Kernel
(9) WAN, BING. (2007). Bandwidth
Smoothing Function and choosing
Selection for Eweighted Kernel
Bandwidth for nonparametrics
Density Estimation. Electronic Journal
Regression Methods. Ozean Journal
of Statistics. ISSN 1935-7524, pp1-pp9
of Applied Sciences, Ozean
Publication, pp2-pp6
Escuela Superior Politcnica del Litoral
Facultad de Ciencias Naturales y Matemticas
Departamento de Matemticas
Manual de uso del programa KDEN
El programa KDEN permite construir un estimador de la funcin densidad de probabilidad para una
muestra de datos independientes.
KDEN usa como soporte el lenguaje MATLAB y constituye un dispositivo para obtener la funcin de
densidad probando diferentes modelos y variando un parmetro de ajuste. Los resultados que se
muestran son grficos, numricos y simblicos.

Procedimiento para usar KDEN


1) Ingrese a MATLAB
2) Reduzca el tamao de la ventana de comandos. Se sugiere ubicarla en la mitad izquierda

Ventana de comandos de MATLAB


3) Seleccione la carpeta en la cual est el programa KDEN, si no est en la carpeta inicial de MATLAB
4) En la ventana de comandos defina un vector con los datos muestrales
Ejm. Escriba
>> x=[1.1, 2.1, 2.3, 2.7, 3.8];
5) Ingrese al programa KDEN. Escriba
>> kden
6) El programa muestra el men inicial. Elija una de las opciones.
Estudio de kernels
1) Grfico de puntos
2) Histograma
3) Kernels
4) Salir
Elija una opcin

7) Si elige la opcin 1 ingrese el nombre del vector con los datos muestrales.
Ejm. Escriba x
Se muestra el grfico de puntos y las medidas muestrales

8) Si elige la opcin 2 ingrese el nombre del vector con los datos muestrales.
Ejm. Escriba x
Ingrese los bordes de las clases.
Ejm. Si los bordes de clase son 1, 2, 3, 4 escriba 1:4
Ejm. Si los bordes de clase son 1, 1.5, 2, 2.5, 3, 3.5, 4 escriba 1:0.5:4
Se muestra el histograma y las medidas muestrales
9) Si elige la opcin 3, se muestra el men de kernels disponibles

Kernels disponibles
1) Normal o Gaussiano
2) Rectangular
3) Triangular
4) Epanechnikov
5) Biweigth
6) Arco coseno
7) Arco circular
8) Coseno
9) Cbico plano
10) Cbico natural
11) Cbico sujeto
12) Salir
Elija Kernel

Ingrese el nmero del kernel.


Ejm. Si quiere el kernel Coseno, escriba 8

Ingrese el nombre del vector con los datos muestrales.


Ejm. Escriba x

El programa muestra el ancho de banda ptimo sugerido. Escriba este valor o el que desea probar
El programa muestra las opciones disponibles

Opciones disponibles
1) Grfico de kernels
2) Grfico de la funcin de densidad
3) Grfico de la funcin de densidad y kernels
4) Estadsticas del estimador
5) Clculo de probabilidad
6) Definicin de la funcin de densidad
7) Salir
Elija una opcin

Las opciones 1, 2, 3 producen resultados grficos. Para copiar un grfico a algn documento
marque Edit en el men del grfico y seleccione la opcin Copy Figure

La opcin 4 muestra las medidas estadsticas bsicas de la funcin de densidad

La opcin 5 permite calcular el valor de probabilidad en un rango especificado. Si no se escribe alguno


de los dos extremos del rango, se calcula la probabilidad desde el inicio o hasta el final del dominio de
la densidad de probabilidad, segn corresponda.

La opcin 6 muestra la forma algebraica de la funcin de densidad


Si la cantidad de datos es grande, el programa demorar algunos segundos para responder

10) Elija la opcin Salir para retroceder al nivel anterior y probar otras opciones de KDEN

Luis Rodrguez Ojeda, M. Sc. - lrodrig@espol.edu.ec

You might also like