Professional Documents
Culture Documents
Resumen. En este artculo se describen los detalles del conocido mtodo kernel para construir una
funcin de densidad de probabilidad para una muestra univariada. Se proponen nuevas formas para los
kernels y criterios adicionales para su eleccin y para estimar el ancho de banda ptimo. Como soporte
para esta investigacin se instrument un software para experimentacin y obtencin de resultados
grficos y numricos.
Abstract. This paper describes the details of the well known kernel method used to construct a
probability density function for a univariate sample. New forms for the kernels are proposed and
additional criteria for their election and for estimating the optimal bandwidth. As support for this research
a software was implemented for experimentation and obtaining of graphical and numerical results.
Recibido:
Aprobado
1
Luis Rodrguez Ojeda, M.Sc., Departamento de Matemticas, ESPOL. (e-mail: lrodrig@espol.edu.ec)
1. INTRODUCCIN 2. PROPIEDADES DE KERNELS
La distribucin de probabilidad de una variable 2.1 Definicin de kernel
aleatoria continua X se describe mediante una Un kernel es una funcin de variable real:
funcin denominada funcin de densidad f(x) : con las siguientes propiedades
con la cual se pueden determinar valores de
probabilidad con la definicin: ) () [, ), x [-1, 1]
) () = , x [-1, 1]
( ) = () ) () = (-)
Si f(x) no es un modelo conocido, es de inters ) () =
para la investigacin poder estimar f(x) a partir ) () =
de una muestra de observaciones x1, x2, xn
) () +
que suponemos son resultados independientes y
tienen la misma distribucin de probabilidad. De aqu en adelante, nos referiremos solamente
Como ocurre frecuentemente en problemas de al intervalo en el cual no es negativo. En la
ingeniera, la obtencin de estos datos se basa definicin este intervalo es [-1, 1] pero puede
en ensayos que involucran tiempo y costo, por modificarse mediante un parmetro. Adems, es
lo tanto su cantidad es limitada. deseable que sea diferenciable
El mtodo kernel utiliza un conjunto de datos 2.2 Parametrizacin de kernels
que provienen de una distribucin continua, Sea h R+, el kernel parametrizado en h es
univariada y desconocida para aproximar esta
h(x) = ( ), x [-h, h]
funcin. Los fundamentos matemticos son
Esta modificacin mantiene las propiedades
conocidos pero la investigacin an continua en
anteriores, pero referidas al intervalo [-h, h].
la seleccin de los parmetros de ajuste
h se denomina el ancho de banda de y es la
adecuados para su aplicacin. En este
semi-amplitud del kernel en el intervalo de
documento se describe en detalle la formulacin
inters.
y se proponen algunos criterios para la
aplicacin de este mtodo. La propiedad d) se prueba mediante la
sustitucin: u = x/h: x=-h u = -1, x=h u=1
Los kernels son funciones que se asocian a cada x=hu, dx=hdu
uno de los datos. Entonces, la suma ponderada
de estas funciones es un estimador para dx = ()
aproximar la funcin de densidad desconocida. = () =
Estas funciones son objetos matemticos Es importante interpretar el rol de h en h(x)
conocidos, pero en esta contribucin se Si h se incrementa, h > 1, la amplitud de
desarrollan nuevas formas basadas en aumenta, pero el factor 1/h, reduce el rango de
consideraciones geomtricas y se establecen para mantener el rea igual a 1
otros criterios para compararlos.
Si h se reduce, h < 1, la amplitud de se
Como ocurre en muchas reas del conocimiento, reduce, pero el factor 1/h incrementa el rango de
la formulacin desarrollada no es adecuada para para mantener el rea igual a 1
el tratamiento manual, por lo que se ha
construido un programa computacional para su 2.3 Traslacin de kernels
aplicacin. Existen programas para usar el El kernel se puede centrar en cualquier punto
mtodo Kernel, pero no incluyen los modelos xi R. El kernel parametrizado en h y centrado
para experimentar como se describe en este en xi es:
trabajo. h(x) = ( ), x [xi - h, xi + h]
El programa usa como soporte el lenguaje Esta modificacin mantiene las propiedades
MATLAB y constituye un pequeo laboratorio anteriores en el nuevo intervalo de inters:
con el que se pueden probar diferentes modelos [xi - h, xi + h]
para construir el estimador de la funcin f(x) Para verificar la propiedad d) se realiza la
realizando pruebas con los parmetros de ajuste. sustitucin: u = : x = xi - h u =-1,
Los resultados que se muestran son grficos, x = xi + h u=1, dx=hdu
simblicos y numricos. +
( )dx = ()
= () =
Se concluye que la funcin h(x) = ( ),
x [xi - h, xi + h] es una funcin de densidad
de probabilidad centrada en el punto xi .
3. MODELOS DE KERNELS
Polinomio cbico en el tramo derecho:
Se describen a continuacin algunos kernels que
son bien conocidos [1]. K(x) = ax3 + bx2 + cx + d, x [0, 1]
K(x)=3ax2 + 2bx + c, K(x) = 6ax + 2b
3.1 Kernel Rectangular o Uniforme
Es un rectngulo que se coloca sobre cada Condiciones geomtricas:
punto. Al interactuar con los kernels de los otros a) K(1) = 0 a + b + c + d = 0
puntos, el efecto en la suma es un cambio b) K(0) = 0 c = 0
abrupto. c) K(1) = 0 3a + b = 0
(x) = 0.5, x [-1, 1] La altura t del kernel es el parmetro para
convertirlo en funcin de densidad:
3.2 Kernel Triangular
Es un tringulo que se coloca sobre cada punto. d) K(0) = t d = t
Al interactuar con los otros kernels el efecto Resolviendo y sustituyendo se obtiene
combinado es lineal pero ms liso que los
K(x) = +
rectngulos
que cada kernel influye en todos los otros 4.2 Kernel Cbico Plano
kernels colocados en los puntos de la muestra.
El perfil son dos segmentos de un polinomio
La suma resultante es continua y suave.
cbico que se conectan manteniendo
continuidad hasta la segunda derivada
(x)= , x(-, +)
(x) = ( || ), x [-1,1]
3.5 Kernel Biweight o Curtico
4.3 Kernel Cbico Sujeto
(x) = (1-x ) , x [-1,1]
2 2
El perfil son dos segmentos de un polinomio
3.6 Kernel Arco Coseno
cbico que se conectan manteniendo
continuidad hasta la primera derivada, pero con
(x)= cos( x), x [-1,1]
los extremos horizontales (primera derivada
nula), con el objetivo de que al combinarse con
4. CONSTRUCCIN DE KERNELS otros kernels, la interaccin sea lisa.
El diseo de nuevas formas para los kernels es
(x) = 2|| + , x [-1,1]
un ejercicio matemtico. El diseo se basa en
consideraciones geomtricas. Estos objetos 4.4 Kernel Coseno
matemticos son los componentes con los que
El perfil es un segmento modulado de la funcin
se construye el estimador de la funcin de
coseno.
densidad.
(x) = (() + ), x [-1,1]
Las formas propuestas difieren en algn aspecto
las formas conocidas que normalmente son 4.5 Kernel Arco Circular
funciones de potencia par. Las funciones
El perfil es un arco de una circunferencia:
propuestas usan polinomios cbicos entre otros.
4.1 Kernel Cbico Natural () = . . ,
x [-1,1]
El perfil son dos segmentos de un polinomio
cbico que se conectan manteniendo En la Figura 18 al final de este artculo se
continuidad hasta la primera derivada y con los muestra el perfil de algunos kernels formulados.
extremos libres, sin curvatura. Se ilustra su
obtencin. Similarmente se obtienen los otros.
5. CONSTRUCCIN DE FUNCIONES DE En el lmite, cuando h 0, la contribucin de
DENSIDAD DE PROBABILIDAD cada kernel estar concentrada en cada punto xi
Sea X una variable aleatoria con distribucin as el estimador (x) tendr una distribucin
de probabilidad continua, univariada y puntual concentrada en cada dato. Por otra
desconocida f(x) de la cual se dispone de una parte, cuando h , la distribucin de (x) se
muestra aleatoria de n observaciones aplanar, con un solo cmulo y con mayor
independientes: x1, x2, , xn. El objetivo es dispersin. Es necesario buscar un ancho de
usar estos datos para obtener un estimador (x) banda adecuado para construir el estimador.
de la funcin de densidad de probabilidad f(x) Ejemplo. Dados los siguientes datos de una
El mtodo clsico para construir (x) es el muestra aleatoria (variables independientes y
histograma que agrupa los datos en clases con con la misma distribucin de probabilidad),
amplitud que debe elegirse. La representacin analizar un modelo de densidad de
grfica son rectngulos excluyentes cuya altura probabilidad:
es el conteo de observaciones en cada clase y se X: 1.1, 2.1, 2.3, 2.7, 3.8
denomina frecuencia de clase.
Todos los resultados grficos y numricos que
El histograma es una funcin continua pero se muestran a continuacin fueron obtenidos
cambia con saltos entre clases. La altura de cada con el software KDEN desarrollado para esta
rectngulo puede asociarse a valores de investigacin. El programa puede mostrar
probabilidad. Esta altura solo depende de la tambin el modelo matemtico del estimador
cantidad de datos incluidos en cada clase (x) y algunas medidas estadsticas de inters.
ignorando la influencia de los datos adyacentes
aunque estn muy prximos. Figura 1
Diagrama de puntos
5.1 El Mtodo Kernel Puntos
1
Un kernel es una funcin de densidad. Si se 0.5
coloca un kernel en cada uno de los datos de la 0
0.5 1 1.5 2 2.5 3 3.5 4
muestra, la suma ponderada de estas funciones
tambin ser una funcin de densidad de
Figura 2
probabilidad. Esta suma es una funcin continua
Histograma, amplitud de clase = 1
que suaviza el perfil de la distribucin captando
3
la influencia de los datos cercanos y constituye
el estimador (x) del modelo terico del cual 2.5
x [xi - h, xi + h] en cada kernel i 0.8
Se supondr que x1 x2 x3 xn
0.4
modelo. 0
1 1.5 2 2.5 3 3.5 4
Mientras ms pequeo es h, ms concentrada x
est la contribucin del kernel en cada punto xi Si h es muy pequeo, los kernels estn
Mientras ms grande es h, mayor es la concentrados en cada punto y no interactan con
influencia e interaccin del kernel hacia los los otros. La suma es la funcin de densidad
puntos vecinos. (x) y su perfil se muestra superpuesto al grfico
de los kernels en la siguiente figura.
Figura 4 Clculo de probabilidad
Kernels y la funcin de densidad (x) con Calcular la probabilidad que la variable X tome
h=0.3 un valor entre 1.5 y 2.5
.
(. . ) = . () = .
1
0.6
Para el ejemplo anterior:
0.4
Media 2.4000
Varianza 0.8532
0.2 Sesgo 0.1092
Rango [0.3, 4.6]
0
1 1.5 2 2.5
x
3 3.5 4 Amplitud 4.3000
Mediana 2.3578
Figura 5
Primer Cuartil 1.8302
Kernels y la funcin de densidad (x) con Tercer Cuartil 2.9226
h=2.0
0.4
En resumen, el mtodo kernel proporciona un
estimador continuo (x).
0.35
0.3
Si se elige
adecuadamente el ancho de banda h los
0.25
rectngulos del histograma son reemplazados
0.2
por cmulos suavizados que se solapan e
0.15
interactan de tal manera que al sumarlos
0.1
producen una funcin que presenta detalles que
0.05 el histograma no puede mostrar.
0
0 1 2 3 4 5
x
5.2 Propiedades de la variable aleatoria con
Si h es muy grande hay un sobre ajuste y la densidad (x)
distribucin sumada ser ms plana, con un solo
cmulo y con mayor dispersin Sea X: variable aleatoria con densidad (x)
Figura 6 (x) = = () = = ( ) ,
Kernels y la funcin de densidad (x) con (), x [xi - h, xi + h], Kernel
h=0.8 h: Ancho de banda
(x), x [x1 - h, xn + h]
0.6 x1 x2 x3 xn
0.5 5.2.1 (x) es una funcin de densidad
0.4 Demostracin
+ +
0.3 () = =
+
0.2
= ( )
0.1
=
Con la sustitucin: u = : x = xi h u = -1
0
x = xi + h u = 1, dx = hdu
0.5 1 1.5 2 2.5 3 3.5 4 4.5
x
+
Si el valor de h es adecuado, la distribucin se = ( ) = = ()
suaviza y permite observar ms detalles de la
distribucin de probabilidad. = () =
Figura 7 5.2.2 Valor esperado de la variable aleatoria
Funcin de densidad (x) con h=0.8 y el
histograma Sea x [x1-h, xn+h] una variable aleatoria con
distribucin (x). Su valor esperado:
Funcin de densidad Cbico Sujeto h = 0.8
() =
+ +
3
() = = ( )
0.6
2.5
0.5
2
0.4
Figura 8
= () Kernel Epanechnikov, h = 1.5, enlace=0.2231
= = () + Densidad y Kernels Epanechnikov h = 1.5
0.35
= () + = ()
0.3
0.25
= = + = () + = () 0.2
0.15
= + =
0.1
0.05
= ( ) () 0
1 2 3
x
4 5 6
Figura 9
= +
Kernel Coseno, h = 1.5, enlace = 1
= = y
= +
0.35
0.3
En donde 0.25
0.15
0
1 2 3 4 5 6
0.5
=
(. (. ) + . )
0.4
= .
0.3
0.5
0.15
0.4
0.1
0.3
0.05
0.2
0
1 2 3 4 5 6 7
x
0.1
Figura 14
4
Histograma, amplitud de clase = 0.5
9
2
8
0
1 2 3 4 5 6 7 8 7
6
Mtodo kernel (modelo Coseno) 5
S2 = 1.2259 (Varianza) 3
2
= S 2 = 1.2259 = 1.1072
1
Q1 = 0.5(x10 + x11) = 3 (Cuartiles)
0
1 2 3 4 5 6 7 8
Q3 = 0.5(x30 + x31) = 4.75
Figura 15 7. CONCLUSIONES
Kernel Coseno, h=0.8
0.4
Se realizaron ensayos con muestras de diferente
0.35
tamao y se obtuvieron resultados coherentes.
0.3
Sin embargo siempre ser conveniente realizar
pruebas con varios kernels y sus parmetros y
0.25
constatar si el modelo de probabilidad muestra
0.2
los detalles que uno desea. Por ello la necesidad
0.15
de tener un programa para experimentar hasta
0.1
llegar al modelo que nuestra intuicin nos dice
0.05
que es adecuado. Esto ocurre especialmente
0
1 2 3 4 5 6 7 cuando los datos tienen un patrn multimodal.
x
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5
x
Figura 18
Grfico de algunos kernels
1
Cbico Sujeto
0.8
Triangular
0.6
Epanechnikov
0.4
Gaussiano
0.2
0
-3 -2 -1 0 1 2 3
x
Figura 19
Grfico del Kernel Coseno parametrizado sobre el kernel Gaussiano
Tabla 1
Algunas medidas desarrolladas para comparar kernels
Kernel Enlace () /
Ingreso y validacin
de datos
()
1) Seleccionar el kernel
2) Ingresar el vector con las observaciones
3) Ingresar el ancho de banda h
4) Aplicar la ponderacin y colocar el kernel en cada punto muestral
5) Crear el vector con los bordes izquierdos y derechos a distancia h alrededor de cada punto muestral
6) Combinar los vectores de bordes, en un solo vector Z con los puntos de cambio de intervalo
7) Recorrer cada intervalo del vector Z y sumar los kernels en ese intervalo
8) Almacenar la suma en el vector de sumas de kernels
9) El vector de sumas de kernels es el estimador ()
Estudio de kernels
1) Grfico de puntos
2) Histograma
3) Kernels
Kernels disponibles
4) Salir
1) Normal o Gaussiano
Elija una opcin
2) Rectangular
3) Triangular
4) Epanechnikov
5) Biweigth
6) Arco coseno
7) Arco circular
8) Coseno
9) Cbico plano
10) Cbico natural Opciones disponibles
11) Cbico sujeto 1) Grfico de kernels
12) Salir 2) Grfico de la funcin de densidad
Elija Kernel 3) Grfico de la funcin de densidad y kernels
4) Estadsticas del estimador
5) Clculo de probabilidad
6) Definicin de la funcin de densidad
7) Salir
Elija una opcin
REFERENCIAS BIBLIOGRFICAS Y ELECTRNICAS
7) Si elige la opcin 1 ingrese el nombre del vector con los datos muestrales.
Ejm. Escriba x
Se muestra el grfico de puntos y las medidas muestrales
8) Si elige la opcin 2 ingrese el nombre del vector con los datos muestrales.
Ejm. Escriba x
Ingrese los bordes de las clases.
Ejm. Si los bordes de clase son 1, 2, 3, 4 escriba 1:4
Ejm. Si los bordes de clase son 1, 1.5, 2, 2.5, 3, 3.5, 4 escriba 1:0.5:4
Se muestra el histograma y las medidas muestrales
9) Si elige la opcin 3, se muestra el men de kernels disponibles
Kernels disponibles
1) Normal o Gaussiano
2) Rectangular
3) Triangular
4) Epanechnikov
5) Biweigth
6) Arco coseno
7) Arco circular
8) Coseno
9) Cbico plano
10) Cbico natural
11) Cbico sujeto
12) Salir
Elija Kernel
El programa muestra el ancho de banda ptimo sugerido. Escriba este valor o el que desea probar
El programa muestra las opciones disponibles
Opciones disponibles
1) Grfico de kernels
2) Grfico de la funcin de densidad
3) Grfico de la funcin de densidad y kernels
4) Estadsticas del estimador
5) Clculo de probabilidad
6) Definicin de la funcin de densidad
7) Salir
Elija una opcin
Las opciones 1, 2, 3 producen resultados grficos. Para copiar un grfico a algn documento
marque Edit en el men del grfico y seleccione la opcin Copy Figure
10) Elija la opcin Salir para retroceder al nivel anterior y probar otras opciones de KDEN