You are on page 1of 23

7

Interpretacin automtica de las


imgenes

Una vez que se ha particionado la imagen en regiones de inters (segmentacin)


y se han corregido los errores de esta etapa (post-procesado), los objetos presentes en el
escenario debern ser cuantificados para tareas de reconocimiento o localizacin. Se
trata de asociar a cada elemento segmentado con un conjunto de valores numricos o de
atributos, al que se le llamar vector de caractersticas. Estos valores servirn de entrada
al sistema de clasificacin de los objetos, dando finalmente una etiqueta cualitativa a
cada objeto presente en la imagen, cerrando de esta forma la interpretacin automtica
de las imgenes. Por tanto, en este captulo se ver que dada la informacin de partida,
la imagen segmentada y post-procesada, se proceder en primer lugar a la etapa de
etiquetamiento, donde a cada objeto de inters se le asociar una etiqueta (seccin 7.1).
Una vez etiquetada la imagen ser posible extraer de forma particularizada las
caractersticas de cada objeto (seccin 7.2). Por ltimo, a cada objeto de la imagen se le
asignar una etiqueta cualitativa (seccin 7.3), dando por concluida la interpretacin de
la imagen.

7.1 Etiquetamiento de la imagen binaria


Se parte de una imagen segmentada donde los objetos han sido delimitados y
separados del fondo, de manera que los pxeles pertenecientes a las regiones de inters
han sido etiquetadas con un uno lgico y el resto con cero lgico. El siguiente paso ser
etiquetar cada una de los objetos presentes en la imagen, separndolo respecto del fondo
y de las otras regiones. Esta etapa se realiza con la operacin de etiquetamiento y se
Dpto. Electrnica, Automtica e Informtica Industrial

199

Carlos Platero

Apuntes de Visin Artificial

fundamenta en la continuidad
de los objetos en el espacio,
cuya propiedad se transforma
en las imgenes discretas en
relaciones de conectividad
entre
pxeles
adyacentes.
Partiendo de la esquina
superior izquierda de la
imagen, se rastrea hacia la
derecha y hacia abajo buscando
pxeles con etiqueta uno lgico.
Cuando se encuentra el primer
pxel con dicha etiqueta se le Figura 7. 1 Proceso de etiquetado de una imagen binaria
coloca la etiqueta 1, los
vecinos que tengan propiedad de conectividad y que posean el nivel lgico activo se les
pondr la misma etiqueta. Al seguir rastreando en la imagen y al encontrarse con un
pxel activado sin vecindad con los anteriores se le asociar con la etiqueta 2 y as
sucesivamente. Una vez finalizada esta etapa, cada objeto de la imagen tendr un
identificador numrico que le hace ser distinto respecto del fondo y de los otros objetos.

Resolucin Matlab
>>imgEnt=imread('rice.png');imshow(imgEnt);pause;
>>imgBWMask=im2BW(imgEnt);
>>se = strel('disk',2);
>>imgBWMarcador = imerode(imgBWMask,se);
>>imgReconst=imreconstruct(imgBWMarcador,imgBWMask);
>>imgBWElimBorde = imclearborder(imgReconst);
>>imgEtiq=bwlabel(imgBWElimBorde);
>>subplot(1,2,1);imshow(imgEnt);subplot(1,2,2);imshow(label2rgb(imgEtiq));

Figura 7. 2 Resultado del etiquetamiento de la imagen de granos de arroz

200

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

7.2 Extraccin de caractersticas


Una vez obtenida la imagen etiquetada, los objetos pueden ser cuantificados,
obteniendo as el vector de caractersticas. Las propiedades de los objetos se clasifican
en dos grandes grupos: aquellas relacionadas con el contorno de los objetos y aquellas
caractersticas propias del conjunto total del objeto o regin de cada una de ellas. En
esta seccin se hablar de estas medidas.
No hay que olvidar que el objetivo de estos vectores de caractersticas servir de
entrada para la clasificacin o localizacin de los objetos. Por tanto, a veces, se
requerir que la mtrica empleada sea invariante a efectos de escalado, rotacin o
posicin. Tambin ser tratado este aspecto.
7.2.1 Descriptores de regiones
Estas propiedades estn relacionadas con el conjunto total de pxeles que
constituye el objeto. Se podran agrupar en tres grandes grupos: mtricas, topolgicas y
texturales.
7.2.1.1 Mtricas
Son medidas relacionadas con la distancia eucldea entre pxeles. Las ms
simples seran el rea, el permetro y el centro de gravedad.
El rea, A(i), es el nmero de pxeles que contiene el objeto, i. Si se pondera
cada pxel por su nivel de gris se le define como el peso del objeto, W(i):
N

A ( i ) = gi ( x, y )
x =1 y =1

W ( i ) = gi ( x, y ) f ( x, y )
x =1 y =1

(7. 1)

Siendo gi(x,y) una funcin que es uno si el pxel pertenece al objeto i y nulo en
caso contrario. El permetro, P(i), es el nmero de pxeles que constituye el borde del
objeto, i. Tambin se suele utilizar la relacin del perimtrico al cuadrado del objeto
2
. Magnitud adimensional, cuyo valor mnimo se tiene cuando el
entre su rea, P (i )
A(i )
objeto es un crculo, por tanto, describir la compacidad del objeto. Valores prximos a
4 indicar que se aproxima a un crculo.
El centro de gravedad del objeto, ( x i , y i ) , indicar su posicin puntual en la
imagen y estar dado por:

Dpto. Electrnica, Automtica e Informtica Industrial

201

Carlos Platero

Apuntes de Visin Artificial

x i =

x g i (x, y )

y g (x, y )

x =1 y =1

x =1 y =1

y i =

A(i )

A(i )

(7. 2)

Segn el teorema de unicidad de Papoulis dice que, si gi(x,y) es continua a trozos


y tiene valores no nulos slo en una zona finita del plano x-y, entonces todos sus
momentos existen y la aplicacin que asigna una secuencia de momentos a la funcin es
biyectiva. Concluyendo que si se toma un nmero finito de momentos se obtiene una
aproximacin del objeto. Para el caso de imgenes discretas y etiquetadas, los
momentos de orden p+q se definen como:
N

m pq (i ) = x p y q g i ( x, y )
x =1 y =1

(7. 3)

Obsrvese que el rea del objeto coincide con el momento de orden cero y que el
centro de gravedad est unido con el momento de orden uno (p=1, q=0 y p=0, q=1).
Los momentos se pueden hacer invariantes a traslaciones, si son referidos al centro de
gravedad del objeto. A stos se les llama momentos centrales:
N

mc pq (i ) = ( x x i ) ( y y i ) g i ( x, y )
p

x =1 y =1

(7. 4)

Para ser invariante a escalados, se normaliza los momentos centrales con el rea
del objeto, esto es, con el momento de orden cero. A esta coleccin se la define como
momentos centrales normalizados:

pq =

mc pq
m00

(7. 5)

Los ejes mayor y menor de un objeto se definen en trminos de sus fronteras y


son tiles para indicar su orientacin y redondez. Los ejes, dados en pxeles, son
obtenidos por la equivalencia del
segundo
momento
central
normalizado de la regin con una
elipse que lo inscribe. Los ejes
mayor y menor hacen referencia a la
elipse equivalente, mientras su
orientacin es el ngulo de apertura
entre el eje horizontal y el eje mayor
del objeto. Otro parmetro empleado Figura 7. 3 Elipse equivalente del objeto etiquetado
es la excentricidad de la elipse

202

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

equivalente1. Este parmetro est entre 0 y 1. En el caso de valer 0 indica que es una
circunferencia y si es cero es un segmento recto.

Resolucin Matlab
>>imgEnt=imread('rice.png');
>>imgBWMask=im2BW(imgEnt);
>>se = strel('disk',2);
>>imgBWMarcador = imerode(imgBWMask,se);
>>imgReconst=imreconstruct(imgBWMarcador,imgBWMask);
>>imgBWElimBorde = imclearborder(imgReconst);
>>imgEtiq=bwlabel(imgBWElimBorde);
>>stat=regionprops(imgEtiq,'all');
>>stat(20).Eccentricity

7.2.2 Descriptores topolgicos


Las propiedades topolgicas son descripciones globales de los objetos
invariantes a rotaciones, escaladas o traslaciones. Por ejemplo, el nmero de agujeros
dentro del objeto. Otro descriptor utilizado es el nmero de componentes conectados. Se
trata de nmero de elementos separados que forman un objeto. Resulta evidente que
estas propiedades no estn relacionadas con el concepto de distancia, la cual se ha
empleado en las propiedades mtricas.
Un descriptor topolgico muy empleado es el nmero
de Euler. ste se calcula con la diferencia del nmero de
componentes conectados de la regin menos el nmero de
agujeros de sta. Por ejemplo, el nmero de Euler de A ser
0, el de B -1 y el i es +2. Los descriptores topolgicos se
Figura 7. 4 Objeto
suelen emplear en aplicaciones de reconocimiento de con nmero de Euler
caracteres.
-1

7.2.3 Texturas
La textura explica la composicin de las superficies de los objetos en trminos
de suavidad, rugosidad, granularidad, regularidad,... Desde el sentido de la visin, la
textura se observa como repeticiones de patrones locales de radiacin en las imgenes.
La sensacin que transmiten las imgenes de zonas de tosquedad, rugosidad o suavidad,
nacen de las correspondencias de las experiencias humana entre el sentido del tacto y la

b
Excentricidad de la elipse, e = 1 , donde a y b son el tamao de los semiejes mayor
a

y menor respectivamente.

Dpto. Electrnica, Automtica e Informtica Industrial

203

Carlos Platero

Apuntes de Visin Artificial

vista. Desde el punto de vista fsico, la interaccin entre la luz y la materia, en la


radiacin reflejada, muestra ciertas repeticiones de carcter estadstico.
La imagen resultante no es una repeticin local del patrn de forma determinista,
sino probabilstica y con una distribucin en el espacio no exactamente regular. Esta

Figura 7. 5 Imgenes con diferentes texturas

propiedad en la imagen se manifiesta de forma regional, de manera que si se asciende a


una visin global pueden aparecer diferentes texturas en la imagen. Por el contrario, al
descender y observar la imagen a nivel de pxel o entorno de vecindad del pxel, la
propiedad de la textura ha desaparecido. Lo mismo sucedera si se alejase
excesivamente del escenario, la textura observada quedara diluida. Por esto, la idea de
textura est asociado a un espacio de escalas. La nocin texel o primitiva textural se
define como una regin que posee ciertas propiedades visuales invariantes a la posicin,
al nivel de brillo o a cambios de perspectivas.

Figura 7. 6 La textura est relacionada con el espacio de las escalas

204

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

Figura 7. 7 Imgenes de satlite sobre el suelo de la Tierra que presentan diferentes texturas

Las aplicaciones del anlisis textural no slo se dan para la caracterizacin de los
objetos de inters, sino que tambin son utilizadas en los procesos de segmentacin. En
la figura 7.8 se observa los procesos de segmentacin en la imagen al ir incorporando
ms informacin. Se aprecia el resultado de la segmentacin desde que slo se emplea
el canal de luminancia hasta la incorporacin del color y la textura.

Figura 7. 8 Segmentacin del pez con distintos tipo de informacin. a) niveles de grises, b)
nivel de gris + textura, c) color RGB, d) color HSI, e) color + textura

El principal reto al que se enfrentan las tcnicas de anlisis textural consiste en


la descripcin de cmo son y cmo se distribuyen los elementos de textura en una
imagen. Los descriptores de texturas deben cuantificar ciertas propiedades tales como
suavidad, rugosidad y regularidad. Estas caractersticas deben ser invariantes a la
posicin, orientacin y nivel de brillo medio. Existen tres enfoques distintos:
estructurales, estadsticos y espectrales.
Las tcnicas estructurales consideran la textura como compuestas por primitivas
que forman un patrn repetitivo y describen este patrn mediante reglas capaces de
generarlo o reproducirlo. Formalmente, estas reglas constituyen la gramtica de la
textura que describe. Estas tcnicas resultan aplicables con xito en el anlisis de
imgenes que contienen una textura en la que los elementos descriptibles siguen una
gran regularidad en su distribucin.
Dpto. Electrnica, Automtica e Informtica Industrial

205

Carlos Platero

Aceptada

Apuntes de Visin Artificial

Rechazada

Figura 7. 10. Descripcin estructural de la textura. Se define unas primitivas y unas reglas de
encadenamiento de las primitivas. En la parte superior se ha representado las primitivas y las
reglas de encadenamiento. En la parte inferior un ejemplo de aceptacin y rechazo de un tipo
de textura

Por el contrario, el anlisis


espectral busca en las transformadas
de Fourier, picos de alta densidad en
el mdulo o en el argumento para
caracterizar los patrones texturales.
Se emplea para caracterizar patrones
peridicos y de forma global en la
imagen. Estos descriptores son Figura 7. 9 Imagen de una textura sinttica y el
invariantes a posicin y rotacin.
mdulo de su espectro frecuencial
El mayor problema de las
transformadas de Fourier es que cada componente del espectro frecuencial depende de
la imagen global. Como se muestra en la figura 7.11, puede haber una variacin espacial
del patrn en la imagen.

Figura 7. 11 Variacin de la textura con diferentes escalas

206

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

Una mejora de este procedimiento es utilizar los filtros de Gabor. Con estos
filtros, el anlisis espectral tambin considera el espacio de escala y una cierta
orientacin privilegiada. La mscara de convolucin de cada filtro se construye con una
funcin gaussiana modulada con un armnico de una determinada orientacin y
frecuencia:

G , f ( x, y ) =

1
2

x2 + y 2
2 2

2 jf ( x cos + y sin )

(7. 6)

La varianza y la frecuencia estn relacionadas y definen la escala del patrn:

=3

2 ln 2
f
2

(7. 7)

Normalmente, se emplea cuatro orientaciones y tres escalas, teniendo un


conjunto de doce mscaras de convolucin.

Figura 7. 12 Mscaras de convolucin con 4 diferentes orientaciones = 0, , , 3 y tres


4 2 4
diferentes frecuencias

f = {0.2, 0.35, 0.5} . La fila superior es la componente real y la

inferior la componente imaginaria.

Al convolucionar estos filtros con la imagen, los altos


valores indican la presencia del patrn. En el ejemplo de
las cebras se puede observar cmo al procesar la imagen
con las mscaras se puede discernir la posicin de las
cebras respecto del fondo

Figura 7. 13 Imagen original

Dpto. Electrnica, Automtica e Informtica Industrial

207

Carlos Platero

Apuntes de Visin Artificial

Figura 7. 14 Resultados de la convolucin de la imagen con las distintas mscaras

7.2.3.1 Tcnicas estadsticas


Las tcnicas estadsticas describen la textura mediante reglas estadsticas que
gobiernan la distribucin y la relacin espacial de niveles de gris en la imagen. stas
presentan buen comportamiento en el anlisis de texturas naturales o texturas con poca
resolucin, en donde los elementos de textura resultan difcilmente describibles.
Estas tcnicas se clasifican en: tcnicas estadsticas de primer orden, de segundo
orden y de orden superior. En el primer grupo, se obtienen medidas considerando el
valor de pxel, sin consideraciones de vecindad; mientras en las tcnicas de segundo
orden tratan de la distribucin espacial de parejas de pxeles vecinos y las de orden
superior consideran tripletes, ternas, ... de pxeles vecinos.
En las estadsticas de primer orden se puede obtener el histograma de la regin,
cuya normalizacin proporcionar la funcin de densidad de probabilidad de la textura.
Se pueden comparar los histogramas normalizados entre regiones o utilizar medidas
derivadas, tales como la media, la varianza, energa, entropa, etc. (ver seccin 4.1.1).
208

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

La principal desventaja de las tcnicas de primer orden es su falta de sensibilidad


ante permutaciones de los pxeles. La va ms apropiada para evitar la limitacin
anterior es considerar los estadsticos de segundo orden. A partir de ellos se obtienen las
matrices de dependencia espacial, generadora de medidas de textura ms fiables y
robustas. Las matrices de co-ocurrencia del nivel de gris, C, es un ejemplo de esta
fuente de medidas de textura. Se define en relacin con un desplazamiento de valor h,
en una direccin , desde una determinada fila y columna de la imagen; el elemento (i,j)
de la matriz de co-ocurrencia, cij, representa el nmero de veces que un pxel con nivel
de gris j, se encuentra a una distancia h, en direccin , de un pxel con nivel de gris i
(una ocurrencia conjunta). Si Nh representa el nmero total de ocurrencias, entonces la
fraccin entre la matriz de co-ocurrencia y Nh representa la matriz de co-ocurrencia
normalizada.
Por
ejemplo,
considerando una
imagen con tres
niveles de grises
(0,1 y 2) y
utilizando como
regla de vecindad
el pixel superior a Figura 7. 15 Ejemplo de extraccin de la matriz de co-ocurrencias
la derecha. La
matriz de co-ocurrencia mostrar por cada celda i,j las ocurrencias de encontrar un pxel
de nivel gris i que tenga como vecino superior a la derecha con nivel gris j. En el
ejemplo la matriz ser de 3x3. La celda (0,0) indica el nmero de ocurrencias de pxeles
con nivel de gris 0 que tenga como superior a la derecha otro pxel con nivel gris 0. Para
este caso, aparecen 2 ocurrencias. En cambio el elemento (0,1) indica las ocurrencias de
pxeles que tengan nivel de gris 1 y que su vecino superior a la derecha sea nulo.
A partir de la matriz de co-ocurrencia se obtienen diferentes descriptores.

7.2.4 Descriptores de fronteras


7.2.4.1 Cdigos encadenados
Partiendo del permetro del
objeto se procede a su codificacin
a travs de segmentos con longitud
y orientacin determinada. La
cadena de cdigos describe el
objeto mediante la sucesin de
estos
segmentos
conectando
pxeles adyacentes pertenecientes
al permetro del objeto. La
conexin
se
realiza
con
conectividad a 4 o a 8 pxeles. Figura 7. 16 Codificacin segn vecindad a 4 8
Partiendo
de
un
origen

Dpto. Electrnica, Automtica e Informtica Industrial

209

Carlos Platero

Apuntes de Visin Artificial

determinado y en el sentido horario se procede a codificar la frontera del objeto. En la


figura 7.17 se muestra un ejemplo de cmo se codificara a vecindad 4 u 8.

Figura 7. 17 Ejemplo de cdigo encadenado con vecindad a 4 y 8

El cdigo, iniciando en el punto y con vecindad a 4, sera 300301121232. El


primer elemento debe llevar informacin de su posicin. Si se desea comparar el cdigo
con otros se procede a su normalizacin. Una posibilidad de normalizacin es iniciar
por el pxel de la frontera que genere menor valor en su codificacin. En el ejemplo
seria 00301121232. Si se emplease vecindad a 8 el cdigo sera 005577443221.
Este descriptor es invariante a traslaciones, permitiendo ms fcilmente la
comparacin entre objetos. Con esta codificacin se obtiene de manera ms eficiente la
medida del permetro y de los descriptores de Fourier que empleando la imagen
etiquetada. El mayor inconveniente es la presencia de ruido.
El permetro de los objetos se calcula a partir del cdigo encadenado. Habr que
sustituir cada cdigo por 1 2 de valor mtrico, dependiendo si hace referencia a un
cdigo horizontal/vertical o de carcter diagonal respectivamente. La suma de los
valores mtricos obtendr el permetro del objeto.

7.2.4.2 Descriptores geomtricos


Una manera de facilitar la
representacin de las curvas es utilizar
funciones unidimensionales que la
describen. La primera funcin sera la
signatura. sta codifica la distancia de
un punto interior del objeto a todos los
puntos de la frontera. Normalmente, se
suele utilizar el centroide, como punto
interior.

Figura 7. 18 Ejemplos de signatura

Aunque
es
invariante
a
traslaciones, depende tanto del tamao como del punto donde se inicializa la
representacin polar. Para que sea invariante a escala se normaliza la distancia en el

210

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

rango [0 1]; slo bastar con dividir todas las distancias por la que sea la mayor.
Respecto a la dependencia al punto inicial, se toma aquel que tenga la mxima distancia.
La
signatura es muy
sensible a la
eleccin
del
punto interior.
Esta
funcin Figura 7. 19 Sensibilidad de la signatura con la eleccin del punto interior
caracterstica
cambia sustancialmente si se desva del centroide. Tambin
tiene el problema con la aparicin de concavidades en el
objeto, ya que la funcin resulta multievaluada para algunos
ngulos. Para solventarlo se suele emplear la envolvente
Figura 7. 20 Objeto con
convexa2.
concavidades

Otra funcin caracterstica es la curvatura, la cual


mide la pendiente (tangente) del contorno. La evolucin de la curvatura en la frontera es
invariante a traslacin, rotacin y escalado. Para su clculo se emplea la divergencia del
gradiente normalizado de la definicin del contorno, f:

f
f

= div

(7. 8)

Figura 7. 21 Obtencin de la funcin de distribucin de la curvatura media

Partiendo del concepto de curvatura se define la energa de doblado. Se define


como la energa necesaria para transformar una varilla en una determinada frontera:

ED =

1 n
2
(i )

n i =1

(7. 9)

Siendo n el nmero de puntos pertenecientes a la frontera.

Una trozo de la curva es convexa si el radio de curvatura est en el interior del objeto y cncava
si est fuera,

Dpto. Electrnica, Automtica e Informtica Industrial

211

Carlos Platero

Apuntes de Visin Artificial

7.2.4.3 Descriptores de Fourier


Es otra tcnica para pasar la informacin de
bidimensional a otra unidimensional. Dada una curva
cerrada, sta puede ser representada por una transformada
discreta de Fourier. La curva viene dada en coordenadas
cartesianas, obteniendo una secuencia de n puntos
pertenecientes a la frontera:

{(x1 , y1 ), (x 2 , y 2 ),..., (xi , yi ),...(xn , y n )}


Cada punto es convertido a variable compleja,
z (i ) = xi + jy i . La aplicacin sobre esta secuencia compleja de la transformada de
Fourier obtendr una respuesta espectral:
n

Z k = zne

2 k
i
K

k = 0,1,2,..., K 1

i =1

(7. 10)

Obteniendo K descriptores frecuenciales. La componente de continua


representara el centroide del objeto, las componentes de baja frecuencia estara
relacionados con los aspecto ms grueso del objeto y los de alta frecuencia con los
detalles.
La secuencia compleja se puede recuperar a partir de la anti-transformada:

zi =

1
K

K 1

Zke
k =0

2 i k
n
K

i = 1,2,..., n

(7. 11)

Si se elige un nmero de componentes P menor a K se tendr una descripcin sin


menos detalles.

212

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

Figura 7. 22 Evolucin de la forma cuadrada al ir aadiendo P componentes frecuenciales

Estos descriptores son invariantes a traslaciones, rotaciones, escalado y de donde


se empiece a tomar la secuencia.

7.2.4.4 Descripcin envolvente convexa


El objetivo es descomponer el contorno en una
convexidad que simplifique el proceso de descripcin. Se
trata de eliminar las concavidades del objeto. La envolvente
convexa (convex hull), EC, de un conjunto C se define como
el conjunto convexo ms pequeo que contiene a C.

7.3 Reconocimiento de patrones


El Reconocimiento de Patrones es una disciplina de la Ciencia encargada de
asignar a los objetos una clase determinada. Los objetos no slo proceden de las
imgenes sino tambin de seales unidimensionales (p.ej. reconocimiento de voz o
patrones en el electrocardiograma, ECG) o en cualquier otra medida sobre los objetos.

Figura 7. 23 Proceso de clasificacin de las llaves/moneda empleando tcnicas de Visin


Artificial
Dpto. Electrnica, Automtica e Informtica Industrial

213

Carlos Platero

Apuntes de Visin Artificial

La tarea de clasificacin es una combinacin del vector de caractersticas de los


objetos y del conocimiento a priori que se tenga del universo del problema. Para poder
asignar una etiqueta de clasificacin a un objeto se debe de tener reglas de pertenecas a
cada clase. Estas reglas se consiguen a travs del conocimiento que se tenga de cada
clase.
Los enfoques que se pueden emplear para la clasificacin se basa bien en una
funcin discriminante que divida el espacio de las caractersticas (clasificadores
estadsticos) o bien empleen relaciones geomtricas asociadas a los objetos
(clasificadores sintcticos). Existe una tercera va basada en las redes neuronales
artificiales, las cuales se parecen a los clasificadores estadsticos, en cuanto que tratan
de particionar el espacio de las caractersticas, pero emulando a los sistemas biolgicos,
empleando etapas previas de aprendizaje.
El esquema general del reconocimiento de objetos, tanto estadstico como
neuronal, consiste en obtener funciones discriminantes que divida el espacio de
caractersticas en tantas clases como estn presentes en el universo del problema. Por
tanto, la seleccin de las caractersticas resulta ser esencial para la buena clasificacin
de los objetos. stas debern de tener las siguientes propiedades:
1. Capacidad de discriminacin: Las caractersticas deben tomar valores
significativamente distintos para cada clase.
2. Fiabilidad: las caractersticas deben tomar valores similares para todos los
objetos de la misma clase.
3. Correlacin: Las diversas caractersticas no deben estar correladas unas con
otras, en caso contrario reflejaran la misma propiedad del objeto.
4. Nmero: la seleccin de las caractersticas debera de elegir el menor nmero
de ellas, ya que permite generalizar ms. A ms caractersticas ms datos de
entrenamiento se requieren para mantener igual grado de generalidad y no de
memorizacin.
En el ejemplo de la figura 7.24 se expone la distincin entre iris setosa e iris
versicolor. Las caractersticas seleccionadas son la longitud y anchura del ptalo.
Tambin ha sido representada las dos nubes de puntos de cada grupo. Se observa que
con una funcin discriminante lineal, en el espacio de las caractersticas, es posible una
ptima clasificacin.
Por tanto, una vez seleccionada las caractersticas ms discriminante se
proceder a la clasificacin de los objetos. Existen diferentes tcnicas para la
clasificacin de los objetos. Entre ellas destacan los mtodos sintcticos, las redes
neuronales y los clasificadores estadsticos.

214

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

Figura 7. 24 Ejemplo de clasificacin entre Iris setoda e Iris Versicolor empleando el ancho y
longitud de los ptalos

7.3.1 Mtodos sintcticos


En este caso un objeto es visto como una composicin de subformas simples.
Las subformas ms simple a ser reconocidas son llamadas primitivas y una forma
compleja es representada en trminos de interrelaciones entre estas primitivas. Este
mtodo tiene analoga con la sintaxis de un lenguaje. Normalmente requieren de
bastante esfuerzo computacional.

Figura 7. 25 Ejemplos de dos tipos de defectos en el aluminio colado y su clasificacin con


mtodos sintcticos: a) Mala cristalizacin, b) Desperfecto superficial.

7.3.2 Redes neuronales


Consiste en una red cuyos nodos son
neuronas artificiales que se conectan
mediante enlaces que tienen distintas
ponderaciones. Las redes neuronales tienen
la habilidad de aprender complejas
relaciones no lineales de entrada-salida
usando procedimientos secuenciales de
entrenamiento. Las redes neuronales ms Figura 7. 26 Arquitectura de red neuronal
usadas para efectos de clasificacin
supervisada son: Feed-forward networks (redes de alimentacin hacia adelante) que
incluye a MLP (MultiLayer Perceptron) y las redes de funciones de base radial (RBF).
Dpto. Electrnica, Automtica e Informtica Industrial

215

Carlos Platero

Apuntes de Visin Artificial

Para clasificacin no supervisada se usa las redes de Kohonen conocidas como SelfOrganizing Maps (SOM).

Figura 7. 27 Ejemplo de clasificacin mediante una red neuronal de los terrenos vistos en una
imagen area

7.3.3 Clasificadores estadsticos


Aqu cada objeto es representada como un conjunto de mediciones de p
caractersticas y puede considerada como un punto en el espacio p dimensional. Primero
hay que seleccionar aquellas caractersticas que permiten a los vectores de los objetos
de las distintas clases ocupar regiones disjuntas en el espacio p-dimensional. Dado un
conjunto de objetos, el objetivo es establecer fronteras en el espacio de caractersticas
que separen las formas que pertenecen a distintas clases. Hay dos metodologas: la
basada en teora de decisin y la basada en anlisis discriminante. En la primera las
fronteras son determinadas por las distribuciones de probabilidad de cada clase. En el
segundo caso se especifica una forma paramtrica (lineal, cuadrtica, etc ) de las
fronteras entre las clases y luego se optimizan basndose en muestras de aprendizaje, tal
cual se hace, por ejemplo, con las redes neuronales.
Desde el punto de vista de los clasificadores estadsticos, cada una de las N
clases, i (i1..N), se representa mediante un prototipo o centroide Zi, el cual es un
vector p-dimensional. ste suele ser construido como el valor medio de las muestras de
entrenamiento de cada clase. As, para la clase i con ni muestras de entrenamiento, el
centroide quedar definido como:

Zi =

1
ni

ni

X
j =1

ij

(7. 12)

siendo Xij el vector j de p-dimensiones que es una muestra de la clase i. La


funcin distancia eucldea entre una nueva muestra X y cada uno de los centroides Zi del
universo del problema:

216

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

d ( X , k ) =

( X

Z ki

i =1

(7. 13)

permitir discriminar a qu clase pertenece la nueva muestra. El objeto ser


asignado a la clase i que tenga menor distancia a Zi. La frmula anterior es equivalente
a evaluar la expresin de la funcin discriminante de cada clase fi(X), siendo: (i1..k),
para el patrn X y asignarlo a la clase i para la que fi(X) sea mximo:
1
f i ( X ) = X T Z i Z iT Z i
2
A partir de las funciones discriminantes de clases se pueden construir las
fronteras de decisin entre clases (hiperplanos), como se ha mostrado en el ejemplo de
la familia de flores iris (ver figura 7.24). A veces no se puede conseguir una separacin
lineal entre clases. Esto se produce debido a que: 1) las caractersticas son inadecuadas
para distinguir entre clases de forma lineal, 2) las caractersticas tienen una alta
correlacin, 3) las fronteras de decisin no son lineales, 4) hay subclases, dentro de las
clases, o 5) el espacio de caractersticas es muy complejo. Una solucin puede ser
emplear un marco de trabajo bayesiano. Se trata de minimizar el error de clasificacin
con el conocimiento a priori de las distribuciones de probabilidad de las caractersticas
de los objetos a clasificar.
Empleando el teorema de Bayes se adjudica una nueva muestra a la clase que
tenga mayor probabilidad a posteriori:

p (i | X ) =

p ( X | i ) p (i )
p( X )

(7. 14)

donde p(i) es la probabilidad la clase i y p(X|i) es la probabilidad a priori de


que dado el vector X del objeto pertenezca a la clase i. Por ltimo, p(X) es la
probabilidad de que se presente una muestra con el vector de caractersticas X.
Cumplindose que:
N

p ( X ) = p ( X | i ) p ( i )
i =1

(7. 15)

Para una nueva muestra con vector de caracterstica X, p(X) permanecer


constante para todas las clases, luego la funcin discriminante ser la probabilidad a
posterior sin la probabilidad de la muestra:

f i ( X ) = p ( X | i ) p (i )

(7. 16)

se asignar la muestra a la clase que retorne mayor valor de fi(X).

Dpto. Electrnica, Automtica e Informtica Industrial

217

Carlos Platero

Apuntes de Visin Artificial

La estimacin de las funciones de densidad de probabilidad p(X|i) es otra


cuestin. Si los patrones vectoriales, X, son de dimensin p, p(X|i) es una funcin de p
variables, que, si su forma no es conocida, requiere de mtodos de la teora de
probabilidades de varias variables para su estimacin. Estos mtodos son difciles de
aplicar en la prctica. Por estas razones, los clasificadores de Bayes se basan
generalmente en la suposicin de una expresin analtica para las diversas funciones de
densidad y, posteriormente, en una estimacin de los parmetros de la expresin para
los patrones ejemplo de cada clase. La forma ms habitualmente supuesta para p(X|i)
es la distribucin gaussiana. Cuanto ms se aproxime a la realidad esta suposicin, ms
se aproximar el clasificador de Bayes al mnimo error de clasificacin.

Figura 7. 28 a) nube de puntos de tornillos y tuercas, b) funciones de densidad p(X|


i)

El modelo de funcin de densidad normal est definida por el vector de la media,


Mi , y la matriz de covarianza, :
p ( X | i ) =

( 2 )

n/2

T
1

exp ( X M i ) i1 ( X M i )
2

(7. 17)

Figura 7. 29 Funcin de densidad gaussiana 2D para tres clases

Debido a la forma exponencial de la densidad gaussiana, es ms conveniente


trabajar con el logaritmo neperiano en la funcin discriminante:

218

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

f i ( X ) = ln ( p ( X | i ) p (i ) ) =

p
1
ln ( 2 ) + ln i 2

1
T
( X M i ) i1 ( X M i ) + ln ( p (i ) )
2

(7. 18)

El trmino p / 2 ln ( 2 ) es el mismo para todas las clases, por lo que se


elimina de la ecuacin de la funcin discriminante.
Si todas las matrices de covarianzas de las clases fuesen idnticas y las
probabilidades de las clases fuesen equiprobables, la funcin discriminante se define
como la distancia de Mahalanobis:
fi ( X ) =

1
T
( X M i ) 1 ( X M i )
2

Adems para el caso particular


de que las componentes del vector X
no estuvieran correladas y fuesen de la
misma magnitud, coincidira con la
funcin
discriminante
lineal
o
distancia eucldea:
T

fi ( X ) = ( X M i )

( X M i ).

Figura 7. 30 Funciones discriminantes de


Mahalanobis y eucldea para el problema de
tuercas y tornillos

En el caso de no poder asumir


un modelo analtico para p(X|i) habr
que recurrir a estimadores no paramtricos de la funcin de densidad, como es el caso
del histograma. Sin embargo, el histograma est promediando valores en una regin y
por tanto est generando una versin distorsionada de la funcin de densidad.
Normalmente se emplea el mtodo no paramtrico de Parzen.
Suponiendo que se tiene muestras de una determinada clase, su probabilidad
ser:

p ( X ) dX
p( X ) =

dX

k /m
VR

(7. 19)

siendo k el nmero de muestras del total m que caen en la regin R de volumen


VR. Por otro lado, habr que garantizar que cuando el nmero de muestras, m, tienda a
infinito, la aproximacin discreta coincida con la continua. Para tal fin, la regin R
quedar definida por una funcin (X) que encierra el volumen VR. El nmero de
muestras que cae en la regin R corresponder con:

Dpto. Electrnica, Automtica e Informtica Industrial

219

Carlos Platero

Apuntes de Visin Artificial


m
X Xi
k =

h
i =1

(7. 20)

siendo (X) el hipercubo que selecciona la regin. La funcin de densidad


quedar como:

p( X )

k/m
1
=
VR
mhp

X Xi
h


i =1

(7. 21)

Normalmente (X) emplea una expresin de tipo gaussiano para el suavizado de


la funcin densidad, de manera que h define la apertura de la regin y por tanto el
carcter de p(X). A medida de que h sea ms grande, con ms muestras de alrededor
interaccionar y ms suave ser p(X). El papel de h2 es idntico a la de varianza.

X Xi
1 m
1
p( X )
exp

m i =1 2 h 2 1 2
2h 2

( )

(7. 22)

Figura 7. 31 Estimacin de p(X) con 5 datos con tres diferentes anchos de ventana

220

Dpto. Electrnica, Automtica e Informtica Industrial

Apuntes de Visin Artificial

Captulo 7: Interpretacin de las imgenes

Derecho de Autor 2009 Carlos Platero Dueas.


Permiso para copiar, distribuir y/o modificar este documento bajo los trminos
de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier otra
versin posterior publicada por la Free Software Foundation; sin secciones
invariantes, sin texto de la Cubierta Frontal, as como el texto de la Cubierta
Posterior. Una copia de la licencia es incluida en la seccin titulada "Licencia de
Documentacin Libre GNU".

La Licencia de documentacin libre GNU (GNU Free Documentation License) es una licencia
con copyleft para contenidos abiertos. Todos los contenidos de estos apuntes estn cubiertos
por esta licencia. La version 1.1 se encuentra en http://www.gnu.org/copyleft/fdl.html. La
traduccin (no oficial) al castellano de la versin 1.1 se encuentra en
http://www.es.gnu.org/Licencias/fdles.html

Dpto. Electrnica, Automtica e Informtica Industrial

221

You might also like