You are on page 1of 38

4. Percepción visual del movimiento.

4.1. Introducción.

La percepción visual del movimiento es una función esencial del sistema visual
humano. Su importancia es central en la estimación del movimiento relativo entre
objetos, en la estimación del movimiento propio (ego movimiento), en los procesos de
orientación y en la discriminación entre objetos espacialmente separados. Las
variaciones producidas en el campo visual debido al movimiento revelan una estructura
tridimensional análoga a la que inducen dos imágenes en estereopsis, suponiendo una
rica fuente de información en la determinación de la profundidad en el mismo y de la
estructura de los objetos que comprende.

En lo que concierne a la interpretación pasiva de escenas, el análisis visual del


movimiento es aplicado en el contexto de la reconstrucción de escenas, es decir, en el
cálculo de descripciones locales del campo visible. En este tenor, la coherencia del
campo de movimiento puede ser utilizada en tareas de segmentación o diferenciación
entre los objetos frontales y los de fondo o en el análisis de la forma de los mismos. De
igual manera el tipo de movimiento de un objeto puede indicar su carácter rígido o
flexible en tareas como la distinción de organismos biológicos vivos frente a su entorno.

En lo que concierne a la percepción activa experimentada por un ojo en movimiento,


la percepción visual del movimiento proporciona información sobre la distancia y
velocidad relativa de los objetos presentes en el campo visual, permitiendo la predicción
y evitación de posibles obstáculos. También resulta útil en la coordinación entre la mano
y el ojo en tareas que requieren la habilidad de agarrar y manipular objetos en
movimiento.

Existen numerosos estudios psicológicos y psicofísicos donde se reconoce la


importancia de la percepción visual en las tareas mencionadas [Kappers,1994]
[Wallich,1991] [Ballard,1989] [Freeman,1991], otros en los que se modela el sistema de
percepción visual del movimiento utilizado por los humanos [Perone,1992]

79
Capítulo 4 Percepción Visual del Movimiento

[Jasinschi,1992] y otros que pretenden detectar las limitaciones del mismo


[Metha,1994] [Smith,1994] [Watson,1994].

A pesar de dichos estudios y al igual que en muchos otros campos de la percepción y


del razonamiento, no existe una constancia explícita de exactamente cual es el método
de estimación visual del movimiento utilizado por los humanos y otros animales. No
obstante, estos estudios están siendo de gran relevancia en la creación de modelos
visuales cada vez mas completos y que al menos revelan y gozan propiedades y
comportamientos próximos a los de un sistema visual real.

Una vez establecido un modelo más o menos acertado del sistema de percepción
visual del movimiento usado por los humanos, se plantea la viabilidad de crear un
sistema artificial semejante, sino en estructura, al menos en comportamiento y
funcionalidad. Añadida a la complejidad inherente a la percepción del movimiento, se
unen restricciones tecnológicas que limitan la cantidad de procesamiento que se puede
efectuar sobre las imágenes, teniendo esto consecuencias directas sobre la resolución y
cadencia (espacial y temporal) de las medidas de movimiento y sobre la complejidad
involucrada en los cálculos a efectuar.

A continuación se analiza el estado del arte en técnicas de estimación visual del


movimiento y en el capítulo siguiente su aplicación a las tareas de estimación del
movimiento propio y de la profundidad. En el capítulo 6 se describe el empleo de la
teoría de grafos en este tipo de aplicaciones y se analizan las ventajas e inconvenientes
que ello supone.

4.2. Enfoques.

En el proceso de percepción deductiva del movimiento se pueden distinguir dos


pasos, uno de medición de la proyección del movimiento sobre el plano de imagen
(movimiento bidimensional) y otro de interpretación de la misma en con objeto de sacar
conclusiones relativas a la estructura y al movimiento tridimensionales de la escena.
Algunos autores [Fleet,1992] hacen referencia a otro paso anterior de prefiltrado, que si
bien suele existir, puede ser incluido en el proceso de medición. Esta diferenciación en
pasos no está justificada por evidencias biológicas, siendo una división puramente
conceptual. Existen de hecho técnicas llamadas “directas” que integran ambas etapas en
un solo paso [Horn,1988][Bouthemy,1989][Masanobu,1989][Sagües,1993].

80
Capítulo 4 Percepción Visual del Movimiento

A su vez, existen indicios de la posibilidad de que los animales avanzados (incluidos


los humanos) utilicen simultáneamente dos mecanismos de medida del movimiento
bidimensional (Véase la figura 4-1) :

• Un mecanismo a largo plazo donde se relacionan objetos o elementos


significativos (esquinas, contornos, etc.) comúnmente llamados rasgos,
detectados en “instantáneas” tomadas en un intervalo de tiempo relativamente
grande, asociándose un movimiento bidimensional a los pares de rasgos
correspondientes en uno y otro instante.
• Un mecanismo a corto plazo donde se efectúa una estimación de la velocidad
instantánea proyectada en un conjunto de puntos pertenecientes al plano de
imagen para formar un campo de movimiento sobre el mismo.

Medida Interpretación

Mecanismo a largo plazo

vectores de
1 1
Correspondencia de desplazamiento Interpretación de
rasgos significativos Correspondencias
estructura y
escena movimiento
campo de de la escena
1 1
Cálculo de velocidades velocidades Interpretación del
instantáneas campo de velocidades

Mecanismo a corto plazo

Figura 4-1. Mecanismos de percepción visual del movimiento.

A pesar de pensarse que ambos procesos son concurrentes y compatibles, existen


posturas que incluso defienden uno frente al otro, refiriéndose al primero como el
método de los vectores de desplazamiento y al segundo como el método del flujo óptico.
En ésta exposición se analiza el mecanismo a corto plazo sin pretender ponerlo en
competencia con el otro, sino proporcionando las herramientas adecuadas para la
construcción de un sistema que permita integrar los dos.

81
Capítulo 4 Percepción Visual del Movimiento

(a) (b) (c)

Figura 4-2. Método de los vectores de desplazamiento.

En la figura 4-2. se puede observar el resultado de la aplicación del método de los


vectores de desplazamiento a una secuencia sintética del parque Yosemite
(ftp://csd.uwo.ca/pub/vision/TESTDATA). Para ello, se han seleccionado una serie de
puntos relevantes de la imagen (a) y se han marcado con un círculo. Posteriormente se
han buscado y marcado los mismos puntos en una imagen (b) separada diez cuadros de
la primera. Finalmente se han sobrepuesto los círculos de una y otra imagen y se han
buscado correspondencias entre los mismos (c). Tanto la selección de puntos relevantes
como la correspondencia de los mismos fue hecha por un observador humano y en
ausencia del problema de la correspondencia. Es fácil entender que se trata de un
problema difícil incluso para un humano, obligándole a utilizar información global y
requiriendo cierto conocimiento previo de la naturaleza del entorno.

(a) (b) (c)

Figura 4-3. Método del flujo óptico.

En la figura 4-3. se puede observar el resultado de la aplicación del método del flujo
óptico a la misma secuencia. Para ello se ha aplicado un método que busca
correspondencias entre los puntos de una imagen (a) y los de una localidad de la misma
en la correspondiente al siguiente cuadro (b), obteniéndose un campo de movimiento

82
Capítulo 4 Percepción Visual del Movimiento

denso (c) que pretende corresponder a la velocidad instantánea de los puntos en el plano
de imagen.

4.3. Flujo óptico.

Se define el campo de flujo de imagen asociado a una secuencia temporal de


imágenes como la proyección sobre el plano de imagen de la velocidad (tridimensional)
instantánea de los puntos contenidos en el campo visual. En la figura 4-4 se puede
observar la proyección sobre el plano de imagen del movimiento tridimensional de un
punto a lo largo del tiempo. El flujo de imagen representa al conjunto de proyecciones
formado por el movimiento de todos los puntos del campo visual en un periodo de
tiempo “infinitesimal”, tratándose por tanto de un campo de velocidades instantáneas
V(u,v).

Figura 4-4. Proyección del movimiento sobre el plano de imagen.

En la estimación de dicho campo, no se dispone de una escena tridimensional sino de


una secuencia temporal de imágenes proyectadas sobre el plano de imagen I ( x, t ) , de la
cual se pretende estimar un campo de velocidades U(u,v) (Véase figura 4-5).
Adicionalmente, aunque existen aplicaciones que tratan dicha secuencia temporal como

83
Capítulo 4 Percepción Visual del Movimiento

continua [Shi,1993], lo habitual es disponer de una señal discreta en tiempo, espacio y


valor.

Resulta que no siempre es posible obtener el flujo de imagen a partir de esta


proyección, ni siquiera en ausencia de ruido y surge así el concepto de flujo óptico como
una distribución bidimensional de velocidades aparentes asociadas con la variación de
patrones de intensidad en una imagen [Horn,1981]. Es decir, el flujo de imagen es un
campo ideal de proyección de velocidades tridimensionales sobre el plano de imagen
mientras que el flujo óptico es el campo de proyección de velocidades que se puede
estimar a partir de una secuencia de imágenes.

Figura 4-5. Estimación del flujo óptico a partir de una secuencia de imágenes.

Ha sido demostrado [Verri,1989][Singh,1991] que las componentes normales a la


dirección local de gradiente de intensidad en ambos campos son idénticas si la escena
está constituida por una superficie Lambertiana sometida a un movimiento de traslación
puro bajo una iluminación uniforme en espacio y tiempo. Un corolario de dicha
demostración indica que ambas componentes normales son iguales en el límite cuando
el gradiente de variación de intensidad sobre el plano de imágenes es infinito. En un
sentido práctico, esto significa que solo se puede pretender estimar componentes
normales a gradientes de intensidad en dicho campo vectorial y que la calidad de la
estimación en un entorno del plano de imagen será buena si la escena vista en el mismo
se aproxima al tipo que imponen las condiciones o si el gradiente de intensidad en el
punto de medida es alto y será generalmente mala en caso contrario.

Sin embargo, lo que generalmente interesa estimar es el campo de velocidad real y


no solo una componente normal. Esto será posible en zonas donde existe un gradiente

84
Capítulo 4 Percepción Visual del Movimiento

de orden alto, tal como una esquina o una región fuertemente texturada, presentándose
suficiente gradiente en al menos dos direcciones. En las zonas donde existe un fuerte
gradiente en una sola dirección, solo se puede pretender estimar la componente de flujo
normal al mismo. En las que no presentan gradiente alguno, la estimación será
generalmente pobre.

4.4. El problema de la apertura.

Las dificultades presentes en la estimación del campo de flujo óptico anteriormente


descritas, se refieren particularmente a la estimación puntual del mismo. Es decir, a las
presentadas en técnicas que estiman el flujo óptico mediante el análisis de la variación
temporal de la intensidad en determinados puntos del plano de imagen. Estas técnicas
suponen que la intensidad que proyecta un punto sobre el plano de imagen es
conservada durante el movimiento del mismo en el tiempo.

Existen otros criterios de conservación que proponen como invariante a la región


espacio temporal que rodea al punto de estimación, pretendiendo así mejorar la misma y
hacerla robusta ante el ruido. Sin embargo, limitaciones en la capacidad computacional
disponible hacen que el tamaño de dichas regiones sea limitado y surgen dificultades
similares enmarcadas en un problema mas general referido como el problema de la
apertura, siendo éste inherente a la restricción de dimensión que se aplica a la localidad
usada a la hora de estimar el campo en un punto y tratándose llanamente de una
situación en la cual no existe suficiente información para realizar una estimación sin
ambigüedades, sea cual sea el criterio de conservación empleado.

En la figura 4-6 se presenta una descripción gráfica del problema de la apertura


donde se pueden apreciar tres ventanas (a, b y c). Estas ventanas corresponden a
entornos espaciotemporales de ciertos puntos donde se desea estimar el flujo óptico. En
la ventana “a”, es posible estimar la velocidad real ya que esta región contiene a una
esquina que despeja cualquier posible ambigüedad. En la ventana “b”, solo es posible
estimar la velocidad normal al contorno vertical que atraviesa a esta región ya que no es
posible, con un análisis local, determinar el movimiento vertical del mismo. En la
ventana “c”, la estimación es muy pobre debido a la poca información textural de la que
se dispone.

85
Capítulo 4 Percepción Visual del Movimiento

Figura 4-6. Problema de la Apertura.

4.5. El problema de la correspondencia.

Si bien el problema de la apertura surge de la imposibilidad de asignar un valor


unívoco al desplazamiento de un punto debido a que la región analizada es demasiado
pequeña, no es mas que un caso particular de un problema mas general conocido como
el problema de la correspondencia. Este problema puede surgir aún cuando la región
analizada es suficientemente grande. En la figura 4-7 se muestran tres situaciones en las
que existe el problema de la correspondencia: la deformación de objetos que no son
rígidos (a) como puede ser una gota de pintura en expansión, la presencia de patrones
regulares con periodo menor que las dimensiones de la ventana de análisis (b) como la
que surge al trasladarse una rejilla o un conjunto de puntos próximos de similar
intensidad (c).

Figura 4-7. Problema de la Correspondencia.


(a) Objeto en deformación, (b) rejilla en traslación, (c) puntos en traslación.

86
Capítulo 4 Percepción Visual del Movimiento

En (a) y (b) se podría incluso argumentar que la región de análisis o el


desplazamiento son demasiado grandes. Se podría pretender paliar esta situación
reduciendo la diferencia temporal entre captura de cuadros para permitir la utilización
de una ventana de análisis mas pequeña pero surgen dificultades debido a la reducción
de precisión en la determinación de los vectores de desplazamiento. Otra opción sería
realizar un análisis de los vectores obtenidos a múltiples escalas temporales (con sus
correspondientes tamaños de ventana de análisis), pero esto supone un aumento
considerable de la carga comptacional.

En la resolución del problema de la apertura, se recurre a la aplicación de criterios de


vecindad. Con ello se pretende mejorar la estimación del campo en regiones ambiguas
mediante la observación del campo presente en regiones próximas que presenten
mejores características. En general, el problema de la correspondencia es muy complejo
y no siempre resulta suficiente la aplicación de estos criterios, requiriendo la creación o
utilización de modelos del entorno y de los objetos presentes en la escena. En cualquier
caso, resulta menos frecuente que en las técnicas de visión estereoscópica, debido a que
se parte de suponer que la posición de un punto en una imagen y otra es al menos
similar.

4.6. Criterios de Conservación.

Un criterio de conservación surge de imponer una restricción sobre la variación en el


tiempo de alguna propiedad de la secuencia de imágenes utilizada para estimar el flujo
óptico en el campo visible. Es decir, para poder estimar el movimiento instantáneo, es
necesario disponer de algún criterio referente a cual puede ser el efecto del mismo sobre
el plano de imagen.

Existe un plétora de criterios de conservación, distinguiéndose unos de otros en una


serie de factores :

• Robustez ante el problema de la apertura. Esta característica suele ser


determinante en la posibilidad de disponer de velocidades reales, o en tener que
contentarse con estimar solo velocidades normales.
• Capacidad de tratar situaciones de existencia de velocidades multimodales. Estas
situaciones surgen ante superficies transparentes o reflejantes, cuando un objeto
ocluye a otro o en regiones donde existe una discontinuidad estructural, haciendo

87
Capítulo 4 Percepción Visual del Movimiento

que puntos próximos pertenezcan a planos de velocidad muy distintos y al


analizar superficies no rígidas compuestas por líquidos, gases visibles o humo,
sólidos viscosos o granulados, etc..
• Carga computacional. Ésta suele ser muy alta, sea cual sea el criterio, ya que se
tratan secuencias de imágenes muestreadas a una alta cadencia.

El aumento de la capacidad de procesamiento disponible y el surgir de hardware


dedicado, proveniente fundamentalmente de la industria de compresión de imágenes en
movimiento [SGS-THOMSON,1990], hace que éste último factor sea cada vez menos
insalvable. No obstante, es usual hacer suposiciones sobre el entorno, que si bien no
siempre se cumplen, permiten utilizar criterios computacionalmente menos costosos,
aún a costa de perder exactitud y robustez en las estimaciones.

A modo de clasificación, se pueden destacar fundamentalmente tres tipos de criterios


en la estimación del flujo óptico: criterios basados en el gradiente espacio temporal,
criterios de bloque o correlación y criterios basados en la energía espaciotemporal o
espectrales. A su vez, existen variantes sobre los tres que en vez de utilizar directamente
la señal de intensidad aplican primero algún tipo de preprocesado en la forma de un
filtrado paso banda, cruces por cero del Laplaciano, operador de monotonía etc.. En ésta
sección, se hace un resumen de las características fundamentales de la aplicación de
dichos criterios sin pretender ser exhaustivos. Una descripción más detallada de las
distintas variantes o mejoras dentro de cada tipo puede ser encontrada en
[Singh,1991][Jähne,1993] [Barron,1994] y una comparativa en cuanto el error cometido
por las mas populares está disponible en [Lin,1992].

En la presentación de cada tipo de criterio se incluye la formulación de una función


de respuesta descrita en el espacio de velocidades (u,v) que asocia un mérito a cada uno
de los posibles desplazamientos. También se describen algunos métodos para estimar la
velocidad que no están basados en dicha función y que son particulares de cada criterio.
Finalmente, se presentan diversos criterios para la obtención de una estimación de la
velocidad a partir de la función de respuesta.

88
Capítulo 4 Percepción Visual del Movimiento

4.6.1. Criterios basados en el gradiente espacio temporal :

Estos criterios, también llamados diferenciales, corresponden al tipo propuesto por


los pioneros de la estimación del flujo óptico [Horn,1981]. Suponen que la intensidad de
la imagen en un punto, o una función de la misma, se conserva en el tiempo.

I ( x , y , z ) = I ( x + δx , y + δy , t + δt ) (4-1)

Haciendo un desarrollo de Taylor de la parte derecha de la ecuación (4-1) e


ignorando los términos de orden dos o mayor, se obtiene :

∂I ∂I ∂I
I ( x + δx , y + δy , t + δt ) = I ( x , y , z ) + δx + δy + δt (4-2)
∂x ∂y ∂t

Combinando las ecuaciones (4-1) y (4-2) se obtiene la siguiente restricción :

∂I ∂I ∂I
δx + δy + δt = 0 (4-3)
∂x ∂y ∂t

Si se dividen ambos miembros de (4-3) por δt , se denotan las derivadas parciales de


I por I x , I y e I t , y se denota al vector de velocidad local por (u,v) :

Ixu + I y v + It = 0 (4-4)

Esta restricción proporciona una ecuación con dos incógnitas (u y v) y por tanto, no
permite determinar la velocidad real sin imponer más restricciones. Como mucho, se
puede obtener el módulo de la velocidad normal al gradiente local (Véase la Figura 4-8),
correspondiendo éste a la distancia desde el origen a la recta descrita por la ecuación (4-
4). Por tanto, la incapacidad de medir la velocidad real es inherente a éste criterio y
persiste aún en regiones fuertemente texturadas que no sufren el problema de la
apertura.

Figura 4-8. Imposibilidad de calcular la velocidad real usando el criterio del gradiente.

89
Capítulo 4 Percepción Visual del Movimiento

Esta limitación fue posteriormente atribuida [Nagel,1983] al hecho de ignorar, en el


desarrollo de Taylor de la ecuación (4-2), los términos de orden mayor que dos pero en
la práctica resulta que el cálculo de éstos es muy sensible al ruido.

Una formulación alternativa consiste en la creación de una función que indica el error
respecto al cumplimiento de la ecuación (4-4) para un conjunto de valores candidatos de
uyv:

Ec (u, v) = ( I x u + I y v + It )2 (4-5)

El resultado de este tipo de operador no es una función de similitud sino una función
de disimilitud o error. La obtención de la primera como función inversa de la otra
presenta problemas de cálculo (división por un número pequeño) cuando la coincidencia
es muy alta. Una alternativa interesante propuesta por [Singh,1991] utiliza la inversa del
exponencial del error multiplicado por un coeficiente.

[
−k ( Ix u+ I y v+ It )2 ]
Rc (u, v) = e (4-6)

El resultado de éste operador varía entre cero y uno, consiguiéndose un


comportamiento estable y normalizado. La constante k tiene como finalidad regular la
distribución de los valores en la función de respuesta, evitando que estén muy agrupados
entorno al cero y con objeto de mejorar las características computacionales. Se ha
observado empíricamente [Singh,1991] que un valor de k entre 10-1 y 10-4 produce
resultados satisfactorios.

En general, se puede decir que las técnicas basadas en éste criterio no disfrutan de
buenas cualidades en cuanto a precisión y robustez. Por contra, presentan una carga
computacional relativamente baja, resultando útiles en muchas aplicaciones donde se
pueden presuponer ciertas características del entorno o cuando solamente se desea
detectar la presencia de movimiento.

4.6.2. Criterios de bloque o correlación :

Suponen que se conserva la distribución de intensidad de la región que rodea al punto


donde se desea evaluar el movimiento. Por lo tanto, para cada punto donde se desea
medir el flujo óptico en un instante determinado, se crea una ventana de puntos que
rodean al mismo (ventana de pixel) y se busca la máxima correspondencia de la misma

90
Capítulo 4 Percepción Visual del Movimiento

dentro de un conjunto de ventanas de igual tamaño y centradas en los puntos contenidos


en una ventana de posibles candidatos (ventana de búsqueda).

En la figura 4-9 se presenta un esquema ilustrativo del tipo de proceso involucrado en


un método de bloque. En el, se pretende mostrar el procedimiento por el cual se
desplaza la ventana de pixel sobre la ventana de búsqueda para obtener una función de
respuesta a partir de la cual se puede hallar la velocidad. Como se puede observar, en
este ejemplo la ventana de pixel es de tamaño 3x3 y la ventana de búsqueda es de
tamaño 7x7 y como cada elemento de la respuesta corresponde a la comparación de la
ventana de pixel con una subventana (3x3) de la de búsqueda, resulta una distribución
de tamaño 5x5. Esto significa que se podrán medir velocidades en un rango de 5 pixeles.
Por otra parte, en este caso ambas ventanas están centradas en la misma posición,
permitiendo medir desplazamientos entre -2 y 2 pixeles.

Figura 4-9. Cálculo de velocidad en un método de bloque.

En general, si la ventana de pixel es de tamaño Px xPy (siendo Px y Py impares) y se

desea disponer de una respuesta de tamaño R x xR y , será necesaria una ventana de

búsqueda de tamaño (R x +  (Px -1) / 2 )(R y +  (Py -1) / 2 ) . El tamaño de ésta respuesta

determinará el rango de valores de desplazamiento que se pueden medir. No es


necesario que ambas ventanas estén centradas en la misma posición, siendo posible

91
Capítulo 4 Percepción Visual del Movimiento

utilizar estimaciones de la velocidad hechas en instantes anteriores o a menor


resolución.

La distinción entre múltiples propuestas basadas en criterios de bloque se basa


principalmente en el tipo de operador utilizado para analizar la correspondencia entre
bloques. Uno de los primeros operadores que se utilizaron para hallar la función de
respuesta fue la correlación (4-7), de ahí que se suela aludir a dicho operador al referirse
a los métodos basados en éste criterio.

∑ ∑ I ( x + i, y + j ) ⋅ I
N N
Rc ( u, v ) = 1 2 ( x + u + i, y + v + j ) (4-7)
i=− N j =− N

El uso de variantes de la correlación tales como la correlación normalizada en media


o en varianza, en busca de eliminar la dependencia del nivel de iluminación que sufre la
correlación ha sido extenso. La intención detrás de éstos operadores es la de potenciar
los valores bajos que resultan al correlar zonas oscuras, mediante la división por valores
también bajos correspondientes a la media o varianza. No obstante, se presentan
problemas de estabilidad en zonas muy oscuras debido a la división por números muy
pequeños y no se consigue resolver el problema de que si bien se premia la coincidencia
de valores claros en un patrón y no se premia la de un valor claro con uno oscuro,
tampoco es premiada la coincidencia de valores oscuros.

Han tenido particular éxito los operadores basados en la suma de diferencias al


cuadrado (SSD: Sum of Squarred Differences) [Anandan,1989].

∑ ∑ ( I ( x + i, y + j ) − I ( x + u + i, y + v + j ))
N N
Ec ( u, v ) = 1 2
2
(4-8)
i =− N j =− N

El resultado de este operador es una función de error, a partir de la cual se puede


obtener una función de respuesta de manera análoga a la ecuación (4-6).
N N
−k ∑ ∑ ( I1 ( x + i , y + j ) − I 2 ( x + u + i , y + v + j )) 2
Rc ( u, v ) = e i =− N j =− N
(4-9)

Una vez mas, se indica que un valor de k entre 10-1 y 10-4 produce resultados
satisfactorios.

Los métodos de correlación de bloques fueron inicialmente empleados en la


resolución del problema de correspondencia presente en visión estéreo [Holden,1993]
[Kanade,1994] y sus propiedades son bien conocidas. Además, su uso en la mayor parte

92
Capítulo 4 Percepción Visual del Movimiento

de las implantaciones comerciales de compresión de imágenes en movimiento


[MPEG,1992] [Orchard,1994] ha proporcionado circuitos integrados de bajo coste
[SGS-THOMSON,1990] que permiten el cálculo del flujo óptico con la cadencia y
resolución requerida en sistemas de vídeo en alta definición (HDTV). En cuanto a su
comportamiento, pueden proporcionar la velocidad real en puntos donde no existe el
problema de la apertura y la velocidad normal en regiones donde existe un fuerte
gradiente, son generalmente robustos cuando la localidad presenta dos regiones
separables con velocidades distintas y fallan cuando existen modos de velocidad no
separables. Por su propia naturaleza requieren la suposición de traslación local en el
movimiento, con lo cual la detección de rotaciones tiene que ser resuelta a partir de el
análisis de vecindades.

4.6.3. Criterios basados en el la energía espacio temporal o espectrales :

Esta familia de criterios suponen que, ante la traslación local de una región texturada,
es posible identificar un plano en el dominio de frecuencia espacio-temporal (R3) donde
se produce un máximo de energía espectral. A si mismo, la traslación de un perfil
unidimensional producirá una línea que pasa por el origen y la traslación de una región
uniforme producirá un punto en el mismo. En el caso de presentarse múltiples
velocidades, la respuesta será más compleja y en la forma de un hiperplano.

Debido a la gran carga computacional involucrada en el cálculo y manipulación de la


respuesta en dicho dominio, se ha propuesto [Heeger,1987] una aproximación del
cálculo de la energía espectral mediante el uso de un banco de filtros sintonizados en
velocidad. Dichos filtros se definen en el dominio espacio-temporal y típicamente
consisten en filtros de Gabor modulados en un conjunto de frecuencias (espacio-
temporales) denominadas frecuencias centrales (ωx o , ω y o , ωt o ) que determinan la

orientación y escala de la velocidad a que son sensibles. Si bien se suele proceder a una
disposición heurística del banco de filtros, existen estudios [Nowlan,1994] sobre la
idoneidad de la misma. A continuación se muestra la componente real de un filtro de
Gabor.

x2 y2 t2
− − −
1 2σ x2 2σ 2
2σ t2
g( x, y, t ) = e y
sin( 2πωx o + 2πω y o + 2πωto ) (4-10)
2π 3/ 2σ xσ yσ t

93
Capítulo 4 Percepción Visual del Movimiento

1 −4π [σ x2 (ωx −ωxo )2 +σ y2 ( ω y −ω yo )2 +σ t2 (ωt −ωto )2 ]


G(ω x , ω y , ωt ) = e +
4
(4-11)
1 −4π [σ x2 (ωx +ωxo )2 +σ y2 (ω y +ω yo )2 +σ t2 ( ωt +ωto )2 ]
+ e
4

En la figura 4-10 se representa (a modo de ejemplo) la respuesta espectral (potencia)


de un banco de doce filtros de Gabor. Las nubes que se pueden observar representan
distribuciones Gaussianas tridimensionales, donde cada filtro esta compuesto por un par
simétrico al eje ωt . La disposición angular de estos pares respecto a los ejes ωx y ω y

determina la orientación de velocidad a la que son sensibles y su disposición respecto al


eje ωt determina la escala.

Figura 4-10. Respuesta espectral de un banco de doce filtros de Gabor.

A partir de la respuesta de estos filtros a la localidad espacio temporal de un punto


del plano de imagen en el cual se desea estimar el flujo, es preciso detectar el plano
anteriormente mencionado y relacionarlo con la velocidad. Una posibilidad consiste en
analizar la discrepancia entre la energía de cada filtro y la que corresponde a un conjunto
de velocidades predeterminadas (4-12), creando una distribución de respuesta (4-13)
análoga a las utilizadas en los criterios de gradiente (4-6) y bloque (4-9).

Se puede predecir la energía de la respuesta al filtro de Gabor i-ésimo, ante una


velocidad (u,v) como :
( uω xi + vω yi + ω ti ) 2
−4π 2σ x2σ y2 σ t2
( v σ x σ t ) 2 + ( uσ y σ t ) 2 + ( σ x σ y ) 2
EPi ( u, v ) = e (4-12)

94
Capítulo 4 Percepción Visual del Movimiento

Se define la distribución de respuesta [Singh,1991] como :


2
N  E ( u, v ) 
−k ∑ E Si − E Si E Pi ( u, v ) 
Re ( u, v ) = e i =1  Pi 
(4-13)

donde k es el factor de normalización, N es el número de filtros, ES i es la energía de la

respuesta a la señal muestreada en el i-ésimo filtro, ES i y EPi ( u, v ) son la suma de las

energías en los filtros de la señal muestreada y las predichas respectivamente.

Si se modelan los filtros de Gabor como complejos, la respuesta de los mismos


también resulta ser compleja y puede ser representada mediante un módulo y una fase
(4-14). Se ha demostrado [Fleet,1993] que la fase de esta respuesta presenta mayor
robustez ante ruido y perturbaciones que la amplitud en la estimación de la velocidad.

R( u, v , t ) = ρ ( u, v , t )e jφ ( u, v ,t ) ( 4-14 )

Utilizando este criterio, se puede estimar la velocidad [Fleet,1992] detectando los


contornos de fase continua. Al igual que en estos, solo se obtienen estimaciones de
velocidad normales al gradiente local, pero con la ventaja de que se dispone no solo de
una medida por punto de muestreo si no de todo un campo de velocidades de las mismas
dimensiones que la ventana que comprende la localidad del mismo. Por tanto, la
aplicación de mínimos cuadrados bajo la restricción de suponer que la localidad
comprende a una superficie suave, permite estimar la velocidad 2-D real a partir de un
mínimo de seis medidas de velocidad normal [Jähne,1993].

Si bien los métodos basados en criterios de éste tipo presentan muy buenas
características en cuanto a robustez y calidad de las medidas, la implantación del banco
de filtros de Gabor en un computador de propósito general supone una carga enorme
tanto de memoria como de cálculo. Por otra parte, existen indicios de que el sistema de
percepción visual humano utiliza en la estimación del movimiento una estructura
análoga a un banco de filtros sintonizados en velocidad [Perone,1992] [Anderson,1991].

Existen actualmente implantaciones de estructuras de bancos de filtros sintonizados


en velocidad basados en el paradigma CNN (Cellular Neural Networks) [Chua,1993]
[Shi,1993] donde se dispone de un conjunto de dispositivos analógicos (células)
interconectados en una vecindad finita de manera que la ponderación entre células
determina la forma espacial del filtro y la forma temporal es obtenida aprovechando la

95
Capítulo 4 Percepción Visual del Movimiento

dinámica del mismo. Se trata de circuitos que operan directamente sobre las señales
analógicas provenientes de cada uno de los fotodetectores de un CCD y no requieren
ningún tipo de barrido, captura o almacenamiento de imágenes. Por tanto, son
tremendamente rápidos y permitirán la inclusión de la percepción visual del movimiento
en lo que se entiende por sensor cercano (Near-Sensor Paradigm [Forchheimer,1994]).
De momento sin embargo, la gran capacidad de integración que requieren hace que
solamente existan prototipos consistentes en matrices de pocos elementos. Cabe también
destacar propuestas de diseño de circuitos analógicos de estimación del movimiento
basados en correladores de Reichardt [Snippe,1994] dispuestos de manera que
aproximan el comportamiento de un banco de filtros sintonizados en velocidad.

4.6.4. Estimación de un vector de velocidad a partir de la función de respuesta:

Otro punto de interés y divergencia ha sido la obtención de una estimación de


velocidad a partir de la función de respuesta y mas recientemente, la asociación de una
medida de confianza a la misma.

[Anandan,1989] propuso utilizar el punto donde reside el valor mínimo de la función


de error (4-6) como indicador del vector de velocidad y utilizó las curvaturas
principales de la misma en dicho punto como valores de confianza. Un problema de ésta
elección es que cuando existen varios mínimos, se asocia el vector de velocidad a uno
de ellos y se calculan los valores de confianza, pudiendo éstos llegar a ser altos, sin
tener para nada en cuenta el hecho inexorable de que la medida es inherentemente poco
fiable.

Por su parte, [Singh,1991] interpretó la función de respuesta como una distribución


frecuencial en el espacio de las velocidades y propuso la aplicación de la teoría de
estimación estadística [Papoulis,1984] al propósito de estimar la velocidad. En este
contexto, aplica un criterio de mínimos cuadrados ponderados, asociando el vector de
velocidad (4-15) al centro de gravedad de la función de respuesta (4-9) y representando
la confianza de la estimación como la matriz de covarianza de la misma (4-16). Esta
representación resulta útil en cuanto que permite una fácil integración con estimaciones
hechas utilizando diversas técnicas o con otros sensores, en el marco de la teoría de
fusión de la información.

96
Capítulo 4 Percepción Visual del Movimiento

Los valores correspondientes al centro de gravedad de la función de distribución, son


calculados como :

 ∑ ∑ Rc ( u, v )u ∑ ∑ R ( u, v )v 
U cc =  u v 
u v c

 ∑u ∑v Rc ( u, v ) ∑ ∑ R ( u, v ) 
(4-15)
u v c

La matriz de covarianza correspondiente a dicha estimación es :

 ∑u ∑v Rc ( u, v )( u − ucc )2 ∑∑ Rc ( u, v )( u − ucc )( v − v cc ) 
 u v

 ∑u ∑v Rc ( u, v ) ∑u ∑v Rc (u, v ) 
S cc =
 ∑ ∑ Rc ( u, v )( u − ucc )( v − v cc ) ∑u ∑v Rc ( u, v )( v − vcc ) (4-16)
2

 u v 
 ∑u ∑v Rc ( u, v ) ∑u ∑v Rc (u, v ) 

En ambas expresiones, los sumatorios se aplican sobre el dominio de los posibles


vectores de desplazamiento (u,v) correspondientes a la ventana de respuesta.

Alternativamente, propone cuantificar la confianza con un par de valores C1c y C2c


correspondientes a los recíprocos de los momentos de inercia de la función de respuesta
sobre los ejes principales de la distribución. Estos momentos de inercia pueden ser
hallados a partir de la matriz de covarianza como el cuadrado de sus autovalores. Los
ejes principales de la distribución coinciden con las direcciones normal y tangencial al
gradiente local y están centrados en el centro de gravedad de la misma. En cualquier
caso, C1c y C2c dan una idea de la calidad de la estimación del flujo óptico en cuanto a
su componente normal y tangencial respectivamente. Si bien el uso de esta
cuantificación no presenta claras ventajas a nivel computacional, la representación
gráfica de la confianza en el espacio de velocidades utilizando dos segmentos
ortogonales centrados en la velocidad estimada y de extensión inversamente
proporcional al valor de confianza correspondiente o mediante una elipse con dichos
segmentos como ejes, resulta muy útil en el entendimiento del proceso de estimación.

En la figura 4-11 se muestran las ventanas de pixel, búsqueda y respuesta para tres
situaciones típicas : esquina, borde y región uniforme. Sobre las respectivas ventanas de
respuesta, se muestra el vector de velocidad y las elipses de confianza. Los ejes de las
elipses han sido escalados para corresponder aproximadamente a la región de
incertidumbre involucrada en la determinación del vector de velocidad. Obsérvese que
la longitud de éstos es proporcional a la extensión de dicha zona y por tanto

97
Capítulo 4 Percepción Visual del Movimiento

inversamente proporcional a la confianza de la estimación en las direcciones normal y


tangencial.

Figura 4-10. Distribución de respuesta, velocidad y ejes de confianza para tres tipos de regiones
significativas : (a) esquina, (b) borde y (c) región uniforme.

4.7. Criterios de Vecindad.

Una vez asumida la imposibilidad de estimar correctamente la velocidad real en


todos los puntos del plano de imagen, se plantea la posibilidad de aplicar otros criterios
que permitan mejorar medidas deficientes obtenidas en un punto de muestreo a partir de
las realizadas en su vecindad. Se pretende de esta manera superar el problema de la
apertura suponiendo que aunque se produzca en algunas regiones, existirán regiones

98
Capítulo 4 Percepción Visual del Movimiento

vecinas a las mismas en donde no, pudiéndose utilizar las estimaciones de velocidad en
unas para mejorar las de las otras. Éste es el objetivo del proceso de aplicación de
criterios de vecindad, también conocido como regularización, suavizado o propagación
de velocidad.

En este sentido, lo mas usual es la aplicación de restricciones de coherencia espacio-


temporal, es decir, la suposición de que los puntos pertenecientes a regiones vecinas del
plano de imagen están físicamente cercanos, experimentan movimientos similares y que
no hay discontinuidad de movimiento entre instantes. Aún suponiendo la rigidez del
entorno, esta suposición es violada en zonas donde se produce alguna de las siguientes
condiciones :

• Planos cuya normal es aproximadamente ortogonal a la línea de vista (p.ej. las


paredes laterales de un pasillo). En estos casos, la diferencia de profundidad
entre puntos vecinos del plano de imagen es grande, haciendo que el módulo de
los correspondientes vectores de flujo producidos por una traslación sea
considerablemente diferentes.

• Bordes luminosos producidos por la intersección de superficies que no tienen la


misma normal. Es la situación típicamente presente en la intersección de paredes
en un edificio o de cualquier objeto con el suelo. En este caso, el campo a uno y
al otro lado del borde suele ser similar en módulo pero difiere substancialmente
en cuanto a su orientación.

• Discontinuidades producidas por la oclusión parcial de una superficie cercana


sobre una mas lejana. Es la situación producida por puertas abiertas, vigas y
otros objetos presentes en medio de un espacio abierto.

Por lo tanto, resulta que si bien los contornos y sobre todo las esquinas parecen ser
buenos candidatos para la estimación del flujo óptico, también son buenos aspirantes a
pertenecer a una vecindad donde se infringen las restricciones de coherencia
espaciotemporal. Cabe distinguir entonces entre contornos que corresponden a
variaciones en la profundidad del entorno (estructurales) y aquellos que corresponden a
variaciones de intensidad en superficies continuas (luminosos) debido a la diversidad de
materiales o pintura, debido a sombras, a macro-texturas (p.ej. ladrillos), etc.. En el
primer caso, los criterios de vecindad deberán evitar mezclar medidas de puntos

99
Capítulo 4 Percepción Visual del Movimiento

pertenecientes a lados opuestos del borde mientras que en el segundo deberán de


procurar integrar las medidas de la localidad.

A continuación se resumen los criterios de vecindad mas significativos. Se pueden


encontrar descripciones mas detalladas en [Singh,1991][Jähne,1993] y en las
publicaciones originales a las que se hace referencia. También se pueden encontrar
descripciones de algunos modelos no considerados (elasticidad, red y difusión) en
[Jähne,1993].

4.7.1. Suavizado Convencional.

La principal deficiencia de la primera implantación de un criterio de vecindad


[Horn,1981], conocido como suavizado convencional o suavizado global, ha sido
precisamente la de no tratar el problema de los bordes. En el se define la desviación o
error de un campo respeto a el cumplimiento de las condiciones de suavidad como :

 ∂u   ∂u   ∂v   ∂v 
2 2 2 2

E =  +  +  + 
2
(4-17)
 ∂x   ∂y   ∂x   ∂y 
c

Por otra parte, la desviación o error de la conservación de intensidad, es decir, la


función que describe el error cometido a estimar el flujo óptico utilizando un método de
gradiente se define como :

 ∂I ∂I 
2
∂I
E = δx + δy + δt 
2
(4-18)
 ∂x ∂y ∂t 
b

El suavizado se formula como la minimización de una combinación heurística de


ambas funciones a lo largo de todo el campo visual. Esto se consigue minimizando la
función :

E 2 = ∫∫ (α 2 Ec2 + (1 − α )2 Eb2 )dxdy (4-19)

donde α es un factor de suavizado que varía entre 0 y 1.

Una forma de obtener este mínimo es mediante un proceso iterativo. Entre los
diversos métodos que se podrían aplicar, Horn y Shunck [Horn,1981] propusieron uno
basado en el cálculo variacional [Elsgoltz,1977] que ha sido adoptado por la mayoría de
los autores y que se describe con el siguiente par de ecuaciones :

100
Capítulo 4 Percepción Visual del Movimiento

n+1
I x un + I y v n + It
u = u − Ix
n
,
α 2 + I x2 + I y2
(4-20)
I x un + I y v n + It
v n+1 = v n − I y
α 2 + I x2 + I y2

donde ( un , v n ) es la estimación de velocidad en la iteración n y ( un , v n ) es la velocidad


media de la vecindad en la misma. Las ecuaciones (4-20) pueden formularse en
condiciones de reposo como :

(α 2 + I x2 + I y2 )( u − u) = − I x ( I x u + I y v + I t ),
(4-21)
(α 2 + I x2 + I y2 )( v − v ) = − I y ( I x u + I y v + I t )

Las restricciones impuestas por las ecuaciones (4-21) admiten la interpretación


gráfica ilustrada en la figura 4-12. La estimación resultante del proceso iterativo
pertenecerá necesariamente a una línea perpendicular a la línea de restricción del
movimiento y que pasa por el punto ( u, v ) , estando determinada la proximidad al mismo
por el factor de suavizado α. En el caso de pertenecer los puntos de la vecindad a una
región donde todos tienen una profundidad similar (a), el proceso de suavizado consigue
mejorar la estimación de velocidad satisfactoriamente. Cuando pertenecen a una región
donde existe una variación gradual de la profundidad (b), la distribución de los vectores
de velocidad es mas dispersa y aumenta la posibilidad de falsear la estimación,
obteniéndose aún así resultados relativamente buenos. Sin embargo, ante la presencia de
discontinuidades en la profundidad (c), es frecuente presenciar situaciones donde la
estimación resultante cae totalmente fuera de las zonas correspondientes a cualquiera de
los lados del borde, produciéndose un emborronado.

Figura 4-12. Comportamiento del suavizado convencional ante: (a) vecindad de profundidad
uniforme, (b) variación gradual de la profundidad, (c) variación abrupta de profundidad.

101
Capítulo 4 Percepción Visual del Movimiento

La mayoría de propuestas posteriores a la del suavizado convencional han pretendido


resolver no solo el problema de la apertura sino también evitar el emborronado de los
bordes.

4.7.2. Suavizado Controlado.

Esta clase de métodos han pretendido evitar el emborronado haciendo una


segmentación que “asegure” que los puntos involucrados en el proceso de suavizado
pertenezcan a la misma estructura física.

En el método de suavizado orientado a contornos, [Hildreth,1984] propuso estimar


el flujo óptico en los puntos de cruce por cero del Laplaciano, argumentando que éstos
serán buenos candidatos donde obtener al menos la velocidad normal con cierta
confianza y que cabría suponer que estuviesen físicamente conectados. Aplicó un
método de gradiente para medir el flujo óptico en dichos puntos y transformó la
ecuación (4-19) en una integral de línea que incluye una componente de suavizado y
otra de error en las componentes de velocidad normal.

  ∂u 2  ∂v 2 
E 2 ( u ) = ∫ ( n ⋅ u − u⊥ )2 + α 2   +    ds (4-22)
  ∂s   ∂s  

donde n es un vector unitario normal al contorno, u es el vector de velocidad suavizado


y u⊥ es el módulo de la velocidad normal al contorno.

La principal virtud atribuida a éste método ha sido la de proporcionar muy buenas


estimaciones con una baja carga computacional. Ha sido criticado por no proporcionar
el flujo óptico en toda la imagen, por descartar las esquinas y picos de gradiente como
candidatos y por suponer que los puntos de un contorno extraído mediante los cruces
por cero del Laplaciano están físicamente contiguos.

En el suavizado limitado a regiones [Jähne,1993], o bien se segmenta la imagen en


regiones aisladas a las cuales se les aplica un suavizado convencional independiente o se
efectúa el mismo sobre toda la imagen, pero descartando la restricción de suavidad en
los puntos de cruce por cero del Laplaciano.

En el primer caso se presenta una complejidad añadida al requerir una segmentación


en regiones cerradas. Adicionalmente, si la segmentación permite grandes variaciones
de intensidad, cabe la posibilidad de que exista una discontinuidad dentro de una región

102
Capítulo 4 Percepción Visual del Movimiento

y se produzca el emborronado, mientras que si la variación permitida es pequeña resulta


que las regiones consisten simplemente en pequeñas zonas uniformes donde poco puede
hacer el suavizado. En cualquiera de los casos al intentar evitar el suavizado en los
contornos estructurales se descartan también aquellos puntos pertenecientes contornos
luminosos, siendo éstos precisamente los que pueden proporcionar medidas de alta
confianza.

Un método muy popular ha sido el de suavizado orientado [Nagel,1986]. En el, los


contornos no son tratados de manera tan drástica como en el anterior sino que se
modifica la restricción de suavidad de manera que depende de la dirección e intensidad
del gradiente en cada punto.

Ec2 = trace(( ∇V )T W( ∇V )) (4-23)

donde

 ∂u ∂v 
 ∂x ∂x 
∇V =  ∂u ∂v  (4-24)
 
 ∂y ∂x 

F  I y2 + σ 2 ( I xy2 + I yy
2
) − I x I y − σ 2 ( I xx2 + I yy
2
)
W= , F=  (4-25)
 − I x I y − σ ( I xx + I yy ) I x2 + σ 2 ( I xx2 + I xy2 ) 
2 2 2
trace( F )

Con esto se consigue que la propagación en los puntos pertenecientes a un contorno


se efectúe solamente a lo largo del contorno y no a través de el mientras que se
comporta como el suavizado convencional en zonas uniformes.

Si bien este método consigue superar muchos problemas de los anteriormente


expuestos, presenta problemas prácticos que surgen del cálculo de derivadas parciales
de segundo orden sobre la información de intensidad, siendo éste muy sensible al ruido
y al error de cuantificación.

4.7.3. Propagación de la Velocidad.

Un inconveniente de las técnicas de suavizado es que no tienen en cuenta en el


proceso la confianza con la cual se ha estimado la velocidad en cada punto, dando igual
relevancia a todas las estimaciones.

103
Capítulo 4 Percepción Visual del Movimiento

Entre las técnicas que pretenden solventar esta deficiencia destaca la propagación de
velocidad [Singh,1991], en la cual se propone una optimización estadística de las
estimaciones de conservación y de vecindad. En esta formulación, se requiere que la
estimación del campo en cada punto de evaluación consista en un vector de velocidad
U cc obtenido mediante algún criterio de conservación y una matriz de covarianza S cc
indicadora de la calidad de la estimación. Dicho autor propuso formas de obtener ambos
para diversos criterios de conservación.

Como estimación de la velocidad en la vecindad del punto en consideración U n ,


propuso una media ponderada por una Gaussiana Rn ( i, j ) , centrada en el mismo de
manera que los puntos mas lejanos reciben menor peso.

 i+ p j + p i+ p j+ p 
 ∑ ∑ Rn ( m, n )umn ∑ ∑ R ( m, n )v n mn 

U n ( i, j ) =  i + p j + p 
m= i − p n= j − p m= i − p n= j − p
i+ p j+ p (4-26)

 ∑ ∑ Rn ( m, n ) ∑ ∑ Rn ( m, n ) 
 m=i− p n= j− p m= i − p n= j − p 

La matriz de covarianza correspondiente es :

 i+ p j+ p i+ p j+ p

 ∑ ∑ Rn ( m, n )( umn − umn n
)2 ∑ ∑ R ( m, n )(un mn − umn
n
)( v mn − v mn
n
)
 = − =
m i pn j p−
i+ p j+ p
m= i − p n= j − p
i+ p j+ p

 
 ∑ ∑ Rn ( m, n ) ∑ ∑ Rn ( m, n ) 
m= i − p n= j − p m= i − p n= j − p
S n =  i+ p j+ p i+ p j+ p  (4-27)
 ∑ ∑ Rn ( m, n )( umn − umn n
)( v mn − v mn
n
) ∑ ∑ Rn ( m, n )( v mn − v mn ) n 2 
 m=i− p n= j − p m= i − p n= j − p 
 i+ p j+ p i+ p j+ p 
 ∑ ∑ Rn ( m, n ) ∑ ∑ Rn ( m, n ) 
 m= i − p n= j − p m= i − p n= j − p 

En ambas expresiones, los sumatorios se aplican sobre el dominio de los puntos


pertenecientes a una vecindad de tamaño (2p+1)*(2p+1), ( uijn , v ijn ) son las componentes

de Un en el punto (i,j) y ( uij , v ij ) es el vector de velocidad correspondiente al mismo.

Cabe destacar en las ecuaciones (4-26) y (4-27) que los valores de Rn(i,j) actúan
como un filtro FIR, es decir como una serie de coeficientes constantes mientras que los
valores uij y vij son variables para cada punto ya que corresponden a las estimaciones de
velocidad obtenidas mediante la aplicación de algún criterio de conservación. Esto
contrasta con el significado de Rc ( u, v ) , u y v en las ecuaciones (4-15) y (4-16) donde el
primero es una función de respuesta, variable para cada punto, y los segundos son
valores fijos correspondientes al desplazamiento de la ventana de pixel.

104
Capítulo 4 Percepción Visual del Movimiento

Una vez mas, se pueden fusionar las estimaciones de conservación y vecindad


mediante la minimización de una función, concretamente :

E 2 = ∫∫ [( U − U n )S −n1 ( U − U n ) + ( U − U c )S −cc1 ( U − U cc )]dxdy (4-28)

La resolución de esta minimización es posible aplicando una técnica iterativa tal


como el algoritmo de relajación de Gauss-Seidel resultando :

U 0 = U cc
(4-29)
U k +1 = [S−cc1 + S−n1 ] [S−cc1U cc + S−n1U nk ]
−1

donde U kn es la estimación de la vecindad obtenida de los valores U k calculados en la


iteración k-1 y se supone que S−1 k
n y U n son constantes o varían poco durante la iteración

[Singh,1991]. La matriz de covarianza resultante de la fusión se calcula en la última


iteración como :

S = [S−cc1 + S−n1]
−1
(4-32)

siendo la incertidumbre asociada a ésta menor que la de las otras dos y correspondiendo
a una región aproximadamente igual a la intersección de las elipses de incertidumbre de
las estimaciones de conservación y vecindad.

En la figura 4-13 se puede observar una interpretación gráfica del procedimiento.


Obsérvese que en caso de corresponder la vecindad a un borde figura 4-13(c), la
incertidumbre normal de la estimación será pequeña, haciendo que la intersección de las
elipses de incertidumbre sea de tal manera que la estimación resultante esté confinada a
una región muy próxima a la estimación de conservación, asegurando la asignación al
lado correcto del borde y evitando así el emborronado de los bordes discontinuos.

105
Capítulo 4 Percepción Visual del Movimiento

Figura 4-13. Comportamiento de la propagación de velocidad ante: (a) vecindad de profundidad


uniforme, (b) variación gradual de la profundidad, (c) variación abrupta de profundidad.

Existe una dificultad práctica en esta formulación en cuanto a la aparición de


singularidades en la inversión de las matrices de covarianza. Una manera común de
resolver este problema es haciendo un descomposición de valor singular, pudiendo así
controlar la aparición de autovalores cercanos al cero.

Haciendo una descomposición LDU de la matriz de covarianza, se plantea la inversa


como :

 1 
d 0 
S = LDU ⇒ S−1 = U T D−1LT = U T  11 LT (4-33)
1
 0 
 d22 

Los problemas de inversión surgen cuando d11 o d22 son cercanos a cero. Si bien lo
normal sería sustituir 1/d11 o 1/d22 por cero, Singh indica que esta situación corresponde
a estimaciones de muy alta confianza y propone hacer la sustitución por un valor grande
pero no infinito.

La mayor deficiencia de esta formulación consiste en que al estimar el valor y la


covarianza de una vecindad no se tienen en cuenta las covarianzas particulares de cada
uno de los vecinos sino que se estima una nueva covarianza indicativa de la disparidad
de las medidas en la misma. Esto es especialmente grave en situaciones donde tanto el
punto de medida como todos sus vecinos pertenecen a una zona uniforme sin textura. En
este caso, todas las estimaciones son muy parecidas (cercanas a cero), produciendo una

106
Capítulo 4 Percepción Visual del Movimiento

matriz de covarianza indicativa de una gran calidad cuando se trata de una estimación
realmente mala !

Haciendo justicia, cabe indicar que Singh propuso como mejora a su algoritmo el
tener en cuenta dichas covarianzas. No obstante, se ha comprobado que ello conlleva
mayores dificultades en cuanto a singularidades en la inversión que no son resuelven
con la solución descrita en el apartado anterior, siendo éste un problema todavía no
resuelto. Por otra parte, su formulación ha servido de referencia, punto de partida o
comparación desde entonces.

En esta línea, [Zheng,1993] calcula la estimación de conservación como aquel


desplazamiento donde se produce un mínimo de la función de error (4-6) y le asocia una
varianza asociada a la distribución de dicha función

{
( u, v )( x , y ) = min Ec ( x , y ) ( u, v )
{ u,v }
}
(4-34)
σ ( x, y ) =
2
c
1
( 2 N + 1)2
∑ ∑ (E u v c( x , y ) ( u, v ) − Ec ( x , y ) ) 2

En el cálculo de la estimación de vecindad, propone una media ponderada que


depende de la confianza de las estimaciones particulares en vez de la distancia. Para
ello, define un valor de error Ec′ correspondiente a escalar el valor mínimo de la función
de error por σ c2 y pondera las estimaciones de la vecindad por el recíproco de este valor.

 ∑ ui / Eci′ ∑ v / E′ 
Un =  i
∑ 1 / E′ 
i i ci

 ∑i 1 / Eci′
(4-35)
i ci

donde los sumatorios se aplican sobre el dominio de los puntos pertenecientes a la


vecindad y (ui, vi) es el vector de velocidad correspondiente al vecino i.

Aún reconociendo la formulación de Singh como “teóricamente preferible”, indica


que al asociarle a la estimación una varianza en vez de una matriz de covarianza,
consigue evitar el problema de la inversión (y la carga computacional asociada). Debido
a esto, no puede aplicar la optimización estadística de Singh y recurre a la adaptación de
una variante de suavizado orientado descrita en [Anandan,1989]. Esta formulación
también falla en regiones de intensidad uniforme debido a que aunque la varianza de las
mismas es baja también lo es el error. Para ello propone como posible solución el
descartar de la propagación a aquellos puntos que no superen un umbral de varianza.

107
Capítulo 4 Percepción Visual del Movimiento

Con esto se consigue evitar el caso degenerativo de las regiones uniformes pero se
pierde capacidad de suavizado en situaciones donde hay un punto con una estimación
mala, pero que está rodeado de puntos con buena estimación.

En el desarrollo asociado a esta exposición, se ha optado por descartar de la


propagación a aquellos puntos que presentan una velocidad pequeña y que están
rodeados a su vez por un número mínimo de puntos en dicha situación. De ésta manera,
se eliminan de la propagación a grandes regiones de intensidad uniforme ya que en éstas
la velocidad estimada tiene un módulo pequeño, pero no se eliminan puntos aislados de
mala calidad.

Por otra parte, también son eliminados de la propagación los puntos lejanos, que
lógicamente presentan una velocidad pequeña. Esto no supone perjuicio alguno ya que
no se consigue gran mejora para los mismos durante la propagación y porque tampoco
resulta muy aconsejable asignarles una alta confianza en base a criterios de gradiente
local o de similitud de estimaciones, ya que existe la constancia de que habrá un error
considerable en la estimación de la profundidad del mismo debido a que la base de
triangulación involucrada es pequeña.

En la figura 4-14, se comparan los resultados de la estimación de la velocidad con y


sin la aplicación de criterios de vecindad para cuatro situaciones significativas. Para
cada situación, se presentan : la estimación de velocidad sin propagación para un punto
y para sus vecinos, la estimación de velocidad con propagación y un dibujo donde se
representan las estimaciones de los puntos de la vecindad en el espacio de velocidades
(u,v) sin propagación (cuadrados) y con propagación (triángulos) y los vectores de
velocidad correspondientes al punto central de la misma.

En la representación del flujo óptico se incluye, para cada punto donde se realiza una
estimación, un cuadrado centrado en dicho punto y con un nivel de gris proporcional a
la confianza normal de la misma. Un segmento recto con origen en el mismo representa
el vector de velocidad correspondiente, estando el módulo de éste en ocasiones escalado
para mayor claridad.

108
Capítulo 4 Percepción Visual del Movimiento

(a)

(b)

(c)

109
Capítulo 4 Percepción Visual del Movimiento

(d)

Figura 4-14. Comparación entre estimación de velocidad con y sin propagación de velocidad ante:
(a) vecindad con un borde, (b) vecindad con un borde y esquinas, (c) región uniforme, (d) vecindad
con oclusión y dos planos de movimiento.

Las vecindades utilizadas en la figura 4-14 han sido extraídas de un secuencia de


prueba calibrada (ftp://ftp.ipl.rpi.edu/pub/image/sequence/caltrain) en la que aparece un
tren de juguete que se mueve a la izquierda empujando a un balón de lunares. El fondo
está compuesto por una pared forrada con un papel que contiene motivos de pequeñas
aves y por un calendario que se mueve hacia arriba. La cámara se mueve a su vez a la
izquierda (mas despacio que el tren), haciendo que la pared aparente moverse hacia la
derecha y el calendario diagonalmente (arriba/derecha).

En las figuras 4-14 (a), (b) y (c) se muestran porciones de la pared forrada, que
deberían de presentar una traslación a la derecha. En el primer caso, se trata de una
región que contiene un fuerte gradiente diagonal con lo cual se mejoran las estimaciones
de la componente normal al mismo pero no se consigue resolver el problema de la
apertura. Por contra, en el segundo caso sí que aparecen esquinas y es posible resolver
dicho problema. En el tercer caso, se trata de una región uniforme donde es imposible
percibir el desplazamiento. Para este caso, se ha utilizado intencionalmente la
propagación propuesta por Singh para mostrar el efecto degenerativo mencionado. Para
el resto de los casos y en las demás ilustraciones pertinentes se ha utilizado la
modificación indicada.

En la figura 4-14 (d) se muestra una vecindad donde aparece el techo del tren
moviéndose a la izquierda y ocluyendo a la parte inferior del calendario que se mueve

110
Capítulo 4 Percepción Visual del Movimiento

hacia arriba y a la derecha. Obsérvese la aparición de tres acumulaciones en el espacio


de velocidades, dos de ellas correspondientes a cada uno de los planos de velocidad
indicados y otra correspondiente a los puntos que presentan un desplazamiento nulo
debido a la existencia de regiones uniformes. Obsérvese también en todos los casos
como la propagación tiende a disminuir la dispersión en dicho espacio, moviendo las
medidas hacia el centro de la agrupación correspondiente.

4.7.4. Crítica a los métodos basados en suavizado o propagación.

Tanto los métodos de suavizado como los de propagación pretenden interpolar y/o
extrapolar las estimaciones de flujo óptico, basándose en una supuesta continuidad
espacial del campo de movimiento proyectado sobre el plano de imagen. Sin embargo,
esta suposición es inherentemente imprecisa ya que el grado de continuidad depende del
tipo de movimiento relativo al que están sujetos los objetos que componen el escenario
y de la orientación local de la superficie respeto a la línea de vista. Es decir, es cierto
que los puntos pertenecientes a un objeto rígido presentan el mismo movimiento
tridimensional (traslación y rotación) y por tanto se puede hablar de cierta continuidad
de los vectores de velocidad. Sin embargo, el grado de conservación de dicha
característica ante una proyección sobre el plano de imagen, depende en gran medida del
movimiento relativo y estructura del escenario. La mayoría de los métodos no tienen
esto en cuenta.

Por otra parte, la asociación de valores de campo a regiones desconocidas en el


sentido de que la confianza de la estimación es muy baja, presenta el problema de que
puede llevar a estimaciones totalmente erróneas que inducen a errores en la
interpretación de la escena. En otras ocasiones, son pequeñas diferencias del flujo
óptico, sobre todo en cuanto a orientación, las que permiten discernir entre objetos o
distinguir entre movimientos de rotación y traslación, pudiendo ser eliminadas por un
exceso de suavizado o propagación.

En cualquier caso, siendo útil la aplicación de criterios de vecindad en la resolución


del problema de la apertura, será necesario proceder con cautela en pos de evitar
conseguir un campo bonito pero engañoso o totalmente carente de información.

111
Capítulo 4 Percepción Visual del Movimiento

4.7.5. Aplicación de restricciones geométricas.

Si el entorno es aproximadamente conocido o si cabe hacer ciertas suposiciones


sobre su estructura, es posible aplicar restricciones que permiten resolver el problema de
la apertura sin recurrir a la aplicación de criterios de vecindad. En este contexto, resulta
común suponer que el entorno está compuesto por superficies planas [Waxman,1985] o
algún otro tipo de superficie parametrizable y que el campo normal puede ser estimado
con alta confianza. Con estas premisas y tomando el campo estimado en un conjunto de
puntos supuestamente pertenecientes a una misma superficie, surge un sistema de
ecuaciones sobre-dimensionado que puede ser resuelto aplicando mínimos cuadrados.

El principal inconveniente de este tipo de enfoque reside en que produce resultados


dispares cuando se asocian puntos que no pertenecen a la misma superficie. Para evitar
este problema, será necesaria un segmentación relativamente compleja y robusta.
También surgen problemas si la estimación obtenida en los puntos involucrados es
generalmente mala ya que resultan empeoradas las estimaciones buenas. Por contra, la
resolución del problema de la apertura de ésta manera no utiliza las aproximaciones
hechas con los criterios de vecindad y se formula de manera exacta siempre y cuando se
cumplan las restricciones geométricas supuestas. En cualquier caso, no debe descartarse
la aplicación de restricciones de tipo geométrico, incluso en combinación con criterios
de vecindad.

4.8. Computación multi-escala del flujo óptico.

Como se puede intuir, la estimación del flujo óptico supone una gran carga
computacional, aumentando ésta de manera exponencial con el tamaño de la zona de
análisis. En concreto, la técnica de bloque basada en la correlación SSD (anteriormente
descrita) requiere, para la estimación del flujo óptico en un punto del plano de imagen,
una carga computacional de O( N 2 M 2 ), donde N y M son las dimensiones de las
ventanas de pixel y respuesta, suponiendo que son cuadradas. A su vez, existe una
relación lineal en el número de puntos donde se estima la velocidad o cuadrática en la
densidad de puntos de medida si se disponen de manera uniforme. Adicionalmente,
existirá un incremento lineal en la frecuencia temporal con la cual se deseen realizar las
estimaciones.

112
Capítulo 4 Percepción Visual del Movimiento

Todo ello conlleva a tener que seleccionar cuidadosamente los siguientes parámetros:

• Periodo de muestreo : La diferencia temporal entre cuadros ha de ser lo


suficientemente grande como para no pasar por alto el movimiento de objetos
con un movimiento relativo lento. Por otra parte, ha de ser lo suficientemente
pequeña como para proveer la cadencia de estimación deseada y para asegurar
que el movimiento de los puntos de la escena esté encuadrado en las zonas de
análisis. En el caso de una cámara que se mueve en un entorno estático,
dependerá de la velocidad de la misma, de sus parámetros ópticos y del rango de
distancias que se desee percibir.
• Resolución espacial : Será un factor determinante en la precisión con la cual se
podrá analizar la escena. Por lo general, su aumento exigirá un incremento
significativo en la carga computacional ya que implica mayores ventanas de
análisis para iguales desplazamientos sobre el plano de imagen. Una alternativa
consiste en reducir la diferencia temporal entre cuadros para eliminar la
necesidad de incrementar las ventanas de análisis, pero esto no supone un
incremento de precisión en las estimaciones.
• Tamaño de las ventanas de análisis : Su incremento permitirá percibir
desplazamientos mayores. Por otra parte, supone un gran incremento en la carga
computacional y la posible aparición del problema de la correspondencia en
regiones texturadas.

Los parámetros indicados están muy interrelacionados, de manera que sea necesario
dimensionarlos adecuadamente a las características del entorno, a la precisión deseada y
a la capacidad computacional disponible. Puede ocurrir en ciertas aplicaciones que esta
rigidez en el rango de movimientos perceptibles suponga una limitación inadmisible ya
que implicaría la modificación de los parámetros ante variaciones del entorno.

Una formulación alternativa consiste en estimar el movimiento sobre el plano de


imagen a diferentes escalas de resolución, aprovechando las estimaciones hechas a baja
resolución para reducir el espacio de análisis en las estimaciones de alta resolución. Este
tipo de planteamiento es común en la visión por computador, recibe nombres como
computación multi-escala, multi-resolución, piramidal o grueso-a-fino y ha sido
aplicado en variedad de tareas incluyendo la extracción de contornos, el esqueletizado
de patrones binarios, la extracción de propiedades y la visión estéreo. Su uso surge en

113
Capítulo 4 Percepción Visual del Movimiento

ocasiones como medio para aumentar la calidad de los algoritmos [Jähne,1993] y en


otros como medio para aumentar su eficiencia computacional
[Choudhary,1992][Holden,1993].

Entre las posibles formulaciones de estructuras de imagen multi-escala, cabe destacar


las pirámides de Gauss y de Laplace.

En una pirámide de Gauss, cada nivel se construye a partir del nivel inferior mediante
un filtrado paso bajo (anti-aliasing) y un diezmado por dos (en ambas direcciones),
constituyendo la imagen original el nivel mas bajo de la misma. El espacio adicional
requerido por tal representación está limitado a un tercio del ocupado por la imagen
original.

Se construye una pirámide de Laplace de manera similar, salvo que en cada nivel se
resta el resultado del filtrado paso bajo a la imagen original. De esta manera, solo las
escalas finas, extraídas por la operación de suavizado, permanecen en el nivel mas fino.
El nombre de pirámide de Laplace surge del hecho de que al restar una imagen
suavizada por un operador isótropo de su original, se lleva a cabo un operador de
Laplace. La pirámide de Laplace constituye una forma eficiente de realizar una
descomposición paso banda a múltiples escalas y por tanto será de utilidad cuando se
aplique un criterio de conservación de la componente paso banda de intensidad.

En la figura 4-15 se muestra un ejemplo de ambos tipos de pirámides.

(a) (b)
Figura 4-15. Estructuras Piramidales: (a) Gauss, (b) Laplace.

114
Capítulo 4 Percepción Visual del Movimiento

Sea cual sea el tipo de pirámide empleada, en la estimación piramidal del flujo óptico
se procede de la siguiente manera :

• Estimar el flujo óptico en el nivel más alto de la pirámide (N), o sea en el de


menor resolución, con las ventanas de pixel y búsqueda centradas en el punto en
cuestión. Con esto se obtiene una primera aproximación del movimiento (uN,vN).
Propagar este resultado al nivel inmediatamente inferior (N-1).
• En cualquier otro nivel (n), tomar la estimación de velocidad obtenida en el nivel
inmediatamente superior (u(n+1),v(n+1)), como centro de la ventana de búsqueda
para ese nivel. Si no es el nivel de mayor resolución, propagar al nivel
inmediatamente inferior (n-1) la suma vectorial de la velocidad obtenida con la
propagada del nivel inmediatamente superior (n+1) (escalada por dos). Si se trata
del nivel de mayor resolución (0), ésta es la estimación de la velocidad (u,v).

En la figura 4-16, se muestra el funcionamiento de esta técnica para el cálculo del


flujo óptico en un punto. En ambas columnas, se muestra la discretización
correspondiente a una pirámide donde el nivel mas bajo representa la mayor resolución
y el mas alto a la menor. En cada nivel, una cuadrícula corresponde a un pixel, siendo el
porcentaje del plano de imagen cubierto por el mismo mayor cuanto menor sea la
resolución. La columna de la izquierda corresponde al instante de referencia, donde las
cajas de trazo grueso muestran la localización y dimensión de la ventana de pixel a los
distintos niveles, ocupando ésta una menor porción del plano de imagen a medida que
aumenta la resolución. La columna de la derecha corresponde al instante de búsqueda,
donde las cajas de trazo grueso muestran la localización y dimensión de la ventana de
respuesta a los distintos niveles y la flecha muestra el desplazamiento relativo estimado
para cada nivel. Obsérvese que como el diezmado entre niveles de la pirámide es igual a
dos, las ventanas de pixel no están perfectamente alineadas. Obsérvese también como la
ventana de respuesta de cada nivel está centrada en el desplazamiento acumulado de los
niveles superiores.

115
Capítulo 4 Percepción Visual del Movimiento

Figura 4-16. Computación multi-escala del flujo óptico.

116

You might also like