Procesamiento Digital de Imagenes

Procesamiento Digital de Imgenes
Captulo 2
parte 1
Ingeniera Civil Biomdica
Pamela Guevara
1
Contenidos
Redundancia
en el cdigo
entre pxeles
psicovisual
Transformada de Fourier
Transformada del Coseno

Discreta
Representacin de Imgenes Digitales
Representar una imagen de n x n pxeles mediante una

matriz requiere:
n2 bits si es binaria
n2 log2 (L) bits si la imagen es en niveles de gris, con L

niveles
3n2 log2 (L) bits si la imagen es a color (RGB) con L

niveles.
Existen representaciones de imgenes que pueden ser

ms econmicas que la representacin matricial, ya que
se elimina informacin redundante.
Redundancia
Una imagen tiene redundancia cuando su representacin o

significado abunda en la repeticin de patrones o modelos.
En una imagen digital hay tres tipos de redundancia:
Redundancia en el cdigo.
Redundancia entre pxeles.
Cdigo es un sistema de smbolos usado para

representar la informacin. A veces, la longitud de las
palabras usadas en el cdigo es mayor de lo necesario.
Debida a la correlacin espacial entre un pxel y sus
vecinos.
Redundancia psicovisual.
Parte de la informacin es ignorada por el ojo humano.

4
Redundancia
Ejemplos de imgenes redundantes:
redundancia
en el cdigo
redundancia
entre pxeles
redundancia
psicovisual
5
Redundancia
La compresin de imgenes consiste en eliminar una o

ms de estas redundancias.
Se pueden clasificar las distintas formas de compresin

de imgenes en:
con prdida de informacin en la imagen:

eliminan la redundancia psicovisual
sin prdida de informacin en la imagen:

eliminan la redundancia de cdigo y/o entre
pxeles no producen errores.
Compresin de imgenes eliminando la

redundancia de cdigo
Cdigo de longitud variable tal que a aquellos

valores con ms probabilidad se le asigna un menor
nmero de bits, entonces se consigue que el
promedio sea menor.
Ej. Cdigo de Huffman
La codificacin de Huffman consigue el nmero

ms pequeo posible de smbolos de cdigo.
Codificacin sin prdida en imgenes en escala
de grises
Cdigo de Huffman
Ejemplo: Consideremos una imagen con 6 niveles de grises:
p(a1)=0,1 p(a2)=0,4 p(a3)=0,06
p(a4)=0,1 p(a5)=0,04
p(a6)=0,3
Observemos que si usamos el cdigo binario natural, necesitamos

3 bits para codificar cada valor:
Valor
Valor codificado
a1
000
a2
001
a3
010
a4
011
a5
100
a6
101
8
Cdigo de Huffman
El cdigo de Huffman, en funcin de la probabilidad ser:
Valor Probabilidad Valor codificado con el cdigo de Huffman
a1
0,1
011
a2
a3
a4
a5
a6
0,4
0,06
01010
0,1
0100
0,04
01011
0,3
00
Ahora, el promedio de bits necesario es:

3(0,1) + 0,4 + 5(0,06) + 4(0,1) + 5(0,04) + 2(0,3) = 2,2
El radio de compresin sera: CR = 3/2,2 = 1,36 y la redundancia
relativa es:
R D = 1-(1/1,36) = 0,26. Por tanto, el 26% del
primer cdigo era redundante.
redundancia relativa : RD= 1 - (1/CR)
Compresin de imagen eliminando la

redundancia entre pxeles
Representacin por filas o Run-Length Coding
Cada fila de una imagen est completamente

determinada mediante la especificacin de las
longitudes y los valores de secuencias de
pxeles sucesivos del mismo color.
Si hay slo unas pocas secuencias (r es

"pequeo"), esta representacin es muy
econmica.
10

Ejemplo de Representacin por filas. Caso Imagen binaria.
Slo hay que indicar el primer elemento de la fila y las
longitudes de las secuencias alternadas.
11

Representacin por bloques: rboles

cuaternarios (quadtrees)
Asumimos por simplicidad que las imgenes S son

binarias y de tamao 2k x 2k .
Mtodo:
El nodo raz del rbol representa la imagen completa.
Si un bloque tiene valor constante, su nodo es un nodo

hoja; en otro caso, su nodo tiene cuatro descendientes
correspondientes a los cuatro cuadrantes del bloque.
El proceso se repite entonces para cada uno de esos

nuevos nodos; as sucesivamente y como mximo k
veces.
12

Representacin por bloques: rboles cuaternarios

Ejemplo: imagen binaria 23 x 23
rbol cuaternario de altura 3.
El orden de los hijos de cada fila
es NO, NE, SO, SE.
El espacio para
almacenar el rbol es
proporcional al nmero
de nodos.
No hay redundancia en
cuanto a pxeles que
aparezcan en dos
nodos.
13

Los quadtrees tienen otras aplicaciones como indexacin,

segmentacin de imgenes, anlisis de elementos finitos,
deteccin de colisiones, etc.
En 3D se usan octrees.
14

redundancia psicovisual
La codificacin con prdida se basa en la idea de

comprometer la precisin de la imagen descomprimida
con el fin de lograr una mayor compresin.
Se necesitan indicadores que nos permitan medir el error que

se comete despus de comprimir y descomprimir con
respecto a la imagen original.
Por ejemplo, el error cuadrtico medio en una imagen MxN, viene

dado por:
con f(x,y) la imagen original y f (x,y) la imagen obtenida despus

de comprimir y descomprimir.
15
Codificacin por transformacin

en bloques
La imagen se divide en bloques de nxn y en cada uno de ellos se

realiza una codificacin por transformacin.
Para codificar se utiliza una transformada lineal, reversible, para

hacer corresponder la imagen con un conjunto de coeficientes de
la transformada, que despus se cuantifican y se codifican.
16
Codificacin por transformacin

en bloques
En la mayor parte de las imgenes naturales, un nmero

significativo de coeficientes (en el dominio transformado)
tiene pequeas magnitudes y se pueden cuantificar de forma
poco precisa (o se pueden eliminar totalmente) sin que ello
suponga una distorsin apreciable en la imagen.
En general no se utiliza compresin con prdida en

Imgenes Mdicas
17
Transformadas de la Imagen
Suponiendo que la imagen tiene tamao NxN, su transformada

puede expresarse de la forma:
Donde:
T(u,v) es la transformada de f(x,y);
g(x,y,u,v) es el ncleo (o kernel) de la transformada directa;
u y v toman valores de 0 a N-1.
La transformada inversa se expresa como:
donde h(x,y,u,v) es el ncleo de la transformada inversa.
18
Codificacin por transformacin en bloques
El ncleo directo es separable si g(x,y,u,v) = g1(x,u) g2(y,v).
Luego, la transformada bidimensional se puede calcular

realizando dos transformadas unidimensionales
Adems el ncleo es simtrico si g1 y g2 son iguales.
19
Codificacin por transformacin en bloques

Expresin matricial:
Si el ncleo g(x,y,u,v) es separable y simtrico, la transformada se

puede expresar en forma matricial. Sean F, G y T las matrices de
elementos:
La transformada:
puede escribirse de la forma:
Para obtener la transformada inversa, se multiplica a derecha e

izquierda por la matriz inversa de G y de su traspuesta:
20
La Transformada de Fourier
La transformada de Fourier es una importante herramienta de

procesamiento.
Se usa para descomponer una imagen en sus componentes

de seno y coseno.
La salida de la transformada es una imagen en el dominio de

Fourier (dominio de la Frecuencia), mientras que la imagen
de entrada est en el dominio espacial.
En el dominio frecuencial, cada punto de la imagen

representa una frecuencia particular contenida en el dominio
espacial.
Aplicaciones en anlisis, filtrado, reconstruccin y compresin

de imgenes.
21
La transformada de Fourier de una funcin continua e
integrable en una variable real x, se define por:
La transformada multiplica la funcin por un set de funciones

bases de senos y cosenos de frecuencia creciente:
e iux=cos ux +isen ux
i= 1
La variable u recibe el nombre de variable de frecuencia.

La transformada de una funcin real es una funcin compleja.
F(u) = R(u) + I(u)i, donde R(u) e I(u) son la parte real e
imaginaria de F(u).
22
Ejemplo de funciones base: senos y cosenos, donde vara la
frecuencia.
Las amplitudes de stas son calculadas mediante la TF y
dependen de la funcin analizada.
23
Ejemplo para una seal unidimensional peridica (utiliza Serie de Fourier)
seal
unidimensional
perdica
aproximacin
con una
funcin base
aproximacin
con dos
funciones
base
aproximacin
con tres
funcin base
24
(A) oscilacin sobre un valor medio

(B) representacn por una forma lineal
(C) y (E) representacin por una suma de
ondas:
La onda C describe la forma B mucho peor
que las cinco ondas del grfico D que
vemos sumadas en E.
Ejemplo para una

seal peridica (utiliza
Serie de Fourier)
Componentes en
Frecuencia de la Seal
25
El mdulo de F(u),
F u = R u 2 +I u 2
Espectro de Fourier.
El cuadrado del espectro se denomina espectro de potencias

densidad espectral de f(x).
Su ngulo P(u) = arctg( I(u)/R(u) ) recibe el nombre de fase.
recibe el nombre del
niveles
densidad
espectral
frecuencia
tiempo
fase
ejemplo para una seal transitoria

frecuencia
26
La inversa de su transformada se define como:
Anlogamente, se define la Transformada de Fourier de una

funcin continua e integrable de 2 variables:
y su inversa como:
27
La Transformada de Fourier Discreta (DFT)

Bidimensional
Sea f(a,b) una imagen en niveles de grises (dominio espacial), tal que:
x=0,1,...,N-1, y=0,1,,N-1 (imagen cuadrada de NxN)
f(a,b) toma valores discretos representando el nivel de gris del

pxel (a,b)
entonces, la Transformada Discreta de Fourier de la imagen consiste

en una funcin F(k,l) tal que k=0,1,...,N-1 y l=0,1,...,N-1:
el trmino exponencial es la funcin base correspondiente al punto F(k,l)

en el espacio de Fourier.
y su inversa como:
28
La Transformada de Fourier discreta
La DFT no contiene todas las frecuencias que forman la imagen,

pero el nmero de muestras es suficiente para describir la imagen
en el dominio espacial.
El nmero de frecuencias corresponde al nmero de pxeles en el

dominio espacial de la imagen, i. e., las imgenes en los dominio
Espacial y de Fourier tienen el mismo tamao.
INTREPRETACIN
El valor de cada punto F(k,l) es obtenido al multiplicar la imagen espacial
con la funcin base correspondiente y adicionar el resultado.
Las funciones base son el seno y el coseno con frecuencias crecientes.
F(0,0) representa el valor promedio de la imagen.
F(N-1,N-1) representa la ms alta frecuencia.
29
Propiedades de la Transformada de Fourier

Transformada de Fourier Discreta (TFD) bidimensional
Ncleo separable y simtrico
La ventaja que aporta esta propiedad es el hecho de poder obtener

la transformada F(k,l) (o la inversa f(a,b)) en dos pasos, mediante la
aplicacin de la Transformada de Fourier 1-D (o su inversa):
donde:
La matriz de la transformada se puede obtener mediante un

producto de matrices T=AT FA
30
Propiedades de la Transformada de Fourier

La linealidad
La transformada de Fourier y su inversa son transformaciones lineales,

es decir, poseen la propiedad distributiva respecto de la suma.
La traslacin
TF f a,b e
i2pi Ka+Ly
N
] =F k K,l L
TF [ f a A,bB ] =F k,l e
i2pi kA+lB
N
(se traslada el origen de la

transformada a (K, L))
Caso particular: mover el origen de la TF de f(a,b) al centro de la matriz

N X N, es decir al punto (N/2,N/2). Para ello, podemos hacer uso de que:
TF[ f(a,b)(-1)x+ya] se hace corresponder con F(k-N/2, l-N/2).
Un desplazamiento en la funcin f(a,n), no provocar un cambio en la

magnitud de su transformada de Fourier:
F k,l e
i2pi kA+lB
N
= F k,l
31
La simetra y periodicidad
Si f(a,b) es real, la transformada de Fourier satisface:
|F(k,l)|=|F(-k, -l)|
La transformada discreta de Fourier y su inversa son funciones

peridicas de periodo N; es decir,
F(k,l) = F(k+N, l) = F(k, l+N) = F(k+N, l+N)

Consecuencia:
Si se desplaza el origen de la transformada al punto (N/2, N/2),

para calcular la transformada de Fourier, F(k-N/2, l-N/2), en un
periodo completo slo necesitamos calcularla en los N/2 + 1 puntos
primeros.
32
La simetra y periocidad
imagen
Espectro de Fourier
sin desplazamiento
Espectro de Fourier
sin desplazado al
centro de la imagen
33
La rotacin
Si rotamos la funcin f(a,b) un ngulo
determinado, la transformada de
Fourier tambin ser afectada por
una rotacin del mismo ngulo.
Esta propiedad tambin se da a la
inversa, es decir, si la transformada
se rota en un determinado ngulo,
la transformada inversa tambin se
ver rotada ese mismo ngulo.
34
Representacin del logaritmo del espectro
El espectro de Fourier suele tener un rango mucho mayor que los

usuales para mostrar una imagen. Una tcnica usual es considerar
el logaritmo del espectro usando la frmula
D(k,l) = C( log( 1+|F(k,l)| ) )
donde C es una constante

adecuada de reescalamiento
de la imagen, que se aplica
para obtener valores dentro
de la paleta de colores
disponible.
35
Valor Promedio
Una definicin ampliamente utilizada del valor promedio de una

funcin discreta de dos dimensiones es:
Propiedad:
Esto quiere decir que en el centro de la imagen (si tenemos la FT centrada),

tenemos el valor medio de la imagen o componente constante.
36
imagen
en procesamiento de
imgenes normalmente
se usa slo la magnitud
para obtener
informacin pero la fase
es necesaria para
aplicar la transformada
inversa
DFT (punto amplificado)
DFT escala logartmica
fase
imagen reconstruida sin fase
37
Imagen con lneas verticales de 2 pxeles de ancho
componente
DC (valor
promedio)
imagen
DFT
(puntos amplificados)
La frecuencia mxima que puede representar la imagen es:

fmax = 1 / (2 pxeles)
La frecuencia que contiene la imagen es:
f = 1 / (4 pxeles) = fmax / 2 (en la mitad del rango)
38
Imagen con lneas oblcuas
imagen
DFT
Se necesitan ms frecuencias para representar las lneas en

diagonal con las funciones base.
39
Imagen con lneas oblcuas
DFT en escala
logartmica
DFT
(puntos obtenidos
con segmentacin
por valor umbral y
amplificados)
40
Distributividad con respecto a la adicin
zoom
suma de las DFTs

(complejas) de las 2
imgenes anteriores
imagen reconstruida con la

DFT inversa
(se obtiene el equivalente a una
suma de las dos imgenes
originales en el dominio espacial)
41
Filtrado en Frecuencia (Filtro pasa bajos)
DFT en escala
logartmica
(seleccin de bajas
frecuencias)
imagen reconstruida con la

DFT inversa
(las lneas oblcuas presentan
variaciones de ms baja
frecuencia en los bordes
(suavizado))
42
Filtrado en Frecuencia (Filtro pasa bajos)
43
Filtrado en Frecuencia (Filtro pasa altos)
parte real positiva
FFT(espectro)
amplitud
parte real + parte DC (punto al centro del espectro)
44
Ejemplo: bsqueda de orientacin de un texto
imagen
DFT
45
Ejemplo: bsqueda de orientacin de un texto
imagen rotada
DFT
46
ver sitios:
http://www.cs.unm.edu/~brayer/vision/fourier.html
http://homepages.inf.ed.ac.uk/rbf/HIPR2/fourier.htm
ver applet:
http://escher.epfl.ch/fft/
47
La Transformada Coseno
Utiliza slo funciones coseno.
Tiene la ventaja de entregar como salida una imagen real y que es

una transformada rpida.
Se utiliza en compresin de imgenes (JPEG)
Despus de calcular la transformada, es posible descartar los

coeficientes que codifican las componentes de alta frecuencia
La cantidad de informacin puede reducirse sin afectar seriamente

la forma cmo la imagen es percibida por el ojo humano.
48

Discreta (DCT)
En la transformada del coseno discreta (DCT) los vectores
base son funciones cosenos muestreadas, resultando siempre
real.
La DCT muestra una alta compactacin de la energa para
datos altamente correlacionados, por lo que se ha convertido
en una de las preferidas en cuanto a la compresin de datos
de imgenes.

Discreta (DCT)
La transformada del coseno es real y ortogonal.

En 2D las funciones base son vectores.
En 3D las funciones base son matrices.
Debido a la ortogonalidad de las funciones base, el producto
de cualquiera de estos dos vectores (o matrices), sumados a
lo largo de todos los puntos de muestreo, produce un resultado
nulo.

Discreta (DCT)
La DCT unidimensional se define de la siguiente forma:
De forma anloga definimos la DCT inversa:
donde, para ambas ecuaciones:

Discreta (DCT)
Funciones bases cosinoidales 1D

Discreta (DCT)
Podemos definir ahora la DCT bidimensional donde, f (x,y) es la
imagen y C(u,v) su transformada:
para u,v = 0:N-1
para x,y = 0:N-1

Discreta (DCT)
Ejemplos de la DCT para diferentes imgenes. En este caso se calcula
DCT de la imagen completa (no de un bloque).

Discreta (DCT)
Representacin grfica de las NxN matrices base, asumiendo que cada
elemento de una matriz base corresponde a un nivel de gris
Conjunto de 64 funciones base
cosinusoidales bidimensionales
(imgenes base) que se generaron
al multiplicar un conjunto de
funciones base unidimensionales
(de ocho puntos)
orientadas horizontalmente por un
conjunto verticalmente orientado
de las mismas funciones.

Discreta (DCT)
El bloque original NxN se descompone en una combinacin
lineal de estas matrices:
Los coeficientes de la combinacin lineal
son los coeficientes de la DCT.
La compresin JPEG
considera slo los
coeficientes ms
inportantes,
correspondientes a las
frecuencias ms bajas
(arriba e izquierda).
y ij

Procesamiento Digital de Imagenes

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Procesamiento Digital de Imagenes

Uploaded by

Copyright:

Available Formats

Procesamiento Digital de Imgenes

Transformada del Coseno

Representacin de Imgenes Digitales

Representar una imagen de n x n pxeles mediante una

n2 log2 (L) bits si la imagen es en niveles de gris, con L

3n2 log2 (L) bits si la imagen es a color (RGB) con L

Existen representaciones de imgenes que pueden ser

Una imagen tiene redundancia cuando su representacin o

En una imagen digital hay tres tipos de redundancia:

Redundancia entre pxeles.

Cdigo es un sistema de smbolos usado para

Parte de la informacin es ignorada por el ojo humano.

Ejemplos de imgenes redundantes:

La compresin de imgenes consiste en eliminar una o

Se pueden clasificar las distintas formas de compresin

con prdida de informacin en la imagen:

sin prdida de informacin en la imagen:

Compresin de imgenes eliminando la

Cdigo de longitud variable tal que a aquellos

Ej. Cdigo de Huffman

La codificacin de Huffman consigue el nmero

Observemos que si usamos el cdigo binario natural, necesitamos

Ahora, el promedio de bits necesario es:

redundancia relativa : RD= 1 - (1/CR)

Compresin de imagen eliminando la

Representacin por filas o Run-Length Coding

Cada fila de una imagen est completamente

Si hay slo unas pocas secuencias (r es

Compresin de imagen eliminando la

Compresin de imagen eliminando la

Representacin por bloques: rboles

Asumimos por simplicidad que las imgenes S son

El nodo raz del rbol representa la imagen completa.

Si un bloque tiene valor constante, su nodo es un nodo

El proceso se repite entonces para cada uno de esos

Compresin de imagen eliminando la

Representacin por bloques: rboles cuaternarios

Compresin de imagen eliminando la

Los quadtrees tienen otras aplicaciones como indexacin,

Compresin de imagen eliminando la

La codificacin con prdida se basa en la idea de

Se necesitan indicadores que nos permitan medir el error que

Por ejemplo, el error cuadrtico medio en una imagen MxN, viene

con f(x,y) la imagen original y f (x,y) la imagen obtenida despus

Codificacin por transformacin

La imagen se divide en bloques de nxn y en cada uno de ellos se

Para codificar se utiliza una transformada lineal, reversible, para

Codificacin por transformacin

En la mayor parte de las imgenes naturales, un nmero

En general no se utiliza compresin con prdida en

Suponiendo que la imagen tiene tamao NxN, su transformada

T(u,v) es la transformada de f(x,y);

g(x,y,u,v) es el ncleo (o kernel) de la transformada directa;

u y v toman valores de 0 a N-1.

La transformada inversa se expresa como:

donde h(x,y,u,v) es el ncleo de la transformada inversa.

Codificacin por transformacin en bloques

El ncleo directo es separable si g(x,y,u,v) = g1(x,u) g2(y,v).

Luego, la transformada bidimensional se puede calcular

Adems el ncleo es simtrico si g1 y g2 son iguales.

Codificacin por transformacin en bloques

Si el ncleo g(x,y,u,v) es separable y simtrico, la transformada se

Para obtener la transformada inversa, se multiplica a derecha e