Apresentacao Procad 2003

Reconhecimento off-line de Assinaturas
 Escopo de investigação
•Esqueletização
>Algoritmo de G&W
Extração
>Morfologia matemática
de •Detecção de Bordas
Características •Momentum
•Regiões de Pressão
•Descrição estrutural
•Teoria de Decisão de Bayes

•K vmp
•Redes Neurais
Classificação >MLP BP
>GSN
>Neuro-Fuzzy 1
• Esquemas de conexão entre as técnicas de extração de características
Assinatura Pré-processada
cinza/binária
Imagens
Borda Esqueleto Regiões de Pressão

cinza/binária cinza/binária cinza/binária
Inclinação Momentum Fatores de Pressão Vetores de

Características
2
 Esquemas de conexão entre técnicas de extração de características e

reconhecimento
Imagem Vetor de Imagem

binária Características cinza
GSN K vmp Neuro-Fuzzy MLP BP

3
• Base de Dados
– 50 classes (autores)
– 20 assinaturas verdadeiras por classe
– 20 assinaturas falsas por classe
• 10 simples ou randômicas
• 10 habilidosas
– Total de 2000 amostras
4
 Segmentação
 Do formulário e das assinaturas individuais
 A partir das projeções vertical e horizontal
 Pré-processamento
Equalização de Amortecimento
Background
Binarização Extração
da imagem
5
 Extração de características
6
Momentum
7
Bordas e Inclinação
8
Regiões de Pressão
9
 Armazenamento
 Imagens
 Original, segmentada e pré-processada, esqueleto, borda e
pressão
 Formato GIF
 Vetor de características híbrido

 Momentum padrão (6 valores)
 Número de componentes verticais
 Inclinações (negativa, vertical, positiva)
 Limiar de alta pressão (THP)
 Fator de pressão (PF) 10

 Experimentos
 Apenas verificação
 Classificadores K vmp, MLP MP e Neuro-Fuzzy
 Treinamento: 1 a 5 verdadeiras
 Teste: 15 verdadeiras + 20 falsas
 Criterio de rejeição: Neuro-Fuzzy e K vmp
rejeitar X  (C - R) < X < (C + R)
C-R C C+R
 Performance = Acerto - (ErroI + ErroII)
11
• K vizinhos mais próximos

Tipo de Falsificação Acerto Erro I Erro II Rejeição Performance K
todas 60.51 13.70 20.00 23.69 26.81 2
simuladas 35.57 10.60 10.00 49.13 4.97 3
randômicas 82.30 7.40 14.40 6.80 60.50 1
12
• MLP Backpropagation
– Investigadas 3 arquiteturas
• (a) entradas[12], escondida[12], saída[1]
• (b) entradas[12], escondida[6], saída[1] -- melhor
• (c) entradas[12], escondida[3], saída[1]
Tipo de Falsificação Acerto Erro I Erro II Rejeição Performance

1o. todas 50.22 58.60 32.13 0.00 -40.51
padrão simuladas 52.23 63.40 32.13 0.00 -43.30
randômicas 57.03 53.80 32.13 0.00 -28.90
melhor todas 69.04 31.50 29.87 0.00 7.68
padrão simuladas 64.27 41.60 29.87 0.00 -7.20
randômicas 74.37 21.40 29.87 0.00 23.10
13
• Classificador neural difuso

todas 70.87 16.10 11.60 14.53 43.17
simuladas 70.87 30.00 11.60 1.27 29.27
randômicas 70.87 2.20 11.60 1.27 57.07
14
 Atividades desenvolvidas
Pesquisa bibliográfica nas áreas de redes Estudo teórico

neurais, processamento de imagens e enfatizando técnicas
reconhecimento de padrões para extração de
características e
reconhecimento
Construção de uma base de dados

Investigação experimental de assinaturas utilizando técnicas
de algumas configurações de para aquisição, pré-processamento
técnicas sobre a base de e segmentação
dados
15
Sistemas de Visão Biologicamente Inspirados
• Mechanisms from Biology
– Foveated vision: retina-like image representation

(log-polar) has useful properties
– Visual attention: fixation gives insights where
object features (or components) are likely to be found
– Primal sketch: provides more compact
representations for image data and cues for an attention
mechanism
16
• System’s architecture
Model base
Update Attention Generic

Primitive Map Scenes
models attention
Model
relationships
Feature Extract primal Foveate
planes sketch planes Image
Cluster
objects
17
• Image representation
– Gaussian receptive field
function
– Local contrast normalisation
for estimating original
reflectance information
– Primal sketch features (edges,
bars, blobs and ends) learned
and extracted using a neural
network approach
– Log-polar
18
• Traditional image feature extraction operators

– Cartesian domain (artefact of sensor architecture)
– Work independently of each other
– Designed by hand
• Primate visual system
– Mapping from retina to visual cortex is log-polar
– Learning
• Primal sketch [Marr82]
– Features like edges, bars, blobs, ends detected at a number
of orientations and contrasts
– Grouping processes
19
Extração de Características
• Related Work
– Neural network learning of Edge features [CTR95,PB92]
• Limited to edges
• Comparable to Sobel or Canny performances
– Arbitrary features in the log-polar domain [GF96]
• Operators manually designed
• Poor sensitivity to the feature´s contrast
• Limited to a fixed window size
Edge@0 = ABS(f+a+b-c-d-e)/3
a
f b Edge@60 = ABS(a+b+c-d-e-f)/3
x
e c ...
d +Blob = MIN(x-a,x-b,x-c,x-d,x-e,x-f)
20
• Training process
recep. field
windows
Normalise Compute Build Train Neural
Orientation Projection Training Set Networks
Exemplars Edge Edge

of Bar Training Bar
PCs NN
Features Blob Set Blob
End End
feature class and contrast
21
• Testing process
position
orientation
Apply Compute
Extract Normalise Compute
Neural Feature
Recep. Fields Orientation Projection
Networks Planes
Feature class, position
contrast and orientation
Edge Edge Edge
Planes
Test Bar Bar Bar
PCs NN
Images Blob Blob Blob
End End End
22
• Principal Components from a set of synthetic features
23
• Neural network architecture

Principal PCA projected
components window
Receptive Neural network

field window
Edge
.
Bar
N
.
. Ñ
Blob
End
[1x19] [19x17] [1x17]
24
• Evaluation
– Ground truth for untrained synthetic features
25
• Output of the Edge neural module
26
• Testing on synthetic images

Edges +Bars -Blobs +Blobs
Output
Retinal
Input
27
• Testing on real images
Input Retinal Neural Logical

Image Image Outputs Operators
28
• Conclusions
– New learning-based approach to extracting primal
sketch features
– Better results when compared to a previous approach
• More correctly classified features
• Good estimate for the feature´s contrast
• Can be easily applied to different window sizes and new
feature types
– Successfully being used as the core representation in
the problem of learning structural relationships from
sets of 2D image-based models
29
Reconhecimento de Objetos Baseado na
Aparência Usando SVM
• Base de Dados Minolta

– Objetivo: avaliar o comportamento de SVM
diante do problema.
– Base de dados: Minolta - da Universidade do
Estado de Ohio, disponível em sampl.eng.ohio-
state.edu/~sampl/data/3DDB/RID/minolta.
– Foram selecionadas 10 classes de objetos (angel,
brain, bottle, duck, face, frog, horn, lobster,
pooh e valve).
– 20 visões diferentes de cada classe
30
– Preprocessamento: todas as imagens foram

convertidas para níveis de cinza e re-escalonadas
para o tamanho 100x100 pixels.
Figura 6 Objeto angel
Figura 7 Objeto horn
31
– Ferramenta: OSU SVM toolbox Matlab,

eewww.eng.ohio-state.edu/~maj/osu_svm;
• Tipo de kernel: Polinomial de grau 2.
• Tipo de algoritmo: classificador padrão.
– Foi utilizada a estratégia de construção de
conjuntos de treinamento e teste com diferentes
tamanhos:
• Cada conjunto de treinamento usou T amostras por
classe e cada conjunto de teste usou (20-T) amostras
por classe, onde T=1,2,...,19.
32
• Resultados:
–Taxa média de
reconheci-
mento foi 90%;
–Melhor taxa
98%, para
T=13;
–Pior taxa 71%
para T=1;
Figura 8 Desempenho de SVM na base Minolta 33

• Base de dados: COIL100 – disponível em
www.cs.columbia.edu/CAVE.
– É uma das melhores bases para investigar
algoritmos de reconhecimento baseado na
aparência.
– Consiste de 7.200 imagens coloridas de 100
objetos.
– Cada imagem foi adquirida em uma variação de
5o, formando 72 visões para cada imagem, com
dimensão 128x128.
34
• Pré-processamento: todas as imagens foram
convertidas para níveis de cinza e re-escalonadas
para o tamanho 32x32 pixels.
– Dependendo do ângulo algumas imagens parecem
maiores.
Figura 9 Alguns objetos da COIL100
Figura 10 Visões do objeto 44 , do ângulo 260o a 300o

35
• Ferramentas:
– Para SVM: LIBSVM, disponível em
www.csie.ntu.edu.tw/~cjlin/libsvm.
– Para Redes Neurais: SNNS (Stuttgart Neural

Network Simulator), disponível em www-
ra.informatik.uni-tuebingen.de/SNNS.
36
• Testando diferentes Kernels

– Objetivo: fazer uma avaliação prática sobre a
precisão, comportamento e número de vetores
de suporte produzidos por três tipos de kernel
polinomial:
• linear;
• quadrático;
• cúbico.
37
• Treinamento/teste: Foram construídos

conjuntos de treinamento/teste de
diferentes tamanhos.
– todas as 100 classes foram utilizadas e todas as
visões;
– um total de 71 conjuntos de treinamento e de
teste foram criados;
– T amostras (visões aleatórias) para treinamento
e (71-T) para testes, por classe, onde
T=1,2,...,71.
38
• Resultados:
Figura 11 Número de vetores de suporte criados versus tamanho do

conjunto de treinamento (100*T) para os três tipos de kernel. 39
• Resultados: pequena superioridade para o kernel quadrático.
• Foi realizada a estratégia k-fold cross validation para reforçar

os resultados obtidos;
– valor de k=10;
– precisão média alcançada: 87,55%
40
• Resultados
Figura 12 Curvas de reconhecimento para os kernels: linear,

quadrático e cúbico 41
• Estudo Comparativo: SVM x Redes Neurais

– Objetivo: Comparar experimentalmente SVM e Redes
Neurais do tipo Multilayer Perceptron Backpropagation;
– Considerou apenas aspectos relativos à precisão;
– Estratégia de classificação multiclasses: “um-versus-
um”;
– A estratégia multiclasses produziria um elevada
quantidade de classificadores;
– Foi necessário portanto, reduzir a quantidade de classes.
– O número de classes utilizadas foi 10;
42
• Estudo Comparativo: SVM x Redes Neurais

– Treinamento/teste: Foram construídos conjuntos de
treinamento/teste de diferentes tamanhos;
– Todas as 10 classes foram utilizadas e todas as 72
visões;
– Foram produzidos 45 classificadores binários para cada
tamanho de conjunto de treinamento/teste (71
conjuntos);
– Arquitetura da Rede:
• Camada de Entrada: 1024 neurônios
• Camada Escondida: 4 neurônios
• Camada de Saída: 2 neurônios.
43
As técnicas apresentaram
desempenho semelhante
Figura 13
Curvas de
reconhecimento
para SVM e
Redes Neurais
44
• Conclusões
– Apresentou SVM como como uma opção

para realizar reconhecimento de objetos
baseado na aparência;
• Investigou o desempenho da técnica nesse
problema;
• Comparou três tipos de SVM;
• Comparou SVM com Redes Neurais;
– Procurou apresentar a teoria de formaliza
SVM utilizando uma linguagem mais didática
e acessível
45
• Perspectivas de Trabalhos Futuros
– Realizar o estudo comparativo entre SVM e

Redes Neurais utilizando todas as 100
classes;
– Testar extensões de SVM;
– Estudo comparativo entre metodologias
multiclasses;
– Extender o domínio de aplicação de SVM
para problemas como Regressão e Detecção
de Novidades.
46
Reconhecimento de Placas de
Sinalização
• Descrição do problema
– Dirigir  processamento intensivo da
informação visual;
• Sistemas de Apoio ao Motorista (Driver
Support Systems – DSS);
– Segurança;
– Conforto.
• Segurança de tráfego Sinalização:
– Desatenção;
– Tráfego intenso;
– O sistema como um co-piloto
47
Sinalização
• Objetivos e Relevância:
– Escopo do trabalho;
– Objetivos principais:
• Estudar e implementar um mecanismo de atenção
visual;
• Investigar a utilização de uma Rede Neural para a
tarefa de classificação.
– Contribuições:
• Perspectiva de geração de conhecimentos para o
desenvolvimento de tecnologia nacional em DSS;
• Proposta de um modelo híbrido biologicamente
inspirado;
– Mecanismo de Atenção Visual + Redes
Neurais. 48
Sinalização
• Objetivos e Relevância:
• Demonstração da aplicabilidade de um
mecanismo de atenção visual à tarefa de
localização de placas;
• Perspectiva de parcerias.
49
Reconhecimento
ReconhecimentodedePlacas
Placasde
de
Sinalização
Sinalização
• Trabalhos relacionados:
– Detecção de obstáculos;
– Detecção de marcas da pista;
– Sistemas Integrados;
– Detecção e reconhecimento de sinais de tráfego:
• Busca reduzida através de algum conhecimento a
Piccioli e priori;
Colegas, • Análise geométrica das arestas da imagem;
1996
• Reconhecimento  Correlação cruzada
50
Sinalização
• Trabalhos relacionados:
– Detecção e reconhecimento de sinais de tráfego:
• Segmentação de cor (Color Structure Code);
Priese e • Reconhecimento  controle fuzzy;
colegas,
1993 • Parceria: Daimler-Benz e Universidade Koblenz-
Landau
51
Sinalização
• Arquitetura Geral
52
Sinalização
• Experimentos preliminares:
– Seleção manual de Placas;
– Classe: placas pare, proibido ultrapassar e
imagens sem placas – 14 imagens;
– Pré-processamento;
– Treinando com T padrões e testando com 14-T;
– Resultados:
• Melhor taxa – 100% ;
• Pior taxa – 56,41%;
• Indicaram a possibilidade de classificar imagens
pequenas (20x20 pixels).
53
Sinalização
• Definição da Arquitetura Neural:
– Camada de entrada = 400 neurônios  tamanho das
imagens;
– Camada de saída = número de classes  winner-takes-all;
– Camada escondida No de Neurônios SSE/1000 Épocas
7 29,8216
14 3,2632
21 1,0610
Classes Saídas Desejadas
28 0,1326
1 1000000 35 0,1261
2 0100000 42 1,0976
3 0010000 49 1,0945
4 0001000 56 0,9165
5 0000100 63 0,7991
6 0000010 70 1,0807 54
7 0000001
Sinalização
• Módulo de Detecção:
– Imagens com placas  15 imagens  16 placas;
– Número fixo de regiões selecionadas (K);
– Resultados:
• K=5  75% de localização (12 imagens);
• K=19  93,75% de localização (15 imagens);
– Análise a partir da complexidade da busca:
• K=5  0,0059% dos pontos da imagem;
• K=19  0,0225% dos pontos imagem;
– Comparação com a geração randômica de pontos de
interesse;
55
Sinalização
• Integração dos módulos:
– Formação de novos conjuntos de treinamento e
teste;
• Ocorrência de placas durante o vídeo;
• Poucas ocorrências  escolhidas 2 por classe;
• Quadros sucessivos + microsacadas = 85 imagens por
classe;
• 7 classes:
• Uma classe de imagens sem placas; 56

Sinalização
– Resultados – Módulo de Detecção:
• Mesmo método utilizado no primeiro experimento;
• Máscara com raio menor (5)  menor risco de
inibição inesperada  aumento no número de pontos
analisados;
• K=33  100% de localização  0,039% dos pontos
da imagem;
• Regiões selecionadas  formam o conjunto de teste
para o Módulo de Reconhecimento.
57
Sinalização
– Resultados – Módulo de Reconhecimento:
• Arquitetura definida através de experimentos anteriores;
• Taxa de acerto no treinamento  100%;
• Baixas taxas de acerto nos testes:
Classe Taxa de Acerto
1 12,94 %
2 28,23 %
3 2,35 %
4 1,18 %
5 12,94 %
6 57,64 %
7 8,23 %
58
Sinalização

– Resultados – Módulo de Reconhecimento:
• Motivos principais:
1. Falta de uma pré-processamento mais robusto e uma
representação mais compacta dos padrões;
2. Dimensionalidade do espaço de características;
3. A limitação da arquitetura MLP-BP em relação a
translação dos objetos na imagem ( Kröner, 1996).
• Classificadores Binários  combinação de classes
duas a duas;
• Arquitetura  baseada nos experimentos anteriores;
• Treinamento  100% de acerto para todas as redes.
59
Sinalização
– Resultados: Classe – Classe Taxa de Acerto
1–2 90 %
1–3 40 %
1–4 60 %
Módulo de 1–5 60 %
Reconhecimento 1–6 60 %
2–3 50 %
2–4 80 %
ANÁLISE POR 2–5 60 %
VOTAÇÃO 2–6 100 %

3–4 60 %
3–5 60 %
3–6 60 %
4–5 40 %
4–6 50 % 60
5–6 80 %
Sinalização
– Resultados: Classe – Classe Taxa de Acerto
1–2 84,12 %
Módulo de 1–3 40,59 %
Reconhecimento 1–4 54,12 %
1–5 52,94 %
1–6 57,64 %
2–3 41,17 %
2–4
ANÁLISE 2–5
58,82 %
53,52 %
ABSOLUTA 2–6 80,58 %
3–4 51,17 %
3–5 63,53 %
3–6 52,35 %
4–5 43,52 %
4–6 52,35 %
5–6 55,88 %61
Sinalização
• Análise dos resultados:

– Alto desempenho do mecanismo de atenção na
localização das placas;
– Inibição de placas  redução no raio da
máscara;
– Regiões de fronteira com alta saliência;
– Possível classificar as regiões selecionadas
através da abordagem neural:
• Aumento no número de padrões;
• Pré-processamento mais robusto;
• Representação através de características invariantes.
62
Sinalização
• Conclusões
– O Trabalho apresentou:
• Estudo e implementação de uma mecanismo de
atenção;
• Investigação preliminar no uso de Redes Neurais.
– Caráter multidisciplinar:
• Inteligência Artificial, visão Computacional, Atenção
Visual, Neurofisiologia etc.
– Objetivos alcançados;
• Módulo de Detecção eficiente:
– Demonstrando a utilidade na aplicação do mecanismo
de atenção no problema investigado.
63
Sinalização
– Objetivos alcançados;
• Investigação da abordagem neural:
– Resultados + características das imagens  possível
alcançar taxa melhores de classificação.
• Estratégia de microsacadas;
• Aplicação do mecanismo de atenção na área de
DSS;
• Experimentos com imagens reais de ruas e
estradas.
64
Sinalização
• Dificuldades:
– Nível experimental da área de atenção visual;
– Limitação dos recursos materiais:
• Veículos adaptados, câmeras apropriadas, hardwares
dedicados, processamento paralelo, computadores de
bordo, conservação das rodovias.
• Trabalhos futuros:
– Finalizar a integração dos classificadores
binários;
– Aquisição de novas imagens;
65
Sinalização
• Trabalhos futuros:
– Implementação do Módulo de Detecção em
uma arquitetura dedicada (ex. FPGA);
– Aplicar pré-processamento mais completo;
– Utilizar uma representação mais compacta das
imagens;
– Investigar outras arquiteturas neurais para a
tarefa de classificação (Kröner, 1996);
66

Apresentacao Procad 2003

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apresentacao Procad 2003

Uploaded by

Copyright:

Available Formats

Reconhecimento off-line de Assinaturas

•Teoria de Decisão de Bayes

• Esquemas de conexão entre as técnicas de extração de características

Borda Esqueleto Regiões de Pressão

Inclinação Momentum Fatores de Pressão Vetores de

 Esquemas de conexão entre técnicas de extração de características e

Imagem Vetor de Imagem

GSN K vmp Neuro-Fuzzy MLP BP

 Vetor de características híbrido

 Inclinações (negativa, vertical, positiva)

 Limiar de alta pressão (THP)

 Fator de pressão (PF) 10

 Performance = Acerto - (ErroI + ErroII)

• K vizinhos mais próximos

Tipo de Falsificação Acerto Erro I Erro II Rejeição Performance

• Classificador neural difuso

Tipo de Falsificação Acerto Erro I Erro II Rejeição Performance

Pesquisa bibliográfica nas áreas de redes Estudo teórico

Construção de uma base de dados

• Mechanisms from Biology

– Foveated vision: retina-like image representation

Update Attention Generic

• Traditional image feature extraction operators

Exemplars Edge Edge

feature class and contrast

• Principal Components from a set of synthetic features

• Neural network architecture

Receptive Neural network

[1x19] [19x17] [1x17]

• Output of the Edge neural module

• Testing on synthetic images

• Testing on real images

Input Retinal Neural Logical

• Base de Dados Minolta

– Preprocessamento: todas as imagens foram

Figura 6 Objeto angel

Figura 7 Objeto horn

– Ferramenta: OSU SVM toolbox Matlab,

Figura 8 Desempenho de SVM na base Minolta 33

Figura 9 Alguns objetos da COIL100

Figura 10 Visões do objeto 44 , do ângulo 260o a 300o

– Para Redes Neurais: SNNS (Stuttgart Neural

• Testando diferentes Kernels

• Treinamento/teste: Foram construídos

Figura 11 Número de vetores de suporte criados versus tamanho do

• Resultados: pequena superioridade para o kernel quadrático.

• Foi realizada a estratégia k-fold cross validation para reforçar

Figura 12 Curvas de reconhecimento para os kernels: linear,

• Estudo Comparativo: SVM x Redes Neurais

• Estudo Comparativo: SVM x Redes Neurais

– Apresentou SVM como como uma opção

– Realizar o estudo comparativo entre SVM e

• Uma classe de imagens sem placas; 56

• Integração dos módulos:

VOTAÇÃO 2–6 100 %

• Análise dos resultados:

You might also like