You are on page 1of 153

EDSON JOS RODRIGUES JUSTINO

O GRAFISMO E OS MODELOS ESCONDIDOS DE MARKOV NA


VERIFICAO AUTOMTICA DE ASSINATURAS

Curitiba
2001

EDSON JOS RODRIGUES JUSTINO

O GRAFISMO E OS MODELOS ESCONDIDOS DE MARKOV NA


VERIFICAO AUTOMTICA DE ASSINATURAS

Tese
apresentada
ao
Programa de Ps-Graduao
em Informtica Aplicada da
Pontifcia
Universidade
Catlica do Paran como
parte dos requisitos para
obteno do ttulo de Doutor
em Cincias.

rea de Concentrao:

MTODOS E TCNICAS
DE COMPUTAO

Orientador:
Prof. Dr. Flvio Bortolozzi
Co-orientador:
Prof. Dr. Robert Sabourin

Curitiba
2001

Justino, Edson Jos Rodrigues


O grafismo e os modelos escondidos de Markov na verificao
automtica de Assinaturas. Curitiba, 2001.
131p.
Tese (Doutorado) Pontifcia Universidade Catlica do Paran.
Programa de Ps-Graduao em Informtica Aplicada.
1. Anlise de Documentos 2. Verificao de Assinaturas 3.
Modelos Escondidos de Markov.
I. Pontifcia Universidade Catlica do Paran. Centro de Cincias
Exatas e de Tecnologia. Programa de Ps-Graduao em Informtica
Aplicada II-t

minha esposa Marinice, pelo estmulo e


incansvel

compreenso

esses anos de trabalho.

durante

todos

ii

AGRADECIMENTOS

Pontifcia Universidade Catlica do Paran pelo apoio


financeiro e estrutural, que permitiram a realizao desse
trabalho.

Ao amigo e orientador Prof.

Dr. Flvio Bortolozzi pelas

diretrizes sempre seguras e permanente incentivo diante de


tantas atribulaes.

Ao Prof. Dr. Robert Sabourin pelas importantes contribuies


dadas a esse trabalho.

Ao Prof Dr. Abdenam El Yacoubi pelas importantes


contribuies dadas nos estudos dos Modelos Escondidos de
Markov.

Aos meus colegas de doutorado, que em todos os momentos


difceis pelos quais passamos, mantiveram-se sempre unidos em
busca de nosso objetivo comum.

todos que direta ou indiretamente colaboraram na execuo


deste trabalho.

iii

Sumrio

Lista de tabelas
Lista de figuras
Lista de abreviaturas e siglas
Lista de smbolos
Resumo
Abstract
1. Introduo

1.1. Histrico geral

1.2 O objetivo

1.3 O desafio

1.4 A motivao

1.5 A proposta

1.6 As contribuies

1.7 A organizao

2. Fundamentao Terica em Verificao Automtica de

Assinaturas Manuscritas: Vantagens e Limitaes


2.1 A assinatura manuscrita e os fatores de complexidade

2.1.1 Os fatores ligados autoria

2.1.2 Os fatores ligados s diferenas regionais

2.1.3 Os fatores ligados s falsificaes

2.2 Os mtodos dinmicos e os mtodos estticos de verificao

automtica de assinaturas
2.3 A classificao dos mtodos automticos de verificao esttica

11

2.3.1 O pr-tratamento

11

2.3.2 A segmentao e a extrao de primitivas

12

2.3.2.1 Os mtodos globais

12

2.3.2.2 Os mtodos locais

14

iv

2.3.3 A produo do modelo e a comparao


2.3.3.1 A classificao dos mtodos de verificao
2.3.3.1.1 Os mtodos estatsticos

18
19
19

2.3.3.1.1.1 Os mtodos paramtricos

19

2.3.3.1.1.2 Os mtodos no paramtricos

21

2.3.3.1.2 Os mtodos estruturais


2.3.3.2 Os mtodos de verificao segundo a abordagem

21
22

utilizada
2.3.4 Uma anlise crtica

3. A Proposta para um Mtodo de Verificao Automtica de

24

25

Assinaturas Manuscritas Estticas


3.1 A proposta

25

3.1.1 Os requisitos

25

3.1.2 As metas

26

3.1.3 A abordagem adotada

27

3.1.4 A base de dados de assinaturas

27

3.2 Os recursos

31

3.2.1 O grafismo

31

3.2.1.1 A grafoscopia

32

3.2.1.2 A grafologia

35

3.2.1.2.1 Elementos bsico da grafia

36

3.2.1.2.2 As letras e o movimento

38

3.2.1.2.3 Os aspectos grficos

38

3.2.1.2.4 O simbolismo do espao

39

3.2.1.2.5 A ordem

43

3.2.1.2.6 A proporo

44

3.2.1.2.7 A dimenso

45

3.2.1.2.8 A presso

45

3.2.1.2.9 A forma

46

3.2.1.2.10 O gesto caracterstico

46

3.2.1.3 Consideraes sobre o grafismo

48

3.2.2 Os modelos de Markov

50

3.2.2.1 A matriz de transio

51

3.2.2.2 A probabilidade de transio

51

3.2.2.3 Os modelos escondidos de Markov (MEM)

52

3.2.2.3.1 O modelo contnuo

52

3.2.2.3.2 O modelo discreto

53

3.2.2.3.3 Os tipos de MEM

54

3.2.2.3.4 Os problemas bsicos do MEM

56

3.2.2.3.4.1 A evoluo da probabilidade

56

3.2.2.3.4.2 A seqncia tima de estados

59

3.2.2.3.4.3 A reestimao dos parmetros

61

3.2.2.3.4.4 A estimao inicial dos

63

parmetros
3.2.2.3.4.5 O efeito do nmero insuficiente

64

de dados de aprendizado
3.2.2.3.5 Os modelos escondidos de Markov e as

64

mltiplas seqncias de observaes


3.2.2.3.6 Consideraes sobre o MEM
3.2.3 A quantizao vetorial e a aglomerao
3.2.3.1 A quantizao vetorial

67
68
68

3.2.3.1.1 A medida das distores

70

3.2.3.1.2 O projeto de um lxico

71

3.2.3.2 A aglomerao

73

3.2.3.3 Consideraes prticas sobre o QV

74

3.3 Comentrios finais

4. O Pr-tratamento, a Segmentao e a Extrao de Primitivas

75

76

4.1 O pr-tratamento

76

4.2 A segmentao

78

4.2.1 A estratgia de segmentao adotada

79

4.2.1.1 A estratgia de segmentao horizontal

81

4.2.1.2 A estratgia de segmentao vertical

83

vi

4.2.2 As caractersticas do grafismo incorporadas pelo mtodo de

85

segmentao
4.2.2.1 As primitivas estticas

85

4.2.2.2 As primitivas pseudo-dinmicas

87

4.3 A extrao de primitivas


4.3.1 As primitivas adaptadas s caractersticas estticas

88
88

4.3.1.1 A densidade de pixels

88

4.3.1.2 A distribuio de pixels

89

4.3.2 As primitivas adaptadas s caractersticas pseudo-dinmicas

90

das assinaturas
4.3.2.1 A inclinao axial

90

4.3.2.2 A forma

92

4.3.2.3 A progresso

93

4.4 A gerao do lxico usando a quantizao vetorial

94

4.5 Consideraes finais

96

5. O Mtodo Proposto para a Verificao Automtica de

97

Assinaturas Estticas usando MEM


5.1 O mtodo de verificao

97

5.1.1 A escolha do modelo

97

5.1.2 O processo de aprendizado

99

5.1.2.1 O nmero de estados do modelo

99

5.1.2.2 O algoritmo de aprendizado

100

5.1.2.3 O algoritmo de validao

101

5.1.2.4 A normalizao das probabilidades

102

5.1.2.5 A determinao dos parmetros para o ajuste dos

103

limiares de aceitao e rejeio


5.1.3 O processo de verificao
5.2 Comentrios fnais

6. Os Testes e a Anlise dos Erros


6.1 Os resultados experimentais

105
106

107
107

vii

6.1.1 O protocolo de avaliao

107

6.1.2 O resultado usando mltiplas resolues de grade de

108

segmentao e mltiplos lxico, para um nico MEM


6.1.3 A anlise qualitativa das primitivas isoladas

110

6.1.4 Os resultados usando primitivas isoladas com uma segunda

111

base dados e a presena de falsificaes simples e servis


6.1.5 As restries quanto ao nmero de primitivas usadas no MEM

112

multi-dimensional
6.1.6 Os resultados usando primitivas combinadas em um MEM

113

multi-dimensional
6.1.7 O ajuste dos limiares de aceitao e rejeio atravs dos

114

valores de
6.1.8 Os problemas decorrentes do processo de coleta da base de

115

dados
6.2 Consideraes finais

7. Concluses e Trabalhos Futuros

116

117

7.1 Concluses

117

7.2 Sugestes para trabalhos futuros

118

Anexo Normativas do Banco Central para Cheques

120

Referncias Bibliogrficas

127

viii

Lista de Tabelas

Tabela 3.1

Descrio das bases de dados de assinaturas usadas para avaliar o

29

desempenho dos mtodos de verificao automtica de assinaturas


estticas.
Tabela 3.2

Avaliao estatstica da ocupao do espao grfico e da variao

42

de escala da assinatura.
Tabela 3.3

Caractersticas combinadas da grafologia e da grafoscopia.

49

Tabela 3.4

Relao de caractersticas associadas s classes de primitivas

50

esttica e pseudo-dinmicas.
Tabela 4.1

Segmentao com mltiplas resolues.

Tabela 6.1

Resultados obtidos pelo mtodo de verificao, para

83
as

109

falsificaes aleatrias, usando a densidade de pixels como


primitiva e a base de dados com 40 autores.
Tabela 6.2

Analise qualitativa das primitivas isoladas.

110

Tabela 6.3

Resultados obtidos usando o segundo subconjunto de autores e com

111

o uso de falsificaes simples e servis.


Tabela 6.4

Resultados obtidos usando as mesmas primitivas em um MEM

113

multi-dimensional.
Tabela 6.5

Resultados obtidos usando os valores mdios de .

115

ix

Lista de Figuras
Fig. 1.1

Variabilidades de estilos de assinaturas.

Fig. 2.1

(a) Exemplo de assinatura latina e (b) japonesa.

Fig. 2.2

(a) Exemplo de uma assinatura cursiva e (b) Exemplo de uma rubrica.

Fig. 2.3

(a) Exemplo de assinatura genuna. (b) Exemplo de falsificao

aleatria (assinatura original de outro autor). (c) Exemplo de


falsificao simples. (d) Exemplo de falsificao servil.
Fig. 2.4

Diagrama de funcionamento do mtodo de verificao automtica.

11

Fig. 2.5

Diagrama hierrquico de classificao dos mtodo de verificao

12

automtica de assinaturas estticas.


Fig. 2.6

Diagrama esquemtico dos modelos Estticos e Pseudo-dinmicos.

12

Fig. 2.7

Imagem do canto superior esquerdo desfocada com +2, +4, +8, +16

13

e +32 pixels respectivamente. Adaptada de [BRUYNE & FORR,


1988].
Fig. 2.8

(a) Assinatura genuna e (b) Falsificao simples.

13

Fig. 2.9

(a) Exemplo de assinatura; (b) O envelope superior; c) O envelope

14

inferior. Adaptada de [CHAUDHURY & BAJAJ, 1997].


Fig. 2.10

Pontos e linhas crticas em uma assinatura, para a extrao de

15

caractersticas. Adaptada de [CHUANG, 1977].


Fig. 2.11

Imagem de uma assinatura segmentada pelo processo de segmentao

16

proposto por Rosenfeld. Adaptado de [ROSENFELD et al., 1997].


Fig. 2.12

(a) Imagem binria de uma rubrica; (b) Ncleo da imagem binria.

16

Fig. 2.13

Modelo de clula usado por Sabourin e Genest. (a) Modelo detalhado

17

dos sensores. (b) Modelo do grid. Adaptado de [SABOURIN &


GENEST, 1994].
Fig. 2.14

Modelo de clula usada por Rigoll e Kosmala. Adaptado de [RIGOLL

17

& KOSMALA, 1998].

Fig. 2.15

(a) Ncleo da assinatura; (b) Contorno da assinatura; (c) Distribuio

18

dos pixels; (d) Ajuste fino da assinatura; (e) Regio de alta presso.
Fig. 3.1

(a) Exemplo de assinatura que ocupa a rea de assinatura sem

26

extrapolar. (b) Exemplo de assinatura que extrapola a rea destinada


assinatura. A perda encontra-se na parte superior e inferior da
assinatura, incluindo os laos maiores.
Fig. 3.2

Tipos de assinaturas da base de dados: (a) assinatura genuna; (b)

30

falsificao aleatria; (c) falsificao simples; (d) falsificao servil.


Fig. 3.3

Modelo do gabarito usado para a coleta das assinaturas.

31

Fig. 3.4

Elementos tcnicos genticos. Adaptado de [GOMIDE & GOMIDE,

33

1995].
Fig. 3.5

Elementos tcnicos genricos. Adaptado de [GOMIDE & GOMIDE,

34

1995].
Fig. 3.6

Exemplo de alguns dos elementos bsicos da grafia. Zona inicial; (2)

37

Zona final; (3) Haste; (4) Laada; (5) Bucle da haste; (6) Bucle da
laada; (7) bucle em forma de lao; (A) Zona superior; (B) Zona
mdia; (C) Zona inferior. Adaptado de [VELS, 1961].
Fig. 3.7

Exemplo das diferenas entre as partes de um elemento grfico: (A)

38

Partes essenciais; (B) Partes secundrias. Adaptado de [VELS, 1961].


Fig. 3.8

Exemplos de assinaturas segundo a simbologia do espao grfico. (a)

39

Diagrama representativo do espao grfico; (b) Escritor introvertido;


(c) Escritor extrovertido; (d) Escritor espiritualista; (e) Escritor
materialista e introvertido.
Fig. 3.9

Modelo do formulrio usado para a coleta das assinaturas para anlise

40

da ocupao do espao.
Fig. 3.10

Modelo do formulrio de coleta de assinatura e a representao das

41

sees.
Fig. 3.11

Exemplos de assinaturas do formulrio: (a) Exemplo do uso da seo

43

d; (b) Exemplo do uso da seo e; (c) Exemplo do uso da seo a; (d)


Exemplo do uso da seo b; (e) Exemplo do uso da seo c.

Fig. 3.12

Exemplos de assinaturas sob o ponto de vista da ordem:

(a)

44

Assinatura clara; (b) Assinatura confusa; (c) Assinatura concentrada;


(d) Assinatura espaada.
Fig. 3.13

Exemplos de assinaturas sob o ponto de vista da proporcionalidade:


(a) Assinatura proporcional; (b) Assinatura desproporcional; (c)

44

xi

Assinatura mista.
Fig. 3.14

Exemplos de assinaturas sob o ponto de vista da dimenso: (a)

45

Assinatura alta; (b) Assinatura baixa.


Fig. 3.15

Exemplos de assinaturas sob o ponto de vista da presso do trao: (a)

45

Assinatura tensa; (b) Assinatura frouxa.


Fig. 3.16

Exemplos de assinaturas sob o ponto de vista da forma: (a) Assinatura

46

caligrfica; (b) Assinatura arredondada; (c) Assinatura reta vertical;


(d) Assinatura reta horizontal.
Fig. 3.17

Exemplos de assinaturas sob o ponto de vista dos gestos

47

caractersticos: (a) Gancho; (b) Clava, espiral e inflada; (c) Golpe de


sabre; (d) Bucle; (e) Tringulo e lao; (f) Guirlanda; (g) Serpentina;
(h) Arco.
Fig. 3.18

Diagrama resumo das abordagens do grafismo e suas principais

48

caractersticas.
Fig. 3.19

Exemplos de modelos discretos de MEM: a) Um exemplo de modelo

55

ergtico; b)Um exemplo de um modelo esquerda-direita. Adaptado de


[RABINER & JUANG, 1993].
Fig. 3.20

Seqncia de operaes requeridas para processamento da varivel

55

forward t(i). Adaptado de [RABINER & JUANG, 1993].


Fig. 3.21

Seqncia de operaes requeridas para processamento da varivel

59

backward t(i) . Adaptado de [RABINER & JUANG, 1993].


Fig. 3.22

Particionamento de um espao bidimensional (N = 2) em L = 18

69

clulas. Todos os vetores de entrada Ci devem ser quantificados no


vetor de cdigo yi. Adaptado de [RABINER & JUANG, 1993].
Fig. 3.23

A representao de um agrupamento de trs classes no espao

73

bidimensional.
Fig. 3.24

Diagrama representativo do sistema de QV usando o mesmo modelo

75

para todos os escritor.


Fig. 4.1

Imagem de um cheque bancrio brasileiro e a delimitao da rea

76

destinada assinatura.
Fig. 4.2

(a) Imagem de uma assinatura em nveis de cinza; (b) Imagem binria;


(c) Ncleo da assinatura.

78

xii

Fig. 4.3

(a) Grade usada por Rigoll e Kosmala; (b) Grade usada por Sabourin e

79

Genest. Adaptado de [RIGOLL & KOSMALA, 1998] e [SABOURIN


& GENEST, 1994].
Fig. 4.4

Exemplos da sobreposio das imagens afinadas dos vinte espcimes

80

da base de aprendizado.
Fig. 4.5

Exemplo dos modelos de grade quadrada: (a) Grade com resoluo de

81

40 pixels; (b) Grade com resoluo de 20 pixels; (c)Grade com


resoluo de 16 pixels; (d) Grade com resoluo de 10 pixels.
Fig. 4.6

(a) Segmentao usada pelo Grafismo; (c) Exemplo de uma

82

segmentao com 4 zonas de tamanho fixo.


Fig. 4.7

(a) e (b) Seqncias de observaes, usando clulas quadradas;(c) e

84

(d) Seqncias de Observaes, usando clulas retangulares.


Fig. 4.8

(a) Baixa resoluo com 4 clulas verticais; (b) Mdia resoluo

85

com 10 clulas verticais; (c) Alta resoluo com 25 clulas verticais.


Fig. 4.9

Calibre (Caractersticas do grafismo): (a) Assinatura alta; (b)

85

Assinatura baixa.
Fig. 4.10

Exemplo da incorporao da proporo: (a) Assinatura proporcional;

86

(b) Assinatura desproporcional; (c) Assinatura mista.


Fig. 4.11

Exemplo da incorporao do espaamento: (a) Assinatura com vrios

87

espaos entre blocos; (b) Assinatura sem espaos.


Fig. 4.12

Exemplos da variao do comportamento base.

87

Fig. 4.13

Imagem binria de uma assinatura e a correspondente tabela de

89

densidade de pixels.
Fig. 4.14

Exemplo do uso do ESC . Adaptado de [SABOURIN & GENEST,

89

1994].
Fig. 4.15

Exemplo do uso dos sensores na determinao da distribuio de

90

pixels.
Fig. 4.16

Exemplo da caracterstica inclinao axial.

91

Fig. 4.17

Conjunto de elementos estruturantes que representam os tipos de

92

inclinao axial das clulas.


Fig. 4.18

Ncleo da imagem de uma assinatura e a correspondente tabela de


inclinao axial.

92

xiii

Fig. 4.19

Vetor de caractersticas usado pela primitiva forma.

93

Fig. 4.20

Exemplo da primitiva progresso. (a) Clculo da dinmica do traado;

94

(b) Extrao do segmento mais significativo.


Fig. 4.21

Representao do conjunto de primitivas como um conjunto de

95

vetores.
Fig. 4.22

(a) Representa a densidade de pixels para um lxico igual a 100; (b)

96

Representa a inclinao axial para um lxico igual a 60.


Fig. 5.1

Modelo de MEM para palavras. Adaptado de [YACOUBI, 1996].

98

Fig. 5.2

(a) Modelo esquerda-direita; (b) Exemplo da representao do modelo.

98

Fig. 5.3

Grfico indicador da variao do nmero de estados para cada modelo

99

de assinatura.
Fig. 5.4

Grfico que representa o nmero de observaes dos 20 espcimes de

100

cada autor (40 autores) usados no processo de aprendizado.


Fig. 5.5

Grfico tpico para as curvas de aprendizado e validao.

102

Fig. 5.6

Exemplo do processo de normalizao para os 20 espcimes de

103

aprendizado de um mesmo autor.


Fig. 5.7

Ponto de determinao dos melhores valores de ..

104

Fig. 5.8

Representao dos limiares de aceitao e rejeio de uma assinatura.

105

Fig. 6.1

Sobreposio, usando o centro de gravidade, dos 20 espcimes de

112

aprendizado de um mesmo escritor: (a) Exemplo de assinatura com


alta variabilidade intrapessoal. (b) Exemplo de assinatura com baixa
variabilidade intrapessoal.
Fig. 6.2

(a) Assinatura genuna e (b) Falsificao simples.

114

Fig. 6.3

Grfico que demonstra o comportamento da taxa de erro mdio,

115

durante a determinao dos parmetros auxiliares .

xiv

Lista de Abreviaturas e Siglas

ARD

- Anlise e Reconhecimento de Documentos

BMP

- Arquivo no formato bit map

CD-ROM

- Compact Disk read only

dpi

- dot per inch

HMM

- Hidden Markov Model

LARDOC

- Laboratrio de Anlise e Reconhecimento de Documentos

LBG

- Linde, Buzo and Gray algorithm

MEM

- Modelos Escondidos de Markov

PUCPR

- Pontifcia Universidade Catlica do Paran

QV

- Quantizao Vetorial

VQ

- Vector Quantization

xv

Lista de Smbolos

P( . | . ), p

- probabilidade condicional

A, P[ ]

- matriz de transies da cadeia de Markov

- intervalo de tempo

Pt[ ]

- matriz de transies da cadeia de Markov no instante t

b( )

- distribuio da probabilidade de observao

n, S

- estados do modelo de Markov

- nmero mximo de estados do modelo de Markov

- smbolo observvel

- vetor de smbolos

- conjunto de estados do modelo

- comprimento da seqncia de observaes

- conjunto de smbolos observveis

- nmero mximo de smbolos observveis em um alfabeto

- matriz de probabilidades de observaes de smbolos

- matriz de densidades e probabilidades iniciais

= {A,B,}

- conjunto necessrio e suficiente na definio do modelo de


Markov

- seqncia de observaes

- varivel forward

- varivel backward

- probabilidade a priori

xvi

argmax( )

- funo que retorna o ndice relacionado ao argumento de


mxima probabilidade na seqncia de estados

- as mais altas probabilidades ao longo de um caminho simples


em uma seqncia

- vetor que contm o caminho de mxima probabilidade

- probabilidade condicional inicial

x, y

- vetores multi-dimensionais

q( )

- operador de quantizao

Ci

- centride da classe

- medida da distoro

d2

- erro mdio quadrtico

- funo de peso

- distncia Euclidiana

- mnimo erro quadrtico

- taxa de erro total

Log P

- logaritmo da probabilidade

x , Em

- mdia aritmtica

pt, ptn

- probabilidade de aprendizado e probabilidade de aprendizado


normalizada, respectivamente

pi, ps

- probabilidade mxima do limiar de aceitao e probabilidade


mnima do limiar de aceitao, respectivamente

pv, pvn

- probabilidade de verificao e probabilidade de verificao


normalizada, respectivamente

i, j e k

- valores inteiros

xvii

- mdia simples de uma classe

xviii

Resumo

O problema em verificao automtica de assinaturas , em teoria, um processo


de reconhecimento de padres usado para discriminar as classes de assinaturas originais
e as falsas. Apesar dos muitos esforos para desenvolver novas tcnicas de verificao
de assinaturas estticas, a influncia dos vrios tipos de falsificaes ainda no foram
extensamente estudados sob a luz do grafismo.

Esse trabalho apresenta uma contribuio aos estudos j realizados em


verificao de assinaturas estticas, considerando os diferentes tipos de falsificaes,
aliada s tcnicas de modelagem Markovianas (usando Modelos Escondidos de Markov
MEM). Os experimentos mostram que as taxas de erro, para as falsificaes aleatrias
e simples, ficam bem prximas. Isso demostra a sua aplicabilidade real em cheques
bancrios brasileiros, onde a falsificao simples representa o principal tipo de fraude
envolvendo os cheques. Em adio a isso, os experimentos mostraram tambm
resultados promissores na verificao de falsificaes servis.

xix

Abstract

The problem of signature verification is in theory a pattern recognition task used


to discriminate two classes, original and forgery signatures. Even after many efforts in
order to develop new verification techniques for static signature verification, the
influence of the forgery types, using graphisms techniques, has not been extensively
studied.

This work reports the contribution to static signature verification, considering


different forgery types in an Hidden Markov Model - HMM framework. The experiments
have shown that the error rates of the simple and random forgery signatures are very
closed. This reflects the real applications in which the simple forgeries represent the
principal fraudulent case. In addition, the experiments show promising results in skilled
forgery verification by using a graphisms features subset.

Captulo 1 - Introduo

No domnio da Informtica Aplicada e especificamente na Anlise e


Reconhecimento de Documentos (ARD), a soluo de problemas complexos exige uma
grande quantidade de conhecimento e tambm alguns mecanismos para a manipulao
desse conhecimento, a fim de criar solues para os mesmos. Para definir precisamente
um problema necessrio incluir especificaes precisas sobre qual ser a situao ou
situaes iniciais e tambm sobre quais situaes finais sero consideradas solues
aceitveis. Existe tambm a necessidade de uma anlise detalhada do problema, pois
umas poucas caractersticas importantes podem ter enorme impacto sobre as vrias
tcnicas possveis para a soluo do mesmo.

A identificao e representao do conhecimento necessrio para solucionar o


problema, juntamente com a escolha das melhores tcnicas de soluo, formam o
conjunto de atribuies necessrias para a sua soluo em ARD.

A anlise grafotcnica tradicional de documentos manuscritos encaixa-se


perfeitamente no contexto dos problemas abordados pela ARD, pois

envolvem

processos difceis de serem tratados, devido diversidade de critrios e subjetividades


empregadas pelos especialistas.

A despeito dos argumentos anteriores,

as

primeiras

tentativas

para

automatizao desse processo ficaram sujeitas inmeras dificuldades. Alm da


complexidade do problema j descrito, os pesquisadores encontraram limitaes
oriundas da indisponibilidade de recursos computacionais suficientes para realizao de
sistemas concretos e em tempo real. Os recentes progressos obtidos pelos sistemas
computacionais tornaram possvel a soluo desses problemas, pelo menos
parcialmente.

1.1 Histrico geral


Apresenta-se a seguir um breve resumo das principais referncias bibliogrficas
analisadas, sobre aplicaes do mtodo de verificao automtica de assinaturas, o
grafismo e os modelos escondidos de Markov.

Alguns dos principais trabalhos que abordam a verificao automtica de


assinaturas foram apresentados por: Chuang em [CHUANG, 1977], Ammar em
[AMMAR et al., 1988], Plamondon [PLAMNONDON & LORETTE, 1988] e Sabourin
em [SABOURIN & GENEST, 1994].

As primeiras publicaes sobre o grasfismo datam de 1622. No entanto, as mais


recentes foram apresentadas por: Vel em [VELS, 1961], Minicucci em [MINICUCCI,
1991] e Tito [GOMIDE & GOMIDE, 1995].

Existem inmeras bibliografias sobre os modelos escondidos de Markov. No


entanto, as que tiveram relevncia para esse trabalho foram: Rabiner em [RABINER &
JUANG, 1993],

Elms em [ELMS, 1996], El Yacoubi em YACOUBI, 1996], Yang

[YANG et al., 1997] e Rigoll em [RIGOLL & KOSMALA, 1998].

1.2 O objetivo
O objetivo desse trabalho a apresentao de uma modelagem grafotcnica de
assinaturas manuscritas e sua respectiva anlise, fundamentada em processos
estocsticos, em razo do uso dos Modelos Escondidos de Markov (MEM). O ponto de
partida desse estudo norteia-se numa aplicao real: a verificao de assinaturas
manuscritas em cheques bancrios brasileiros.

1.3 O desafio
A verificao de assinaturas manuscritas aborda

diferentes fontes de

conhecimento. Cada uma dessas fontes proporciona um conjunto complexo

de

problemas de difcil soluo: do pr-tratamento da imagem, passando pela segmentao


e extrao de caractersticas, seguida pela gerao do modelo de referncia e culminado
com o processo de verificao, cada fase impe um estudo detalhado do problema e o
desenvolvimento de solues adequadas.

Fig. 1.1 Variabilidades de estilos de assinaturas.

1.4 A motivao
A despeito da automatizao de inmeros processos envolvendo transaes
bancrias ou mesmo comerciais, quer seja nos cheques bancrios ou em contratos em
geral, a assinatura manuscrita continua ainda sendo o meio legal usado para firmar
essas transaes.

Existem no mercado, sistemas de verificao de assinaturas automticos e semiautomticos como o sistema Sival1 e SignPlus2. No entanto, ainda apresentam restries
relevantes como, por exemplo, o no tratamento dos diferentes tipos de falsificaes.
Isso faz com que a verificao de assinaturas ainda seja um problema em aberto.

1
2

SIVAL: Signature Image Validation, IBM, http://www.ibm.de/go/ide/solutions/bfs/sival.ttml, 1997.


SignPus Signature Verification System, SoftPro GmbH, http://www.softpro.de, 1997.

1.5 A proposta
Dentro do domnio do problema existem algumas metas a serem atingidas, que
no impe restries sobre a forma e o tipo da escrita da assinatura latina, e que
confrontam com todos os fatores que originam a complexidade do processo de
verificao. Essas metas so:

Usar como base de dados de laboratrio, onde

as assinaturas coletadas

obedeceram aos mesmos critrios de preenchimento de um cheque bancrio real,


com exceo da excluso do plano de fundo do cheque, da linha de base e de
quaisquer outras informaes que no pertencessem ao contexto. As assinaturas
estticas sero adquiridas atravs de um digitalizador;

Estar adaptada s assinaturas cujo alfabeto e a forma da escrita sejam latinas;

Permitir todos os estilos de assinaturas latinas possveis: cursiva e rubrica;

Ser sensvel aos trs tipos bsicos de falsificaes encontradas em cheques


bancrios brasileiros;

Ser tolerante s variaes intrapessoais e intolerante s variaes interpessoais.

1.6 As contribuies
A principal contribuio desse trabalho apresentar uma nova proposta de
modelagem no contextual de assinaturas (no existe a interpretao de texto), baseada
nos princpios do grafismo, usando caractersticas estticas e pseudo-dinmicas.

Outra contribuio importante encontra-se na definio a priori dos parmetros


de ajuste dos limiares de aceitao e rejeio de cada modelo de assinatura.

A base de dados de assinaturas criada para esse trabalho tambm uma


importante contribuio para os trabalhos futuros.

1.7 A organizao
Esse trabalho divide-se em sete Captulos. O primeiro contm essa breve
introduo. No segundo Captulo so tratados as generalidades sobre o domnio da
verificao automtica de assinaturas manuscritas e sua partes componentes. O terceiro
Captulo contm a contextualizao do problema envolvendo a verificao de
assinaturas em cheques bancrios brasileiros. Apresenta um estudo detalhado do
grafismo e os preceitos da anlise pericial grafotcnica. Apresenta tambm a descrio
dos princpios da codificao simblica usando a Quantizao Vetorial (QV) e a
modelagem Markoviana. O quarto Captulo apresenta o pr-tratamento das assinaturas
de laboratrio, a estratgia de segmentao e extrao de primitivas adotado. Por fim,
apresenta o mtodo de verificao automtica de assinaturas estticas,

usando os

modelos escondidos de Markov (MEM). O sexto Captulo apresenta o protocolo de


testes, os resultados e a anlise dos erros. No stimo Captulo, so apresentados os
comentrios finais e propostas para trabalhos futuros.

Captulo 2 Fundamentao Terica em Verificao


Automtica de Assinaturas Manuscritas: Vantagens e
Limitaes

Este Captulo contm as caractersticas principais relacionadas s assinaturas.


Ele descreve as diferentes abordagens usadas na verificao automtica das mesmas.
So apresentadas as anlises e discusses de suas partes componentes, suas vantagens e
desvantagens.

2.1 A assinatura manuscrita e os fatores de complexidade

A escolha de um mtodo para a verificao de assinaturas manuscritas


motivada pela apresentao de vantagens e desvantagens, e tambm pela aplicao a ser
considerada. Tais parmetros influenciam de forma decisiva sobre a eficincia do
mtodo utilizado para a soluo do problema. Pode-se encontrar na literatura diversos
mtodos diferentes para o processo de verificao de assinaturas [AMMAR et al.,
1988], [BROCKLEHURST, 1985], [BRUYNE & FORR, 1988], [CARDOT et al.,
1992] [FUNG et al., 1996], [PLAMONDON et al., 1990], [RANDOLPH &
KRISHNAN ,1990] e [SABOURIN & GENEST, 1994]. De maneira geral,

todos

buscam fatores que agregam melhorias em busca de uma soluo que satisfaa s
necessidades e restries de uma aplicao em particular.

2.1.1 Os fatores ligados autoria

Apesar de seguir uma certa estabilidade, a escrita no um processo preciso.


Somente em algumas caractersticas duas assinaturas do mesmo autor so idnticas. De
fato, grandes diferenas podem ser observadas em assinaturas de acordo com o pas,

idade, tempo, hbitos, estado psicolgico ou mental e condies fsicas. No entanto,


dois tipos de variaes so claramente identificveis:

As intraclasses ou intrapessoais, que so variaes observadas dentro de uma


mesma classe, entre espcimes de assinaturas genunas de um mesmo autor;

As interclasses ou interpessoais, que so diferenas que existem entre classes


de autores distintos.

Em teoria, uma variao intraclasse deve ser a mnima possvel e uma variao
interclasses deve ser a mxima possvel. Na prtica, as classes no so bem separadas.
Um espcime aceito pode ser um dos seguintes:
Autntica, se escrita pelo mesmo autor do modelo e se possuir uma
similaridade boa com o modelo de referncia;
Imitao, se escrita por algum escritor que no o autor e se possuir
similaridades com o modelo de referncia.

Igualmente, um espcime rejeitado pode ser um dos seguintes:

Degenerada, se escrita pelo mesmo autor do modelo e se no similar


assinatura de referncia. O termo disfarada freqentemente usado quando
a degenerao voluntria;

Falsa, se escrita por algum escritor que no o autor do modelo de


referncia.

2.1.2 Os fatores ligados s diferenas regionais

A verificao de assinaturas manuscritas est relacionado diretamente com o


alfabeto e a forma de escrita de uma determinada regio, como mostram os exemplos de
assinaturas latina e japonesa na Fig. 2.1.

Fig. 2.1 (a) Exemplo de assinatura latina e (b) japonesa.

Para as assinaturas latinas podem ser determinados dois tipos bsicos de estilos.
A assinatura cursiva, derivada do texto manuscrito ou chamada contextual, onde o autor
assina escrevendo o prprio nome. A rubrica, formada por um desenho estilizado feito
pelo autor, chamada de no contextual. Nesse ltimo caso, o desenho pode ou no
conter caractersticas de um texto, por exemplo as iniciais do nome do autor, mas isso
no uma regra. Confira na Fig. 2.2.

Fig. 2.2 (a) Exemplo de uma assinatura cursiva e (b) Exemplo de uma rubrica.

2.1.3 Os fatores ligados s falsificaes

A verificao de assinaturas manuscritas deve garantir a veracidade da amostra


em teste, quando confrontada com um modelo. A identificao de uma falsificao
portanto vista, em reconhecimento de padres, como um problema entre classes de
aceitao e rejeio. Na prtica, a identificao de uma falsificao depende das
condies de teste e do meio. Elas podem ser classificadas em:

Falsificaes aleatrias so aquelas onde o falsificador reproduz a assinatura


original sem conhece-la. Isto , a falsificao feita sem que o falsificador
conhea a assinatura original. Na maioria das vezes, a assinatura forjada no
possui semelhana com a original, conforme mostra a Fig. 2.3;

Falsificaes simples so aquelas onde o falsificador escreve o nome do


autor, sem incluir as caractersticas de sua grafia. A assinatura forjada pode
ou no ser semelhante assinatura original;

Falsificaes servis so aquelas onde o falsificador copia a assinatura


verdadeira usado um modelo como referncia.

(a)

(b)

(c)

(d)

Fig. 2.3 (a) Exemplo de assinatura genuna. (b) Exemplo de falsificao aleatria
(assinatura original de outro autor). (c) Exemplo de falsificao simples. (d) Exemplo de
falsificao servil.

2.2 Os mtodos dinmicos e os mtodos estticos de verificao automtica de


assinaturas

A principal diferena existente entre os mtodos automticos de verificao de


assinaturas encontra-se no mecanismo de aquisio dos dados. Se o sinal que descreve o
estilo da escrita obtido ao mesmo tempo em que a escrita executada, o mtodo dito
dinmico ou on-line. Se por outro lado, as informaes foram previamente colocadas
em uma folha de papel para o processamento posterior, o mtodo dito esttico ou offline.

Os mtodos dinmicos utilizam uma pequena mesa eletrnica que captura os


dados no momento em que a escrita executada. J nos mtodos estticos, os dados
esto armazenados em uma folha de papel, que so posteriormente transformados em

10

uma imagem composta por um conjunto de pixels, obtido atravs de uma cmera ou
digitalizador.

Tanto nos mtodos dinmicos como nos estticos, os dispositivos devem possuir
recursos que permitam a aquisio dos dados, numa preciso capaz de captar as
informaes relevantes. Para os digitalizadores, as resolues das imagens variam de
100 a 300 pontos por polegada (dpi).

A vantagem dos mtodos dinmico encontra-se na capacidade de obter as


caractersticas dinmicas de um assinante com mais preciso. Tais caractersticas podem
ser a velocidade do traado, presso da caneta, entre outras. Outra vantagem permitir a
adaptao do escritor ao novo equipamento de captura dos dados e no o oposto. A
grande desvantagem a falta de flexibilidade gerada por estes mtodos, pois a sua
temporalidade no permite variaes suplementares de informaes que podem ser
obtidas em uma imagem. O maior dos inconvenientes a necessidade de usar-se um
equipamento especial, que em uma situao real, como no caso dos cheques, torna-se
invivel.

Apesar de dificultar a aquisio de caractersticas dinmicas, os mtodos


estticos possuem a capacidade de obter dados mais permanentes, que podem viabilizar
o processo de suplementao das caractersticas usadas. Isso o torna mais flexvel. Uma
outra dificuldade a necessidade de usar-se um processo de pr-tratamento da imagem,
o que eleva o custo computacional.

Os mtodos estticos podem ser compostos por duas classes de caractersticas


extradas da imagem. A primeira chamada de esttica, porque possui a capacidade de
representar as caractersticas relacionadas com a forma, por exemplo o comprimento e a
altura mxima de uma assinatura. A segunda chamada de pseudo-dinmica, porque
possui a capacidade de representar as caractersticas relativas dinmica da escrita,
como por exemplo curvatura, inclinao e tenso do traado.

11

2.3 A classificao dos mtodos automticos de verificao esttica

No diagrama da Fig. 2.4 so apresentadas as partes componentes de um mtodo


genrico de verificao automtica de assinaturas estticas. Nos itens seguintes sero
apresentadas as principais abordagens adotadas pela literatura para cada parte.

Fig. 2.4 Diagrama de funcionamento do mtodo de verificao automtica.

2.3.1 O pr-tratamento

O pr-tratamento da imagem de uma assinatura est ligado a dois fatores


principais. O primeiro diz respeito s caractersticas do dispositivo de aquisio, como a
resoluo, contraste, luminosidade, presena ou ausncia cor, entre outras. O segundo
est diretamente ligado ao documento, como desgastes do papel, dobraduras,
complexidade do plano de fundo (cheques bancrios), entre outras. Alm desses fatores,
encontram-se outros decorrentes do processo de digitalizao, como rudos e falhas na
imagem.

No caso especfico dos cheques bancrios existe ainda o problema da separao


da assinatura do restante dos dados manuscritos, decorrente da eventual sobreposio da
data e do extenso.

Como o pr-tratamento do cheque no parte integrante do escopo desse


trabalho, somente no Captulo 4 sero abordadas as ferramentas de pr-tratamento
adotadas para a base de dados de assinaturas de laboratrio.

12

2.3.2 A segmentao e a extrao de primitivas

Existem basicamente dois enfoques na classificao dos mtodos de extrao de


primitivas. O enfoque depende do critrio escolhido para efetuar a classificao. A
escolha de um mtodo motivado pela apresentao de vantagens e desvantagens e,
tambm, em funo da aplicao a ser considerada. Tais parmetros influenciam de
forma decisiva sobre a eficincia do mtodo utilizado para a soluo do problema. As
Fig. 2.5 e 2.6 apresentam os diagramas hierrquicos que buscam classificar, de forma
estrutural, os mtodos de extrao.

Fig. 2.5 Diagrama hierrquico de classificao dos mtodo de verificao automtica


de assinaturas estticas.

Fig. 2.6 Diagrama esquemtico dos modelos Estticos e Pseudo-dinmicos.

13

2.3.2.1 Os mtodos globais

Os mtodos globais usam caractersticas gerais das assinaturas, como por


exemplo a altura e a largura. Possuem a vantagem de serem mais insensveis s
variaes intrapessoais. Contudo, no so capazes de distinguir detalhes pertinentes ao
formato do traado da escrita, impedindo o registro de informaes relevantes,
fundamentais na distino de falsificaes servis.

Debruyne e Forr em [BRUYNE & FORR, 1988] descrevem o uso de um


modelo global, onde a imagem de referncia e a de teste so sobrepostas, com o
objetivo de obter a maior quantidade de pontos coincidentes, conforme mostrado na Fig.
2.7. A vantagem desse mtodo a velocidade. A desvantagem propiciar o aumento da
taxa de confuso entre assinaturas de diferentes autores e nas falsificaes, conforme
exemplo na Fig. 2.8.

Fig. 2.7 Imagem do canto superior esquerdo desfocada com +2, +4, +8, +16 e +32
pixels respectivamente. Adaptada de [BRUYNE & FORR, 1988].

(a)

(b)

Fig. 2.8 (a) Assinatura genuna e (b) Falsificao simples.

Chaudhury e Bajaj em [CHAUDHURY & BAJAJ, 1997] apresentam um


modelo, onde as caractersticas global utilizadas so o envelopes superiores e inferiores
da assinatura.. A vantagem encontra-se no mapeamento dos segmentos ascendentes,

14

descendentes e laos. A desvantagem no incorporar aspectos dinmicos desses


elementos, conforme apresentado na Fig. 2.9.

Fig. 2.9 (a) Exemplo de assinatura; (b) O envelope superior.; c) O envelope inferior.
Adaptada de [CHAUDHURY & BAJAJ, 1997].

Hunt e Qi em [HUNT & OI, 1995] apresentam um modelo onde as


caractersticas globais utilizadas so a altura da assinatura, o comprimento e o
comprimento, com os espaos em branco na direo horizontal retirados. A vantagem
permitir o mapeamento do calibre da assinatura e do dimensionamento dos
espaamentos entre os blocos da mesma. Possui a desvantagem de sozinhas no
modelarem espcimes de assinaturas similares, como as mostradas na Fig. 2.8.

Com exceo do modelo apresentado por Debruyne e Forr, todos os demais


apresentados anteriormente, fazem parte de um conjunto de caractersticas globais,
associadas a outras caractersticas locais, que juntas contribuem para a soluo do
problema.

2.3.2.2 Os mtodos locais

Os mtodos locais usam caractersticas que descrevem as particularidades do


traado. Possuem a vantagem de serem mais eficientes na identificao dos tipos
bsicos de falsificaes. No entanto, dependem fundamentalmente de um processo de
segmentao e das caractersticas usadas.

Em verificao automtica de assinatura estticas, a unidade bsica relacionada


com a assinatura o segmento. Diferentemente do texto manuscrito, a assinatura latina

15

no pode ser segmentada em letras. Ela apresenta variaes de estilo e, portanto, podem
possuir formas totalmente diferentes do nome do autor, como nas rubricas.

Chuang em [CHUANG, 1977] apresenta a segmentao da assinatura usando a


anlise local e contextual, baseada na grafometria. Em primeiro lugar, a assinatura
dividida em trs zonas, a mdia, a alta e a baixa, equivalente tcnica usada pelos
grafologistas, confira na Fig. 2.10. Em seguida, as seguintes caractersticas pseudodinmicas so procuradas, a fluncia (contnua ou interrompida), a presso (pesada ou
suave) e velocidade (firme ou varivel). J as estticas so compreendidas pela margem
(normal ou estendida), alinhamento da linha (uniforme, flutuante, espaada ou
compacta), espao entre palavras (normal ou estendida), tamanho entre zonas
(proporcional ou desproporcional), legibilidade (boa ou m), conexes entre segmentos
(afilada, angular ou guirlanda), segmentos bsicos (linear ou cursivo), inclinao geral
(para a esquerda, para a direita, vertical ou flutuante), segmentos iniciais ou finais
(planos ou decorativo), barras dos ts (curta ou longa, alta ou baixa) e pingos dos is
(pequeno ou grande, alto ou baixo).

A vantagem desse mtodo incorporar as

caractersticas pseudo-dinmicas, que pode atribuir ao processo robustez no trato das


falsificaes simples e servis. A desvantagem encontra-se no uso de uma segmentao
contextual, o que desfavorece o tratamento das rubricas.

Fig. 2.10 Pontos e linhas crticas em uma assinatura, para a extrao de caractersticas.
Adaptada de [CHUANG, 1977].

Rosenfeld em [ROSENFELD et al., 1997] apresenta a segmentao da


assinatura atravs dos pontos finais e de juno. Essa estratgia de segmentao permite
a anlise local dos segmentos da assinatura, como o comprimento, o centro de

16

gravidade, a taxa de curvatura, entre outras. Confira na Fig. 2.11. Numa assinatura
complexa, como a mostrada na Fig. 2.12, esse processo pode gerar um nmero relevante
de segmentos, que no carregam consigo caractersticas importantes para o processo de
verificao.

Fig. 2.11

Imagem de uma assinatura segmentada pelo processo de segmentao

proposto por Rosenfeld. Adaptado de [ROSENFELD et al., 1997].

(a)

(b)

Fig. 2.12 (a) Imagem binria de uma rubrica; (b) Ncleo da imagem binria.

Sabourin e Genest em [SABOURIN & GENEST, 1994] apresentam um mtodo


de segmentao em clulas, para a extrao de caractersticas locais. Elas so
representadas pelas projees dos segmentos dos traos sobre os sensores localizados
nas quatro faces da clula e nas diagonais. O nmero de pixels de cada projeo
posteriormente normalizado pelo tamanho da face. Confira na Fig. 2.13. Com essa
caracterstica possvel mapear a distribuio geomtrica dos pixels na clula. No
entanto, no incorpora caractersticas pseudo-dinmicas, como por exemplo o grau de
curvatura do segmento.

17

(a)

(b)
Fig. 2.13 Modelo de clula usado por Sabourin e Genest. (a) Modelo detalhado dos
sensores. (b) Modelo do grid. Adaptado de [SABOURIN & GENEST, 1994].

Rigoll e Kosmala em [RIGOLL & KOSMALA, 1998] apresentam um mtodo


de segmentao em clulas, para a extrao de caractersticas locais. Nesse caso, usa-se
a contagem dos pixels pretos contidos em cada clula. Confira na Fig. 2.14. Essa
caracterstica possui a capacidade de incorporar um descritor estatstico em cada clula.
A vantagem a insensibilidade s variaes intrapessoais. No entanto, como no caso
anterior, no descreve adequadamente as caractersticas pseudo-dinmicas.

Fig. 2.14 Modelo de clula usada por Rigoll e Kosmala. Adaptado de [RIGOLL &
KOSMALA, 1998].

18

Huang e Yan em [HUANG & YAN, 1997] apresentam um modelo de


segmentao em clulas, para a extrao de caractersticas locais. As caractersticas so
obtidas do ncleo da assinatura, Fig. 2.15a, do contorno, Fig. 2.15b, da distribuio dos
pixels, Fig. 2.15c, do fator direcional de Fourier, Fig. 2.15d e da regio de mxima
presso, Fig. 2.15e.

Fig. 2.15 (a) Ncleo da assinatura; (b) Contorno da assinatura; (c) Distribuio dos
pixels; (d) Ajuste fino da assinatura; (e) Regio de alta presso.

As caratersticas estticas so formadas pela rea (calculada em (a) e (b)), regio


de alta presso (calculada em (e)), pelo nmero de partes constituintes (calculada em (c)
e (d)).

2.3.3 A produo do modelo e a comparao

A verificao de assinaturas consiste na extrao de uma forma desconhecida


(uma assinatura manuscrita), e o estabelecimento de uma regra de deciso. Essa regra de
deciso efetuada, geralmente, atravs da medida da verossimilhana da forma em
anlise (comparao), com um modelo de referncia devidamente armazenado em uma
base de conhecimento, que descreve uma representao anloga. O modelo de
referncia obtido numa fase anterior, chamada de aprendizado (produo do modelo).

19

A fase de aprendizado uma etapa muito importante do sistema de verificao.


Os modelos oriundos dessa fase possuem um conjunto rico de informaes que
permitem uma boa preciso do processo de verificao. Essas informaes possuem a
vantagem de possibilitar a eliminao de redundncias, que por sua vez propiciam a
reduo do tempo gasto no processo de deciso.

2.3.3.1 A classificao dos mtodos de verificao

Conforme foi dito anteriormente, a escolha do tipo de representao (os tipos de


primitivas) constitui uma etapa essencial na elaborao de um mtodo de verificao.
As dificuldades surgem principalmente da maneira com a qual so tratadas as entidades
naturais usadas para obter a descrio matemtica, induzidas por um mtodo terico
formal. Essa induo possui dois reflexos, sendo o primeiro o dimensionamento do
espao representativo do fenmeno, que deve possuir propriedades que facilitem o
processo de deciso. O segundo reflexo a obteno de um espao de representao que
permita uma implementao computacional. Os dois mtodos formais mais comuns so
os mtodos estatsticos e os mtodos estruturais.

2.3.3.1.1 Os mtodos estatsticos

Os mtodos estatsticos de reconhecimento de padres consistem em efetuar as


medies do espao mtrico atravs da estatstica [YACOUBI, 1996]. O aprendizado
executado atravs da separao de um conjunto de amostras em classes obedecendo a
um conjunto de caractersticas comuns. So especialmente importantes nos sistemas
cujas classes possuem uma elevada instabilidade entre os vrios espcimes. A
modelagem estatstica se beneficia dos processos automtico. Os mtodos principais so
os chamados paramtricos e os no paramtricos.

2.3.3.1.1.1 Os mtodos paramtricos

Mtodos estatsticos paramtricos trabalham com hipteses de que as classes em


questo possuem uma distribuio de probabilidade com comportamento determinado.
O mtodo supe o conhecimento prvio das leis que regem a probabilidade das classes

20

envolvidas e que

seus parmetros de estimao possuem normalmente um

comportamento gaussiano. Esses mtodos exigem uma base de dados de aprendizado


para uma correta estimao dos parmetros.

Os modelo escondidos de Markov

Os Modelos Escondidos de Markov (MEM)

[RABINER & JUANG, 1993]

possuem vrias propriedades teis para o reconhecimento de padres. Algumas dessas


propriedades so descritas a seguir:
O MEM apresenta uma representao complementar nos seus dois conjuntos de
parmetros. A probabilidade de observao de smbolos, que representa os
fenmenos morfolgicos e que possuem a capacidade de aproximar todas as
funes de densidade e probabilidade arbitrrias. J a probabilidade de transio,
representa a interao temporal entre os componentes interligados de uma
forma. A otimizao conjunta desse dois grupos de parmetros faz com que o
MEM sejam particularmente adaptado modelagem de dados variveis no
tempo, como no caso das assinaturas manuscritas;
Quer seja no reconhecimento de palavras como na verificao de assinaturas, o
reconhecimento de padres apresenta problemas de difcil soluo, em funo
do grau de variabilidade encontrada. Para tratar o problema de maneira eficiente,
faz-se necessrio o uso de uma grande quantidade de exemplares para o
aprendizado. Isso garante uma correta modelagem das variabilidades do
fenmeno observado. O MEM possuidor da capacidade de adotar hipteses
iniciais para a estrutura do modelo e, em seguida, utilizar a capacidade que os
modelos possuem de gerar as probabilidade sobre a base de dados de
aprendizado, para melhorar o prprio modelo;
A verificao de assinaturas requer uma razovel insensibilidade s
variabilidades

intrapessoais.

Sendo

MEM

composto

de

modelos

probabilsticos, portanto o candidato natural na representao dessas formas.

A utilizao do MEM possui algumas limitaes, que podem ser resumidas da


seguinte maneira:

21

O MEM apoia-se sobre uma hiptese de independncia das variveis


aleatrias, para determinar a probabilidade de observao de uma seqncia de
smbolos. Isso decorre da hiptese de que as observaes extradas de um sinal
so independentes entre si, e que a gerao de um smbolo na seqncia de
observao no funo do estado na cadeia de Markov. claro que essas
afirmativas no so vlidas em todas as ocasies, mas oferecem a vantagem de
simplificao dos clculos;

O MEM necessita de uma quantidade elevada de amostra de treinamento


para um boa definio do modelo. No caso especfico da verificao de
assinaturas em cheques bancrios brasileiros, esse um problema ainda a ser
resolvido, pois os bancos coletam apenas trs espcimes de assinaturas de cada
cliente. No entanto, como os espcimes tm sua origem no mesmo autor, passam
a ter uma variabilidade menor, diferentemente do que ocorre nos
reconhecimento de palavras manuscritas.

2.3.3.1.1.2 Os mtodos no paramtricos

Nesses mtodos, as leis de formao da probabilidade de uma classe so


desconhecidas. O problema consiste em propor algoritmos de convergncia que
determinem o limiar ideal de deciso.

As janelas de Parzen

As janelas de Parzen [YACOUBI, 1996], que se enquadram no conjunto dos


mtodos estatsticos no paramtricos, tm o objetivo de estimar a distribuio de
probabilidade condicional f(x|w), para uma classe w. Esse mtodo no forma hipteses
restritivas sobre a natureza das distribuies subjacentes.

2.3.3.1.2 Os mtodos estruturais

Os mtodos estruturais buscam descrever informaes geomtricas de maneira


estrutural, representando formas complexas a partir de componentes elementares,

22

chamadas de primitivas. Os mtodos estruturais distinguem-se basicamente em dois


tipos:

Os mtodos estruturais propriamente ditos, onde a estrutura utilizada


um grafo que permite representar as formas, as primitivas e as relaes entre
elas. A fase de deciso consiste na comparao do grafo representativo da
forma do modelo com o grafo da forma em teste;

Os mtodos sintticos, onde a estrutura usada para codificar a forma em


uma lista, utilizando um alfabeto cujos termos representam elementos da
forma a descrever. A fase de deciso consiste na anlise da lista com a ajuda
de regras sintticas, como as utilizadas em um texto escrito em uma
linguagem natural.

Em geral, a principal vantagem dos mtodos estruturais, sobre os mtodos


estatsticos, a capacidade de fornecer um descritor de formas independente do
processo de classificao. O descritor de estrutura de uma forma permite reconstruir
uma forma a partir das primitivas.

Por outro lado, contrariamente aos mtodos estatsticos, quando uma classe de
caractersticas representada por um grande nmero de espcimes, com elevado grau de
variabilidade num espao de representao, os mtodos estruturais fazem uso de um
nmero muito elevado de prottipos representativos dessa classe.

2.3.3.2 Os mtodos de verificao segundo a abordagem utilizada

Bruyne e Forr em [BRUYNE & FORR, 1988] apresentam uma abordagem


global esttica, com um mtodo de verificao estatstico baseado em matching. A
imagem do modelo desfocada colocada sobre imagem em teste tambm desfocada.
Esse processo se repete com as imagens em vrios nveis de resoluo. A taxa de
verosimilhana entre as duas imagens determina a sua aceitao ou rejeio. A
vantagem desse mtodo a rapidez no processamento. A desvantagem no definir de

23

forma robusta os limiares de aceitao e rejeio, principalmente envolvendo


falsificaes simples e servis.

Sabourin e Plamondon em [SABOURIN & PLAMONDON, 1986] apresentam


uma abordagem global pseudo-dinmica, com um mtodo de verificao estatstico.
Esse mtodo utiliza dois classificadores, o primeiro usa o princpio da mxima
probabilidade, baseado em Bayes [HOEL, 1960]. O segundo utiliza um discriminante
linear de Fisher [HOEL, 1960], para o clculo do erro mnimo.
Hunt e Qi em [HUNT & QI, 1995] apresentam uma abordagem global com
caractersticas estticas e pseudo-dinmicas, com um mtodo de verificao estatstico
baseado em dois classificadores. O primeiro usa uma rede neural (RN), o segundo uma
quantizao vetorial (QV). O classificador baseado em QV possibilita o processamento
de mltiplas caractersticas com diferentes tamanhos e resolues. A RN capaz de
delinear arbitrariamente os limites das classes a reconhecer, mas a performance da rede
depende da arquitetura da mesma e do mtodo de treinamento.

Chaudhury e Bajaj em [CHAUDHURY & BAJAJ, 1997] apresentam uma


abordagem global com caractersticas estticas e pseudo-dinmicas, com um mtodo de
verificao estatstico baseado em trs classificadores de RN. O uso de mltiplos
classificadores introduzem um elemento de redundncia ao mtodo. possvel que os
erros de classificao provocados por um determinado classificador possa ser
compensado por outro.

Revillet em [REVILLET, 1991] apresenta uma abordagem local e contextual,


com caractersticas esttica e pseudo-dinmica, com um mtodo de verificao
estatstico baseado no vizinho mais prximo com distncia Euclidiana. Essas distncias
so ordenadas em ordem crescente e para cada classe de reconhecimento. Cada
caracterstica foi separada e seqencialmente ordenada.

Sabourin e Genest em [SABOURIN & GENEST, 1994] apresentam

uma

abordagem local com caractersticas estticas, com um mtodo de verificao estatstico

24

e mltiplos classificadores, baseado no vizinho mais prximo com distncia Euclidiana.


A desvantagem desse processo o uso excessivo de classificadores.

Rigoll e Kosmala em [RIGOLL & KOSMALA, 1998] apresentaram

uma

abordagem de verificao dinmica/esttica de assinaturas, com um mtodo de


verificao estatstico baseado em duplo classificadores. Um classificador QV usado
para modelar as colunas de clulas da grade de segmentao e um classificador MEM
para a gerao dos modelos e o processo de deciso.

2.3.4 Uma anlise crtica

Muitos dos mtodos apresentados nos itens anteriores so promissores. Cada um


deles possui pontos fortes que podem contribuir para a elaborao de um sistema
verificao automtica de assinaturas real. Os que adotam a abordagem local esto mais
preparados para tratar os trs tipos bsicos de falsificaes. O que utilizam a abordagem
no contextual [SABOURIN & GENEST, 1994] e [RIGOLL & KOSMALA, 1998],
possuem potencial para tratar mais eficientemente os diferentes tipos de assinaturas
latinas (cursiva e rubrica). Os que adotam uma composio entre caractersticas
estticas e pseudo-dinmica [HUNT & QI, 1995] e [HUANG & YAN, 1997], esto
mais adaptados para a deteco de falsificaes simples e servis. Aqueles que se
utilizam dos recursos da grafoscopia [CHUANG, 1977] possuem caractersticas
robustas na discriminao das falsificaes.
No caso especfico dos sistema de reconhecimento de documentos manuscritos,
a variao entre os diversos espcimes de uma mesma forma fica evidenciada j no
processo de extrao de primitivas. Os modelos estatsticos possuem

requisitos

importantes no tratamento dessas caractersticas, ficando evidenciado pela literatura


apresentada. O interesse nos modelos de Markov encontra-se em sua capacidade de
integrar coerentemente diferentes nveis de modelagem (morfolgica, lxica e sinttica)
[YACOUBI, 1996] e na existncia de algoritmos eficientes na determinao de valores
timos para os parmetros e no aferimento da qualidade de aprendizado.

O prximo Captulo contm o mtodo de verificao automtica de assinaturas


estticas proposto e as ferramentas que daro suporte para a elaborao do mesmo.

Captulo 3 A Proposta para um Mtodo de Verificao


Automtica de Assinaturas Manuscritas Estticas

Nesse Captulo ser apresentada inicialmente uma proposta para uma mtodo de
verificao automtica de assinaturas esttica. Em seguida sero apresentados os
recursos que daro suporte na elaborao do mtodo proposto.

3.1 A proposta

Nessa seo so apresentadas as formalizaes do problema envolvendo a


verificao automtica de assinaturas em cheques bancrios brasileiros. Em seguida so
apresentadas as metas a serem atingidas, baseado nas motivaes levantadas e as
tcnicas a serem utilizadas em cada fase.

3.1.1 Os requisitos

A anlise de um problema, sob a luz de uma aplicao real, possui a vantagem


de limitar o escopo no contexto do problema. No entanto, apresenta a desvantagem de
impor restries em algumas etapas do processo. Essas restries podem auxiliar na
soluo do problema ou dificult-la. A seguir so apresentados alguns requisitos
relevantes, que devem ser objeto de um estudo detalhado em cada etapa do processo e
que no foram suficientemente abordados pela literatura:

A abordagem a ser adotada deve privilegiar a anlise no contextual, a fim


de atender aos estilos de assinaturas latinas, a cursiva e a rubrica;

O uso da abordagem no contextual, ligada aos requisitos legais, exige uma


reavaliao das tcnicas grafomtricas, j que a literatura no contempla tal
relao;

26

A adequao aos trs tipos bsicos de falsificaes exigem estudos


aprofundados da grafometria e sua relao com as caractersticas estticas e
pseudo-dinmicas, a fim de estabelecer suas contribuies para o processo de
verificao;

A adoo de critrios automatizados, para a determinao dos limiares de


aceitao e rejeio de uma assinatura, deve ser privilegiado para os
diferentes tipos de falsificaes;

Deve ser considerada uma limitao do espao grfico de aproximadamente


3x10 centmetros, que representa um retngulo destinado assinatura no
cheque, segundo as normas do Banco Central, em Anexo. Como trata-se de
uma rea reduzida, possvel a extrapolao desse rea durante o processo
de escrita. Essa extrapolao implica numa invaso de outros campos do
cheque, como a data e o montante por extenso. Sendo assim, necessrio
considerar somente a rea definida pelo retngulo (3x10 cm), confira na Fig.
3.1a e 3.1b.

Fig. 3.1 (a) Exemplo de assinatura que ocupa a rea de assinatura sem extrapolar. (b)
Exemplo de assinatura que extrapola a rea destinada assinatura. A perda encontra-se
na parte superior e inferior da assinatura, incluindo os laos maiores.

3.1.2 As metas

Para atender aos requisitos estabelecidos no item anterior, faz-se necessrio a


definio de metas a serem atingidas em cada fase, quais os recursos a serem utilizados
e quais as limitaes impostas por esses recursos. Essa metas so:

27

Usar como base de dados de laboratrio, com um conjunto de assinaturas


coletados obedecendo aos critrios de preenchimento de um cheque bancrio
real, com exceo da excluso do plano de fundo do cheque, da linha de base
e de quaisquer outras informaes que no pertenam ao contexto. As
assinaturas devem ser adquiridas atravs de um digitalizador;

Estar adaptado s assinaturas cujo alfabeto e a forma da escrita sejam latinas;

Permitir todos os estilos de assinaturas latinas, a cursiva e a rubrica;

Ser sensvel aos trs tipos bsicos de falsificaes encontradas em cheques


bancrios brasileiros, a aleatria, a simples e a servil.

3.1.3 A abordagem adotada

Com o objetivo de atender aos requisitos legais, faz-se uma adequao aos
estilos de escrita e aos tipos de falsificaes. A abordagem a ser adotada possui
caractersticas no contextuais (no existe a interpretao de texto), apresenta um
critrio de segmentao explcito em clulas [SABOURIN & GENEST, 1994] e
[RIGOLL & KOSMALA, 1998] e utiliza os preceitos do grafismo, entre eles a
grafoscopia [CHUANG, 1977], na definio de caractersticas estticas e pseudodinmicas.

O mtodo a ser adotado para a verificao o estatstico, pela sua adaptao s


variabilidade impostas pelo problema. O uso do quantizao vetorial (QV), como prclassificador [HUNT & QI, 1995] e [RIGOLL & KOSMALA, 1998], permite a
adaptao mais adequada ao processo de segmentao a ser adotado. A adoo dos
modelo escondido de Markov [RIGOLL & KOSMALA, 1998] no aprendizado e na
comparao, propicia a manuteno da mtua independncia entre as caractersticas
extradas de cada observao.

3.1.4

A base de dados de assinaturas

Como a base de dados real depende de um processo de pr-tratamento para a


extrao dos dados do cheque bancrio brasileiro (o montante numrico, o valor por
extenso, a data e a assinatura), e como esse processo envolve um elevado grau de

28

complexidade, no faz parte do escopo desse trabalho. Adotou-se uma base de dados de
laboratrio, que ser descrita na seqncia.

Para avaliar o desempenho do processo de verificao de assinaturas, necessitase fundamentalmente de uma base de dados que permita a sua validao estatstica. O
nmero de espcimes por autor, bem como o nmero de autores, so fundamentais.
Outros aspectos, como resoluo da imagem e nveis de cinza, tambm so elementos
importantes, pois tratam da qualidade da imagem usada. A Tabela 3.1 mostra um
comparativo entre as vrias bases de dados utilizadas em trabalhos publicados
anteriormente. Esse resumo foi descrito por Plamondon e Lorette [PLAMONDON &
LORETTE, 1988], para os mtodos estticos. Tendo como base a tabela original, foram
feitas atualizaes incluindo trabalhos mais recentes.

Para compor a base de dados de referncia, foram coletadas 5.200 imagens de


assinaturas. Desse montante, existem 4.000 assinaturas genunas oriundas de 100
autores diferentes (40 amostras de assinaturas para cada autor) e 1.200 falsificaes,
geradas a partir dos 60 primeiros modelo de assinatura genunas. Foram produzidas 10
falsificaes simples e 10 falsificaes servis. A Fig. 3.2 apresenta exemplos dos tipos
de falsificaes coletadas para a base de dados.

29

Referncias
Ammar,
Yoshida e
Fukumura
[AMMA et al., 1985]
Brocklehurts
[BROCKLEHURST, 1985]
Chuang
[CHUANG, 1977]

Resoluo da imagem
e
Nveis de Cinza (NC)
256x1024 grid
256 NC
60 pixels/cm
binria
100x300 grid
binria

Bruyne e
Forr
[BRUYNE & FORR, 1988]
Nagel e
Rosenfeld
[NAGEL & ROSENFELD, 1977]

512x512 imagem
desfocadas

Nemcek e
Lin
[NEMCK & LIN, 1974]

128x256 grid
binria

Sabourin e Genest
[SABOURIN & GENEST, 1994]
Sabourin e Plamondon
[SABOURIN & PLAMONDON, 1986]

128x512 grid
256 nveis de cinza
Linhas rtmicas

Huang e Yang
[HUANG & YAN, 1997]

12x2 cm
100 dpi
256 nveis de cinza

Plamondon, Lorette e Sabourin


[PLAMONDON et al., 1990]

128x512 pixels
256 nveis de cinza

Rigoll e
Kosmala
[RIGOLL & KOSMALA, 1998]

No especificado

500 pixels/polegada
60 nveis de cinza

Dados de Treinamento e Teste


Espcimes (E) Assinantes(A)
200 genunas
(20E x 10A)
200 falsificaes
(20E x 10 imitadores)
2820 genunas
(60E x 47A)
2400 genunas
(6E x 400A)
1600 falsificaes
(4E / A)
150 teste em 10 assinaturas de
referncia
11 genunas
(6E x 1A + 5E x 1A)
14 falsificaes
(9E x 1A + 5E x 1 A)
600 genunas
(40E x 15A)
120 falsificaes
(10 A imitados 3E/A 4 imitadores)
800 genunas
(40E x 20A)
63 genunas para 1A
117 falsificaes simuladas de 6
imitadores
amadores
504 genunas
(24E x 21A)
3024 falsificaes
(24 x 6E x 21 imitadores)
248 genunas
(31E x 8A)
224 fotocopias das genunas
280 genunas
(20E x 14A)
60 falsificaes
(40 falsificaes perfeitas)
(20 falsificaes simples)

Tabela 3.1 Descrio das bases de dados de assinaturas usadas para avaliar o
desempenho dos mtodos de verificao automtica de assinaturas estticas.

30

(a)

(b)

(c)

(d)

Fig. 3.2 Tipos de assinaturas da base de dados: (a) assinatura genuna ; (b) falsificao
aleatria; (c) falsificao simples; (d) falsificao servil.
As assinaturas foram coletadas utilizando uma folha de papel A4 em branco.
Como elemento guia, foi usado um gabarito no formato de quatro cheques bancrios,
conforme mostrado na Fig. 3.3. Portanto, as mesmas esto totalmente isentas de
qualquer elemento de fundo (linhas de base, etc.). As folhas A4 foram digitalizadas com
uma resoluo de 300dpi, 265 nveis de cinza. Em seguida, as imagens foram recortadas
e gravadas em um arquivo no formato BMP, num retngulo de tamanho de 3x10 cm ou
(400x1.000 pixels), correspondendo rea destinada assinatura no cheque.

Durante o processo de coleta, nenhum tipo de restrio foi imposto aos autores,
como por exemplo tipo de caneta. Por questes legais, definidas pelas normas do Banco
Central, em Anexo, somente canetas com cores azul e preta puderam ser usadas. Os
dados foram armazenados em CD-ROMs, que esto hoje aos cuidados do Laboratrio
de Anlise de Documentos (LARDOC), situado na PUCPR.

31

Fig. 3.3 Modelo do gabarito usado para a coleta das assinaturas.

3.2 Os recursos

O objetivo desse item descrever detalhadamente as principais ferramentas a


serem utilizadas no desenvolvimento da soluo para o problema proposto. Ele dividese em trs partes principais. A primeira trata da anlise da assinatura sob a tica do
grafismo e sua relao com os mtodos automticos. A segunda aborda os princpios da
modelagem Markoviana. A terceira descreve os preceitos da quantizao vetorial .

3.2.1 O grafismo

No

campo

de

estudo

do

grafismo

encontram-se

vrias

abordagens

[VELS, 1961], [MINICUCCI, 1991] e [GOMIDE & GOMIDE, 1995], como: a


grafoscopia, que o estudo da origem do documento grfico; a grafologia, que o
estudo da escrita visando determinar a psique do escritor; a paleografia, que o estudo
histrico da escrita; a caligrafia, que o estudo artstico da escrita. Das quatro
abordagens anteriores, duas delas, a grafoscopia e a grafologia, so importantes para

32

este trabalho, pois abordam o estudo das caractersticas pessoais de um escritor ligadas
sua escrita.

3.2.1.1 A grafoscopia

A grafoscopia tradicional foi desenvolvida com o objetivo de esclarecer questes


criminais. Tratando-se de um campo da criminalstica, ela tem sido conceituada como a
rea cuja finalidade a de verificao da autenticidade de um documento, isto ,
determinar caractersticas grficas na elaborao de um documento.

Como a escrita est sujeita a inmeras mudanas, decorrentes de causas


variadas, exigem conveniente interpretao tcnica, para o completo xito dos exames
grafoscpicos periciais. As variaes do grafismo originam-se de causas normais,
artificiais e ocasionais. As primeiras so aquelas que acompanham o prprio
desenvolvimento humano, nos perodos abrangidos pela infncia e adolescncia,
maturidade e velhice. J as segundas, so transformaes da escrita causadas pelo
artificialismo ocorridos nos casos de falsificaes e dissimulaes grficas. As ltimas
causas originam-se das molstias, dos estados emocionais, de leses na mo e de outros
fatores fsicos.

Os elementos tcnicos usados nos exames das identidades grficas, segundo Tito
e Lvio Gomide [GOMIDE & GOMIDE, 1995], so: os genricos, que se dividem em
calibre, espaamento, comportamento pauta, comportamento base, proporcionalidade,
valores angulares, valores curvilneos e inclinao axial; os genticos, que se
subdividem em, dinmicos (presso, progresso), trajetos (ataques, desenvolvimentos,
remates, mnimos grficos). Cada um desses elementos podem ser enquadrados, em um
exame grafoscpico, com convergncia ou divergncia (mnima, mdia, mxima). As
Fig. 3.4 e 3.5 mostram exemplos de cada um dos casos.

33

Fig. 3.4 Elementos tcnicos genticos. Adaptado de [GOMIDE & GOMIDE, 1995].

34

Fig. 3.5 Elementos tcnicos genricos. Adaptado de [GOMIDE & GOMIDE, 1995].

Segundo Tito e Lvio Gomide [GOMIDE & GOMIDE, 1995], a aceitao do


princpio fundamental da grafoscopia, que considera a escrita individual, exclui a
hiptese de erro na apurao da origem das escritas, inexistindo portanto as falsificaes
perfeitas. Essa afirmativa verdadeira quando existem subsdios necessrios e
suficientes para uma anlise correta.

35

No que se refere s assinaturas analisadas, elas nem sempre se apresentam em


condies adequadas, ocorrendo casos em que existem recobrimentos, falhas devido a
dobras ou desgastes do papel, ou outras anomalias, impedindo o levantamento de
elementos tcnicos suficientes para uma concluso decisiva. Ainda nesse contexto,
podem surgir dificuldades devido s caractersticas intrnsecas do grafismo, tais como
os campos grficos reduzidos, os polimorfismos, as escritas patolgicas, as escritas
mo guiadas, entre outras.

Tito e Lvio Gomide [GOMIDE & GOMIDE, 1995] sugerem, em muitos casos,
estabelecer um plano e projeto especfico, tal como a seleo de modelos seguros para a
assinatura ou rubrica, ou critrios para a produo e arquivamento de padres de
confronto seguros. Isto , o uso de um banco de dados de modelos.

3.2.1.2 A grafologia

O estudo pioneiro da grafologia foi realizado pelo italiano Camillo Baldi,


professor de Lgica e Metafsica da Universidade de Bolonha, que publicou em 1622 o
primeiro livro de grafologia [VELS, 1961].

Existem inmeras escolas grafolgicas e grafoanalticas, mas o objetivo deste


trabalho abordar somente aquelas que possam subsidiar os estudos aplicados
verificao de assinaturas. Para tanto, sero comentados somente os movimentos com
abordagem cientfica, ou seja, o movimento clssico que se baseia na mmica e o
movimento moderno psicanaltico, que se orientam nos smbolos.

A escola mmica baseia-se no movimento. Segundo a mmica, a grafologia


comporta dois estudos, o dos sinais e o das resultantes. Os sinais so tomados no
conjunto da escrita, onde se considera a altura, a largura, a inclinao, a regularidade ou
no pormenor das palavras, das letras, dos sinais. Sendo assim, deve-se procurar os sinais
de superioridade e de inferioridade, de natureza e dos meios de inteligncia, de carter
moral (costumes e sentimentos), vontade, senso esttico, idade, sexo e algumas
indicaes patolgicas.

36

J a escola simblica, baseia-se principalmente nos estudos da avaliao e


interpretao dos smbolos. Existem, indubitavelmente, relaes entre os diversos
smbolos grafolgicos de que se compem o trao individual e o psiquismo do escritor.
A condio imprescindvel para compreender a expresso grfica adequadamente, o
conhecimento dos conceitos bsicos, em sua maior parte inconscientes, que trabalham
na pessoa ao escrever. Ao escrever, projetamos inconscientemente nosso ser. Escrever
conscientemente o mesmo que desenhar inconscientemente. O desenho de si mesmo
o auto-retrato. [MINICUCCI, 1991].

importante salientar que, os sinais usados pela escola mmica e simblica


assemelham-se aos utilizados pela grafoscopia, mas a anlise das resultantes possuem
abordagens diferenciadas. As duas primeiras avaliam a psique do escritor, a fim de
estabelecer possveis patologias. J a ltima avalia a veracidade da autoria da escrita,
com a finalidade de identificar possveis fraudes.

3.2.1.2.1 Elementos bsico da grafia

Em grafologia pode-se considerar como elementares as noes e quase todos os


traos e termos a seguir [VELS, 1961]:

Campo grfico, o espao bidimensional em que a escrita feita;

Gesto grfico ou movimento grfico, todo movimento de dedos e/ou da mo que


o indivduo faz para escrever. Cada movimento grfico gera um trao grfico;

Trao, o trajeto que a caneta descreve em um nico gesto executado pelo escritor;

Trao descendente, fundamental, pleno, ou grosso, todo trao descendente e


grosso de uma letra;

Trao ascendente, ou perfil, o trao ascendente e fino de uma letra;

Ovais, so os elementos em forma de crculo das letras a, o, g, q, etc;

Hastes, so todos os traos plenos (movimento de descenso) das letras l, t, b,


etc. e do f at a base da zona mdia. Tambm so consideradas hastes os traos
verticais do m e do n maisculo e minsculo, confira na Fig. 3.6(3);

Lanadas inferiores, so todos os planos (descendentes) do g, j, y, etc. e do


f a partir da zona mdia at embaixo, confira na Fig. 3.6(4);

37

Bucles, so todos os traos ascendentes (perfis) das hastes e das laadas inferiores e,
por extenso, todo movimento que ascende cruzando a haste e unindo-se a ela
formando crculo, confira na Fig. 3.6(5)(6);

Partes essenciais, o esqueleto da letra, a parte indispensvel da sua estrutura,


confira na Fig. 3.7(A);

Parte secundria ou acessria, o revestimento ornamental ou parte no


necessria sua configurao, confira na Fig. 3.7(B).

Nas letras temos de distinguir tambm as diferentes zonas das mesmas:

Zona inicial, rea onde se encontra o ponto onde inicia-se a letra, confira na Fig.
3.6(1);

Zona final, rea onde se encontra o ponto onde termina a letra, confira na Fig.
3.6(2);

Zona superior, rea onde se encontra o ponto mais alto, ocupado pelas hastes, pelos
pontos e acentos, pelas barras do t e parte das maisculas, confira na Fig. 3.6(A);

Zona mdia, rea central, ocupada por todas as vogais minsculas (a, e, i , o, u) e
pelas letras m, n, r, etc. cuja altura toma-se como base para medir o nvel da
elevao das hastes e o nvel do descenso das lanadas inferiores, confira na Fig.
3.6(B);

Zona inferior, zona baixa da escrita a partir da base de todos os ovais descendentes,
das maisculas ou de outras letras, confira na Fig. 3.6(C).

Fig. 3.6 Exemplo de alguns dos elementos bsicos da grafia: (1) Zona inicial; (2) Zona
final; (3) Haste; (4) Laada; (5) Bucle da haste; (6) Bucle da laada; (7) bucle em forma
de lao; (A) Zona superior; (B) Zona mdia; (C) Zona inferior. Adaptado de [VELS,
1961].

38

Fig. 3.7 Exemplo das diferenas entre as partes de um elemento grfico: (A) Partes
essenciais; (B) Partes secundrias. Adaptado de [VELS, 1961].

3.2.1.2.2 As letras e o movimento

Sob o ponto de vista fisiolgico de movimento ou de execuo, o impulso grfico


pode seguir quatro direes principais ou vetores [MINICUCCI, 1991]:

De cima para baixo, cuja execuo obedece a um movimento de flexo do


antebrao, da mo e dos dedos e produz os traos plenos;

De baixo para cima, que obedece a um movimento de extenso e produz os perfis;

Da direita para a esquerda, que exige do antebrao, da mo e dos dedos um


movimento de abduso, cujo resultado so os traos em sentido horrio;

Da esquerda para a direita, que est condicionada por movimentos de abduso e que
d lugar aos traos em sentido anti-horrio.

Esses movimentos podem ser: retos, curvos e angulosos. O movimento reto quando
no apresenta inflexo, tores ou desvios em seu trajeto. O movimento curvilneo,
quando os traos das letras tm a forma de segmentos de crculo ou oval (as letras
interiores a, o, etc. ). O movimento anguloso quando as letras so formadas por
retas que se cruzam ou se quebram.

3.2.1.2.3 Os aspectos grficos

Segundo Vels

[VELS, 1961], a escrita como grafia psicomotriz deve ser vista e

classificada sob seus aspectos e subaspectos, ou seja, medindo-se em cada caso o nvel
de tenso, rapidez, profundidade, irradiao (altura-extenso), relevo, esttica, coeso,

39

regularidade, inclinao, direo das linhas, progresso e proporo. Quase todos esses
aspectos do grafismo so mensurveis, isto , podem ser avaliados grafometricamente a
partir de um modelo ou padro. Tudo que exceda ou fique abaixo deste modelo
sintomtico.

3.2.1.2.4 O simbolismo do espao

Sob o ponto de vista simblico do espao e das formas, a grafologia moderna,


embasada nas teorias de Freud e Piaget [PIAGET, 1978], descobriu quatro vetores ou
direes principais do gesto grfico: o espiritual, o emocional, o biolgico e o de
contato. Na Fig. 3.8a observa-se a simbolismo dos vetores. O vetor A (espiritual) a
zona ou plano para onde se dirigem as tendncias que no tomam contato direto com a
realidade dos sentidos, confira na Fig. 3.8d. O vetor B (biolgico), engloba as
tendncias orgnicas (movimento fsico, trabalho, esporte, viagens, etc.), confira na Fig.
3.8e. O vetor C (emocional), o plano do sentimento, da sensibilidade. O plano mais
prximo do vetor C, ou seja, da zona mdia, representa o inconsciente. O vetor I,
representam a vida cotidiana, introverso, passado, egosmo inibio, etc., confira na
Fig. 3.8b e o D o futuro, extroverso, iniciativa, ambio, etc., confira na Fig. 3.8c.

V e to r A

V e to r I

V e to r D
V e to r C
V e to r B
(a )

(b )

(c )

(d )

(e )

Fig. 3.8 Exemplos de assinaturas segundo a simbologia do espao grfico. (a) Diagrama
representativo do espao grfico; (b) Escritor introvertido; (c) Escritor extrovertido; (d)
Escritor espiritualista; (e) Escritor materialista e introvertido.

40

importante observar que, na simbologia de ocupao do espao grfico, podem ser


encontradas mais de uma das caractersticas pessoais.

No intuito de verificar o comportamento da ocupao de espao numa rea


restrita, como no caso do cheque bancrio brasileiro, realizou-se um experimento.
Foram usadas 13 amostras de assinaturas para 94 autores diferentes. Nesse caso, o
objetivo foi testar as variaes de escala da assinatura de um mesmo escritor e a
ocupao do espao destinado mesma, quando o espao disponvel para a assinatura
reduzido. Para tanto, foi elaborado um formulrio no formato A4 contendo vrias linhas
de base, algumas com bordas retangulares ajustadas para cima e para baixo, com o
objetivo de reduzir ou aumentar a rea da parte superior/inferior da linha de base,
confira na Fig. 3.9. Os escritores no foram instrudos a obedecer as fronteiras impostos
pelas molduras do formulrio, isto , ficaram livres para assinar como desejassem.

Fig. 3.9 Modelo do formulrio usado para a coleta das assinaturas para anlise da
ocupao do espao.

41

O formulrio foi dividido em 6 sees. A seo (a) composta de reas para a


assinatura emoldurada com uma reduo do espao na rea superior linha de base. O
objetivo testar a reduo de escala da assinatura quando a rea reduzida. A seo (b)
e (c), identificadas por no possuir molduras, possui o objetivo de analisar o
comportamento do assinante quando o espao destinado assinatura no possui
fronteiras perfeitamente determinadas. A seo (d) tem os mesmos objetivos de (a), s
que a linha de base encontra-se na regio central. A seo (e) possui o efeito contrrio
da (a), seu objetivo o mesmo de (a) e (d), confira na Fig. 3.10.

Fig. 3.10 Modelo do formulrio para coleta de assinaturas e a representao das sees.

42

A Tabela 3.2 apresenta os resultados da avaliao estatstica feita sobre os


formulrios.

Observaes
Quantos escritores respeitaram as

Comentrios
(dos 45 que respeitaram as fronteiras, 34

fronteiras da moldura (total de assinantes = mantiveram a escala da assinatura e 11 no


94)?

mantiveram. Isto eqivale a dizer que 83

Sim = 45 (48%)

escritores (88.3%) mantiveram a escala de

No = 49 (52%)

suas assinaturas).

A invaso das fronteiras da moldura Percebe-se que a incidncia de invases do


ocorreu?

lado esquerdo, direito e em baixo da linha

Parte superior

= 45

(48%)

de base pequena. A grande maioria das

Parte inferior

= 21 (23%)

invases ocorrem na parte superior. Isto

Lado esquerdo = 8
Lado direito

(9%)

= 10 (10%)

No invadiram = 49

(52%)

acontece

porque

maior

parte

da

assinatura fica sobre a linha de base.


OBS: O escritor pode ter ultrapassado mais
de uma fronteira.

A ocupao do espao grfico ocorreu?

A maioria dos escritores tende a ocupar a

esquerda = 36 (38%)

parte central da rea, mas existe tambm

direita

= 7 (8%)

uma grande nmero que ocupa o lado

Centro

= 51 (54%)

esquerdo. O nmero de assinantes que usa


o lado direito no muito expressivo.

Tabela 3.2 Avaliao estatstica da ocupao do espao grfico e da variao de escala


da assinatura.

Como pode-se notar na Tabela 3.2, a variao de escala da assinatura em uma


rea determinada mnima, mesmo que essa rea seja reduzida. Confira as variaes da
posio da linha de base e na ausncia da moldura nos exemplos da Fig. 3.11.

43

Fig. 3.11 Exemplos de assinaturas do formulrio: (a) Exemplo do uso da seo d; (b)
Exemplo do uso da seo e; (c) Exemplo do uso da seo a; (d) Exemplo do uso da
seo b; (e) Exemplo do uso da seo c.

Quanto ocupao do espao grfico, mesmo que os cheques apresentem uma


rea reduzida, dificultado sua anlise [GOMIDE & GOMIDE, 1995], possvel
observar na Fig. 3.8, que essa caracterstica capaz de agregar informaes de contexto
importantes ao processo de verificao.

3.2.1.2.5 A ordem

Em relao ordem de distribuio dos elementos grficos, pode-se classificar a


distribuio em: clara, boa separao entre letras e palavras, isto , uma harmnica
distribuio das letras e palavras, confira na Fig. 3.12a; confusa, o texto aparece como
uma massa desuniforme e embaralhada, confira na Fig. 3.12b; concentrada, na viso do
conjunto prepondera o texto sobre os espaos em branco, confira na Fig. 3.12c;
espaada, na viso do conjunto prepondera os espaos em branco, confira na Fig.
3.12d.

44

Fig. 3.12 Exemplos de assinaturas sob o ponto de vista da ordem: (a) Assinatura clara;
(b) Assinatura confusa; (c) Assinatura concentrada; (d) Assinatura espaada.

3.2.1.2.6 A proporo

Segundo Vels [VELS, 1961], valorizar as assimetrias, os centros de


deslocamento das letras ou de seus elementos constitutivos, achar o centro de
gravidade das tendncias inconscientes. Em relao simetria da escrita, pode-se
classificar em: proporcional, assinatura onde as letras e as partes constitutivas da
mesma apresentam pequenas desigualdades rtmicas, confira na Fig. 3.13a;
desproporcional, a assinatura onde as letras ou partes de letras apresentam
desequilbrio e translaes mais ou menos exageradas, confira na Fig. 3.13b; mista,
nota-se a existncia simultnea da proporcionalidade e desproporcionalidade, afetando
principalmente as letras maiscula e as hastes, confira na Fig. 3.13c.

Fig. 3.13 Exemplos de assinaturas sob o ponto de vista da proporcionalidade: (a)


Assinatura proporcional; (b) Assinatura desproporcional; (c) Assinatura mista.

45

3.2.1.2.7 A dimenso

A dimenso traduz o grau de expansividade do escritor, cuja caracterstica mais visvel


nas assinaturas. A dimenso pode ser resumida em duas classes: a escrita alta, onde o
corpo da escrita (zona mdia) ultrapassa as propores em relao s hastes e as
lanadas inferiores, confira na Fig. 3.14a ; a escrita baixa, onde o corpo da escrita em
proporo s letras so mais largas do que altas, confira na Fig. 3.14b.

Fig. 3.14 Exemplos de assinaturas sob o ponto de vista da dimenso: (a) Assinatura alta;
(b) Assinatura baixa.

3.2.1.2.8 A presso

A fora ou intensidade do trao, por sua caracterstica dinmica, est em estreita


relao com a rapidez, com a continuidade e com a irradiao do impulso grfico. A
presso pode ser resumida em duas caractersticas: a escrita tensa, onde os movimentos
grficos so retos, firmes e seguros, confira na Fig. 3.15a; a escrita frouxa, onde existe
um dficit de tenso nos movimentos, os quais so mais ou menos sinuosos, ondulados
ou torcidos em qualquer de seus sentidos direcionais, confira na Fig. 3.15b.

Um outro parmetro mensurvel, em relao presso, a fora da impresso


do trao. Pode ser dividido em dois: o peso real, que a soma da espessura do trao, a
fora e a profundidade; o peso aparente, onde s considerado a espessura do trao.

Fig. 3.15 Exemplos de assinaturas sob o ponto de vista da presso do trao: (a)
Assinatura tensa; (b) Assinatura frouxa.

46

3.2.1.2.9 A forma

Quanto forma, existem trs tipos identificveis de escritas: a caligrfica, onde


o modelo caligrfico escolar predominante, confira na Fig. 3.16a; a arredondada,
onde os elementos curvos so preponderantes, confira na Fig. 3.16b; a reta vertical,
quando predominam os segmentos retos verticais ou levemente inclinados, confira na
Fig. 3.16c; a reta horizontal, quando predominam os segmentos em linha reta
horizontal, confira na Fig. 3.16d.

Fig. 3.16 Exemplos de assinaturas sob o ponto de vista da forma: (a) Assinatura
caligrfica; (b) Assinatura arredondada; (c) Assinatura reta vertical; (d) Assinatura reta
horizontal.

3.2.1.2.10 O gesto caracterstico

Existem em cada indivduo gestos que se repetem a cada instante, espcie de


tique ou atitude que o caracteriza. Na escrita tambm existem modalidades de traos
ou letras que chamam a ateno, porque imprime ao traado uma fisionomia especial
que nenhum outro poderia reproduzir da mesma maneira. Os elementos grficos que
podem formar o gesto caracterstico em assinaturas so: o gancho, consistem de um
movimento de regresso encontrado nos finais das letras ou nas barras dos t, confira
na Fig. 3.17a; a clave, que carrega todo o golpe de energia sobre a zona final do traado
que fica em forma de ponta quebrada, confira na Fig. 3.17b(1); o golpe de sabre, que
o movimento promovido por um impulso da caneta, que pode afetar as barras dos t e
as partes inferiores das letras (lanadas inferiores), confira na Fig. 3.17c; o movimento
em tringulo, produzidos principalmente nas laadas inferiores dos t, g, y e nas

47

barras dos t, podem tambm aparecer na circunferncia das letras da zona mdia,
confira na Fig. 3.17e(1); o bucle, que se apresenta na circunferncia das letras da zona
mdia, nas maisculas e nas ligaes, confira na Fig. 3.17d ; a guirlanda, que consiste
num movimento em forma de arco aberto para cima, presente nos traos iniciais e finais
e nas barras dos t, confira na Fig. 3.17f; o arco, que encontrado preferencialmente
nas zonas inicial, superior e mdia (nas ligaes), confira na Fig. 3.17h; a espiral, que
est presente nas letras maisculas, confira na Fig. 3.17b(2); a inflao, que apresenta
um tamanho exagerado, presente nas maisculas, confira na Fig. 3.17b(2); o lao, que
uma espcie de movimento de retorno ao ponto de partida, confira na Fig. 3.17e(2); a
serpentina, que afeta especialmente os traos iniciais e finais e as letras m e n,
confira na Fig. 3.17g .

Fig. 3.17 Exemplos de assinaturas sob o ponto de vista dos gestos caractersticos: (a)
Gancho; (b) Clava, espiral e inflada; (c) Golpe de sabre; (d) Bucle; (e) Tringulo e lao;
(f) Guirlanda; (g) Serpentina; (h) Arco.

importante salientar o que foi dito anteriormente: a grafologia oferece um


conjunto de caractersticas que avaliam os aspectos psicolgicos de um escritor, usando
como ferramenta a escrita.

48

3.2.2 Consideraes sobre o grafismo

Foram apresentadas nos itens anteriores, as vrias formas de abordagens usadas


no estudo do grafismo e as peculiaridades de cada uma delas, em particular as duas de
maior importncia para o estudo da assinatura manuscrita, a grafoscopia e a grafologia.
No caso da grafologia, a contribuio encontra-se no conjunto de caractersticas que
determinam os aspectos psquicos do autor, usados nesse caso, como atributos que
diferenciam um autor do outro. O comportamento psicolgico reflete-se nas
caractersticas de sua escrita, e nesse caso essas caractersticas podem ser utilizadas
como elementos diferenciadores entre os vrios autores.

Na Fig. 3.18, apresenta-se um diagrama resumo das vrias abordagens do


grafismo e do conjunto de caractersticas pertencentes a cada uma dessas abordagens.

Fig. 3.18 Diagrama resumo das abordagens do grafismo e suas principais caractersticas.

A Tabela 3.3 apresenta uma relao entre a grafologia e a grafoscopia. Com isso
pode-se determinar um conjunto possvel de caractersticas a serem adotadas pelo
mtodo de verificao automtica.

49

Caractersticas

Grafoscopia
(genticos/genricos)

Grafologia
(mmica/simblica)

Calibre
Altura / largura / dimenso
Proporcionalidade
Regularidade / proporo
Espaamento
Espaamento
Comportamento Pauta Comportamento pauta Comportamento base
Comportamento Base
Progresso
Presso aparente
Progresso
Presso
Presso
Presso real
Gestos
Ataque / remate
Gestos caractersticos
Ocupao do Espao Grfico Ocupao do espao grfico
Mnimos Grficos
Mnimos grficos
Inclinao Axial
Inclinao axial
Tabela 3.3 Caractersticas combinadas da grafologia e da grafoscopia.

Calibre
Proporo

Levando-se em considerao as restries impostas pela aplicao e as


limitaes em relao base de dados de laboratrio, tem-se:

Comportamento Pauta Essa primitiva est ligada diretamente presena da


linha de base. Como nesse trabalho foram usadas imagens desprovidas dessa
informao, ela ser deliberadamente excluda do conjunto;

Presso No caso dos cheques bancrios existe a possibilidade do uso da


chancela, em Anexo. Sendo assim, incorporar a presso real como
caracterstica, no agrega conhecimento aplicvel como regra geral;

Mnimos Grficos Por tratar-se

de elementos grficos de dimenses

normalmente reduzidas, podem ser eliminados ou mesmo modificados


durante o processo de digitalizao ou pr-tratamente. Esse comportamento
pode produzir instabilidade;

Gestos Por

tratar-se de uma caracterstica provida de elementos

dissociados, pode dificultar a elaborao de um processo abrangente de


segmentao e extrao de caractersticas.

Ocupao do Espao Grfico No caso especfico dos cheques, onde o


espao destinado assinatura relativamente pequeno, o uso da ocupao do
espao grfico ficou restrito rea entorno da assinatura. Com o uso da
segmentao em clulas esse mapeamento pode ser executado, o processo de
segmentao est apresentado no Captulo 4.

50

Nesse momento torna-se possvel estabelecer um conjunto mnimo de


caractersticas associadas s classes de primitivas estticas e pseudo-dinmicas, confira
na Tabela 3.4. Esse o conjunto de caractersticas a serem utilizadas pelo mtodo
proposto. Sua implementao pode ser vista no Captulo 4.

Esttica

Pseudo-dinmica

Calibre

Progresso

Proporo

Forma

Espaamento

Inclinao Axial

Comportamento Base

Tabela 3.4 Relao de caractersticas associadas s classes de primitivas esttica e


pseudo-dinmicas.

3.2.2 Os modelos de Markov

O conceito usado nas cadeias de Markov de ligar a configurao do sistema,


num estgio de tempo t qualquer, configurao ocorrida no estgio imediatamente
anterior t-1. De forma geral, em um processo estocstico qualquer, a probabilidade de
ocorrncia de um estado est condicionada ocorrncia de outros estados anteriores,
sendo possvel, teoricamente, uma probabilidade condicional do tipo:

P(Xt = j | Xt-1 = i, Xt-2 = k, ..., X0 = m)

3.1

Isto , a probabilidade de ocorrncia do estado j no instante t, estaria condicionada


ocorrncia do estado i no instante t-1, do estado k no instante t-2 e assim por diante, at
o estado inicial m. J na cadeia de Markov, a probabilidade de estar em um estado, em
um instante futuro, pode depender do estado atual, mas no dos estados em tempos
passados. Sendo um processo estocstico com instantes discretos, no qual cada varivel
aleatria Xi depende somente da varivel aleatria anterior Xi-1, e influenciada somente
pela varivel subseqente Xi+1, pode-se escrever:
Pij = [ Xt = j | Xt-1 = i]

3.2

51

3.2.2.1 A matriz de transio


Considere uma cadeia de Markov com estados S1, S2, ..., Sn. Seja pij a
probabilidade de transio do estado i para o estado j. Ento a matriz P =[pij]
denominada de matriz de transio da cadeia de Markov. As probabilidades
condicionais pij, e a matriz de transio apresentam as mesmas caractersticas das
matrizes estocsticas, que so : P uma matriz quadrada de dimenso N, onde N o
nmero de estados do modelo (finito); o valor de pij deve estar entre zero e um, pois
representa uma probabilidade; o somatrio de todos os elementos j de uma dada linha i
deve ser igual a 1. J que os estados j correspondem a eventos mutuamente exclusivos e
exaustivos num estgio qualquer. Isto , se o estado n se encontra em um estgio i, no
prximo estado n+1, o sistema dever ocupar um dos N estados possveis, inclusive o
prprio estado i.

3.2.2.2 A probabilidade de transio


Considere uma cadeia de Markov com matriz de transio P = [pij] e seja pijt a
probabilidade de uma transio de estado i para o estado j, em um perodo de tempo t.
Ento, a matriz Pt = [pijt] denomina-se a matriz de transio de t passos da cadeia de
Markov, e igual potncia t da matriz P.
Pt = [pijt] Pt

pijt = [Xk+t = j | Xk = i]

3.3

3.2.2.3 Os modelos escondidos de Markov (MEM)

Os modelos escondidos de Markov ou (HMM Hidden Markov Model) so


tambm utilizados em reas do reconhecimento de padres. Entre os campos de
pesquisa esto o reconhecimento de voz [RABINER & JUANG, 1993], textos
tipografados [ELMS, 1996], textos manuscritos [AVILA, 1996] e [YACOUBI, 1996],
nmeros

manuscritos [LETHELIER & GILLOUX, 1995], texturas [POVLOV &

DUNN, 1995] e gestos [YANG et al., 1997].

52

O MEM um conjunto finito de estados, cada qual associado a uma distribuio


de probabilidade, geralmente multi-dimensional. As transies entre os estados do
modelo so governadas por um conjunto de probabilidades chamadas de probabilidade
de transio. Cada transio que sai de um estado marcada com: a probabilidade com
que a transio efetuada; um smbolo de sada; a probabilidade de emisso do smbolo
de sada, quando a transio estiver completa.

Os MEM so autmatos finitos, possuidores de um nmero finito de estados,


que esto diretamente associados a dois mecanismos de ligao, uma cadeia de Markov
subjacente tendo um nmero finito de estados e um conjunto de funes de densidade e
probabilidade da emisso de observaes associadas a um desses estados. A cadeia de
Markov troca ento de estado, conforme sua matriz de probabilidade de transio.

3.2.2.3.1 O modelo contnuo

Como visto anteriormente, nos modelos de Markov, em cada estado, a


distribuio de probabilidade deve ser definida sobre todo o conjunto de smbolos bj(k),
onde bj(k) representa a observao do smbolo k em um estado Sj. Esta distribuio
dita no paramtrica, e como tal no necessita de conhecimento a priori, assumindo que
exista um conjunto suficiente de dados de treinamento. Um conjunto contnuo de
densidade de observaes bj(x), elimina as distores do processo de quantificao, a
um custo muito elevado. Um desses custos reside no fato de necessitar-se de um
conhecimento a priori da funo de densidade e probabilidade (fdp). Se for, por
exemplo, uma distribuio Gaussiana, pode no refletir a verdadeira distribuio das
observaes. Essa uma das razes pelas quais Rabiner e Elms [RABINER & JUANG,
1993] e [ELMS, 1996], recomendam, na maioria dos casos, o uso de um modelo
discreto ao invs de um modelo contnuo.

3.2.2.3.2 O modelo discreto

Para descrever os modelos discretos de Markov, algumas definies devem ser


feitas. O modelo de Markov pode ser descrito pelo conjunto = (Q,V,A,B,,T), onde:

T o comprimento da seqncia de observaes;

53

Q = {q1, q2, ..., qn} o conjunto de estados do modelo, e qt designar o estado


corrente no instante t;

N o nmero de estados do modelo;

V = {v1, v2, ..., vM} denota o conjunto de smbolos observados possveis, e Vt designa
o estado corrente no instante t;

M o nmero de smbolos observados de um alfabeto;

A um conjunto de estados com probabilidades de transio, isto , representa a


matriz de transio entre os estados A = [aij], e

aij = A(i,j) = P(qt+1 = Sj | qt = Si)

onde,

(qt Q)

i,j [1..T]

3.4

denota o estado corrente, e o elemento aij corresponde a

probabilidade corrente do modelo transitar do estado qi para o estado qj,


satisfazendo todas as condies impostas pela matriz estocstica:
aij 0 i,j;

3.5

B a matriz de probabilidade de observao dos smbolos, B = [bjk]. O elemento


bj(k) representa a probabilidade de observao do smbolo vk quando o modelo achase em qj:

Bj(k) = P(Ot = vk | qt = Sj)

1 j N, 1 k M

3.6

onde vk representa o k-simo smbolo observado do alfabeto, e Ot representa a


observao corrente. Aqui tambm as condies estocsticas devem ser satisfeitas:

t+1( j) =[maxt (i)aij ].bj (Ot+1)


i

bj(k) 0

j, k

bj(k) = 1 j;

3.7

54

um conjunto de densidade de probabilidade inicial, = {i}i

= 1,2,...,N,

onde i

representa a probabilidade que um determinado estado possui de ser ele o estado


inicial do modelo, isto , o estado qi:

i = P[qi = i]

1 i N.

3.8

J que os elementos A, B e so necessrios e suficientes para representar o


modelo, a notao pode ser resumida em = (A, B,). Esse conjunto de parmetros,
definem a medida da probalidade para observaes, isto , P(O|).

3.2.2.3.3 Os tipos de MEM

Uma maneira de classificar os tipos de MEM atravs da estrutura de matriz de


transio A da cadeia de Markov. At o momento , dois modelos bsicos esto sendo
amplamente usados, o modelo ergtico e o modelo esquerda-direita. O modelo ergtico
ou completo de MEM, aquele em que todos os estados do modelo possuem uma
transio para os demais (em um nico passo), conforme exemplo na Fig. 3.19a.

Fig. 3.19 Exemplos de modelos discretos de MEM: a) Modelo ergtico; b) Modelo


esquerda-direita. Adaptado de [RABINER & JUANG, 1993].

O modelo esquerda-direita ou modelo de Bakis [RABINER & JUANG, 1993],


confira na Fig. 3.19b, possui a caracterstica de possuir transies (i,j) | aij = 0, isto , a
transio dos estados processa-se da esquerda para a direita. A propriedade fundamental

55

de todo MEM esquerda-direita que os coeficientes de transio de estado possuem a


seguinte propriedade:

Aij = 0,

j< i

3.9

Isto , nenhuma transio permitida para estados cujo ndice seja inferior ao corrente
estado. A probabilidade do estado inicial possui a seguinte propriedade:
0, i 1
i =
1, i =1

3.10

Isto possvel, pois a seqncia de estados deve comear no estado 1 e terminar no


estado N.

3.2.2.3.4 Os problemas bsicos do MEM

Rabiner [RABINER & JUANG, 1993] define trs problemas bsicos que devem
ser resolvidos para que os modelos de Markov possam ser utilizados no mundo real. Os
problemas so os seguintes:
1) Dada a seqncia de observaes O = (o1 o2 ... oT), e um modelo = (A,B,),
como calcular eficientemente P(O|), a probabilidade da seqncia de
observao, dado o modelo?
2) Dada a seqncia de observaes O = (o1 o2 ... oT), ), e um modelo =
(A,B,), como escolher a seqncia de estados q = (q1 q2 ... qT) que tima?
3) Como ajustar os parmetros do modelo = (A,B,), para maximizar P(O|)?

3.2.2.3.4.1 A evoluo da probabilidade

Para responder primeira questo formuladas no item 3.2.2.3.4, deve-se analisar


a evoluo da probalidade. Existem diversas maneiras de verificar a probabilidade de
uma observao, uma delas atravs da evoluo direta. Isto , a probabilidade das

56

observaes O, determinado o modelo , igual soma de todos os caminhos dos


estados possveis Q das probabilidades conjuntas de O em Q.
P(O | ) = P(O | Q, ) = P(O | Q, ) P(Q | )
Q

3.11

P(O | Q, ) = bq1 (O1 )bq2 (O2 ) bqT (OT ) e P(O | ) = q1 aq1q2 aq2q3 aqT 1qT

3.12

onde:

i o nmero de possibilidades de definitivamente estar no estados Si no instante 1;


aij o nmero de transies possveis de Si para Sj.
bij o nmeo de transioes possveis de Sj, em observao de Vk.
reduz-se a:
P(O | ) =

q1 , q 2 qT

b (O1 )aq1q2 bq2 (O2 ) aqT 1qT bqT (OT )

q1 q 2

3.13

Certamente a frmula (3.13) necessita de NT 1 adies e (2T 1)Nt multiplicaes,


isto , 2TNT operaes, o que computacionalmente torna-se invivel. A outra maneira
consiste em utilizar a evoluo pelos procedimentos Forward-Backward.
O Procedimento Forward [RABINER & JUANG, 1993]
Considere a varivel t(i) definida como

t(i) = P(o1 o2 ... ot, qt = i|)

3.14

isto , a probabilidade da seqncia parcial de observaes, o1 o2 ... ot, (at o tempo t) e


estado i no tempo t, dado o modelo . Pode-se determinar t(i) atravs da execuo da
seguinte seqncia:

57

Incio
1. Inicializao

1(i) = ibi(oi),

1 i N

3.15

2. Induo

N
t+1( j) = t (i)aij bj (ot+1),

i=1

1t T 1

1 j N

3.16

3. Trmino

P (O | ) =

i =1

(i )

3.17

Fim

A etapa 1 inicializa a probabilidade para frente ( forward) do estado i e a


observao inicial o1. A etapa de induo o ncleo do clculo forward, que ilustrado
na Fig. 3.20. A Fig. 3.20 mostra como o estado j deve ser carregado no temo t+1 dos n
estados possveis, i, 1 i N, no tempo t. A etapa 3 determina o clculo de P(O|), que
a soma das variveis forward finais T(i). Neste caso , pode ser definida como,

T(i) = P(o1 o2 ...oT, qT = i|)

3.18

e portanto P(O|) definido como a soma dos T(i)s.

Fig. 3.20 Seqncia de operaes requeridas para processamento da varivel forward

t(i). Adaptado de [RABINER & JUANG, 1993].

58

O Procedimento Backward [RABINER & JUANG, 1993]


De forma similar, deve-se considerar a varivel t(i) definida como

t(i) = (ot+1 ot+2 ... oT|qt = i,)

3.19

isto , a probabilidade da seqncia parcial de observao para t+1 at o final, dado o


estado i no tempo t e modelo . Novamente, pode-se determinar t(i) atravs do
seguintes passos:
Incio
1. Inicializao

T(i) = 1,

1iN

3.20

2. Induo
N

t (i) = aijbj (ot+1)t+1( j),

t =T 1, T 2, , 1,

1 i N

3.21

j =1

Fim

Na inicializao, etapa 1, t(i) arbitrariamente inicializado com o valor 1,


supondo que ao final a probabilidade deva ser mxima, para todo i. A etapa 2 pode ser
vista na Fig. 3.21, mostrando em que ordem devem estar o estado i no tempo t, e a
contagem para seqncia de observao no tempo t+1. Neste caso, devem ser
considerados todos os estados possveis j no tempo t+1, computando a transies de i
at j (os aij termos).

59

Fig. 3.21 Seqncia de operaes requeridas para processamento da varivel backward

t(i) . Adaptado de [RABINER & JUANG, 1993].


3.2.2.3.4.2 A seqncia tima de estados

A soluo do segundo problema apresentado por Rabiner [RABINER &


JUANG, 1993] e tambm citado no item 3.2.2.3.4, est ligado ao problema anterior,
para o qual a soluo exata pode ser dada. Existem muitos caminhos para solucionar o
problema 2 sendo que, a dificuldade reside na definio da seqncia tima de
observao.

Para implementar a soluo do problema 2, deve-se definir as variveis


da probabilidade a posteriori

t(i) = P(qt = i|O, )

3.22

isto , a probabilidade de iniciar no estado i no tempo t, dada a seqncia de observao


O, e o modelo . Pode-se representar t(i) na seguinte forma

t (i) =

P(O, qt = i | )
N

P(O, q = i | )
i=1

Como P(O,qt = i) igual a t(i)t(i), pode-se escrever t(i) como

3.23

60

t (i) =

t (i)t (i)
N

(i) (i)
i=1

3.24

O Algoritmo de Viterbi [RABINER & JUANG, 1993]

Para achar a melhor seqncia de estados, q = (q1 q2 ... qT), para um dada
seqncia de observaes O = (o1 o2 ... oT), deve-se definir a quantidade

t (i) = max P[q1q2 qt 1 , qt = i, o1o2 ot | ]


q1 , q2 , ,qt 1

3.25

onde t(i) a mais alta probabilidade ao longo de um caminho simples, no tempo t, com

( i )

max
2 ,

q 1 ,q

, q

P [ q

t 1

, q

i ,

| )

valores para as primeiras t observaes terminando no estado i. Por induo tem-se

t +1 ( j ) = [max t (i )aij ]b j (Ot +1 )

3.26

Para realmente recuperar a seqncia de estados, faz-se necessrio continuar trazendo o


argumento maximizado da equao 3.27a e b, para cada t e j. Pode-se fazer isso atravs
de um vetor t(j). O procedimento completo para encontrar a melhor seqncia de
estados apresentado a seguir.

61

Incio
1. Inicializao

1(i) = ibi(o1)

1 iN

3.27a

1(i) = 0.

3.27b

2. Induo

t ( j ) = max [ t 1 (i )aij b j (ot )],


1i N

t ( j ) = arg max [ t 1 (i )aij ],


1i N

2t T

1 j N

3.28a

2t T

1 j N

3.28b

3. Trmino

qT* = argmax[T (i)]

3.29a

P * = max [ T ( i )]

3.29b

1iN

1 i N

4. Caminho de retorno backtracking

qt* =t+1(qt*+1),

t =T 1, T 2, ,1

3.30

Fim

Assim, no processo para encontrar o caminho mximo provvel para a seqncia


de estados, o clculo de t(j) para 1 j N, usando a recurso 1(j), mantendo-se
sucessivamente apontado o estado timo, dentro do mximo encontrado nas operaes.

3.2.2.3.4.3 A reestimao dos parmetros

O terceiro e mais difcil problema de MEM descrito no item 3.2.2.3.6 consiste na


determinao de um mtodo para ajustar os parmetros do modelo = (A,B,), para
satisfazer um certo critrio de otimizao. O objetivo determinar os parmetros do
modelo que maximizem a probabilidade da seqncia de observao P(O|). Para essa
finalidade pode ser usado o algoritmo de Baum-Welch [RABINER & JUANG, 1993],
que utiliza um processo iterativo para re-estimao do modelo. O primeiro passo
definir t(i,j), a probabilidade de iniciar no estado i no tempo t, e estado j no tempo t+1,
dado o modelo e a seqncia de observaes, isto ,

t(i,j) = P(qt = i qt+1 = j|O, ).

3.31

62

A definio de t(i,j) atravs das variveis forward e backward a seguinte

t (i , j ) =

P ( qt = i, qt +1 = j , O | )
P (O | )

3.32

t (i )aij b j (ot +1 ) t +1 ( j )

t (i , j ) =

(i )a b (o
i =1 j =1

ij

t +1

) t +1 ( j )

3.33

Como definido na equao 3.24, t(i) a probabilidade de iniciar no estado i no tempo t,


dada a seqncia de observaes e o modelo, ento

t (i ) = t (i, j ),

1 i N

1 t M.

j =1

3.34

Agora pode-se descrever os parmetro do modelo, segundo t(i) e t(i,j),

3.35

i =1(i),

1i N

b j (k ) =

( j )

t =1,qt =vk
T

( j )

1 j N

1 i N

1 k M.

3.36

t =1

T 1

aij =

(i, j)
t =1
T 1

(i)
t =1

1 j N

3.37

onde
-

i o nmero de possibilidades de definitivamente estar no estado Si no instante 1;


-

a ij o nmero de transies possveis de Si para Sj.

b j (k ) o nmero definitivo de possibilidades de estar em Sj, em observao de Vk.

63

O algoritmo de Baum-Welch [RABINER & JUANG, 1993]


Incio
a ij0 , b 0j ( k ), i0

1 i, j N ,

1 k N

3.38

1. Fixar os valores iniciais

t (i, j), t (i),

1 i, j N,

1 t T 1, e

3.39

Enquanto limite de convergncia no ocorrer


2. Calcular as variveis forward-backward
Fim enquanto
Fim.

3.2.2.3.4.4 A estimativa inicial dos parmetros

Em teoria, as equaes de reestimativa so capazes de gerar valores para os


parmetros do MEM, que correspondem a um mximo local da funo de
probabilidade. O problema chave reside na escolha dos parmetros que proporcionem o
mximo local fechado se possvel, no mximo global da funo de probabilidade.

Rabiner e Yacoubi [RABINER & JUANG, 1993] e [YACOUBI, 1996], sugerem


que qualquer valor randmico ou estimao inicial uniforme de e A , so adequados
para a reestimativa dos parmetros, na maioria dos casos (mantendo as caractersticas de
uma matriz estocstica ). Para os parmetros de B, valores randmicos diferentes de
zero, que mantenham as caractersticas de uma matriz estocstica, so aceitveis. Na
prtica, quando o nmero de seqncias de observaes de treinamento no for o ideal
interessante o uso de uma matriz equiprovvel pois assim, evita-se o aparecimento
smbolos com probabilidade nula, na estimao inicial.

64

3.2.2.3.4.5 O efeito do nmero insuficiente de dados de aprendizado

Outro problema associado ao treinamento dos parmetros do MEM, via mtodos


de reestimativa, reside no nmero de seqncias de observaes usadas para o
aprendizado, que necessariamente finito. O inadequado nmero de ocorrncias de um
evento em particular, como a no ocorrncia de um determinado smbolo em um
determinado estado, produz probabilidades de ocorrncia nula. Isso acarreta problemas
no processo de induo.

Uma soluo para o problema incrementar o conjunto de aprendizado com


mais seqncias de observaes. Na maioria das vezes isto impraticvel. A segunda
soluo possvel reduzir o tamanho do modelo, isto , o nmero de estados e o nmero
de smbolos por estados. Mas isso nem sempre possvel, em funo de razes fsicas
onde um dado modelo usado, e portanto o tamanho do modelo no pode ser mudado.
Uma terceira soluo consiste em introduzir um termo que transforme os valores a uma
escala mais conveniente de clculo de cada estado da recurso, chamado de
reescalonamento [RABINER & JUANG, 1993]. Nesse trabalho em particular, o uso do
reescalonamento fez-se necessrio.

3.2.2.3.5 Os modelos escondidos de Markov e as mltiplas seqncias de


observaes

Como visto anteriormente, o MEM uma coleo de estados finitos conectados


entre si atravs de transies. Cada estado caracterizado por dois conjuntos de
probabilidades, uma probabilidade de transio e uma funo de densidade e uma
probabilidade que, dado o estado, define a probabilidade condicional de emisso de
cada smbolo de sada, de um alfabeto finito ou de um vetor randmico contnuo.

Um MEM multi-dimensional um MEM que possui mais de um smbolo


observvel em cada instante t. Uma maneira de modelar observaes multidimensionais usar uma mistura de Gaussianas. Com a escolha adequada, as densidades
mistas Gaussianas esto habilitadas a aproximar-se das funes de densidade e
probabilidade, com o objetivo de minimizar o erro entre duas funes de densidade.

65

Uma aproximao simplificada baseada na concepo de que cada dimenso


mutuamente independente. Em comparao com um modelo convencional de MEM
Gaussiana mista, essa abordagem razovel em termos da modelagem do erro. A
abordagem simplificada pode ser considerada mais eficiente na estimao dos
parmetros do modelo.

Baseada nessa abordagem simplificada, a estrutura multi-dimensional da matriz


A idntica utilizada nos modelos de MEM de uma dimenso. No entanto, os modelos
de MEM multi-dimensionais possuem vrias matrizes B, cada qual caracterizando a
distribuio estocstica de cada dimenso. De acordo com os dados multi-dimensionais,
os algoritmos originais do MEM devem ser modificados. Para uma dimenso R de
MEM, no estado qt = Si, MxR distintos smbolos de sada O1, O2, ..., OM podem ser
observados, onde R a dimenso do espao dimensional e Ok = [Ok(1), Ok(2), ...,
Ok(R)]. Em geral, o processamento de mltiplas dimenses muito mais complexo do
que em uma dimenso. Sendo assim, vrias consideraes prticas devem ser usadas
para simplificar o processamento [YANG et al., 1997]. Dentro do conceito da
independncia estocstica, a probabilidade de sada do MEM multi-dimensional pode
ser determinada como sendo o produto das probabilidades individuais de cada
dimenso. Baseado nesse conceito, a varivel forward pode ser determinada por
N
R
t +1( j) = t (i)aij bj (ot +1(l)),
l =1
i =1

1 t T 1

1 j N

3.40

onde R o nmero de dimenses e

t (i) =P(O1O2 ...Ot , St = i / ).

3.41

Similarmente, a varivel backward pode ser determinada por


N
R
t (i) = aij t +1 ( j)b j (Ot +1 (l ))
j =1
l =1

onde definida por

3.42

66

t (i ) = P(Ot +1 Ot + 2 OT | S t = i, ).

3.43

Usando um MEM multi-dimensional, o aprendizado possvel atravs do ajuste


dos parmetros do modelo (A,B,), para maximizar a probabilidade da seqncia de
observaes. O algoritmo de Baum-Welch [RABINER & JUANG, 1993] pode ser
estendido para o caso multi-dimensional, baseado no conceito de independncia mtua:

= 1

3.44

T 1

aij =

t =1
T 1

(i, j )


t =1

b (j l ) (k ) =

(i, j )

3.45

t
tOt ( l ) = vk( l )

( j)
, l = 1,2, R

( j)

3.46

onde vk(l) a observao do smbolo e

j = 1,2, N ,

t (i, j ) =

k = 1,2, M

t (i )a ij b j (Ot +1 ) t +1 ( j )

3.47

P (O | )

t (i ) = P ( St = i | O, )

3.48

P(O | ) = T (k )
k =1

t (i ) =

t (i ) t (i )
N

k =1

(k )

3.49

.
3.50

67

A adoo de um MEM multi-dimensional, nos processos de aprendizado e


verificao, propicia a manuteno da mtua independncia entre as duas classes de
primitivas, a esttica e a pseudo-dinmica.

3.2.2.3.6 Consideraes sobre o MEM

Existem dois elementos importantes na abordagem de verificao usada por esse


trabalho, que esto diretamente relacionados com o MEM. O primeiro est ligado ao
processo de aprendizado. No caso especfico dos cheques bancrios, o nmero de
espcimes originais coletados atravs do carto de assinaturas so somente trs. Esse
nmero considerado pela literatura insuficiente para a gerao de um modelo
adequado. Essa restrio deve ser estudada, a fim de estabelecer um valor mnimo de
espcimes para o treinamento. Se necessrio, viabilizar o desenvolvimento de um
mtodo para a gerao de espcimes adicionais, a partir dos trs originais, usando
deformaes controladas [OLIVEIRA et al., 1997]. Como a base de dados usada nesse
trabalho possui 40 amostras, foram selecionadas 20 para o aprendizado, 10 para a
validao cruzada [YACOUBI, 1996] e o restante para os testes.

O segundo elemento refere-se ao algoritmo de gerao da probabilidade


de verificao. O algoritmo de Viterbi foi consagrado pela literatura como sendo o mais
adequado para essa etapa [YACOUBI, 1996], [RABINER & JUANG, 1993], [RIGOLL
& KOSMALA, 1998], [ELMS, 1996], [AVILA, 1996] e [LETHELIER & GILLOUX,
1995]. Ele possui a vantagem da visualizao do caminho de mxima probabilidade. No
entanto, a probabilidade final determinada pela mxima probabilidade encontrada
entre os N estados da seqncia. O algoritmo de Forward, usado pelo algoritmo de
Baum-Welch, o responsvel pela determinao da probabilidade de aprendizado, que
definida pela probabilidade no estado N. Como a definio dos limiares de aceitao e
rejeio de um assinatura estabelecido a partir da probabilidade de aprendizado,
optou-se por utilizar o mesmo algoritmo na fase de verificao. Foram feitos testes
usando os dois casos, comprovando que essa escolha foi adequada.

68

3.2.3 A quantizao vetorial e a aglomerao

Na seo anterior foram apresentados dois tipos de modelos de MEM, os


contnuos e o discretos. Os modelos de MEM discretos so adequados para processos
de modelagem que emitem as seqncias de valores de observaes discretas. J nos
modelos contnuos, existem a presena das seqncias de valores contnuos das
observaes. Em funo disso, os modelos representam tipicamente funes de
probabilidade de observao numa combinao de distribuies Gaussianas.

Isso

resulta num elevado nmero de parmetros que devem ser estimados durante o processo
de aprendizado, o que leva os modelos a necessitarem de um elevado nmero de
espcimes de dados para treinamento. O processo de quantizao vetorial (QV) ou
Vector Quantization permite que modelos discretos representem observaes contnuas,
atravs do mapeamento de cada observao contnua em um smbolo de um alfabeto
discreto. Isso possvel particionando-se o vetor de espao contnuo de n-dimenses em
um nmero de clulas chamado lxico ou codebook, e mapeando essas observaes
contnuas em uma das clulas do lxico. O QV exige recursos modestos, em relao aos
dados, nos modelos discretos. No entanto, apresenta distores provocadas pelo
processo de mapeamento do vetor contnuo em um conjunto de clulas do modelo
discreto.

3.2.3.1 A quantizao vetorial


Assumindo-se que x = [x1 x2 x3 ... xn] T seja um vetor de n-dimenses, cujos
componentes {xk, 1 k N}

pertencem ao campo dos nmeros reais, numa

representao contnua. No QV, o vetor x mapeado em outro campo dos nmeros


reais, mas num campo discreto representado por um vetor y de n-dimenses. Sabe-se
que x quantificado por y, e y representa o vetor quantificado dos valores de x. Pode-se
escrever ento que

y =q(x)

3.51

onde q(x) representa o operador de quantificao. O vetor y apenas chamado de vetor


de reconstruo. Tipicamente, y possui um nmero finito de termos yi = {yi1 yi2 ... yin}T,

69

onde y = {yi 1 i L}, L representa a dimenso do lxico e yi representa o conjunto de


vetores de cdigos. O vetor yi tambm chamado, em reconhecimento de padres, de
template. O tamanho n do lxico chamado tambm de nmero de nveis. Para
projetar um lxico, como j foi dito, particiona-se o espao n-dimensional do vetor x em
L regies ou clulas {Ci, 1 i L} e associado a cada clula Ci tem-se um vetor yi. A
quantificao dos vetores x em yi feita se x pertence a Ci, ou seja:

q(x) = yi,

se x Ci.

3.52

O processo de gerao do lxico chamado de treinamento ou populating the codebook.


A Fig. 3.22 apresenta um exemplo do processo de particionamento de um espao de
duas dimenses (n = 2). A regio includa pelas linhas, que formam as regies limites,
so as clulas Ci. Qualquer entrada do vetor x que se enquadre na clula Ci
quantificada em yi. A posio dos vetores do lxico, correspondendo aos outros
centrides das outras clulas, esto representados por

pontos. O nmero total de

lxicos, nesse exemplo, L = 18.

Fig. 3.22 Particionamento de um espao bidimensional (N = 2) em L = 18 clulas.


Todos os vetores de entrada Ci devem ser quantificados no vetor de cdigo yi. Adaptado
de [RABINER & JUANG, 1993].
Como visto anteriormente, o processo de quantificao envolve o mapeamento
do vetores x nas clulas Ci . Distores so introduzidas em todos os pontos quando esse
processo ocorre. A distoro mdia total D, pode ser calculada atravs da medida da
distoro d(x,y), para um valor x quantificado em y:

70

D = [d(x,y)]
L 1

D = P[ x Ci ]
i =0

3.53

d ( x, y ) p( x)dx

3.54

x Ci

onde: o fator de expectncia de haver L clulas Ci no lxico, P[x Ci] a


probabilidade discreta de x estar em Ci e p(x) a funo de probabilidade de x.

3.2.3.1.1 A medida das distores

A idia do algoritmo de QV usualmente a de minimizar a distoro mdia


geral, introduzida pelo processo de quantificao. Essa distoro total definida pela
equao 3.53 em termos de d(x,y), a medida da distoro introduzida quando o vetor x
for codificado na clula y. Portanto, a forma de determinar d(x,y) fundamental para a
gerao do lxico.

No contexto da medida de distoro, y o vetor de cdigos onde x codificado e


yk a k-sima dimenso de y. A forma mais comum de medir a distoro definida por

d 2 ( x, y ) =

1
N

(x
k =1

yk ) 2

3.55

onde d2(x,y), representa o erro mdio quadrtico. De uma maneira mais geral, pode-se
escrever

1
d r ( x, y ) =
N

| x
k =1

y k |r .

3.56

Os valores mais comuns de r so r=1 e r=. Onde d1 representa o erro mdio


absoluto e d tende em direo ao erro mximo. Minimizando D com r= equivalente
a minimizar o erro de quantificao mximo.

71

O erro mdio quadrtico assume que cada dimenso do vetor contribui


igualmente para o erro. O erro mdio quadrtico com peso pode ser definido como
dW ( x , y ) = ( x y ) T W ( x y )

3.57

onde W a matriz de peso. Se W = -1, onde representa a matriz de covarincia do


vetor qualquer x, ento dW representa a distncia de Mahalanobis [ELMS, 1996].
Em um modelo Gaussiano, cada clula ou classe requer a estimao de sua
matriz de covarincia. importante, para a reorganizao dos pontos que compem as
classes, no existir um nmero de pontos inferior s dimenses do vetor x, em cada
classe. Se isso ocorrer,

a matriz inversa da matriz de covarincia pode no ser

determinvel, e a distncia de Mahalanobis no poder ser calculada.

3.2.3.1.2 O projeto de um lxico

Para projetar-se um lxico necessrio um conjunto de vetores que possam


representar o tipo e distribuio encontradas durante uma operao normal de um QV,
isto , um conjunto de treinamento. O processo de gerao do lxico envolve a
aglomerao ou clustering desse conjunto de vetores em clulas, como descrito
anteriormente. O particionamento interativamente refeito at que a distoro mdia
total atinja o mnimo. Para um particionamento particular dos vetores de treinamento, o
clculo da distoro mdia total exige inicialmente o clculo dos vetores representativos
de cada clula e s ento os vetores em cada clula podem ser quantificados tambm.
Para o erro mdio quadrtico ou erro mdio quadrtico com peso, a distoro total
minimizada se os vetores respectivos de uma clula forem a mdia simples desse
vetores de treinamento.

O algoritmo para gerao de lxico mais utilizado o LBG (Linde, Buzo and
Gray algorithm), do qual o algoritmo de agrupamento K-means tem origem numa
verso simplificada utilizado na prtica. Ele tambm genericamente chamado de

72

Lloyd algorithm, na literatura terica [ELMS, 1996]. O algoritmo essencialmente o


seguinte:

Incio
1. Inicializao
Inicia m 0. // Escolhe o conjunto inicial de smbolos.
2. Classificao
//Classifica o conjunto de vetores de treinamento da clula
// representativa de um smbolo que esteja mais prximo,
// que satisfaa a regra:
x Ci(m),

se d(x,yi(m)) d(x,yj(m))

para j i

3.58

3. Atualiza o Vetor de Cdigo


m m + 1. // O vetor de cdigo de cada clula recalculado
// atravs de um simples mdia dos
// vetores de treinamento contidos na mesma.
4. Trmino
Se a diferena em termos da distoro mdia total,
entre a iterao atual e a iterao anterior
for menor que o limiar determinado
ento
parar
seno
voltar ao passo 2
fim-se
Fim

3.2.3.2 A aglomerao

A objetivo do processo de aglomerao ou clustering encontrar alguns


agrupamentos entre os vetores de um conjunto no espao Euclidiano n-dimensional. Em
uma ou duas dimenses fcil visualizar , confira exemplo na Fig. 3.23. No exemplo,
um conjunto de vetores encontra-se distribudo em trs classes ou clulas, chamadas
classes ou clusters.

73

Fig. 3.23 A representao de um agrupamento de trs classes no espao bidimensional.


Para o desenvolvimento de um algoritmo de aglomerao, necessrio que haja
vrias medies de distncias entre os vetores x e y. A medida utilizada com mais
freqncia a distncia Euclidiana:
D = ||x y|| .

3.59

O algoritmo de aglomerao pode ser formulado de maneira a permitir

minimizao da funo usada como critrio de deciso para o problema. Uma das
funes mais utilizadas como critrio a minimizao da soma dos erros quadrticos:

J = || x j || 2
j =1 xC j

3.60

onde k o nmero de classes, Cj o conjunto de exemplares que constituem o j-sima


classe e j a mdia simples da classe Cj:

j =

1
Nj

xC j

3.61

Nj o nmero de exemplares contidos em Cj.


Vrias medidas de distncia e funes critrios tm sido propostas na literatura,
mas o que foi apresentado suficiente para os mtodos mais comuns de aglomerao,
entre eles o k-means.

74

3.2.3.3 Consideraes prticas sobre o QV

Elms [ELMS, 1996] descreve a dependncia que existe entre o nmero mnimo
de vetores x pertencentes a uma classe em relao s dimenses de x. Segundo Elms,
existe uma tendncia de usar-se uma relao de Ni > 2n ou Ni > 5n, onde Ni representa o
nmero de vetores pertencentes a uma classe e n a dimenso do vetor x.

Na quantificao dos modelos de assinatura dos vrios autores, o QV necessita


de um conjunto mnimo de espcimes representativo de cada um. Isto , na definio do
nico conjunto de centrides existentes, participam os espcimes de assinaturas
pertencentes a cada autor, chamado conjunto de treinamento. No processo de gerao da
seqncia de smbolos, tanto para a base de teste e validao como para a de
treinamento, usa-se o mesmo conjunto de centrides. A Fig. 3.24 apresenta o diagrama
representativo.

Fig. 3.24 Diagrama representativo

do sistema de QV usando o mesmo modelo para

todos os escritores.

Esse processo possui a vantagem de conter um conjunto mnimo e suficiente de


espcimes para o treinamento. Outra vantagem elevar o nmero de smbolos usados, o
que favorece uma adequada separao entre as classes de smbolos ou centrides. A
desvantagem a generalizao do modelo, o que possibilita uma elevao da taxa de
confuso entre diferentes modelos de assinaturas. No entanto, como esse

75

comportamento est ligado diretamente s caractersticas dos dados envolvidos,


recomendvel usar-se um subconjunto dessa base para avaliar o comportamento das
classes, variando o tamanho do lxico. Esse procedimento permite estimar, de maneira
satisfatria, o tamanho adequado do mesmo.

3.3 Comentrios finais

Nesse captulo foi apresentado o mtodo proposto para a verificao automtica


de assinaturas e as ferramentas a serem utilizadas em sua implementao. No prximo
Captulo sero apresentadas detalhadamente cada uma das fases que o compe.

Captulo 4 O Pr-tratamento, a Segmentao e a Extrao


de Primitivas

Nesse Captulo sero abordados os procedimentos adotados na implementao


dos processo de pr-tratamento, segmentao e extrao de primitivas, tendo como base
a proposta apresentada no Captulo anterior.
4.1 O pr-tratamento

Em Anexo encontram-se as normativas do Banco Central para a definio das reas de


preenchimento dos cheques bancrios brasileiros. A rea destinada assinatura de
aproximadamente 3x10 cm, sofrendo pequena variao de banco para banco, confira na
Fig. 4.1. A correspondncia em pixel, para uma densidade de pixels de 300 dpi, de
400x1000 pixels. Como nesse estudo foi usada uma base de laboratrio, com imagens
de 1000x400 pixels e 256 nveis de cinza em um fundo branco, foi adotado um processo
de pr-tratamento diferenciado. No entanto, tal processo atende s mesmas restries do
pr-tratamento dos cheques bancrios reais.

Fig. 4.1 Imagem de um cheque bancrio brasileiro e a delimitao da rea destinada


assinatura.

77

O pr-tratamento elaborado, para esse estudo, pode ser dividido na seguintes


etapas:

No processo de binarizao da imagem em nveis de cinza, usando o


mtodo de Abutaleb

[ABUTALEB,1989]. A escolha desse mtodo teve

como base os resultados satisfatrios obtidos com a base de laboratrio;

Na extrao do ncleo da imagem da assinatura atravs de um processo de


afinamento [HUANG & YAN, 1997] e retirada dos rudos ainda existentes,
atravs dos processos morfolgicos de abertura e de fechamento.

Tanto a imagem binria como o ncleo dessa imagem so usados pelos


processos de extrao de caractersticas. importante salientar que nenhum processo de
normalizao foi utilizado. Os processos de normalizao possuem a propriedade de
deformar geometricamente a imagem, favorecendo a perda de informaes relevante da
escrita.

Na Fig. 4.2a, observa-se uma imagem digitalizada em 256 nveis de cinza. Na


Fig. 4.2b, observa-se a imagem binarizada pelo mtodo de Abutaleb. Na Fig. 4.2c,
apresenta-se o resultado do processo de afinamento da imagem binria, que encerra o
processo de pr-tratamento.

(a)

(b)

78

(c)

Fig. 4.2 (a) Imagem de uma assinatura em nveis de cinza; (b) Imagem binria; (c)
Ncleo da assinatura.

4.2 A segmentao

Aps a fase de pr-tratamento necessrio segmentar a imagem da assinatura


em entidades elementares. Essas entidades constituem os elementos bsicos a serem
modelados pelo mtodo de verificao de assinaturas. As justificativas para a adoo de
um processo de segmentao em clulas esto descritas no Captulo 2, onde so feitas as
anlises de alguns mtodos [ROSENFELD et al., 1997], [SABOURIN & GENEST,
1994] e [RIGOLL & KOSMALA, 1998].

Sabourin, Huang e Rigoll [SABOURIN & GENEST, 1994], [HUANG & YAN,
1997] e [RIGOLL & KOSMALA, 1998], usaram a grade ou grid como ferramenta de
segmentao. Como o unidade elementar das assinaturas so os segmentos, e esses
possuem

formas e comprimentos variados, torna-se difcil a avaliao de sua

importncia no contexto geral da assinatura. A anlise local de uma clula da grade


permite a adoo de critrios de seleo desses segmentos. Deve-se lembrar tambm,
que a ausncia de segmentos pode ser relevante, como por exemplo nos espaos em
branco entre dois ou mais blocos de uma assinatura, ou mesmo a anlise da ocupao do
espao grfico, na parte superior e inferior da mesma. Todas essas caractersticas podem
ser absorvidas atravs do uso da grade, j que se trata de uma segmentao abrangente.

Sabourin e Genest [SABOURIN & GENEST, 1994] usaram a grade para


calcular o comprimento das projees locais dos segmentos dentro de cada clula.
Rigoll e Kosmala [RIGOLL & KOSMALA, 1998], realizaram a contagem dos pixels
contidos nas mesmas. A diferena relevante entre os dois mtodos de segmentao

79

encontra-se na determinao dos limites superiores, inferiores, esquerdo e direito da


grade. Rigoll e Kosmala usaram a altura e a largura da assinatura para determinar os
limites da grade, portanto exigindo o ajuste do tamanho da mesma em funo do
nmero de clulas verticais desejado, tamanho este que sofre alteraes em funo das
variaes intrapessoais, como por exemplo altura e largura, confira na Fig. 4.3a.
Sabourin e Genest limitaram a grade dentro de uma rea fixa de escrita previamente
determinada. Nesse ltimo caso, existe a variao do tamanho das clulas e do nmero
delas dentro dessa rea, confira na Fig. 4.3b . A grade fixa permite avaliar a ocupao
do espao superior e inferir da rea destinada assinatura, de maneira semelhante aos
envelopes superior e inferior usados pelo mtodo de Chaudhury e Bajaj
[CHAUDHURY & BAJAJ, 1997]. Os mtodos de Sabourin e Rigoll apresentam
caractersticas importantes, que podem ser usadas no processo de segmentao.

Fig. 4.3 (a) Grade usada por Rigoll e Kosmala; (b) Grade usada por Sabourin e Genest.
Adaptado de [RIGOLL & KOSMALA, 1998] e [SABOURIN & GENEST, 1994].

4.2.1 A estratgia de segmentao adotada

A grade pode ser utilizada nesse caso com algumas restries. A primeira
restrio encontra-se na obedincia dos limites impostos pelas dimenses da rea
destinada assinatura nos cheques bancrios brasileiros. O uso de toda a rea, como no
mtodo apresentado por Sabourin e Genest, s ocorre na direo vertical. Na direo
horizontal, o incio e o final da assinatura no ultrapassam os limites impostos pela rea
destinada assinatura. Isto similar ao modelo usado por Rigoll e Kosmala. A
justificativa para essa deciso apresentada nas imagens sobrepostas da Fig. 4.4. O
conjunto de assinaturas foi centrado usando como sistema de eixos o centro de
gravidade. Mesmo nas assinaturas mais comportadas, isto , que sofrem poucas
variaes entre os vrios espcimes na Fig. 4.4 , possvel notar os deslocamento mais
significativo no sentido horizontal que no vertical. A razo desse fenmeno esta ligado

80

diferena entre a altura e a largura da rea destina assinatura no cheque. Como a altura
significativamente menor, o escritor induzido a manter uma escala mais regular ao
assinar. Esse fenmeno pode ser visto no estudo estatstico apresentado no Captulo 2,
que trata da ocupao do espao grfico.

(a)

(b)

(c)
Fig. 4.4 Exemplos da sobreposio das imagens afinadas dos vinte espcimes da base de
aprendizado.

Na direo horizontal ocorre o fenmeno inverso, isto , como existe um espao


maior para a assinatura, o escritor tende a variar a escala como mais freqncia nessa
direo, provocando assim desvios maiores. Para minimizar esse efeito, aconselhvel
iniciar a grade sempre no ponto mais esquerda da assinatura, propiciando o
enquadramento do conjunto de clulas verticais de cada espcime, confira na Fig. 4.5.

81

(a)

(b)

(c)

(d)

Fig. 4.5 Exemplos dos modelos de grade quadrada: (a) Grade com resoluo de 40
pixels; (b) Grade com resoluo de 20 pixels; (c)Grade com resoluo de 16 pixels; (d)
Grade com resoluo de 10 pixels.

4.2.1.1 A estratgia de segmentao horizontal

O grafismo divide a rea da escrita em 3 zonas, a zona superior, a zona mdia e


a zona inferior, confira na Fig. 4.6a. A rea da zona mdia definida pelo corpo
principal do texto, a rea inferior descreve os descendentes e laos e rea a superior
descreve os ascendentes e laos. O uso da rubrica desfavorece a adoo dessa tcnica,
pois a mesma pode possuir formas totalmente diferentes de um texto escrito.

82

Por questes prticas, determinadas pelas dimenses da rea destinada


assinaturas nos cheques, restringiu-se o nmero de zonas de segmentao a serem
usadas e o correspondente nmero de pixels. Dividiu-se inicialmente a rea destinada s
assinaturas em 4 zonas, todas com tamanhos iguais, no levando em considerao o
corpo da assinatura, os laos superiores e os inferiores, confira na Fig. 4.6b. O uso de 4
zonas iniciais est relacionado diretamente com o nmero em pixels que compem a
altura da rea destinada assinatura no cheque.

(a)

(b)
Fig. 4.6 (a) Segmentao usada pelo grafismo; (b) Exemplo de uma segmentao com 4
zonas de tamanho fixo.

O uso de mltiplas resolues traz consigo a propriedade de tratar cada clula


sob diferentes nveis de abstrao. Esses nveis podem auxiliar no desempenho isolado
de cada primitiva. A Tabela 4.1 apresenta um conjunto possvel dessas resolues.

83

Resoluo das Clulas

Nmero de Clulas Verticais

Nmero de Pixels na
Vertical

Baixa

100

Baixa

80

Mdia

50

Mdia

10

40

Mdia

16

25

Alta

20

20

Alta

25

16

Tabela 4.1 Segmentao com mltiplas resolues.

O limite superior apresentado pela Tabela 4.1, 25 clulas (16 pixels), foi
definido usando como referncia o dobro da espessura mdia dos segmentos
encontrados nas assinaturas dos autores da base de aprendizado (300dpi e qualquer tipo
de caneta).

Do conjunto de resolues apresentados, foram escolhidas os extremos e o ponto


mdio. Isso foi feito com o objetivo de avaliar a segmentao em pelo menos trs nveis
de abstrao, do global para o local.

4.2.1.2 A estratgia de segmentao vertical

Para o uso adequado do MEM necessrio existir um nmero mnimo de


observaes, que descreva adequadamente as caractersticas de uma assinatura. O uso
de clulas quadradas pode comprometer o desempenho em funo da insuficincia de
observaes na seqncia em determinada resolues de clulas, confira na Fig. 4.7.

84

(a)

(b)

(c)

(d)

Fig. 4.7 (a) e (b) Seqncias de observaes, usando clulas quadradas;(c) e (d)
Seqncias de Observaes, usando clulas retangulares.

Na Fig. 4.8 so apresentadas as grades com as resolues escolhidas na Tabela


4.1.

(a)

(b)

85

(c)
Fig. 4.8 (a) Baixa resoluo com 4 clulas verticais; (b) Mdia resoluo com 10
clulas verticais; (c) Alta resoluo com 25 clulas verticais.

4.2.2 As caractersticas do grafismo incorporadas pelo mtodo de segmentao

O uso da grade possibilita a observao das caractersticas pessoais de cada


escritor, propiciando numa primeira instncia, a discriminao de assinaturas de
diferentes autores. A anlise da ocupao do espao grfico permite incorporar um
subconjunto relevante de primitivas estticas, descritas no Captulo 3.

4.2.2.1 As primitivas estticas

O calibre: Atravs das clulas em branco, possvel distinguir assinaturas cuja


forma geral (altura e largura) sejam discrepantes, confira na Fig. 4.9;

(a)

(b)

Fig. 4.9 Calibre ( Caractersticas do grafismo): (a) Assinatura alta; (b) Assinatura baixa.

86

A proporo: A distribuio geomtrica das clulas em branco (regular ou irregular),


oferece um mapeamento satisfatrio da forma, confira na Fig. 4.10;

(a)

(b)

(c)
Fig. 4.10 Exemplo da incorporao da proporo: (a) Assinatura proporcional; (b)
Assinatura desproporcional; (c) Assinatura mista.

O espaamento: As clulas em branco, existentes entre cada bloco da assinatura,


permitem uma avaliao aproximada das dimenses dos espaos entre brancos,
confira na Fig. 4.11;

87

(a)

(b)

Fig. 4.11 Exemplo da incorporao do espaamento: (a) Assinatura com vrios espaos
entre blocos; (b) Assinatura sem espaos.

O comportamento base: O comportamento base pode tambm ser descrito atravs da


distribuio geomtrica das clulas em branco, confira na Fig. 4.12.

(a)

(b)

Fig. 4.12 Exemplos da variao do comportamento base.

4.2.2.2 As primitivas pseudo-dinmicas

As caractersticas pseudo-dinmicas, como progresso, formas e inclinao


axial, representam o comportamento dinmico da escrita e portanto, no so descritas
adequadamente pela anlise de ocupao do espao grfico. Nesse caso, recomendvel
usar os elementos da escrita.

88

4.3 A extrao de primitivas

A escolha das primitivas de fundamental importncia para o mtodo de


verificao. A robustez de um mtodo cresce de maneira proporcional qualidade das
mesmas.

Uma das caractersticas mais importantes, que uma primitiva ligada

assinatura deve possuir, a insensibilidade s deformaes da imagem e s variaes


intrapessoais. No entanto, deve ser capaz de identificar os aspectos que diferenciam as
assinaturas de autores distintos e de possveis falsificaes.

A classificao dos mtodos de extrao de primitivas, descritos no Captulo 2,


evidenciam o conjunto elevado de possibilidades, tanto na escolha das caractersticas
relevantes, como os mtodos de implementao adotados na extrao. No item anterior
foram apresentados os critrios de segmentao que envolvem a anlise da ocupao do
espao grfico e seu relacionamento com as primitivas estticas. Nesse momento,
inicia-se a incorporao das informaes da escrita propriamente dita, relacionadas
diretamente com os traos da assinatura.

4.3.1 As primitivas adaptadas s caractersticas estticas

4.3.1.1 A densidade de pixels

Uma da maneiras de descrever a taxa de ocupao do espao dimensional de


uma imagem utilizar, para tanto, primitivas que determinem as distribuio estatsticas
dos pontos nessa imagem. A densidade de pixels possui a virtude de incorporar um
descritor estatstico, o que propicia a sua insensibilidade s variaes intrapessoais,
confira na Fig. 4.13.

A determinao da densidade de pixels realizada atravs da contagem dos


pixels existentes em cada uma das clulas da grade. Cada clula representada por um
valor numrico inteiro, que quantifica a populao de pixels da mesma [BRUYNE &
FORR, 1986] e [RIGOLL & KOSMALA, 1998].

89

Fig. 4.13 Imagem binria de uma assinatura e a correspondente tabela de densidade de


pixels.

4.3.1.2 A distribuio de pixels

Sabourin e Genest [SABOURIN & GENEST, 1994] apresentaram uma primitiva


geomtrica, que descreve a distribuio de pixels em um clula, chamada Extended
Shadow Code (ESC), confira na Fig. 4.14.

Fig. 4.14 Exemplo do uso do ESC . Adaptado de [SABOURIN & GENEST, 1994].

Os sensores dispostos nos limites verticais e horizontais de cada clula,


juntamente com os sensores em diagonal, determinam os valores em nmero de pixels e

90

das projees dos traos contidos na mesma. O conjunto de valores obtidos descrevem
adequadamente a distribuio geomtrica dos pixels.

Os sensores em diagonal podem adicionar informaes redundantes. Sendo


assim, optou-se por uma arquitetura simplificada, confira na Fig. 4.15. Nesse caso,
usou-se somente os sensores verticais e horizontais, correspondendo s faces da clula.
A clula subdividida por um sistema de eixos, que tem como origem seu centro. A
projeo do trao a partir do sistema de eixos, sob cada face da clula, determina o
comprimento m, que representa a distribuio dos pixels. Esse valor posteriormente
normalizado pelo tamanho da face.

Fig. 4.15 Exemplo do uso dos sensores na determinao da distribuio de pixels.

4.3.2 As primitivas adaptadas s caractersticas pseudo-dinmicas das assinaturas

4.3.2.1 A inclinao axial

Dentro das classes de primitivas geomtricas de uma assinatura, e que se


enquadra como uma primitiva pseudo-dinmica, encontra-se a inclinao axial. Ela
descreve os aspectos dinmicos do traado, durante o processo de escrita, confira na
Fig. 4.16.

91

Fig. 4.16 Exemplo da caracterstica inclinao axial.

A determinao do ngulo de inclinao axial foi usada por Hunt e Qi [HUNT


& Qi, 1995] em duas etapas. Na primeira, foi usada uma anlise local dos segmentos
dominantes da assinatura, atravs da direo que produziu a mxima projeo medida
em cada segmento dominante. Na segunda, foi usada uma anlise global da direo dos
segmentos da imagem da assinatura, atravs da direo que produziu o maior nmero de
ocorrncias de linhas conectadas usadas para medir a inclinao global. A combinao
dos dois resultados gera ento, o valor do ngulo global de inclinao axial da
assinatura.

O uso de apenas um valor angular, para descrever a inclinao axial, pode


induzir a um processo de generalizao, levando assim ao aumento da taxa de erro de
falsa aceitao. Isso pode ocorrer principalmente envolvendo as falsificaes servis.

O uso de uma anlise local, envolvendo cada clula, introduz elementos de


acuidade na determinao da inclinao axial. O processo executado atravs da
contagem do nmero de ocorrncias de cada um dos elementos estruturantes descritos
na Fig. 4.17. O elemento estruturante de maior ocorrncia, dentro da clula, passa a
representar o smbolo da mesma, confira na Fig. 4.18.

92

Fig. 4.17 Conjunto de elementos estruturantes que representam os tipos de inclinao


axial das clulas.

Fig. 4.18 Ncleo da imagem de uma assinatura e a correspondente tabela de inclinao


axial.

4.3.2.2 A forma

Na determinao da forma, optou-se por utilizar as concavidades dos


segmentos. A medida estatstica das concavidades apresentada por Lecolinet
[LECOLINET, 1990], aplicada a dgitos numricos, apresenta propriedades importantes
capazes de descrever, adequadamente, o comportamento angular do segmento.

93

Para cada pixel branco do plano de fundo da clula, so analisados as quatro


direes, esquerda, direita, para cima e para baixo. O objetivo determinar a
presena ou no de um segmento da assinatura. O nmero de ocorrncias de cada
smbolo ento armazenado no vetor de caractersticas, confira na Fig. 4.19.

Fig. 4.19 Vetor de caractersticas usado pela primitiva forma.

4.3.2.3 A progresso

A progresso caracterizada pela dinmica do traado, rapidez, continuidade e


uniformidade do impulso grfico. O nvel de tenso do traado, em cada clula, pode ser
determinado pela seleo do segmento mais significativo (longo) da mesma,
culminando com o clculo da taxa de variao direcional dos pixels conexos,
normalizados pelo comprimento do segmento, confira na figura 4.20.

94

(a)

(b)
Fig. 4.20 Exemplo da primitiva progresso. (a) Clculo da dinmica do traado; (b)
Extrao do segmento mais significativo.

95

4.4 A gerao do lxico usando a quantizao vetorial

Todas as primitivas so codificadas da mesma maneira. Cada coluna da grade


origina um vetor de smbolos. Isto , uma assinatura passa a ser representada por um
conjunto de vetores contendo os valores das colunas das clulas v = {x1,x2, ... xn}. Onde
v representa o conjunto de vetores, x representa o vetor com o conjunto de valores da
coluna da grade, e n representa o nmero de colunas da imagem ou de vetores x.
Confira na Fig. 4.21.

Fig. 4.21 Representao do conjunto de primitivas como um conjunto de vetores.

Como foi visto no Captulo 3, o processo de gerao do lxico chamado de


treinamento. Isto , de posse de todos os conjuntos de vetores v, que representam cada
espcime de assinatura, aplica-se o algoritmo de treinamento. O resultado apresentado
por esse algoritmo a gerao de um conjunto de smbolos, cuja dimenso do lxico
deve ser previamente especificada. Esse conjunto servir para converso dos vetores dos
espcimes de assinatura em questo. Na Fig. 4.22, so apresentados exemplos de uma
assinatura j codificada atravs da QV. importante notar que existe um conjunto de
smbolos para cada primitiva. Isto , o processo de treinamento efetuado
separadamente para cada uma, juntamente com a variao do tamanho do lxico.

96

(a)

(b)

Fig. 4.22 (a) Representao da densidade de pixels para um lxico igual a 100; (b)
Representao da inclinao axial para um lxico igual a 60.

4.5 Consideraes finais

Nesse Captulo foi apresentado o processo de segmentao adotado e sua relao


com o conjunto de caractersticas. Foi apresentado, tambm, um conjunto mnimo de
primitivas capazes de incorporar tanto caractersticas estticas quanto pseudodinmicas, descritas pelo grafismo. Esse conjunto de primitivas busca atender aos
requisitos mnimos necessrios para a verificao automtica de assinaturas, a fim de
identificar falsificaes aleatrias, simples e servis.

Captulo 5 O Mtodo Proposto para a Verificao Automtica de


Assinaturas Estticas usando MEM

Nesse Captulo so abordados os procedimentos adotados na implementao do


mtodo proposto para a verificao, os aspectos relativos integrao do processo de
extrao de primitivas atravs do MEM e as regras para a determinao dos limiares de
aceitao e rejeio.
5.1 O mtodo de verificao

Como foi visto no Captulo 3, o mtodo de verificao deve contemplar as


caractersticas apresentadas pela aplicao. O uso do MEM se destaca por conter os
requisitos necessrios no tratamento da variabilidades existentes entre espcimes de um
mesmo autor. O mtodo apresentado por Rigoll e Kosmala [RIGOLL & KOSMALA,
1998] demonstra uma perspectiva promissora da aplicao do MEM na verificao de
assinaturas esttica.

5.1.1 A escolha do modelo

Como foi visto no Captulo 3, existem diferentes modelos de MEM. Eles esto
diretamente ligados s caractersticas dos dados e tambm ao processo de segmentao
adotado. Quanto mais impreciso for o processo de segmentao, mais adaptado deve
estar o modelo, a fim de capturar o mximo de variabilidade imposta pelo mesmo. A
segmentao contextual, como no caso dos textos manuscritos [YACOUBI, 1996],
impe a utilizao de modelos complexos capazes de mapear as possveis variantes,
confira na Fig. 5.1.

98

Fig. 5.1 Modelo de MEM para palavras. Adaptado de [YACOUBI, 1996].

Na escrita latina, o ato de assinar assim como o de escrever, um processo de


movimentao da mo, da esquerda para a direita, em um intervalo de tempo
determinado. O modelo mais adequado a essa caracterstica o esquerda-direita, por
respeitar a dependncia temporal do processo de escrita, confira na Fig. 5.2a. Apesar da
variabilidade existente entre espcimes de assinaturas de um mesmo autor, esses
espcimes tendem a ser mais estveis que os textos escritos por diferentes autores,
confira na Fig. 4.4 do Captulo 4. Como o processo de segmentao em clulas favorece
a estabilidade entre os vrios espcimes de um mesmo autor, o modelo com apenas duas
transies por estado suficiente para mapear as variabilidade, confira na Fig. 5.2b.

(a)

(b)
Fig. 5.2 (a) Modelo esquerda-direita; (b) Exemplo da representao do modelo.

99

5.1.2 O processo de aprendizado

Nesse tpico sero discutidos os procedimentos usados no processo de


aprendizado, para a determinao dos parmetros do modelo = {A,B,}. Sero
discutidos tambm os parmetros auxiliares usados no processo de verificao. Esses
ltimos possuem um papel importante na definio dos limiares de aceitao e rejeio
de uma assinatura.

5.1.2.1 O nmero de estados do modelo

O nmero de estados a ser considerado, para cada modelo, de fundamental


importncia para a gerao adequada do mesmo. Na Fig. 5.3, pode-se observar o
nmero de estados gerado para cada modelo de assinatura, usando um nmero de
clulas fixo. Nesse caso, foram usados os espcimes da base de dados de aprendizado
com 40 autores distintos. Na segmentao foram usadas 10 clulas verticais, para o QV,
com um lxico igual a 40. A variabilidade apresentada, pelos diferentes autores,
demonstra a importncia do nmero de estados, como um dos elemento de
personalizao do modelo.

Nmero de Estados

60
49

50

46
41

41

40

34

32
23

20

32

28

30

21

19

19
15

13

12

10

17

9 10

7
2

21 21

19

14

14 13
9

10

10
6 5 7 7

9
5 4

0
1

11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Modelo

Fig. 5.3 Grfico indicador da variao do nmero de estados para cada modelo de
assinatura.

100

A Fig. 5.4 mostra o comportamento do nmero de observaes para as


seqncias extradas da mesma amostra do pargrafo anterior (base de dados). Existe
uma elevada variabilidade no nmero de observaes. Essa caracterstica refora a
necessidade de considerar um nmero de estado diferenciado para cada autor.

Nmero de Ocorrncias

80
70
60
50
40
30
20
10

88

85

82

79

76

73

70

67

64

61

58

55

52

49

46

43

40

37

34

31

28

25

22

19

16

13

10

Nmero de Observaes

Fig. 5.4 Grfico que representa o nmero de observaes dos 20 espcimes de cada
autor (40 autores) usados no processo de aprendizado.

5.1.2.2 O algoritmo de aprendizado

Existem basicamente dois algoritmos para o aprendizado do MEM: o algoritmo


de Viterbi [YACOUBI, 1993] e o de Baun-Welch [RABINER & JUANG, 1993],
[RIGOLL & KOSMALA, 1998] e [ELMS, 1996]. O Algoritmo de Viterbi no leva em
conta os eventos correspondentes ao alinhamento timo entre as seqncias observadas
e o modelo. O algoritmo de Baum-Welch leva em considerao todos os alinhamentos
possveis e maximiza a verdadeira emisso de probabilidade das observaes, o que
eqivale a dizer que PViterbi PBaum-Welch. Portanto, o mtodo de aprendizado escolhido
baseia-se no algoritmo de Baum-Welch.

O algoritmo executado iterativamente juntamente com a reestimao dos


parmetros do modelo = {A,B,}. O objetivo atingir a mxima probabilidade de

101

aprendizado. O final do aprendizado determinado iterativamente pelo clculo da taxa


de erro t, definida por

PBW (O / (t ) ) PBW (O / ( t 1) )
PBW (O / ( t ) ) + PBW (O / (t 1) )

5.1

onde PBW(O/(t)) e PBW(O/(t-1)), representam as probabilidades de aprendizado nos


instantes t e t-1, respectivamente. O objetivo produzir uma probabilidade de
aprendizado, em t e t-1 , com um erro na ordem de 10-5 ou menor. O processo
repetido para um nmero de estados do modelo, variando de 2 at o limite equivalente
ao menor nmero de observaes encontrada nas amostras de aprendizado. A mxima
probabilidade obtida, juntamente com o nmero de estados, fazem parte do conjunto de
parmetros auxiliares usados no processo de verificao.

5.1.2.3 O algoritmo de validao

Outro evento importante relacionado com o aprendizado a validao cruzada


[HOEL, 1960]. Um dos objetivo da fase de aprendizado, gerar um modelo de MEM
que se adapte adequadamente s caractersticas de cada autor. O uso do processo e da
validao cruzada, permite otimizar e definir dinamicamente o nmero timo de estados
para cada modelo de assinatura (autor). A Fig. 5.5 mostra uma curva tpica produzida
por um processo de aprendizado, usando a validao cruzada. O algoritmo Forward
[RABINER & JUANG, 1993], busca o ponto de mxima probabilidade Pcv(O/). Isso
feito, atravs da escolha do modelo Pt(O/), que mais se adapta a um especfico nmero
de estados. Consequentemente, a escolha do melhor modelo originada de acordo com
o melhor resultado, em termos de probabilidade do algoritmo de aprendizado e de
validao, simultaneamente.

102

Fig. 5.5 Grfico tpico para as curvas de aprendizado e validao.

Para o aprendizado utilizado um conjunto de amostras de assinaturas, chamada


de base de aprendizado. Para a validao utilizado um segundo conjunto de amostras
de assinaturas, chamada de base de dados de validao. Essas duas base de dados sero
descritas na prximo captulo, juntamente com as bases de dados de teste.

5.1.2.4 A normalizao das probabilidades

O objetivo da normalizao buscar uma estabilidade de valores entre as


probabilidades de aprendizado dos vrios espcimes de um mesmo autor. Isso propicia a
definio de um limiar de aceitao e rejeio mais estvel para o mesmo. Rigoll e
Kosmala [RIGOLL & KOSMALA, 1998], utilizaram a probabilidade de aprendizado,
dividido pelo nmero de observaes do espcime de um determinado autor, menos o
nmero de estados usado para o modelo, confira na equao (5.2).

Na Fig. 5.6, pode-se observar exemplos do uso de outros elementos de


normalizao apresentados pelas equaes (5.3) e (5.4).

Ptn =

Log Pt
(L N )

5.2

Ptn =

Log Pt
L

5.3

103

Log Pt
N

ptn =

5.4

Onde
Ptn a probabilidade de aprendizado normalizada;
Log Pt o logaritmo da probabilidade de aprendizado;
N o nmero de estados do modelo;
L o nmero de observaes de uma seqncia.

Log P

Log da Probabilidade de
Aprendizado

Log P/(L-N)
3

Log P/L

Log P/N

9 10 11 12 13 14 15 16 17 18 19 20

0,00E+00
-1,00E+01
-2,00E+01
-3,00E+01
-4,00E+01
-5,00E+01
-6,00E+01
-7,00E+01
-8,00E+01
-9,00E+01
-1,00E+02

Nmero da Seqncia de Observaes

Fig. 5.6 Exemplo do processo de normalizao para os 20 espcimes de


aprendizado de um mesmo autor.
Os resultados apresentados pelas equaes (5.2) e (5.3) mostram-se satisfatrios.
No entanto a mais estvel a equao 5.3.

5.1.2.5 A determinao dos parmetros para o ajuste dos limiares de aceitao e


rejeio
Os valores dos parmetros auxiliares 1 e 2, usados no ajuste dos limiares de
aceitao e rejeio de cada autor, so determinados aps o processo de verificao.

104

Eles permitem a adequao dos limiares em funo da qualidade dos espcimes usados
no aprendizado. Isto , se um autor possui alta variabilidade intrapessoal, os valores de
ajustam-se com o objetivo de adequar-se a essa caracterstica.
A determinao dos valores de 1 e 2, so feitas atravs da simulao de um
processo de verificao utilizando a base de dados de validao. Com base na taxa
mdia de erro (Em), confira na equao (5.5), um conjunto de valores possveis de 1 e

2, so determinados. Em seguida, so escolhidos os valores

que produziram

simultaneamente, a menor taxa de erro. No caso de existirem valores iguais, ento


selecionada a ltima ocorrncia, confira na Fig. 5.7.

Em =

EFA + EFR
2

5.5

Onde,
Em a taxa mdia de erro;
EFA a taxa de falsa aceitao (erro tipo II);
EFR a taxa de falsa rejeio (erro tipo I).

Fig. 5.7 Ponto de determinao dos melhores valores de ..

A Fig. 5.8, mostra os limiares de aceitao e rejeio pi e ps, respectivamente.


A rea correspondente ao intervalo entre os dois limiares define o intervalo de
aceitao. O limiar mdio definido por ptn, representa o logaritmo da probabilidade de
aprendizada, normalizado por L.

105

Fig. 5.8 Representao dos limiares de aceitao e rejeio de uma assinatura.

O limiar mdio, definido pelo algoritmo de aprendizado ptn, a referncia para


a determinao do limiar mnimo ps e mximo pi.

ptn (O / ) =

log pt (O / )
L

5.6

Pi = ptn (ptn . 1)

5.7

Ps = ptn + (ptn . 2)

5.8

5.1.3 O processo de verificao

Para a verificao de uma assinatura, utilizado o mesmo processo de extrao


de caractersticas descrito no Captulo 4. O algoritmo Forward [RABINER & JUANG,
1993] usando nesse caso, para determinar a probabilidade de uma seqncia de
observaes PV(O\), dado o modelo de um autor. A probabilidade obtida , em
seguida, normalizada segundo os mesmos critrios usados no aprendizado, confira na
equao (5.9).

pvn (O / ) =

log pv (O / )
L

5.9

106

A assinatura aceita como pertencente ao autor do modelo em teste, quando a


seguinte condio for satisfeita:
ps pvn pi .

5.10

5.2 Comentrios finais

Nesse Captulo foram apresentados os componentes do mtodo proposto para a


verificao automtica de assinaturas estticas. Foram apresentados os processos de
aprendizado, verificao e a descrio dos parmetros auxiliares envolvidos na tomada
de deciso. No prximo Captulo, sero apresentados os resultados obtidos nos testes e a
anlise dos erros.

Captulo 6 Os Testes e a Anlise dos Erros

Nesse Captulo sero apresentados o protocolos de teste, os resultados obtidos


pelo mtodo de verificao e a anlise dos erros.

6.1 Os resultados experimentais

A seguir sero apresentados os resultados obtidos pelos experimentos efetuados. O


objetivo estabelecer um procedimento que valide estatisticamente cada um dos
componentes do mtodo. Os teste foram divididos em dois grandes grupos, o primeiro
visando determinar a resoluo para a grade de segmentao e o tamanho do lxico. O
segundo, visando estabelecer um conjunto mnimo de caractersticas combinadas, que
propiciem a reduo das taxas de erro do tipo I e II, descritos no Captulo 5.

6.1.1 O protocolo de avaliao

A base de dados foi subdividida em dois subconjuntos com 40 espcimes por


autor, um subconjunto contendo 40 autores (1.600 espcimes de assinaturas genunas) e
outro contendo 60 autores (2.400 espcimes de assinaturas genunas). Foram
adicionados ao segundo subconjunto 1.200 espcimes de assinaturas falsificadas. Os
espcimes de falsificaes foram coletados usando 10 diferentes autores ou falsrios.

A primeira base de dados foi usada para criao do lxico, para cada
caracterstica. Para tanto, foram selecionados 30 espcimes de cada autor. Tendo como
base o lxico obtido, toda a base de dados foi ento convertida em uma seqncia de
observaes. A primeira base foi utilizada, tambm, pelo processo de aprendizado.
Cada modelo de um dado autor foi definido usando 20 espcimes para o aprendizado e
10 para validao cruzada (os mesmos 30 espcimes usados na criao do lxico). Os
parmetros auxiliares para a definio dos limiares de aceitao e rejeio, 1 e 2,
equaes (5.7) e (5.8) respectivamente, foram determinados usando os mesmos 10

108

espcimes da validao cruzada, combinados aos conjuntos de 10 espcimes da


validao cruzada dos outros 39 autores. Esse procedimento foi usado para todos os
subconjuntos. Os 10 espcimes restantes foram usados na execuo do primeiro
experimento. Essa avaliao foi importante para definir o melhor nmero de clulas
verticais, para o processo de segmentao, e o tamanho do lxico, para cada
caracterstica ou primitiva isolada.

O segundo subconjunto foi usado para validar os resultados obtidos no primeiro


experimento. Para tanto, foram usadas 10 espcimes de assinaturas genunas, 10
espcimes de falsificaes simples e 10 espcimes de falsificaes servis. O melhor
lxico e nmero de clulas verticais, do primeiro experimento, foram usadas no
segundo.

6.1.2 O resultado usando mltiplas resolues de grade de segmentao e mltiplos


lxicos, para um nico MEM
O primeiro experimento, cujos os resultados aparecem na Tabela 6.1, teve como
objetivo determinar o comportamento das taxas de erro de falsa aceitao e falsa
rejeio, com a variao do tamanho do lxico e da resoluo da grade de segmentao.
Os resultados usando a primitiva densidade de pixels, para todas as resolues de grade,
apresentaram o comportamento favorvel numa escala do lxico entre 60 e 100
smbolos. Esse comportamento pode ser observado, tambm, com as demais primitivas.

109

Densidade de pixels
Erro Tipo II

Clulas Verticais /
Tamanho do Lxico

Erro Tipo I
(%)

(%)

Erro Mdio
(%)

04/10
04/20
04/30
04/40
04/50
04/60
04/70
04/80
04/90
04/100
04/120
04/140
04/160
04/180
04/200
10/10
10/20
10/30
10/40
10/50
10/60
10/70
10/80
10/90
10/100
10/120
10/140
10/160
10/180
10/200
25/10
25/20
25/30
25/40
25/50
25/60
25/70
25/80
25/90
25/100
25/120
25/140
25/160
25/180
25/200

4,25
4,25
3,00
3,50
3,75
2,50
3,25
2,75
3,50
4,50
4,25
3,75
3,75
3,75
5,50
4,00
3,00
3,25
3,25
2,00
1,50
3,75
1,75
1,00
1,25
1,25
2,25
2,20
3,25
2,25
6,00
6,00
4,50
4,75
4,25
3,25
2,50
3,25
3,00
2,00
3,50
3,75
4,75
4,80
4,93

1,01
0,60
0,38
0,63
0,56
0,47
0,37
0,67
0,29
0,74
0,41
0,63
0,35
0,47
0,62
0,56
0,69
0,31
0,26
0,26
0,36
0,23
0,24
0,32
0,29
0,42
0,15
0,21
0,35
0,35
1,20
0,82
0,69
0,36
0,38
0,62
0,67
0,45
0,42
0,68
0,44
0,29
0,32
0,40
0,47

2,63
2,43
1,69
2,06
2,16
1,49
1,81
1,71
1,89
2,62
2,33
2,19
2,05
2,11
3,06
2,28
1,84
1,78
1,76
1,13
0,93
1,99
0,99
0,66
0,77
0,84
1,20
1,10
1,80
1,30
3,60
3,41
2,59
2,55
2,31
1,94
1,58
1,85
1,71
1,34
1,97
2,02
2,53
2,60
2,70

Tabela 6.1 Resultados obtidos pelo mtodo de verificao, para as falsificaes


aleatrias, usando a densidade de pixels como primitiva e a base de dados com 40
autores.

110

6.1.3 A anlise qualitativa das primitivas isoladas

A Tabela 6.2 mostra as taxas de erro obtidas, utilizando todas as primitivas


descritas no Captulo 4 isoladamente (com a base de dados de 40 autores). Com os
resultados obtidos nesse segundo experimento, foi possvel estabelecer valores iniciais,
para as falsificaes aleatrias, relativos resoluo da grade e o tamanho do lxico.

Primitivas estticas:

DI - Distribuio de pixels;

DS - Densidade de pixels.

Primitivas pseudo-dinmicas:

IA - Inclinao axial;

FR Forma;

PA Progresso.

Primitivas
DI

DS
EM

ET I ET II EM

FR

IA
ET I

ET II

EM

2,50 0,47 1,49 2,75 0,31 1,53 5,25

0,87 3,06 7,50 0,28 3,89 9,00 2,33

5,66

3,25 0,37 1,81 3,25 0,27 1,76 5,00

0,96 2,98 7,50 0,59 4,04 8,25 2,71

5,48

2,75 0,67 1,71 2,25 0,33 1,29 4,75

1,08 2,91 7,25 0,48 3,87 7,75 3,78

5,77

3,50 0,29 1,89 2,25 0,30 1,28 4,25

1,40 2,83 6,00 0,29 3,15 11,00 3,04

7,02

4,50 0,74 2,62 3,00 0,20 1,60 4,25

1,11 2,68 8,25 0,42 4,34 8,75 2,96

5,85

10/60
10/70
10/80
10/90
10/100

1,50 0,36 0,93 2,00 0,42 1,21 3,75

0,52 2,13 8,25 0,53 4,39 2,50 1,23

1,87

3,75 0,23 1,99 2,25 0,34 1,29 5,00

0,40 2,70 8,25 0,31 4,28 3,75 0,84

2,29

1,75 0,24 0,99 2,25 0,65 1,45 4,50

0,38 2,44 5,75 0,65 3,20 4,75 1,17

2,96

1,00 0,32 0,66 2,00 0,41 1,21 3,75

0,43 2,09 8,00 0,64 4,32 5,00 0,97

2,99

1,25 0,29 0,77 1,75 0,31 1,03 3,00

0,51 1,76 6,25 0,23 3,24 5,25 0,92

3,08

25/60
25/70
25/80
25/90
25/100

3,25 0,62 1,94 3,75 0,55 2,15 2,75

1,49 2,12 5,25 0,65 2,95 2,75 1,08

1,92

2,50 0,67 1,58 2,25 0,55 1,40 3,50

1,10 2,30 7,25 0,65 3,95 3,50 1,22

2,36

3,25 0,45 1,85 2,00 0,43 1,21 2,25

1,45 1,85 4,50 0,53 2,52 4,50 1,21

2,86

3,00 0,42 1,71 2,50 0,75 1,62 2,75

0,90 1,82 7,25 0,75 4,00 3,25 1,08

2,16

2,00 0,68 1,34 2,00 0,74 1,37 5,75

1,38 3,56 3,75 0,71 2,23 4,50 1,31

2,90

Estticas
ET I : Erro Tipo I (%)

ET II : Erro Tipo II (%)

EM

ET I ET II

PA
ET I ET II

Clulas Verticais /
Tamanho do Lxico
04/60
04/70
04/80
04/90
04/100

ET I ET II

EM

Pseudo-dinmicas
EM : Erro Mdio (%)

Tabela 6.2 Anlise qualitativa das primitivas isoladas.

111

6.1.4 Os resultados usando primitivas isoladas com uma segunda base dados e a
presena de falsificaes simples e servis

A Tabela 6.3 apresenta os resultados obtidos usando o subconjunto de 60


autores. Foi includa, tambm, a base de falsificaes. O teste foi realizado usando as
mesmas primitivas e parmetros determinados pelo teste anterior. A taxa mdia de erro,
para a primitiva densidade de pixels, subiu de 0,66% para 1,70%. Para a distribuio de
pixels, a taxa mdia de erro subiu de 1,03% para 1,31%. A inclinao axial, que possua
uma taxa de erro mdio de 1,76% passou para 2,36%. Para a forma, a variao foi de
2,23% para 2,63% e para a progresso, foi de 1,87% para 3,00%. Ou seja, o acrscimo
no percentual do erro mdio permaneceu em torno de 1%. Esse comportamento mostra
o potencial favorvel dos protocolos definidos para a gerao do lxico atravs QV e do
processo de aprendizado e de verificao usando o MEM.

Primitivas

Clulas
Erro
Erro
Verticais /
Tipo Tipo II
(%)
Tamanho do
I
Aleatrias
(%)
Lxico
10/90
2,17
1,23

Erro
Tipo II

Erro
Tipo II

(%)

(%)

Simples

Servil

Erro
Mdi
o
(%)

Densidade de
3,17
36,57
7,87
pixels
Distribuio de
10/100
1,33
1,29
2,83
37,83
7,65
pixels
Inclinao axial
10/100
7,92
4,00
0,72
2,50
32,33
Progresso
10/60
4,33
1,27
3,00
37,67
9,15
Forma
25/100
6,20
0,93
2,63
35,45
11,30
Tabela 6.3 Resultados obtidos usando o segundo subconjunto de autores e com o uso de
falsificaes simples e servis.

possvel observar que a inclinao axial apresentou a menor taxa de falsa


aceitao (erro Tipo II), para todos os tipos de falsificaes. Esse comportamento devese em parte sua adaptao como caracterstica discriminativa dos gestos. Por outro
lado, ela introduz uma taxa de falsa rejeio (erro Tipo I) maior, que decorrente em
parte das altas variabilidades intrapessoais, confira na Fig. 6.1.

112

(a)

(b)
Fig. 6.1 Sobreposio, usando o centro de gravidade, dos 20 espcimes de aprendizado
de um mesmo escritor: (a) Exemplo de assinatura com alta variabilidade intrapessoal.
(b) Exemplo de assinatura com baixa variabilidade intrapessoal.

A primitiva pseudo-dinmica, relacionada com concavidade dos segmentos,


no apresentou desempenho satisfatrio em relao s outras. A razo disso est ligada
ao grau de acuidade com a qual tratada as distores relacionadas curvatura dos
segmentos. A Fig. 6.1 mostra um exemplo da variabilidade existente entre os espcimes
de um mesmo autor. Por essa razo, pode-se observar taxas de falsa rejeio elevadas,
comparados com as demais primitivas.

6.1.5 As restries quanto ao nmero de primitivas usadas no MEM multidimensional

Durante o processo de combinao de primitivas, foram encontradas restries


quanto ao nmero mximo de primitivas passveis de serem combinadas, em
decorrncia do tipo de base de dados utilizada.

O bom desempenho do MEM est diretamente ligado ao tamanho da base usada


no aprendizado. Isto , quanto maior o nmero de amostras de aprendizado, mais
adaptado estar o modelo gerado. Como a base de dados utilizada possui 20 espcimes
para o aprendizado, as restries do MEM multi-dimensional tornaram-se presentes. A

113

incluso de mais de trs primitivas gera uma probabilidade final de treinamento Pt(O/),
incapaz de induzir o processo de aprendizado do modelo. Mesmo usando-se o processo
de reescalonamento [RABINER & JUANG, 1993], o problema persistiu. Em funo
dessa restrio, foram selecionadas as primitivas que melhor desempenho apresentaram
nos testes isolados.

6.1.6 Os resultados usando primitivas combinadas em um MEM multi-dimensional

Usando os conceitos de mltiplas seqncias de observaes, nos modelos de


escondidos de Markov visto no Captulo 3, as primitivas foram combinadas em um
MEM multi-dimensional. Para tanto, assumiu-se a hiptese inicial da mtua
independncia entre as vrias primitivas. O resultado da combinao pode ser visto na
Tabela 6.4.

Primitivas
Combinadas

Clulas
Verticais /
Tamanho do
Lxico

Erro
Erro
Tipo I Tipo II
(%)

(%)

Aleatri
a

Erro
Erro Erro
Tipo II Tipo II Mdi
(%)
(%)
o
Simples Servil
(%)

Densidade de
10/90
pixels /
10/100
2,83
1,44
2,50
22,67 5,85
Distribuio de
10/100
pixels / Inclinao
axial
Tabela 6.4 Resultados obtidos usando as mesmas primitivas em um MEM multidimensional.

Mesmo que o falsificador conhea somente o nome completo do escritor e no a


forma de sua assinatura, possvel ocorrer casos em que a falsificao simples tenha um
formato muito similar assinatura original, confira na Fig. 6.2. Uma anlise efetuada
sobre a base de dados, mostrou que dos 100 diferentes autores, 64 (~ 60%) assinam
exatamente como escrevem seus nomes. Os outros 36 autores (~ 40%) criaram uma
rubrica.

114

(a)

(b)

Fig. 6.2 (a) Assinatura genuna e (b) Falsificao simples.


Mesmo existindo um ndice acima de 50% de autores com assinaturas similares
ao formato do nome, a taxa de falsa aceitao manteve-se nos mesmos nveis da
aleatria. Dois fatores colaboraram com esse resultado. O primeiro est relacionado
adequao das primitivas na discriminao desse tipo de falsificao. O segundo est
relacionado com a probabilidade da ocorrncia de similaridades entre a assinatura
verdadeira e a falsificao. Para a base de dados em questo, o percentual ficou em
torno de 30% de ocorrncias.

Quanto s falsificaes servis, a Tabela 6.4 mostra uma reduo em torno de


30% da taxa de erro do tipo II. Pode-se considerar ainda, que esse valor esteja distante
dos obtidos pelos demais tipos de falsificaes. No entanto, o conhecimento a priori s
existiu para as falsificaes aleatrias. Portanto, natural que os resultados tenham
propiciado um melhor desempenho para esse tipos de falsificaes.
6.1.7 O ajuste dos limiares de aceitao e rejeio atravs dos valores de
Como foi visto no item anterior, os parmetros auxiliares 1 e 2, so
fundamentais para a determinao de um limiar adequado a cada modelo de assinatura.
Como foi dito naquela ocasio, 1 e 2, so determinados atravs da escolha dos valores
que produziram, simultaneamente, a menor taxa de erro mdio. No caso de existir
valores iguais, ento selecionada a ltima ocorrncia.
Na tentativa de reduzir os efeitos da maximizao de , optou-se por utilizar o
valor mdio, definido pela mdia aritmtica dos mnimos locais identificados com o
primeiro e ltimo. O ponto mdio passa ento a definir o novo , confira na Fig. 6.3.

115

Fig. 6.3 Grfico que demonstra o comportamento da taxa de erro mdio, durante a
determinao dos parmetros auxiliares .

A Tabela 6.5 mostra uma evoluo significativa nas taxas de erro do tipo II, em
torno de 20%. Tambm existiu uma elevao da taxa de rejeio, decorrente do
estreitamento da rea de aceitao. Isso implica em dizer que o sistema tornou-se mais
crtico s variaes intrapessoais, e por outro lado, tornou-se mais crtico tambm s
variaes interpessoais.

Primitivas
Combinadas

Clulas
Verticais /
Tamanho do
Lxico

Erro
Erro
Tipo I Tipo II
(%)

(%)

Aleatri
a

Erro
Erro Erro
Tipo II Tipo II Mdi
(%)
(%)
o
Simples Servil
(%)

Densidade de
10/90
pixels /
10/100
3,33
1,33
1,83
Distribuio de
10/100
pixels / Inclinao
axial
Tabela 6.5 Resultados obtidos usando os valores mdios de .

15,17

5,41

6.1.8 Os problemas decorrentes do processo de coleta da base de dados

Cada conjunto de 40 assinaturas foram coletadas junto aos autores, num mesmo
momento. Como o nmero de espcimes coletadas era relativamente elevado, o
processo pode ter introduzido uma taxa de deformao aos espcimes finais, confira na
Fig. 6.1a. Isso decorrncia do cansao fsico imposto pelo processo contnuo de
escrita.

116

Com o objetivo de minimizar esse efeito, as bases de treinamento , validao e


teste, foram separadas atravs da distribuio eqitativa dos espcimes do incio ao
final. No entanto, sabido que as deformaes geradas, por esse processo de coleta,
pode produzir um aumento significativo da taxa de falsa rejeio. Ou mesmo, provocar
a gerao de modelos suscetveis s falsificaes servis.

6.2 Consideraes finais

Esse Captulo foi objeto de uma discusso sobre o desempenho apresentado


pelo mtodo de verificao de assinaturas estticas. Os resultados mostraram-se
promissores, como ponto de partida para a criao de um sistema de verificao
automtica de assinaturas em cheques bancrios brasileiros. Alguns pontos crticos
apresentados so potencialmente indicados como objetos de estudos na busca de
solues mais eficazes. No prximo Captulo, algumas sugestes so colocadas para
trabalhos futuros.

Captulo 7 - Concluses e Trabalhos Futuros

7.1 Concluses

Apresentou-se nesse trabalho um mtodo prtico para a verificao automtica


de assinaturas estticas. Esse mtodo atende s restries impostas por uma aplicao
real, ligada verificao de assinaturas em cheques bancrios brasileiros. Para tanto, ele
est adaptado s caractersticas das assinaturas latinas, a cursiva e a rubrica. Aborda os
trs tipos mais comuns de falsificaes, a aleatria, a simples e a servil. Possui um
critrio automtico e ajustvel de determinao dos limiares de aceitao e rejeio. Foi
desenvolvido segundo as caractersticas definidas pelo grafismo, adotando uma
abordagem no contextual. Possui uma tcnica de segmentao baseada em grade, o que
permite uma diviso dos traos da assinatura em segmentos menores, possibilitando
uma avaliao local que propicia a deteco de falsificaes servis.

A fase de extrao de caractersticas emprega dois tipos de primitivas, estticas e


pseudo-dinmicas. Esse conjunto mnimo de primitivas, que isoladamente no muito
discriminante, quando combinado oferece uma representao robusta das assinaturas.
No entanto, a limitao relacionada ao nmero de primitivas combinada, apresentada
pelo MEM multi-dimensional, impede a associao de novas primitivas com
perspectivas de incorporar conhecimentos adicionais, que podem conduzir a resultados
mais favorveis. A proposio de uma nova arquitetura, combinando as classes de
primitivas estticas e pseudo-dinmicas no QV e associando essas duas classes em um
MEM multi-dimensional, pode vir a ser uma alternativa vivel.

Foram utilizados na verificao os modelos de cadeia de Markov, aproveitando


as pesquisas j realizadas em outras reas de conhecimento da escrita, como no
reconhecimento de palavras e nmeros. Isso porque, trata-se de um problema de
reconhecimento de padres similar. Um problema ainda a ser solucionado est
relacionado com o nmero de espcimes de aprendizado e validao. Atualmente, no

118

caso especfico dos cheques bancrios, o carto de assinatura composto por apenas
trs espcimes. Alm disso, foram mostrados, no Captulo anterior, os efeitos de uma
base de dados de aprendizado reduzida. Torna-se necessrio, ento, quantificar o
nmero mnimo de espcimes para o aprendizado e definir mecanismos para a gerao
desses espcimes, tendo como referncia as amostras do carto de assinaturas.

Nas diferentes fases do mtodo apresentado excluindo a fase de pr-tratamento,


o trabalho consistiu em privilegiar um processo de deciso dinmico e ajustvel para
cada escritor, integrando hierarquicamente vrios nveis de representao, onde todas as
fontes de conhecimento participam do processo decisrio. A importncia de cada uma
dessas fases pode ser observada no ajuste dos limiares de aceitao e rejeio,
proporcionado pelos valores de , o qual permite uma melhora em torno de 20% na taxa
de falsa aceitao para os trs tipos de falsificaes.

O trabalho direciona-se a uma aplicao especfica ligada anlise e


reconhecimento de cheques bancrios brasileiros ( autenticao de assinaturas). O uso
de uma base de dados de laboratrio fez-se necessria, em funo da complexidade do
processo de extrao dos dados de contexto do cheque, incluindo a assinatura, que no
faz parte do escopo desse trabalho. No entanto, manteve-se todas as caractersticas
pertinentes a essa aplicao em especfico, tais como: a no incluso da presso real
como caracterstica [HUANG & YAN, 1997], em funo da existncia da chancela; a
delimitao do espao grfico da assinatura, excluindo as partes da mesma que
extrapolam essa rea.
7.2 Sugestes para trabalhos futuros

A seguintes sugestes para trabalhos futuros so apresentadas:


A proposio de uma nova arquitetura, combinando as duas classes de
primitivas, estticas e pseudo-dinmicas, em dois pr-classificadores usando a
QV e posteriormente, combinado os dois lxicos (codebook) gerados em um
MEM multi-dimensional, pode vir a ser uma alternativa vivel;

119

Desenvolvimento de um mtodo, baseada nas caractersticas apresentadas pelo


grafismo, para a produo de modelos deformados de assinaturas, a partir do
carto de assinaturas;
Implementar novas tcnicas de verificao, usando por exemplo, tcnica de
Wavelets, Algoritmos Genticos e Redes Neurais, para fins de estudo
comparativo com os modelos de Markov.

Anexo Normativas do Banco Central para Cheques

1. O Modelo-Padro do Cheque
A resoluo de n 885 do CONCELHO MONETRIO NACIONAL, na forma
do artigo 9 da lei 4.595, define as normas e padres a serem observados na elaborao
dos cheques bancrios pelas instituies financeiras. Os formulrios de cheques devem
ser confeccionados com rigorosa observncia das especificaes e instrues contidas
no documento. A seguir, listaremos algumas das normas que regem a confeco dos
formulrios dos cheques bancrios, descritas nessa resoluo:

1.2 Dimenses do Cheque:


a) comprimento: 175mm, com tolerncia de 1mm;
b) largura : 80 mm, com tolerncia de 1mm para mais e de at 4mm para menos.

1.3 Caractersticas do Papel


a) peso por m2: 90g, com tolerncia para mais ou para menos de at 5%;
b) espessura: de 0,1 a 0,127 mm;
c) rigidez (Taber 5 - modelo 5): 3 a 4,5 em direo da mquina;
d) superfcie: sheffield 72 - 125 - 10 cm3/mm; Bekk 50 - 120 segundos;
e) rasgado ou ruptura(Elmendonff) : mnimo de 40 gramas em ambas as
direes;
f) porosidade (Gurley): mnimo 25 segundos para 100 cm3 de ar, mximo 200
segundos para 100 cm3 de ar; mximo 200 segundos para 100 cm3 de ar;
g) umidade relativa: todas as anlises devem ser feitas com umidade relativa ...;
h) prova de resistncia em cera: o documento deve resistir a uma prova de
resistncia em cera igual a Dennison 16 A;
i) partculas magnetizveis: os fabricantes de papel e as grficas devem cuidar
para que haja quantidade mnima de partculas

magnetizveis na

composio do papel (ferro etc.);


j) o cheque admite, no mximo, 30% de corante diludo em branco;

121

k) o cheque deve conservar os necessrios requisitos de segurana, tais como


papel indelvel e fundo artstico.

1.4 Diagramao e Preenchimento dos Campos de Identificao do Cheque:


a) faixa superior (campos encimados pelas abreviaturas ou smbolos designativos
pertinentes), pela ordem, da esquerda para a direita;
COMP: nmero-cdigo da Cmara de Compensao a que est jurisdicionada a
agncia sacada, composto de 3 caracteres numricos;
BANCO: nmero-cdigo de inscrio do banco no Servio de Compensao,
atribudo pelo Banco Central, composto de 3 caracteres numricos;
AG: cdigo da agncia sacada, representado pelas 4 posies do nmero de
ordem de inscrio no CGC;
[

]: posio de utilizao facultativa, para indicao de dgito verificador

correspondente ao cdigo da agncia sacada


C1: dgito verificador correspondente aos campos BANCO, COMP. e AG,
calculado com peso de 2 a 9, mdulo 1 e 0 (zero), no resto 10;
CONTA: nmero da conta do emitente, podendo constar do mesmo a razo
contbil ou, ainda, dgitos de autoconferncia; compe-se de no mximo 10
caracteres numricos;
C2: dgito verificador relativo ao nmero da conta, calculado de forma idntica
ao C1;
[ ]: posies de utilizao optativa, para registro de srie de numerao do
cheque;
CHEQUE N.: nmero do cheque, composto de 6 caracteres numricos;
C3: dgito verificador do nmero do cheque, calculado de forma idntica ao C1;
R$: espao destinado especificao do valor do cheque, em algarismos;
b) segunda faixa (destinada indicao do valor do cheque por extenso e do nome do
beneficirio), compreendendo:
I: a expresso PAGUE-SE POR ESTE CHEQUE A QUANTIA DE seguida
de duas linhas reservadas para a especificao do valor do cheque por extenso,
no se admitindo a impresso de quaisquer outras palavras ou smbolos nos
espaos sublinhados no modelo-padro.

122

II: uma terceira linha, iniciada com a preposio A e terminada com a


expresso OU ORDEM ou, se for o caso, NO ORDEM, reservada
para indicao do nome do beneficirio do cheque;
c) terceira faixa (destinada identificao do banco e da agncia sacada, local e data de
emisso do cheque, assinatura e identificao o emitente);
I: esquerda, na rea assinada no Modelo de Preenchimento dos Campos e
reas do Anverso do Cheque, veja a

figura 1, devem se impressos: em

primeiro plano, o nome do banco sacado, facultando-se que seja o mesmo


precedido do logotipo da instituio; em segundo plano, deve ser identificada a
agncia sacada e seu endereo completo (logradouro, nmero, localidade e
Unidade da Federao);
II: direita, devem ser impressas as linhas reservadas indicao do local e data
de emisso do cheque e assinatura do emitente; abaixo da linha de assinatura devero
constar o nome do correntista e o respectivo CPF ou CGC, conforme indicado no
Modelo de Preenchimento dos Campos e reas do Anverso do Cheque, veja a figura
1, observado que:

no caso de conta conjunta deve ficar o CPF ou CGC do primeiro titular;

em conta de menor, o CPF do responsvel que o represente ou assista;

em conta de pessoas economicamente dependente, no possuidora de CPF, o do


respectivo responsvel;

d) quarta faixa (destinada impresso de caracteres magnticos), para a qual se exige


rigorosa observncia das especificaes e instrues a seguir, veja a figuras 1 e 2:
I: a faixa de magnetizao ocupa, em toda a extenso horizontal do cheque
(175 mm), o espao em 16mm de altura a partir da base do formulrio, reservado
exclusivamente para a impresso de caracteres magnticos;
II: centrada no interior da faixa de magnetizao, a 4,80 mm da base do
formulrio e a 6,00 mm da margem direita, deve ser delimitada a banda de
magnetizao com 161,95 mm de comprimento e 6,40 mm de altura, sobre a
qual atua o cabeote de leitura de caracteres magnticos;
III: o eixo horizontal de simetria do caracteres magnticos deve coincidir com o
da faixa de magnetizao, posicionando-se 8,00 mm da base do formulrio, com
tolerncia de deslocamento vertical de no mximo 1,60 mm;

123

IV: o caracter padro para magnetizao de cheque e outros documentos


bancrios o do Sistema de Caracteres Magnticos Codificados em Sete Barras
(CMC-7), podendo ser adotado qualquer tipo padronizado pela ECMA
(European Computer Manufactures Association), desde que observada a
amplitude de 8 caracteres no espaamento de 25,4 mm no sentido horizontal, de
modo que cada caracter, com o respectivo intervalo, ocupe horizontalmente
3,175 mm;
V: os campos definidos na banda de magnetizao so ocupados com as
seguintes informaes, em caracteres magnticos, observada a ordem indicada,
da esquerda para a direita:
CAMPO 1:
T um smbolo S3;
T trs caracteres correspondentes ao cdigo da inscrio do banco no
Servio de Compensao;
T quatro caracteres correspondentes ao cdigo da agncia;
T um caracter correspondente ao dgito verificador (DV2) dos
elementos componentes do campo 2 (cdigo da cmara de
compensao, nmero do cheque e cdigo de tipificao do
documento), calculado atravs do mdulo 10;
T um smbolo S3;
CAMPO 2:
T um espao em branco;
T trs caracteres correspondentes ao cdigo da cmara de compensao
a que esteja jurisdicionada a agncia sacada;
T seis caracteres correspondentes ao nmero do cheque;
T um caracter correspondente ao cdigo de tipificao do documento,
para cujo propsito est definida a seguinte codificao:
T cheque comum: cdigo 5;
T recibo ou ordem de pagamento: cdigo 6;
T cheque de viagem: cdigo 7;
T cheque bancrio: cdigo 8;
T um smbolo S5;
CAMPO 3:

124

T um espao em branco;
T um caracter correspondente ao dgito verificador (DV1) do cdigo do
banco e do cdigo da agncia inscritos no campo 1, calculado atravs
do mdulo 10;
T dez caracteres correspondentes ao nmero da conta do correntista,
podendo constar do mesmo a razo contbil e

dgito de auto-

conferncia da conta;
T um caracter correspondente ao dgito verificador (DV3) das dez
posies referentes ao nmero da conta do correntista, calculado
atravs do mdulo 10;
T um smbolo S1;
CAMPO 4: (reservado para a ps-marcao do valor do cheque);
T um espao em branco;
T doze caracteres representativos do valor do cheque, preenchendo-se
com zeros ou deixando-se em branco as posies esquerda no
demandadas para exprimir a quantia;
T um smbolo S2.
1.5 Impresso e confeco do formulrio de cheque:
a) o formulrio de cheque deve ser impresso em qualquer cor, com tinta
indelvel e de tonalidade firme;
b) permitido o uso de impresses por perfurao ou filigrana, desde que no
apostas na faixa de magnetizao e no produzam rebarbas que prejudiquem
a leitura mecnica do cheque;
c) os cheques podem ser confeccionados em folhas planas ou em formulrios
contnuos, devendo, neste ltimo caso, ser destacados por guilhotina, de
modo que se obtenha bordas retas e lisas nas extremidades inferior e direita,
utilizadas como referenciais no processo de leitura mecnica.

125

COMP BANCO

AG

C1

CONTA

()

R$

C2

CHEQUE N C3

()

Pague-se por este


cheque a quantia de

ou sua ordem.
de

de 19

Fig 1: Modelo Padro do Cheque (Anverso).

000

000

000

(0)

0000000000

ABC

00000

Pague-se por este


cheque a quantia de

ou sua ordem.

NOME DA AGNCIA SACADA E


ENUNCIADO DE SEU ENDEREO
COMPLETO (LOGRADOURO NMERO
LOCALIDADE / UF

de

de 19

NOME DO DEPOSITANTE
N DO CPF DO DEPOSITANTE

Caracteres Magnticos

Fig 2: Modelo de Preenchimento dos Campos e reas de Identificao do Cheque.

126

CAMPO 1

CAMPO 2

0000000000

00000000000

CAMPO 3

0000000000000

CAMPO 4

000000000000

Fig. 3: Diagrama de Localizao dos Caracteres Magnticos.


2. Normativas relacionadas com as assinaturas em um cheque

permitido

que a assinatura do cheque seja impressa por processo

mecnico, ou seja, por chancela3 mecnica, tambm denominada assinatura


ou autenticao mecnica, consistindo na reproduo exata da assinatura de
prprio punho, resguardada por caractersticas tcnicas, obtidas por
mquinas especialmente destinadas a esse fim, mediante processo de
compresso.

cheque pode sofrer o impedimento de pagamento, quando existir divergncia


ou insuficincia de assinatura.

chancela - Rubrica gravada em sinete para suprir assinatura em documentos.


Sinete - utenslio com assinatura ou divisa gravada e que serve para imprimir no papel; lacre; carimbo;
chancela.

Referncias Bibliogrficas

[ABUTALEB, 1989] Ahmed S. Abutaleb, Automatic Thresholding of Gray-Level


Pictures Using Two Dimensional Entropy, Computers Graphics &
Image Processing, 1989, no. 47, 22-32 p.
[AMMAR et al., 1985] Maan Ammar, Yuuji Yoshida and Teruo Fukumura, Automatic
off-line verification of signature based on pressure features, Proc.
Tech. Group Meeting of Pattern Recognition Learn, of IECEJ, Tokyo,
1985, 134-144 p.
[AMMAR et al., 1988] Maan Ammar, Yuuji Yoshida and Teruo Fukumura, Off-line
preprocessing and verification of signatures, Int. Journal of Pattern,
Recognition and Artificial Inteligence, 1988, vol. 2, n 4, 589-602 p.
[AVILA, 1996] Manoel Avila, Optimisation de Modeles Markoviens pour la
Reconnassance de LEcrit, These de doctorat - Universite de Rouen,
France, 1996, 189 p.
[BROCKLEHURST, 1985] Er Brocklehurst, Computer Methods of Signature
Verification, J. Forence Science Society, 1985, vol. 25, 78-92 p.
[BRUYNE & FORR, 1988] P. de Bruyne and R. Forr, Signature Verification with
Elastic Image Matching, International Carnahan Conference on
Security Technology, 1988, 113-118 p.
[CARDOT et al., 1992] Hubert Cardot, Marinette Revenu, Bernard Victorri and MarieJosephe Revillet, Des rseaux neuronaux pour lauthentification des
signatures manuscrites. Colloque National sur crit et le Document
CNED92, Nancy, 1992, 250-255 p.
[CHAUDHURY & BAJAJ, 1997] Santanu Chaudhury, R. Bajaj, Signature
Verification Using Multiple Neural Classifiers, Pattern Recognition,
1997, Vol. 30, No. 1, 1-7 p.
[CHUANG, 1977] P. C. Chuang, Machine Verification of Handwritten Signature
Image, Proc. Int. Conf. on Crime Countermeasures-Sci, J. S. Jackson
and R. W. De Vore, University of Kentucky, Lexington, 1977, 105-109
p.

128

[ELMS, 1996] A. J. Elms, The representation and recognition of text using Hidden
Markov Models, .Phd Thesis, Guildgord, Surrey GU25Xh, U. K.,
1996, 239 p.
[FUJISAWA et al., 1999] Yoshiharu Fujisawa, M. Shi, T. Wakabayashi, F. Kimura,
Handwritten Numeral Recognition Using Gradient and Curvature of
Gray Scale Image, Proceedings of The Fifth International Conference
on Document Analysis and Recognition, Bangalore, India, 1999, 277280 p.
[FUNG et al., 1996] George S. K. Fung, James N. K. Liu and Rynson W. H. Lau,
Feature Selection in Automatic Signature Verification Based on
Genetic Algorithm, International Conference on Neural Information
Processing ICONIP96, Hong Kong, 1996, 811-815 p.
[GOMIDE & GOMIDE, 1995] Tito Gomide e Lvio Gomide, Manual de Grafoscopia,
Editora Saraiva, So Paulo, Brasil, 1995, 106 p.
[HOEL, 1960] Paul G. Hoel, Elementary Statistics, A Wiley Publications in Statistics,
John Wiley & Sons Inc, Canada, 1960, 261 p.
[HUANG & YAN, 1997] Kai Huang and Hong Yan, Off-line Signature Verification
Based on Geometric Feature Extraction and Neural Network
Classification, Pattern Recognition, 1997, Vol. 30, No. 1, 9-17 p.
[HUNT & Qi, 1995] R. Hunt and Yingyong Qi, A Multiresolution Approach to
Computer Verification of Handwritten Signatures, IEEE Transations
on Image Processing, 1995, Vol. 4, No. 6, 870- 874 p.
[IMPEDOVO & FORTE, 1996] S. Impedovo and A. M. Forte, A New Adaptive
Neural Network for na Off-Line Signature Verification System, Fifth
International Workshop on Frontiers in Handwriting - IWFHR5, 1996,
355-363 p.
[JUSTINO et al., 1998a] Edson J. R. Justino, Flvio Bortolozzi and Robert Sabourin,
Os Sistemas de Reconhecimento de Assinaturas sob a tica da
Grafologia, International Seminar on Document Management ISDM98,
Curitiba, Brazil, 1998, 134-140 p.
[JUSTINO et al., 1998b] Edson J. R. Justino, Flvio Bortolozzi and Robert Sabourin,
Uma Arquitetura Multinvel para um Sistema de Reconhecimento
de ssinaturas usando Modelos Escondidos de Markov, International
Seminar on Document Management ISDM98, Curitiba, Brazil, 1998,
140-156 p.

129

[JUSTINO et al., 2000a] Edson J. R. Justino, A El Yacoubi, Flvio Bortolozzi and


Robert Sabourin, Signature Verification System Using the Hidden
Markov Model and Cross-Validation, 13th Brazilian Symposium on
Computer Graphics and Imaging Processing - SIBGRAPI
2000,Gramado,Brazil, 2000, 134-144 p.
[JUSTINO et al., 2000b] Edson J. R. Justino, A El Yacoubi, Flvio Bortolozzi and
Robert Sabourin, An Off-line Signature Verification System Using
HMM and Graphometric Features , IAPR International Workshop on
Document Analysis Sytems DAS2000, Rio de Janeiro, Brazil, 2000,
211-222 p.
[JUSTINO et al., 2001] Edson J. R. Justino, Flvio Bortolozzi and Robert Sabourin,
Off-line Signature Verification Using HMM for Random, Simple
and Skilled Forgeries, ICDAR 2001, paper accepted, September 10-13,
Seattle, 2001.
[KASHI et al., 1998] R. Kashi, J. Hu, W. L. Nelson and W. Turin, Hidden Markov
Model Approach to Online Handwritten Signature Verification,
International Journal on Document Analysis and Recognition IJDAR,
Springer-Verlag, 1998., 102-109 p.
[KOERICH & LEE, 1997] Alessandro L. Koerich and Luan Ling Lee, Automatic
Extraction of Filled-in Information from Bankcheckes Based on
Prior Knowledge about Layout Structure, First Brazilian Symposium
in Document Image Analysis - BSDIA97, , Curitiba, Brazil, 1997, 322333 p.
[LETHELIER & GILLOUX, 1995] E. Lethelier and M. Gilloux, An Automatic
Reading System for Handwritten Numeral Amounts on French
Checks, Proceedings of the International Conference on Document
Image Analysis, Montreal, Canada, 1995, 92-97 p.
[LECOLINET, 1990] E. Lecolinet, Segmentation d Images de Mots Manuscrits:
Aplication la Lecture de Chanes de Caractres Majuscules
Alphanumriques et la Lectures de lEscriture Cursive, Thse de
Doctorat, Universite Pierre et Marie Curie, Paris VI, France, 1990, 245 p.
[MARTENS & CLAESEN, 1997] R. Martens and L. Claesen, Utilizing Baum-Welch
for Online Signature Verification, 4th International Conference
Document Analysis and Recognition ICDAR97, Ulm, Germany,
1997, 389-397 p.
[MINICUCCI, 1991] Agostinho Minicucci, Grafoanlise A nova abordagem da
grafologia. Editora Atlas, So Paulo, 1991, 120 p.
[NAGEL & ROSENFELD, 1973] R. N. Nagel and Azriel Rosenfeld, Steps toward
handwritten signature verification, Int. Journal of Pattern Recognition,
1973, vol. 29, 59-66 p.

130

[NEMCK & LIN, 1974] W. F. Nemcek and W. C. Lin, Experimental Investigation of


Automatic Signature Verification, IEEE Trans. System Man.
Cybernetics, 1974, no. 4, 121-126 p.
[OLIVEIRA et al., 19967] Claudio de Oliveira, Celso Kaestner, Flavio Bortolozzi and
Robert Sabourin, Generation of Signatures by Deformations, First
Brazilian Symposium of Advances in Document Image Analysis
BSDIA97, Curitiba, Brazil, 1997, 283 298 p.
[PIAGET, 1978] Jean Piaget, A linguagem e o pensamento da criana., Editora
Fundo de Cultura , Rio de Janeiro, 1978, 168 p.
[PLAMONDON & LORETTE, 1988] Rjean Plamondon and Guy Lorette, Automatic
signature verification and writer identification - the state of the art,
Pattern Recognition, 1988, vol. 22, 107-130 p.
[PLAMONDON et al., 1990]Rjean Plamondon, Guy Lorette, Robert Sabourin,
Automatic processing of signature images: static techniques and
methods, 4th IGS Conference on Pattern Recognition, Wold Scientific
Publishing, 1990, 49-63 p.
[POVLOV & DUNN, 1995] Bennett R. Povlov and Stanley M. Dunn, Texture
Classification Using Noncausal Hidden Markov Models, IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 17, no.
10, october, 1995, 45-50 p.
[RABINER & JUANG, 1993] L. Rabiner and Bung-Hwang Juang, Fundamentals of
speech Recognition, Prentice Hall, New Jersey, 1993, 507 p.
[REVILLET, 1991] M. J. Revillet, Verification de Signatures sur Cheques Postaux,
International Conference on Document Analysis and RecognitionICDAR91, France, 1991, 125-135 p.
[ROSENFELD et al., 1997] A. Rosenfeld, J. K. Guo and D. Doermann, Local
Correspondence for Detecting Random Forgeries, 4th International
Conference on Document Analysis and Recognition (ICDAR '97),
Germany, 1997, 145-155 p.
[RIGOLL & KOSMALA, 1998] G. Rigoll, A. Kosmala, A Systematic Comparison
Between on-line and off-line methods for signature verification with
Hidden Markov Models, 14th International Conference on Pattern
Recognition, vol. 2, Australia, 1998, 1755-1757 p.
[SABOURIN & PLAMONDON, 1986] R. Sabourin
and
R.
Plamondon,
Preprocessing of handwritten signatures form image gradient
analysis, 8th International Conference on Pattern Recognition, Paris,
1986, 576-579 p.

131

[SABOURIN & PLAMONDON, 1990]


Sabourin, R. and R. Plamondon, Progress
in the Field of Automatic Handwritten Signature Verification
Systems using Gray-level images, Inter. Workshop on Fronters in
Handwriting Recognition, Montreal, 1990, 12-23 p.
[SABOURIN et al., 1990] R. Sabourin, R. Plamondon and G. Lorette, Off-line
Identification with Handwritten Signature Images: Survey and
Perspectives, IAPR workshop on Syntactic and Structural Pattern
Recognition, AT&T Murray Hill, New Jersey, 1990, 377-391 p.
[SABOURIN & GENEST, 1994] Sabourin, R. and G. Genest, An Extended Shadow-Code Based Approach for Off-line Signature Verification:
Part -I Evaluation of the Bar Mask Definition, 12th IAPR
International Conference on Pattern Recognition, Israel, 1994, 450-460 p.
[VELS, 1961] Augusto Vels, Escrita e Personalidade- As Bases Cientficas da
Grafologia., Editora Pensamento, So Paulo, 1961, 153 p.
[YACOUBI, 1996] Abdenam El Yacoubi, Modlisation Markovienne de lscriture
manuscrite Application la reconnaissence des adress postals, These
de doctorat, Universite de Rennes1, France, 1996, 307 p.
[YANG et al, 1995] L. Yang, B. K. Widjaja and R. Prasad, Application of Hidden
Markov Models for Signature Verification, Pattern Recognition, 1995,
vol. 28, no. 2, 161-170 p.
[YANG et al., 1997] J. Yang, Xu Yangsheng and Chiou S. Chen, Human Action
Learning via Hidden Markov Model, IEEE Transaction on Systems,
Man and Cybernetics - Parte A: Systems and Humans, 1997, vol. 27, no.
1, 34-44 p.
[YOSHIMURA & YOSHIMURA, 1997] Isao Yoshimura and Mitsu Yoshimura, A
study on the Variation Quality as a Function of Nationality Through
an Off-line Verification Procedure, 8th Biennial Conference of the
International Graphonomics Society Research on Handwriting and
Drawing - IGS 97, Genova, Italy, 1997, 131-132 p.

You might also like