You are on page 1of 7

3rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 TUNISIA

SETIT 2005

Segmentation de chques bancaires arabes


Fadoua BOUAFIF SAMOUD, Samia SNOUSSI MADDOURI, Kamel HAMROUNI
Laboratoire de systme et de Traitement de Signal (LSTS) Ecole Nationale dIngnieur de Tunis (ENIT), B.P 37 Belvdre 1002, Tunis Fadoua.Bouafif@fsegn.rnu.tn Kamel.Hamrouni@enit.rnu.tn Samia.Maddouri@enit.rnu.tn Rsum: Le traitement automatique du chque bancaire ncessite la segmentation pralable des diffrentes zones dinformation existant dans le chque. Dans cet article, nous prsentons le problme dextraction du montant littrale du chque bancaire rdig en arabe. Une mthode de segmentation de cette zone est propose. Cette mthode est base sur les transformations de base de la morphologie mathmatique et exploite la structure physique et logique du chque. Mots cls: Composantes connexes, morphologie mathmatique, segmentation, structure du chque bancaire. Dans cet article, nous prsentons une mthode dextraction automatique du montant littral manuscrit existant dans un chque bancaire. Cette mthode est base principalement sur lutilisation des transformations de la morphologie mathmatique. Nous prsentons dans la section suivante quelques mthodes de segmentation couramment utilises dans le domaine documentaire. La mthode de segmentation choisie est prsente dans la troisime section. Dans la section quatre nous prsentons la conception et la ralisation dune mthode de segmentation. Dans la cinquime section nous prsentons une valuation de notre mthode, et nous terminons par une conclusion et perspectives. 2. Diffrentes approches segmentation et mthodes de

1. Introduction La reconnaissance de l'criture manuscrite intresse de nombreux domaines dapplications tels que le tri automatique du courrier, le traitement automatique des dossiers administratifs, ou encore l'enregistrement des chques bancaires. Quelques systmes de reconnaissance de l'criture manuscrite ont t raliss. Cependant, ils sont spcifiques un domaine prcis et sont encore limits. Par exemple, le systme IKRAA qui est dvelopp au sein du laboratoire LSTS lENIT est capable de reconnatre les mots des montants littraux des chques arabes (71 mots), et ncessite une extension pour reconnatre tous les noms de villes tunisiennes (946 mots). Ces mots sont extraits manuellement des documents (Snoussi, 2003). Les chercheurs sont donc confronts au problme de lextraction automatique des mots qui relvent du domaine de la segmentation La segmentation est un processus qui consiste dcouper une image en rgions connexes et homognes au sens dun critre donn (Christophe, 2003). Cest une tape importante pour lextraction des informations et est ncessaire dans le dveloppement dun systme de reconnaissance automatique de lcriture. Mais cette opration est rendue dlicate, dans le cas de lcriture manuscrite et en particulier pour les chques bancaires, par la prsence des espacements irrguliers entre les lignes et les points diacritiques pour lcriture arabe.

La segmentation est une technique trs importante dans le domaine du traitement dimage, en particulier les documents. La segmentation de documents dpend des caractristiques de lcriture et de lapproche de reconnaissance. Il existe diffrentes approches et diffrentes mthodes de segmentation de documents. 2.1 Approches de segmentation de document Il existe principalement trois stratgies de segmentation : Lapproche analytique explicite, lapproche implicite et lapproche globale (Caesar & al, 1993). 2.1.1 Approche analytique explicit Cette approche repose sur la segmentation et la reconnaissance dlments caractristiques proches

SETIT2005 des lettres (quon appelle graphme). Il y a dans ce cas une pr-segmentation explicite qui sappuie souvent sur des critres perceptifs tels que lemplacement des ligatures entre les lettres. Les graphmes sont reconnus individuellement. Lidentification du mot est effectue sappuie sur linformation contextuelle (Dargento & al, 1993). 2.1.2 Approche analytique implicite Lapproche analytique implicite vite certains rsultats de la segmentation explicite. Cette fois, il ny a pas de pr-segmentation du mot. La segmentation seffectue pendant la reconnaissance. Le systme cherche dans limage les composantes ou les groupes de graphmes qui correspondent ses classes de lettres. Classiquement, il peut le faire de deux manires ; soit par fentrage, soit par recherche de primitives (Dargento & al, 1993). 2.1.3 Approche analytique mixte La plupart des mthodes actuelles pratiquent un mlange des deux stratgies prcdentes. Dabord, une phase de pr-segmentation est applique pour sursegmenter limage. Puis la meilleure combinaison de reconnaissance est choisie en considrant les combinaisons possibles de 1,2,.,n graphmes. Cette recherche est faite au moyen de mthodes doptimisation telles que la programmation dynamique ou les modles de Markov Cachs (Caesar & al, 1993). 2.1.4 Approche global Dans lapproche globale, le mot est reconnu par sa forme gnrale. Il ny a pas de segmentation (ni explicite, ni implicite). Cest pourquoi cette approche est cense tre robuste au bruit ou aux imperfections du signal. Habituellement la reconnaissance dpend dun lexique (Caesar & al, 1993). Puisque cette mthode ncessite un modle pour chaque mot du lexique et que chaque modle doit tre appris, elle est plutt utilise pour des applications o le lexique est restreint comme cest le cas dans le traitement automatique des chques. 2.2 Mthodes de segmentation Il existe plusieurs mthodes de segmentation, nous prsentons les plus utilises dans le domaine de la reconnaissance de lcriture. 2.2.1 RLSA (Run Length Smoothing Algorithm) Run Lengh Smoothing Algorithm est une technique due Wong (Wong & al, 1982). Elle est fonde sur un double lissage unidirectionnel de limage segmenter. Elle consiste noircir, suivant une direction donne, les segments de pixels blancs de longueur infrieure un seuil S donne. La segmentation est alors obtenue en appliquant loprateur logique and (^) sur les deux images rsultant respectivement dun lissage horizontal et dun lissage vertical. La nature des blocs isols est intimement lie au choix des seuils. Des seuils trop
2

faibles provoquent une sur-segmentation alors que des seuils trop levs provoquent une sous segmentation. Les principales limites de cette technique sont : - le choix arbitraire des seuils de lissage. - sa sensibilit aux inclinaisons,

- son inadaptation segmenter des blocs graphiques, formules et tableaux.


2.2.2 Dcoupe rcursive Un grand nombre de techniques de segmentation procdent par dcoupe rcursive, alternant les profils horizontaux avec les profils verticaux. Un profil de projection est une accumulation de pixels noirs dune image suivant un axe donn. Le profil de projection vertical sert la segmentation en ligne ainsi qu lestimation des lignes de base (Pden, 1994). Les principales limites pour ce genre de technique sont : - la sensibilit aux inclinaisons, - linadaptation segmenter des blocs mosaques. 2.2.3 Segmentation ascendante par fusion des composantes connexes Cette mthode ncessite la segmentation en blocs ; on calcule la hauteur dun caractre sans hampe ni jambage, tel que le x ; cette estimation locale, fournit une valeur relativement prcise. Le calcul est bas sur ltude de la fonction de distribution de la hauteur des composantes connexes du bloc, la mthode est applique aux documents imprims prsentant une petite inclinaison (Christophe, 2003). 2.2.4. Segmentation en ligne et en mot Cette mthode est ralise en plusieurs tapes. Les composantes connexes sont dabord dtectes et tiquetes, les zones de chevauchement entre ligne adjacentes sont localises. Les composantes connexes sont ensuite regroupes en lignes et en mots (Ingold, 1990). Venturelli (Venturelli, 2000) utilise trois segmentations successives et indpendantes, de mme structure de base. Chacune dentre elles fonctionne selon le schma suivant : - Dcoupage de limage en colonnes, - Construction de lhistogramme de la projection horizontale pour chaque colonne, - Dfinition des chemins identifiant les lignes de textes par lutilisation des densits maximales des histogrammes, - Segmentation en lignes, - Affinement de la segmentation par un suivi de contour des caractres. 3. Choix de la mthode de segmentation Aprs ltude de quelques mthodes de segmentation utilise, nous avons constat que toutes les mthodes permettent de dcomposer le document

SETIT2005 trait en composantes connexes reconnatre. Or dans le cas des chques bancaires il est difficile de dlimiter des composantes connexes. La mthode que nous avons labore, utilise des oprateurs de la morphologie mathmatique pour la construction de composantes connexes avant ltape dextraction. 3. 1. Prsentation mathmatique de la morphologie Lors de cette transformation : tous les objets vont "grossir" d'une partie correspondant au rayon de l'lment structurant, s'il existe des trous dans les objets, c'est dire des "morceaux" de fond l'intrieur des objets, ils seront combls, si des objets sont situs une distance moins grande que la taille de l'lment structurant, ils vont fusionner (Boudry, 2002). 3. 4. Ouverture Une rosion suivie dune dilatation par le mme lment structurant B est dite Ouverture . Elle est note : XB = (X B) B Lensemble ouvert est plus rgulier et moins riche en dtail. Louverture adoucit les contours. Elle joue le rle de filtre linaire. 3.5. Fermeture La fermeture est une transformation duale de louverture (dilatation suivie dune rosion). Elle est note : XB = (X B) B La fermeture est aussi un filtre similaire louverture mais sur le complmentaire. La fermeture bouche les canaux troits suppriment les petits lacs et les golfes troits. 4. Conception et ralisation dune mthode de segmentation du chque bancaire Malgr les recherches effectues sur la segmentation de document, cette dernire reste dpendante de la structure du document. Un grand pas est effectu pour la segmentation des documents latins bien structurs et imprims. Par contre la segmentation de documents arabes, aussi bien imprims que manuscrits reste encore au stade de recherche. Notre travail concerne la segmentation des chques bancaires tunisiens ainsi que lautomatisation de ltape dextraction des montants littraux. La particularit du chque tunisien est quil est multilingue et riche en information. Nous trouvons de limprim et du manuscrit, du littral et des chiffres numriques, de larabe et du latin. 4.1 Structure physique et logique du chque Les chques bancaires tunisiens sont multilingues, comme le montre la figure 1, nous trouvons de larabe et du franais, de limprim et du manuscrit, des chiffres et des images.

La morphologie mathmatique est une thorie qui propose des outils robustes pour le traitement et l'analyse d'images (Serra, 1982). Les outils proposs ont t dvelopps soit pour traiter des images binaires (comme dans notre cas), nous parlons alors de la morphologie mathmatique sur les ensembles. Soit pour traiter des images en niveaux de gris, nous parlons, ce moment, de morphologie mathmatique sur les fonctions (Boudry, 2002). Le principe de base de la morphologie mathmatique est de prospecter lespace image laide dune forme particulire dite lment structurant et de rpondre des questions simples du genre llment structurant est-il inclus dans lensemble ? ou coupe-t-il lensemble ? . Selon la rponse, le centre de llment structurant est retenu ou non dans lensemble transform. 3. 2. Erosion Soit un ensemble X et un lment structurant Bz centr en z. Bz est dplac de telle sorte que son centre occupe successivement toutes les positions de lespace. Tous les points z ayant une rponse positive forment un nouvel ensemble dit rod de X par B. On note : X B = {z E / Bz X} Lors de cette transformation : les objets de taille infrieure celle de l'lment structurant vont disparatre, les autres seront "amputs" d'une partie correspondant au rayon de l'lment structurant, s'il existe des trous dans les objets, c'est dire des "morceaux" de fond l'intrieur des objets, ils seront accentus, les objets relis entre eux vont tre spars (Boudry, 2002). 3. 3. Dilatation Soit un ensemble X et un lment structurant Bz centr en z. Bz est dplac de telle sorte que son centre occupe successivement toutes les positions de lespace. Lensemble des points z ayant une rponse positive forme lensemble dilat de X. On note : X B = {z E / Bz X }

SETIT2005 reprer le lecteur. Dans la mesure o elle ne tient pas compte de la prsentation, la structure logique constitue une reprsentation abstraite du document. Elle a pour but de dcrire lorganisation du chque telle quelle est perue par la banque. Cette abstraction offre lavantage de rendre la description du chque indpendante du support physique. Figure 1. Exemple dun chque tunisien Les chques prsentent une structure particulire de document. Une tude de la structure physique et logique est ncessaire pour notre mthode de segmentation. Elle donne la position pralable de chaque composante du chque. La structure physique indique la nature du contenue de chaque composante et la structure logique prsente la signification du contenue de la zone.La figure 2 montre la structure du chque et les diffrentes composantes qui le constitue.
3 4 7 9 10 8 6 5 2 1

4.2 Pr traitement de limage Limage du chque est le rsultat dune tape dacquisition effectue laide dun scanner. Cette tape introduit une dformation de limage acquise. Dou la ncessit deffectuer une tape de prtraitement dont le but de rduire la quantit de bruit et damliorer la qualit de limage. Dans notre cas cette phase est compose de deux oprations: un filtrage et une binarisation. 4.2.1 Filtrage Le filtre est une opration damlioration appliqu sur limage bruit dont le but de diminuer la quantit de bruit. Il existe diffrents types de filtre comme le filtre moyenneur, le filtre mdian, les filtres morphologiques, etc. le choix du filtre dpend du type de limage traite. Dans notre cas, nous avons choisi dappliquer le filtre mdian, dont Le principe est de remplacer le pixel courant par la valeur mdiane des neuf voisins ordonns par ordre croissant. Il a la proprit de lisser limage tout en prservent le contraste au niveau de contour. Lapplication de ce filtre sur limage du chque est illustre par la figure 3.

Figure 3. La structure physique et logique du chque


tunisien

Le tableau-1 prsente le contenue physique et la signification logique de chaque composante du chque tunisien.
Numro de zone 1 Interprtation physique Digits manuscrits et criture imprime Ecriture imprime et image Ecriture et digits imprims Ecriture imprime et manuscrite Ecriture imprime et manuscrite image Ecriture et digits imprims Ecriture et digits imprims Ecriture et digits imprims Interprtation logique Le montant numrique

2 3 4 5 6 7 8 9

le nom et le sigle de la banque


le numro du chque le montant littral le nom du receveur La signature (a)

le numro du compte du scripteur la date ladresse et le numro de tlphone de la banque le numro du chque, le code de la banque et le numro du compte du scripteur
du chque tunisien (b)

Figure 3. (a) image initiale du chque tunisien, (b) rsultat


de filtrage mdian

10 logique de

Digits imprime chaque zone

Tableau 1. Le contenue physique et la signification Les entits logiques sont des concepts servant structurer le message de lauteur, elles servent
4

4.2.3. Binarisation Limage du document trait est numrise en niveau de gris. A chaque pixel est associe une valeur entre 0 et 255. La binarisation consiste mettre zro tout pixel ayant une valeur infrieure un certain seuil S, et 1 toute valeur suprieure S. Diffrentes mthodes sont conues, dveloppes et testes pour le

SETIT2005 calcul du seuil. Nous avons deux types de chques : les premiers ayant un fond simple homogne et les seconds ayant un fond contenant des motifs. Pour ces deux types de chques, la mthode de dtermination de la valeur du seuil nest pas la mme. Dans le premier cas, nous avons utilis la moyenne comme valeur de seuil, alors que dans le deuxime cas, nous avons appliqu la mthode dOtsu (Otsu, 1979). La premire mthode est applique sur limage initiale du chque tunisien et la deuxime est applique sur limage initiale du chque saoudien. La figure 4 illustre le rsultat de ses deux mthodes. laide dune application de transformation morphologique. La mthode propose comprend donc les tapes suivantes :
- Construction de composantes connexes,

- Etiquetage des composantes connexes, - Construction dun masque de la zone recherche, - Extraction du chque original la zone du montant. 4.3.1. Construction de zones connexes Il est facile de constater que lcriture manuscrite arabe est gnralement une criture verticale formant des composantes connexes correspondant aux morceaux de mots (POW : Piece Of Word ). Pour les connecter il suffit dappliquer une dilatation par un segment horizontal comme lment structurant. Une dilatation par un segment vertical permet de connecter les points diacritiques et les lignes adjacentes. En effet la dilatation consiste, comme son nom lindique dilater limage . Elle est applique sur une image binaire, ainsi les points noirs isols au milieu de parties blanches sont engloutis, et on aboutit une image plus agrable dans le cas de formes fines, dgrads ou pas trop clairs. Dans dautres cas, diffrentes zones trs proches sont connectes entre elles pour former une seule composante connexe. Lopration de dilatation est applique sur limage binaire de la figure 4 (b). Le rsultat est illustr par la figure 4.

(a)

(b)

(c) (a)

(d)

Figure 4. (a) image initiale du chque tunisien, (b) rsultat de binarisation par la mthode de valeur moyenne, (c) image initiale du chque saoudien, (d) Rsultat de binarisation par mthode dOtsu. 4.3. Mthode de segmentation propose Lobjectif de notre mthode de segmentation est de localiser et dextraire la zone contenant le montant littral comme constituant pour une composante connexe. Or les mthodes de segmentation permettent de dtecter les composantes. Lide de base de notre mthode est de construire des composantes connexes
5

(b)

Figure 5. (a) Dilatation horizontale au niveau 5, (b)


Dilatation horizontale verticale au niveau 2

La figure 5 (b) montre leffet de la dilatation. Les POWs sont bien connects en formant une seule composante comme le nom de la banque, le montant numrique, etc. Mais certaines composantes se trouvent connectes ensemble alors quelles devraient tre spares. Pour les sparer ses il suffit dappliquer un filtre morphologique de type fermeture du fond du

SETIT2005
chque. Cette opration qui permet de supprimer la petite liaison entre les composantes. Elle est applique sur limage de la figure 5 (b). Le rsultat est montr par la figure 6.

littral, une tape dextraction est ncessaire. Nous appliquons un ET logique entre limage originale et le masque construit. Le rsultat est illustr par la figure8.

(a)

ET

Figure 6. Rsultat de fermeture La figure 6 montre bien la sparation entre la composante du receveur, la date et la signature.
(b)

(c)

4.3.2 tiquetage des zones connexes Une fois les composantes connexes sont dlimites, une tape dtiquetage est ncessaire dans cette phase pour la distinction entre les diffrentes composantes. Le principe de cette tape est daffecter chaque zone une tiquette correspondant une couleur, donc elle permet de donner une dgradation en niveaux de gris limage. Ce traitement est appliqu sur limage de la figure 6. Le rsultat est montr par la figure 7.

Figure 8. (a) image originale, (b) masque de la zone du


montant littrale, (c) extraction zone

5. Evaluation de taux de segmentation Pour lvaluation de notre mthode, nous avons utilis diffrents types de chques tels que des chques tunisiens, des chques artificiellement construits au laboratoire LSTS et des chques issus de la base de donnes de chques saoudiens disponible au Canada au laboratoire LIVIA. Le travail dvaluation du taux dextraction a t effectu sur chaque base sparment car le type de document chque, son contenu et le nombre de scripteur varient dune base lautre. Nous avons test la mthode propose sur 60 chques de 6 banques tunisiennes, 100 chques de la base de donnes artificiel de LSTS et 10 chques de la base de donnes de chques saoudien disponible au Canada au laboratoire LIVIA. Le tableau 2 prsente le nombre total de chques de chaque banque tunisienne, le nombre de zones correctement extraites de chaque type et le taux dvaluation dextraction.
Amen Bank NTC 10 South Bank 10

Figure 7. Image aprs tiquetage 4.3.3 Construction dun masque de la zone recherch Daprs ltude physique et logique du chque, nous avons une ide prliminaire sur la forme des diffrentes zones de limage (forme rectangulaire), ainsi que lemplacement de zone extraire. La construction dun masque va retenir la composante connexe correspondante la zone recherche, cest le montant littral dans notre cas. Ce masque une hauteur infrieure un seuil donne et de longueur la plus longue existante au milieu du chque. Le rsultat est donn par la figure 7.

BNA 10

BIAT 10

BH 10

STB 10

NZE

80% TE

60%

70%

30%

90%

80%

Figure 7. Masque de la zone du montant littral 4.3.4 Extraction de la zone du montant littral Pour la reconnaissance automatique du montant
6

Tableau 2. Evaluation du taux dextraction sur 60 chques de diffrentes banques tunisiens (NTC : Nombre Totale de cheque, NZE : Nombre de Zones correctement Extraite, TE : Taux dExtraction) Le taux dvaluation de ce type du chque varie

SETIT2005 entre 30% et 90%. Le taux faible ( 30% ) de la banque du Sud est du au fait que les zones dcriture imprime arabe et franais ainsi que la zone du montant manuscrit sont relis par une ligne continue qui rend lextraction plus difficile. Le taux lev (90%) de la banque de lHabitat est d au fait que le fond est simple homogne et le contenu est bien structur. Lvaluation de la base de donnes artificielle LSTS et de la base de donnes de LIVIA est illustre dans le tableau 3. taux dextraction. Nous pensons dans une premire perspective, une mthode qui permet de sparer le manuscrit de limprim en utilisent les outils de Reconnaissance Optique des Caractres (OCR) imprims latins ou arabes. Nous prvoyons lextraction des autres zones, comme le nom de la banque, le montant numrique, la signature et le numro de compte (RIB). Notre traitement est appliqu sur des images niveau de gris avec un fond plus ou moins simple sur les quelles nous appliquons une tape de binarisation. Nous pensons travailler directement sur limage niveau de gris, les images couleurs et surtout sur les images avec fond complexe (couleur et motif). Bibliographies
C.Boudry, URFIST de Paris, support de cours Traitement et analyse dimages, Octobre 2002.

NTC

NZE

TE

LSTS

100

80

80%

LIVIA

10

90%

Tableau 3. Evaluation du taux dextraction sur un chantillon de la base de donnes de LSTS et de LIVIA Le taux dvaluation de la base de donnes artificiel de LSTS est de 80%. Le taux 20% de mauvaise extraction est d essentiellement linclinaison remarquable avec laquelle ces chques sont scannes. Le taux dvaluation du chque saoudien de la base de donns de LIVIA est de 90%. Le taux 10% de mauvaise extraction est du au fait de chevauchement existe entre lcriture imprime et lcriture manuscrite. 6. Conclusion et Perspectives La mthode dextraction automatique du montant littral des chques bancaires propose est base sur les transformations de base de la morphologie mathmatique et exploite la structure physique et logique du chque. Cette mthode construit des composantes connexes laide dune application de transformation morphologique. Elle permet dtiqueter les composantes connexes construites, de construire un masque de la zone cherche afin dextraire du chque original la zone du montant littrale. Cette mthode est applique sur des images scannes niveau de gris. Le rsultat dvaluation obtenu est entre 30% et 90% pour les chques tunisiens, de 80% pour les chques artificiellement construits au laboratoire LSTS, de 90% pour les chques issus de la base de donnes de chques saoudiens disponible au Canada au laboratoire LIVIA. Vu que le chevauchement entre lcriture imprime et lcriture manuscrite entrane un faible
7

D.Pden, O.Morb, A.Thpaut, Analyse et reconnaissance de documents par mthodes morphologique et neuronale, 3me Colloque National sur lcrit et le Document, 1994. F.Venturelli, A Successful Technique for Uncontrained Hand-Written Line Segmentation, Progress in Handwriting Recognition pp563-568.2000. J.Caesar, B.Gloger, Pre-processing and feature extraction for a handwriting recognition system, second international conference on document analysis and recognition, pp.408-411, 1993. J.Christophe, support de cours traitement dimage et vision artificielle. 2003. J. Serra. Image analysis and mathematical morphology. Academic Press, London 1982. R.Ingold, Structure de documents en lecture optique : une nouvelle approche, press polytechnique romandes, 1990. K.Y. Wong, R.G. Casey, and F.M. Wahl, Document analysis system, IBM J. Res. Develop., Vol 26, pp. 647-656, 1982. N.Otsu, Atherhold selection method from grey scale histogrm, IEEE Trams. On Syst, Man and Cyber, vol1, pp 62-66, 1979. P.Dargento, N.Vincent, H.Emptoz Construction d'un graphe structurel reprsentatif d'une forme. ICOHD'93, Sixth International Conference on Handwriting and Drawing, P Conference on Handwriting and Drawing, p. 231-233, 1993. S.Snoussi, modele perceptif neuronal vision globale locale pour la reconnaissance de mots arabes omn_sripteurs, thse de doctorat Ecole National dIngnieur de Tunis, 2003.

You might also like