Professional Documents
Culture Documents
Rsum
Nous nous intressons ici aux mthodes dalignement automatique destines produire des
corpus bi-textuels, utiles au traducteur, au terminologue ou au linguistique. Certaines
techniques ont obtenu des rsultats probants en sappuyant sur la dtermination empirique des
cognats (de langlais cognate ), des mots qui se traduisent lun par lautre et qui
prsentent une ressemblance graphique. Or les cognats sont gnralement capts au moyen
dune approximation abrupte, de nature opratoire : on considre tous les 4-grammes (mots
possdants 4 lettres en commun) comme cognats potentiels. Aucune tude na t faite,
notre connaissance, propos de la validit de cette approximation. Afin den dmontrer les
possibilits et les limites, nous avons cherch dterminer empiriquement la qualit de cette
simplification, en termes de bruit et de silence (ou de manire complmentaire, de prcision et
de rappel). Nous avons ensuite essay de dvelopper un filtrage plus efficace, bas sur
lutilisation des sous-chanes maximales. Enfin, nous avons corrl les amliorations du
filtrage avec les rsultats de lalignement, en nous basant sur une mthode gnrale
dveloppe par nous : nous avons pu constater un net progrs en terme de rappel et de
prcision de lalignement.
1. Introduction
Un bi-texte, not <T1,T2,S,C>, est un corpus constitu de deux textes T1 et T2 dont lun
est traduction de lautre, dot dune fonction de segmentation S, permettant de dcouper les
deux textes en units plus petites (paragraphes, phrases, syntagmes), et dune fonction de
correspondance C permettant dapparier les segments en relation de traduction (Isabelle,
1992). Ainsi conu, un corpus bi-textuel constitue un matriel privilgi dont les applications
sont intressantes dans de nombreux domaines :
- dans lapprentissage de la pratique traductionnelle, en tant que rserve dexemples
concrets, sous la forme dun concordancier bilingue.
- dans l'enseignement des langues.
- en terminologie diffrentielle, afin dobserver les quivalences usites dans la pratique
effective l'intrieur dun domaine prcis.
- en linguistique, dans ltude contrastive des langues vivantes : tude des distributions
lexicales, des correspondances morphologiques, des divergences phrasologiques, etc..
O. Kraif
- en traduction automatique, pour la constitution de systmes de traduction bass sur
l'exemple. De mme en aide la traduction, les bi-textes peuvent tre constitutifs dune
mmoire de traduction, utilisable comme un rpertoire de solutions dj trouves en rponse
des problmes spcifiques (de terminologie, de phrasologie).
- pour la vrification automatique de traduction (dtection de faux amis, d'omissions, etc..)
(Isabelle,1992), laide la rdaction en langue trangre, etc...
Les techniques dalignement visent la production massive de ces bi-textes : elles ont pour
but de mettre en correspondance, par un traitement automatique, les portions de textes qui
sont traductions les unes des autres.1 Nous nous intressons ici une de ces mthodes, fonde
sur lexploitation dindices lexicaux (les traductions des mots) et sappuyant sur une
approximation plutt abrupte : sont considrs comme traductions potentielles tous les mots
possdant plus de 4 caractres en commun (on crira : 4-grammes). Entre des langues
apparentes, comme langlais et le franais, cette hypothse a dj t mise en uvre et a
fourni de bons rsultats (Simard, Foster, Isabelle, 1994) (K.W. Church, 1993).
Cependant aucune tude n'a t faite, notre connaissance, propos de la pertinence de
cette approximation. Afin de dgager les fondements thoriques de la mthode et d'en prciser
les limites, nous avons cherch, partir d'un travail empirique, examiner cette hypothse
selon trois angles diffrents : dans un premier temps nous avons tudi le rappel et la
prcision2 empirique de l'approximation des n-grammes vis--vis de l'identification des
cognats ; puis nous avons tent damliorer les rsultats de cette approximation, moyennant
quelques ajustements ; enfin nous nous sommes intresss lincidence de la qualit du
filtrage des cognats sur les rsultats de l'alignement, dans le cadre dune mthode originale
que nous avons dveloppe.
2. Principes de lalignement
Nous nous plaons dans le cadre de lalignement au niveau des phrases. Nous ne
discuterons pas des difficults inhrentes la notion de phrase dont les dfinitions peuvent
varier (suivant que lon se base sur la ponctuation, les donnes prosodiques, le contenu
logique, etc.) et dont les limites ne sont pas toujours videntes (problmes de ponctuation
ambigu, phrases imbriques, listes, etc.). La phrase, comme le mot, sera pour nous une unit
opratoire.
Si lon reprsente les deux textes aligner comme tant deux ensembles de phrases S1 et
S2, trouver un alignement consiste trouver un sous ensemble du produit cartsien S1xS2.
Pour que lalignement ait un sens, les deux textes doivent respecter les deux conditions du
paralllisme noncs par Lang et Gaussier (1995) :
-
quasi-monotonie : la squence des phrases sources doit suivre, en gnral, la squence des
phrases cibles correspondantes.
Si lon numrote ces portions, un alignement peut donc tre reprsent sous la forme dun
ensemble de points de coordonne (x,y), o x et y reprsentent les numros des deux portions
apparies.
2
Pour lvaluation quantitative, nous utilisons les mesures de prcision et de rappel mises au
point dans le Projet Arcade. Pour plus de dtail, cf. supra.
3. La notion de cognat
Nous avons travaill sur des textes issus dun corpus bilingue, le BAF, constitu au RALI
de lUniversit de Montral, et gracieusement prt dans le cadre du projet Arcade centr sur
lvaluation des mthodes dalignement (Langlais, Simard, Vronis et al, 1998). Il sagit de
texte institutionnels issus de la Court suprme du Canada : environ 31000 mots en anglais et
33000 en franais.
Afin de pouvoir valuer le bruit gnr par le recours aux n-grammes, il nous a fallu
dfinir manuellement les couples de cognats observables au sein de notre corpus.
Etant donnes les difficults inhrentes la dtermination des cognats, nous sommes parti
dune dfinition opratoire visant minimiser les ambiguts dues la notion de
ressemblance. Deux mots M1 et M2 sont cognats si et seulement si :
1. il existe deux phrases (P1,P2) dont lune est la traduction de lautre, et dans lequel ils sont
traduction lun de lautre.
2. M1 et M2 prsentent un lien tymologique (emprunt, origine commune) perceptible dans
leur signifiant.
On y ajoutera les transfuges, cest--dire les invariants de la traduction (par exemple les
nombres et certains noms propres).
Le critre 2 ainsi que la notion de transfuge nont pas pos de problmes significatifs
(lexistence de liens tymologiques permettant de donner une assise objective la notion
confuse de ressemblance). En revanche, dcider de la traduisibilit dune forme par une autre
implique des difficults :
O. Kraif
-
Dune part un mot peut tre traduit par un phrasme : par exemple because <->
cause . On retient alors le couple portant ltymon commun : because <-> cause .
Dautre part il est parfois difficile de dterminer si un mot peut en traduire un autre : la
traduction mot--mot est un cas limite, loign de la pratique effective de la traduction.
Comme nous lavons soulign dans une prcdente discussion sur la notion contestable
dalignement lexical (Kraif, 1999), il nest pas possible dtendre lhypothse de
paralllisme au mot, lintrieur des phrases. Or des mots dtymologie commune mais
de smantisme diffrent peuvent, dans un certain contexte, se retrouver en relation de
traduction. Par exemple, les mots importation (eng.) et export (fra.) sont d assez
bons cognats : on peut leur imaginer un contexte de traduction : Il fait de lexport vers
les USA <-> He makes importations from France . Mais entre sensible (eng.) et
sens , lcart smantique parat plus grand. On peut pourtant trouver aussi un contexte
de traduction : Hes sensible <-> Il est plein de bon sens . Jusquo peut-on
accepter ces distorsions smantiques ?
Nous contournons cette difficult par un parti pris restrictif : au sein de notre corpus, nous
nidentifions comme cognats que les mots qui sont effectivement traduits lun par lautre,
dans le corpus. Ceci peut introduire un lger biais. Par exemple appeal (eng.) et
appelant (fra.) peuvent apparatre dans des phrases diffrentes, donc ne pas tre nots
comme traduction lun de lautre, alors que ce sont bien des cognats. Mais dans la mesure o
ce sont les cognats effectifs du corpus qui peuvent aider lalignement de celui-ci, on peut
supposer que ce biais nenlvera rien la validit de nos rsultats quant aux statistiques
permettant de lier lidentification des cognats avec la qualit de lalignement obtenu.
4. Algorithme dalignement
Nous avons dmontr dans des travaux prcdents (Kraif, 1998) quil tait possible, en se
basant uniquement sur l'identification des cognats et des transfuges, dobtenir un
pralignement robuste et prcis en un temps quasi-linaire, en O(n log(n))3. Un tel algorithme
peut servir dtape pralable lapplication de mthodes plus sophistiques bases sur la
programmation dynamique4, en un temps qui demeure quasi-linaire.
Notre algorithme se base sur une heuristique simple : le principe de prcision dabord .
Concrtement, ce principe commande d'utiliser d'abord les informations les plus fiables pour
en tirer un pralignement grossier mais trs sr. La mthode est ensuite applique de nouveau,
rcursivement, l'intrieur des sections dj alignes : le rappel peut ainsi augmenter sans
dcroissance de la prcision.
Ainsi, lalignement dgag met relation des couples de phrases, mais reste fragmentaire:
pour deux textes (P1P2Pn) et (P1P2Pn), on examine tous les couples (Pi,Pj) considrs
comme alignables (situs lintrieur dune bande autour de la diagonale), et on en dgage
une suite de couples de phrase (ou points dancrage) reprsentant un pr-alignement (cest
dire un sous-ensemble de lalignement complet). Les points dancrages ainsi dgags
serviront ultrieurement de points de capiton pour un alignement exhaustif.
titre dindication, nous avons obtenu une prcision de 99,4% et un rappel de 77,6% en
moyenne sur lensemble du corpus BAF. Le log(n) est du aux recherches dans nos index, sous
forme darbres binaires.
4
par exemple, en appliquant la mthode de Gale et Church aprs cet algorithme, on obtient
une prcision de 96% en moyenne pour un rappel de 86%, toujours sur le BAF.
Dans une deuxime tape, on examine tous les couples de phrases alignables lintrieur
des sections pralignes : on compte la frquence des cognats fij identifis entre les
phrases Pi et Pj de chaque section.. A partir de la matrice (fij) ainsi obtenue, on calcule
une nouvelle matrice exprimant le lien statistique entre les lignes i et les colonnes j :
cij =
( f ij f i f j ) 2
fi f j
Pour obtenir des points dalignement, on applique une condition de rciprocit : (i,j) peut
donner un point si cij est la borne suprieure de la ligne i et de la colonne j.
Les points obtenus sont ensuite filtrs avec les mmes critres quauparavant (diagonalit,
continuit, monotonie).
Notons que chaque matrice est calcule entre les points fixs par la premire tape. Si lon
peut montrer que le rappel de ltape 1 est (pour des textes normalement parallles) suprieur
un certain seuil, on obtient ainsi un espace de calcul en O(n). Concrtement, sur le Corpus
BAF cette hypothse est tenable : ltape 1 obtient un rappel oscillant de 40% 91% (sauf
pour un seul texte qui ne remplit pas les conditions de paralllisme, et pour lequel le rappel a
peu de signification).
O. Kraif
ou errons ; soit on tablit ces statistiques lintrieur des phrases qui sont effectivement
compares, dans lespace de calcul de lalgorithme, et un mme appariement interviendra
autant de fois quil entre dans une comparaison. Nous avons opt pour cette dernire solution,
car les statistiques sont ainsi directement lies lexploitation de lalgorithme.5
Pour lvaluation du silence et du bruit on utilise les trois mesures suivantes : la prcision P
exprime la proportion de cognats trouvs par rapport au nombre dappariements donns ; le
rappel R exprime la proportion de cognats trouvs par rapport nombre total de cognats
existants (entre les phrases compares) ; et la F-mesure reprsente la combinaison de P et R :
F=2PR/(P+R)6.
On obtient les statistiques du tableau 1. Nous y avons fait figurer, dans la premire
colonne, les statistiques de prcision et rappel lies aux transfuges, afin de servir de base de
comparaison. Notons quun certain nombre de ces transfuges sont comptabiliss dans les ngrammes.
Laugmentation de la prcision avec le nombre de caractres communs indique clairement
que plus un n-gramme est long, plus il est fiable dans la dtermination des cognats.
Malheureusement les indices qui gnrent le moins de bruit sont aussi les plus rares.
On constate que la prise en compte des transfuges dau moins 2 caractres7 donne une
meilleure F-mesure quavec les n-grammes (la prcision est de 100% car nous avons nglig
tous les cas dhomographie). En revanche, les 50% de rappel obtenu par les transfuges
indiquent clairement ce que peuvent apporter les n-grammes, ou dautres techniques : il reste
50% de cognats identifier. On peut sans doute amliorer les rsultats globaux en combinant
lidentit (les transfuges) et la ressemblance (les n-grammes ou autre). Cest ce que montre la
troisime colonne du tableau 1.
6. Sous-chanes maximales
Le filtrage par les n-grammes appelle deux remarques :
1. Dune part ils ne permettent pas de reconnatre la ressemblance lorsque celle-ci
implique des ruptures lintrieur des groupes de lettres : par exemple docteur et
dottore (it.) ne sont que des 2-grammes.
2. Dautre part, la signification dun n-gramme dpend troitement de la taille des mots
compars. Un 4-gramme entre form et forme parat plus significatif quun 6gramme entre exploration et dclaration .
Pour palier le premier inconvnient, nous proposons de recourir aux sous-chanes
maximales (on notera SCM), linstar de Dbili et Sammouda (1992) : la plus longue souschane de caractre commune aux deux mots (en autorisant les sauts). Par exemple, pour
docteur et dottore , la SCM est de longueur 4 : d-o-t-r. Mais la combinatoire des SCM
5
Il faut garder lesprit que ces statistiques rsultent de la comparaison de phrases voisines,
lintrieur de blocs praligns. Entre des phrases quelconques on peut supposer quelles
seraient diffrentes (pour des raisons de continuit thmatique), avec une prcision et un
rappel infrieurs.
6
Pour les transfuges comptant exactement 2 caractres, nous navons tenu compte que des
nombres.
la prcision de notre mthode dalignement est peu sensible au bruit : mme pour une
prcision Pc de 15%, la prcision de lalignement demeure au del de 80%. Cette
robustesse est due la multiplicit des contraintes de filtrage des points dalignement.
le rappel de lalignement, trs sensible la qualit du filtrage des cognats, est fortement
corrl au rsultat global de ce filtrage : entre Fc et Ra, la corrlation linaire est de 0,94.
Cela confirme lamlioration des rsultats apporte par le recours au SCM. La densit des
cognats identifis entre les phrases des deux textes est donc dterminante.
un point est marginal : lalignement obtenu avec les donnes des cognats de rfrence
(dernire ligne) est lgrement moins bon. Cela pourrait indiquer que trop de cognats (un
rappel trop important) pourrait affecter le rappel de lalignement. Cest videmment li
la nature de notre mthode : en effet la mesure du lien tendance favoriser les
appariements avec les phrases courtes. Ds lors, deux phrases pesant trop lourd auraient
moins de chance dobtenir un bon score, et donc dtre alignes ensemble. Mais cette
hypothse demanderait une tude plus approfondie pour tre confirme. Quoiquil en soit
il est raisonnable de supposer que lamlioration de Fc peut conduire des rsultats
meilleurs pour Fa, moyennant une exploitation diffrente de la cognacit.
O. Kraif
8. Conclusion et Perspectives
Nous avons cherch sortir de lapproximation classique cognat 4-gramme, dont la
validit na encore jamais t prcisment tudie. Aprs avoir valu, sur un extrait du
corpus BAF, les mesures de rappel et de prcision lies cette approximation, nous avons
indiqu une mthode permettant damliorer significativement les performances de la
dtermination des cognats : nous montrons comment combiner les n-grammes aux notions de
transfuges et de sous-chanes maximales afin dobtenir un meilleur rendement.
Nous avons ensuite appliqu ces amliorations lintrieur dun algorithme de
pralignement dvelopp par nos soins : cet algorithme, de complexit en O(n log(n)) tant
destin obtenir rapidement un pralignement de bonne qualit (pour y appliquer ensuite des
mthodes plus fines et plus coteuses en calcul). Notre exprience montre quun tel
algorithme est robuste du point de vue de sa prcision, et tributaire de la qualit de
lidentification des cognats en ce qui concerne son rappel. Appliqu lensemble du corpus
BAF, notre algorithme, avec utilisation des SCM, obtient une prcision de 99,4% en moyenne
(avec cart type de 0,78%) et un rappel de 77,6% en moyenne (85,1% si lon ignore deux
textes non parallles), ce qui en confirme lefficacit comme mthode de pralignement.
Notons que cet algorithme constitue un cadre gnral pour lutilisation dautres sources
dinformation concernant les quivalences lexicales : dictionnaires, lexiques extraits
automatiquement partir de linformation mutuelle ou du t-score, etc.
Bien entendu ces conclusions ne peuvent tre gnralises de manire trop htive : il est
clair que les rsultats obtenus dpendent troitement des textes en question et, de manire
encore plus dterminante, du couple de langues impliqu. Des questions restent ouvertes
quant aux limites de la mthode dalignement : il faudrait lier ses rsultats la densit de
cognats effectivement prsents dans les textes, puisque cette densit semble tre le paramtre
dcisif.
Certes, en ce qui concerne la dtermination des cognats, dautres mthodes dinspiration
linguistique peuvent tre employes, sans doute avec une meilleure prcision. Mais on perd
ainsi la gnralit des mthodes ici dcrites : dans ce cas le recours direct un dictionnaire
bilingue ad hoc semblerait la fois plus simple et plus efficace. En outre, daprs les rsultats
obtenus avec les cognats de rfrence (prcision maximum), lalignement rsultant nest pas
ncessairement meilleur : le recours aux cognats induit un bruit incompressible du la
dispersion des correspondances lexicales lextrieur des bornes des phrases alignes.
Notons enfin que lutilisation des transfuges et des cognats peut stendre des langues
sans aucun lien de parent : dans les domaines technologiques et scientifiques, une grande
partie de la terminologie est normalise et convergente. Des adaptations sont requises
toutefois quant aux systmes de transcription phonologiques, lorsque les alphabets sont
diffrents.
Rfrences
Church K.W. (1993). Char-align : A Program for Aligning Parallel Texts at the Character
Level. In Proceedings of the 31st Annual Meeting of the ACL, Colombus, Ohio, pp.1-8
Debili F, Sammouda E. (1992). Appariements de Phrases de Textes bilingues FranaisAnglais et Franais-Arabes. In Actes de COLING-92, Nantes, pp. 528-524
Fung P., Church K.W. (1994). K-vec : A New Approach for Aligning Parallel Texts. In
Proceedings of the 15th International Conference on Computational Linguistics, Kyoto
Gale W., Church K. W. (1991). A program for aligning sentences in bilingual corpora. In
Proceedings of the 29th Annual Meeting of the ACL, Berkeley, CA, pp. 177-184
Isabelle P. (1992), La bi-textualit : vers une nouvelle gnration daides la traduction et la
terminologie, Meta, XXXVII, 4, pp.721-731
Kay M., Rscheisen M. (1993), Text-Translation Alignment, Computational Linguistics, Vol.
19, N1, pp.121-142
Kraif O. (1998). Alignement de phrases bas sur les cognats. In Actes des 5mes rencontres
de latelier des doctorants en linguistique, Universit Paris 7, Paris, 4-5 dc. 1998, pp. 31-33
Kraif O. (1999). Rflexions autour des concepts de correspondance et dalignement textuel. In
Actes du colloque Linguistique contrastive et Traduction Approches Empiriques, Louvain-laNeuve, 5-6 fvrier 1999, pp. 25-26
Lang J.-M., Gaussier E. (1995), Alignement de corpus multilingues au niveau des phrases,
T.A.L., Vol. 36, N 1-2, pp. 67-80
Langlais P., Simard M., Veronis J. et al, (1998), ARCADE : A cooperative Research Project
on Parallel Text Alignment Evaluation, disponible sur le WEB http://www.lpl.univaix.fr/projects/arcade
Simard M., Foster G., Isabelle P. (1992). Using cognates to align sentences. In Proceedings of
the Fourth International Conference on Theoretical and Methodological Issues in Machine
Translation, Montral, pp. 67-81
Annexe
Les valeurs de Prcision, Rappel, et F-mesure sont donnes en pourcentage.
n-grammes +
transfuges
n-grammes
SCM
transfuges
n
Pc Rc Fc Pc Rc Fc Pc Rc Fc Pc Rc Fc
2
3
4
5
6
7
8
9
100
100
100
100
100
100
100
100
50
29
21
16
15
13
7
6
66
45
34
28
26
22
14
12
15
31
48
72
87
88
93
75
48
38
26
19
10
8
24
37
42
39
31
18
15
18
41
64
86
95
97
99
95
76
71
61
56
52
52
Tableau 1
30
54
67
71
71
68
68
47
64
75
74
76
73
93
55
45
39
30
21
13
10
51
53
51
43
33
22
18
SCM +
transfuges
Pc Rc Fc
55
75
85
86
90
92
99
76
74
72
65
58
55
53
63
74
78
74
70
69
69
O. Kraif
n-grammes
SCM
100%
100%
80%
80%
P
60%
60%
R
40%
40%
20%
20%
0%
0%
3 4 5 6 7 8 9
3 4 5 6 7 8 9
fig. 1
fig. 2
3-grammes (*)
4-grammes
CM>=3 + transfuge
CM>=4 + transfuge
CM>=5 + transfuge
CM>=6 + transfuge
CM>=7 + transfuge
CM>=8 + transfuge
CM>=9 + transfuge
Combinaison 1
Combinaison 2
Transfuges seuls
Cognats
Pc Rc Fc
15 75 24
31 48 37
55 76 63
75 74 74
85 72 78
86 65 74
90 58 70
92 55 69
99 53 69
68 73 70
75 73 74
100 50 66
100 100 100
Pa
82
97
99
100
100
100
100
100
100
99
100
100
100
Ra
32
63
76
86
85
84
82
79
76
80
86
68
74
Coeff. de
corrlation
Pc
Rc sans (*)
Fc
Pa
Ra
Fa
Tableau 3
Tableau 2
100%
100%
95%
80%
Fa
Ra
Pa
100%
80%
90%
60%
85%
40%
80%
10%
60%
Pc
35%
60%
85%
20%
40%
Rc
60%
80%
100%
40%
20%
Fig. 3
Fig. 4
Pa en fonction de Pc Ra en fonction de Rc Fa en fonction de Fc
Fc
40%
60%
Fig. 5
80%