You are on page 1of 10

Confrence TALN 1999, Cargse, 12-17 juillet 1999

Identification des cognats et alignement bi-textuel :


une tude empirique
Olivier Kraif
LILLA, Universit de Nice Sophia Antipolis, 98 Bd. E. Herriot BP 369 06007 Nice Cedex
kraif@lilla.unice.fr
http://lilla2.unice.fr

Rsum
Nous nous intressons ici aux mthodes dalignement automatique destines produire des
corpus bi-textuels, utiles au traducteur, au terminologue ou au linguistique. Certaines
techniques ont obtenu des rsultats probants en sappuyant sur la dtermination empirique des
cognats (de langlais cognate ), des mots qui se traduisent lun par lautre et qui
prsentent une ressemblance graphique. Or les cognats sont gnralement capts au moyen
dune approximation abrupte, de nature opratoire : on considre tous les 4-grammes (mots
possdants 4 lettres en commun) comme cognats potentiels. Aucune tude na t faite,
notre connaissance, propos de la validit de cette approximation. Afin den dmontrer les
possibilits et les limites, nous avons cherch dterminer empiriquement la qualit de cette
simplification, en termes de bruit et de silence (ou de manire complmentaire, de prcision et
de rappel). Nous avons ensuite essay de dvelopper un filtrage plus efficace, bas sur
lutilisation des sous-chanes maximales. Enfin, nous avons corrl les amliorations du
filtrage avec les rsultats de lalignement, en nous basant sur une mthode gnrale
dveloppe par nous : nous avons pu constater un net progrs en terme de rappel et de
prcision de lalignement.

1. Introduction
Un bi-texte, not <T1,T2,S,C>, est un corpus constitu de deux textes T1 et T2 dont lun
est traduction de lautre, dot dune fonction de segmentation S, permettant de dcouper les
deux textes en units plus petites (paragraphes, phrases, syntagmes), et dune fonction de
correspondance C permettant dapparier les segments en relation de traduction (Isabelle,
1992). Ainsi conu, un corpus bi-textuel constitue un matriel privilgi dont les applications
sont intressantes dans de nombreux domaines :
- dans lapprentissage de la pratique traductionnelle, en tant que rserve dexemples
concrets, sous la forme dun concordancier bilingue.
- dans l'enseignement des langues.
- en terminologie diffrentielle, afin dobserver les quivalences usites dans la pratique
effective l'intrieur dun domaine prcis.
- en linguistique, dans ltude contrastive des langues vivantes : tude des distributions
lexicales, des correspondances morphologiques, des divergences phrasologiques, etc..

O. Kraif
- en traduction automatique, pour la constitution de systmes de traduction bass sur
l'exemple. De mme en aide la traduction, les bi-textes peuvent tre constitutifs dune
mmoire de traduction, utilisable comme un rpertoire de solutions dj trouves en rponse
des problmes spcifiques (de terminologie, de phrasologie).
- pour la vrification automatique de traduction (dtection de faux amis, d'omissions, etc..)
(Isabelle,1992), laide la rdaction en langue trangre, etc...
Les techniques dalignement visent la production massive de ces bi-textes : elles ont pour
but de mettre en correspondance, par un traitement automatique, les portions de textes qui
sont traductions les unes des autres.1 Nous nous intressons ici une de ces mthodes, fonde
sur lexploitation dindices lexicaux (les traductions des mots) et sappuyant sur une
approximation plutt abrupte : sont considrs comme traductions potentielles tous les mots
possdant plus de 4 caractres en commun (on crira : 4-grammes). Entre des langues
apparentes, comme langlais et le franais, cette hypothse a dj t mise en uvre et a
fourni de bons rsultats (Simard, Foster, Isabelle, 1994) (K.W. Church, 1993).
Cependant aucune tude n'a t faite, notre connaissance, propos de la pertinence de
cette approximation. Afin de dgager les fondements thoriques de la mthode et d'en prciser
les limites, nous avons cherch, partir d'un travail empirique, examiner cette hypothse
selon trois angles diffrents : dans un premier temps nous avons tudi le rappel et la
prcision2 empirique de l'approximation des n-grammes vis--vis de l'identification des
cognats ; puis nous avons tent damliorer les rsultats de cette approximation, moyennant
quelques ajustements ; enfin nous nous sommes intresss lincidence de la qualit du
filtrage des cognats sur les rsultats de l'alignement, dans le cadre dune mthode originale
que nous avons dveloppe.

2. Principes de lalignement
Nous nous plaons dans le cadre de lalignement au niveau des phrases. Nous ne
discuterons pas des difficults inhrentes la notion de phrase dont les dfinitions peuvent
varier (suivant que lon se base sur la ponctuation, les donnes prosodiques, le contenu
logique, etc.) et dont les limites ne sont pas toujours videntes (problmes de ponctuation
ambigu, phrases imbriques, listes, etc.). La phrase, comme le mot, sera pour nous une unit
opratoire.
Si lon reprsente les deux textes aligner comme tant deux ensembles de phrases S1 et
S2, trouver un alignement consiste trouver un sous ensemble du produit cartsien S1xS2.
Pour que lalignement ait un sens, les deux textes doivent respecter les deux conditions du
paralllisme noncs par Lang et Gaussier (1995) :
-

quasi-bijectivit : toute phrase source a en gnral un correspondant dans le texte cible, et


rciproquement.

quasi-monotonie : la squence des phrases sources doit suivre, en gnral, la squence des
phrases cibles correspondantes.

Si lon numrote ces portions, un alignement peut donc tre reprsent sous la forme dun
ensemble de points de coordonne (x,y), o x et y reprsentent les numros des deux portions
apparies.
2

Pour lvaluation quantitative, nous utilisons les mesures de prcision et de rappel mises au
point dans le Projet Arcade. Pour plus de dtail, cf. supra.

Identification des cognats et alignement


Nos dveloppements sur lalignement prsupposent la vrification de ces hypothses.
Mme dans le cadre du paralllisme, lalignement nest pas une tche triviale dans la
mesure o une mme phrase peut apparatre dans plusieurs de ces couples, ou dans aucun : il
est frquent en effet quune phrase soit traduite par une ou plusieurs phrases, et il arrive
quelle soit omise.
Il existe un certain nombre de techniques dalignement, dsormais devenues classiques.
Elles diffrent par le type dinformation utilis : les longueurs de phrase (Gale et Church,
1991 ; Brown, 1991), les distributions lexicales (Kay et Rscheinsen, 1993 ; Fung, 1994), ou
encore les similitudes de surface entre les mots (Simard, Isabelle et Foster ; 1992).
Ces derniers ont enrichi la mthode de Gale et Church par lexploitation de lidentification
des cognats, i.e. des quivalents traductionnels prsentant une ressemblance tant au plan
smantique que graphique. Les cognats, dans un sens largi, rassemblent la fois les chanes
invariantes (comme les noms propres, les donnes numriques) et les mots apparents
(racines communes, emprunts). Lhypothse de cognacit , vrifie empiriquement entre
des langues europennes, peut tre ainsi formule : la densit de cognats observe entre
deux phrases est probablement plus leve si elles sont traduction lune de lautre, que si elles
sont prises au hasard . Sans entrer dans les difficults de la dfinition linguistique de cette
notion de ressemblance , les mthodes bases sur les cognats sappuient sur une donne
trs simple : la longueur de la suite maximale de caractres contigus communs. Pour une suite
de longueur n, on parlera de n-gramme . Certains systmes (Simard et al, 1992 ; K.W.
Church, 1993), en se basant sur n=4 ont obtenu des rsultats significatifs : nous pensons que
ces rsultats prometteurs peuvent tre amliors par un raffinement de cette approximation.

3. La notion de cognat
Nous avons travaill sur des textes issus dun corpus bilingue, le BAF, constitu au RALI
de lUniversit de Montral, et gracieusement prt dans le cadre du projet Arcade centr sur
lvaluation des mthodes dalignement (Langlais, Simard, Vronis et al, 1998). Il sagit de
texte institutionnels issus de la Court suprme du Canada : environ 31000 mots en anglais et
33000 en franais.
Afin de pouvoir valuer le bruit gnr par le recours aux n-grammes, il nous a fallu
dfinir manuellement les couples de cognats observables au sein de notre corpus.
Etant donnes les difficults inhrentes la dtermination des cognats, nous sommes parti
dune dfinition opratoire visant minimiser les ambiguts dues la notion de
ressemblance. Deux mots M1 et M2 sont cognats si et seulement si :
1. il existe deux phrases (P1,P2) dont lune est la traduction de lautre, et dans lequel ils sont
traduction lun de lautre.
2. M1 et M2 prsentent un lien tymologique (emprunt, origine commune) perceptible dans
leur signifiant.
On y ajoutera les transfuges, cest--dire les invariants de la traduction (par exemple les
nombres et certains noms propres).
Le critre 2 ainsi que la notion de transfuge nont pas pos de problmes significatifs
(lexistence de liens tymologiques permettant de donner une assise objective la notion
confuse de ressemblance). En revanche, dcider de la traduisibilit dune forme par une autre
implique des difficults :

O. Kraif
-

Dune part un mot peut tre traduit par un phrasme : par exemple because <->
cause . On retient alors le couple portant ltymon commun : because <-> cause .

Dautre part il est parfois difficile de dterminer si un mot peut en traduire un autre : la
traduction mot--mot est un cas limite, loign de la pratique effective de la traduction.
Comme nous lavons soulign dans une prcdente discussion sur la notion contestable
dalignement lexical (Kraif, 1999), il nest pas possible dtendre lhypothse de
paralllisme au mot, lintrieur des phrases. Or des mots dtymologie commune mais
de smantisme diffrent peuvent, dans un certain contexte, se retrouver en relation de
traduction. Par exemple, les mots importation (eng.) et export (fra.) sont d assez
bons cognats : on peut leur imaginer un contexte de traduction : Il fait de lexport vers
les USA <-> He makes importations from France . Mais entre sensible (eng.) et
sens , lcart smantique parat plus grand. On peut pourtant trouver aussi un contexte
de traduction : Hes sensible <-> Il est plein de bon sens . Jusquo peut-on
accepter ces distorsions smantiques ?

Nous contournons cette difficult par un parti pris restrictif : au sein de notre corpus, nous
nidentifions comme cognats que les mots qui sont effectivement traduits lun par lautre,
dans le corpus. Ceci peut introduire un lger biais. Par exemple appeal (eng.) et
appelant (fra.) peuvent apparatre dans des phrases diffrentes, donc ne pas tre nots
comme traduction lun de lautre, alors que ce sont bien des cognats. Mais dans la mesure o
ce sont les cognats effectifs du corpus qui peuvent aider lalignement de celui-ci, on peut
supposer que ce biais nenlvera rien la validit de nos rsultats quant aux statistiques
permettant de lier lidentification des cognats avec la qualit de lalignement obtenu.

4. Algorithme dalignement
Nous avons dmontr dans des travaux prcdents (Kraif, 1998) quil tait possible, en se
basant uniquement sur l'identification des cognats et des transfuges, dobtenir un
pralignement robuste et prcis en un temps quasi-linaire, en O(n log(n))3. Un tel algorithme
peut servir dtape pralable lapplication de mthodes plus sophistiques bases sur la
programmation dynamique4, en un temps qui demeure quasi-linaire.
Notre algorithme se base sur une heuristique simple : le principe de prcision dabord .
Concrtement, ce principe commande d'utiliser d'abord les informations les plus fiables pour
en tirer un pralignement grossier mais trs sr. La mthode est ensuite applique de nouveau,
rcursivement, l'intrieur des sections dj alignes : le rappel peut ainsi augmenter sans
dcroissance de la prcision.
Ainsi, lalignement dgag met relation des couples de phrases, mais reste fragmentaire:
pour deux textes (P1P2Pn) et (P1P2Pn), on examine tous les couples (Pi,Pj) considrs
comme alignables (situs lintrieur dune bande autour de la diagonale), et on en dgage
une suite de couples de phrase (ou points dancrage) reprsentant un pr-alignement (cest
dire un sous-ensemble de lalignement complet). Les points dancrages ainsi dgags
serviront ultrieurement de points de capiton pour un alignement exhaustif.

titre dindication, nous avons obtenu une prcision de 99,4% et un rappel de 77,6% en
moyenne sur lensemble du corpus BAF. Le log(n) est du aux recherches dans nos index, sous
forme darbres binaires.
4

par exemple, en appliquant la mthode de Gale et Church aprs cet algorithme, on obtient
une prcision de 96% en moyenne pour un rappel de 86%, toujours sur le BAF.

Identification des cognats et alignement


Dans une premire tape, on se base sur lexploitation des transfuges seuls (considrs
comme les indices les plus fiables). On implmente un processus itratif en deux temps :
1. prise en compte de tous les transfuges apparaissant le mme nombre de fois dans
les deux sections aligner. Puis on apparie ces occurrences pour obtenir un
ensemble de points dalignement.
2. filtrage des points selon les critres suivants, qui traduisent lhypothse de
paralllisme :
-

diagonalit : suppression des points loigns de la diagonale.

continuit : suppression des points prsentant une dviation forte par


rapport aux points prcdents.

monotonie : suppression des points entrant en conflit sur lune de leur


coordonnes, ainsi que les points croiss : (x,y) et (x,y) se croisent si x>x
et y<y.

Pour maximiser la prcision, on impose en outre une condition de surdtermination : on ne


retient que les points gnrs par au moins deux transfuges diffrents.
A lissue de ltape 2, chaque point donne lieu un dcoupage de la section aligne en
sous-sections alignes. Puis lon ritre les tapes 1 et 2 sur chaque sous-section,
rcursivement, jusqu stabilit.

Dans une deuxime tape, on examine tous les couples de phrases alignables lintrieur
des sections pralignes : on compte la frquence des cognats fij identifis entre les
phrases Pi et Pj de chaque section.. A partir de la matrice (fij) ainsi obtenue, on calcule
une nouvelle matrice exprimant le lien statistique entre les lignes i et les colonnes j :
cij =

( f ij f i f j ) 2
fi f j

Pour obtenir des points dalignement, on applique une condition de rciprocit : (i,j) peut
donner un point si cij est la borne suprieure de la ligne i et de la colonne j.
Les points obtenus sont ensuite filtrs avec les mmes critres quauparavant (diagonalit,
continuit, monotonie).
Notons que chaque matrice est calcule entre les points fixs par la premire tape. Si lon
peut montrer que le rappel de ltape 1 est (pour des textes normalement parallles) suprieur
un certain seuil, on obtient ainsi un espace de calcul en O(n). Concrtement, sur le Corpus
BAF cette hypothse est tenable : ltape 1 obtient un rappel oscillant de 40% 91% (sauf
pour un seul texte qui ne remplit pas les conditions de paralllisme, et pour lequel le rappel a
peu de signification).

5. Prcision et rappel des n-grammes


Au cours de lalgorithme prcdent, la prsence de n-grammes a permis de filtrer un
certain nombre de cognats potentiels. Nous voulons maintenant dterminer dans quelles
proportions ces appariements correspondent des cognats vritables, ou produisent du bruit.
Il existe deux faons de calculer les statistiques du filtrage des cognats : soit on ignore les
frquences des mots de chaque texte, et lon considre tous les appariements possibles entre
les deux lexiques, en comptabilisant tous les n-grammes aboutissant des appariements justes

O. Kraif
ou errons ; soit on tablit ces statistiques lintrieur des phrases qui sont effectivement
compares, dans lespace de calcul de lalgorithme, et un mme appariement interviendra
autant de fois quil entre dans une comparaison. Nous avons opt pour cette dernire solution,
car les statistiques sont ainsi directement lies lexploitation de lalgorithme.5
Pour lvaluation du silence et du bruit on utilise les trois mesures suivantes : la prcision P
exprime la proportion de cognats trouvs par rapport au nombre dappariements donns ; le
rappel R exprime la proportion de cognats trouvs par rapport nombre total de cognats
existants (entre les phrases compares) ; et la F-mesure reprsente la combinaison de P et R :
F=2PR/(P+R)6.
On obtient les statistiques du tableau 1. Nous y avons fait figurer, dans la premire
colonne, les statistiques de prcision et rappel lies aux transfuges, afin de servir de base de
comparaison. Notons quun certain nombre de ces transfuges sont comptabiliss dans les ngrammes.
Laugmentation de la prcision avec le nombre de caractres communs indique clairement
que plus un n-gramme est long, plus il est fiable dans la dtermination des cognats.
Malheureusement les indices qui gnrent le moins de bruit sont aussi les plus rares.
On constate que la prise en compte des transfuges dau moins 2 caractres7 donne une
meilleure F-mesure quavec les n-grammes (la prcision est de 100% car nous avons nglig
tous les cas dhomographie). En revanche, les 50% de rappel obtenu par les transfuges
indiquent clairement ce que peuvent apporter les n-grammes, ou dautres techniques : il reste
50% de cognats identifier. On peut sans doute amliorer les rsultats globaux en combinant
lidentit (les transfuges) et la ressemblance (les n-grammes ou autre). Cest ce que montre la
troisime colonne du tableau 1.

6. Sous-chanes maximales
Le filtrage par les n-grammes appelle deux remarques :
1. Dune part ils ne permettent pas de reconnatre la ressemblance lorsque celle-ci
implique des ruptures lintrieur des groupes de lettres : par exemple docteur et
dottore (it.) ne sont que des 2-grammes.
2. Dautre part, la signification dun n-gramme dpend troitement de la taille des mots
compars. Un 4-gramme entre form et forme parat plus significatif quun 6gramme entre exploration et dclaration .
Pour palier le premier inconvnient, nous proposons de recourir aux sous-chanes
maximales (on notera SCM), linstar de Dbili et Sammouda (1992) : la plus longue souschane de caractre commune aux deux mots (en autorisant les sauts). Par exemple, pour
docteur et dottore , la SCM est de longueur 4 : d-o-t-r. Mais la combinatoire des SCM
5

Il faut garder lesprit que ces statistiques rsultent de la comparaison de phrases voisines,
lintrieur de blocs praligns. Entre des phrases quelconques on peut supposer quelles
seraient diffrentes (pour des raisons de continuit thmatique), avec une prcision et un
rappel infrieurs.
6

F est en quelque sorte une moyenne dynamique : elle se rapproche de la moyenne si P et R


sont rapprochs, et elle dcrot si P et R sont loigns.
7

Pour les transfuges comptant exactement 2 caractres, nous navons tenu compte que des
nombres.

Identification des cognats et alignement


est trs importante (surtout avec les mots longs), et risque de produire beaucoup de bruit : par
exemple pragmatic est presque totalement inclus dans paradigmatique . Nous en avons
donc implment une version plus contrainte : les sous-chanes doivent tre quasiment
parallles, cest--dire que lon nautorise pas dinsertion ou de dltion de caractres en srie.
Enfin, pour limiter le bruit et tenir compte de la remarque 2, nous tiendrons compte de la
longueur des SCM par rapport la taille des mots. On calcule le rapport entre la taille du mot
le plus long et la longueur de la SCM : r(M1,M2)=l(SCM)/max(l(M1),l(M2)). Puis on
effectue un filtrage en fonction de r. Pour notre corpus nous avons test diffrentes valeurs
pour ce seuil : les meilleurs rsultats ont t obtenus en acceptant les SCM avec r 2/3.
Les colonnes 4 et 5 du tableau 1 contiennent les rsultats avec les SCM seules, puis
combines avec les transfuges. On constate, comme on pouvait sy attendre, une nette
amlioration de la prcision sans rduction du rappel (sauf pour les sous-chanes courtes avec
n3).

7. Corrlations avec lalignement


Nous avons cherch corrler les rsultats de la mthode de filtrage des cognats avec les
rsultats de son exploitation, i.e. lalignement. Les rsultats obtenus pour diffrents types de
paramtrages sont inscrits dans le tableau 2. Le rappel Ra et la prcision Pa de lalignement
sont calculs suivant les mesures de KR-mot dfinies dans le projet Arcade. On a en outre
test deux mesures combinant n-grammes et SCM (lignes 10 et 11), et nous avons extrait un
alignement en utilisant la liste des cognats de rfrence, dtermine manuellement (dernire
ligne).
Les rsultats obtenus appellent les observations suivantes :
-

la prcision de notre mthode dalignement est peu sensible au bruit : mme pour une
prcision Pc de 15%, la prcision de lalignement demeure au del de 80%. Cette
robustesse est due la multiplicit des contraintes de filtrage des points dalignement.

le rappel de lalignement, trs sensible la qualit du filtrage des cognats, est fortement
corrl au rsultat global de ce filtrage : entre Fc et Ra, la corrlation linaire est de 0,94.
Cela confirme lamlioration des rsultats apporte par le recours au SCM. La densit des
cognats identifis entre les phrases des deux textes est donc dterminante.

un point est marginal : lalignement obtenu avec les donnes des cognats de rfrence
(dernire ligne) est lgrement moins bon. Cela pourrait indiquer que trop de cognats (un
rappel trop important) pourrait affecter le rappel de lalignement. Cest videmment li
la nature de notre mthode : en effet la mesure du lien tendance favoriser les
appariements avec les phrases courtes. Ds lors, deux phrases pesant trop lourd auraient
moins de chance dobtenir un bon score, et donc dtre alignes ensemble. Mais cette
hypothse demanderait une tude plus approfondie pour tre confirme. Quoiquil en soit
il est raisonnable de supposer que lamlioration de Fc peut conduire des rsultats
meilleurs pour Fa, moyennant une exploitation diffrente de la cognacit.

O. Kraif

8. Conclusion et Perspectives
Nous avons cherch sortir de lapproximation classique cognat 4-gramme, dont la
validit na encore jamais t prcisment tudie. Aprs avoir valu, sur un extrait du
corpus BAF, les mesures de rappel et de prcision lies cette approximation, nous avons
indiqu une mthode permettant damliorer significativement les performances de la
dtermination des cognats : nous montrons comment combiner les n-grammes aux notions de
transfuges et de sous-chanes maximales afin dobtenir un meilleur rendement.
Nous avons ensuite appliqu ces amliorations lintrieur dun algorithme de
pralignement dvelopp par nos soins : cet algorithme, de complexit en O(n log(n)) tant
destin obtenir rapidement un pralignement de bonne qualit (pour y appliquer ensuite des
mthodes plus fines et plus coteuses en calcul). Notre exprience montre quun tel
algorithme est robuste du point de vue de sa prcision, et tributaire de la qualit de
lidentification des cognats en ce qui concerne son rappel. Appliqu lensemble du corpus
BAF, notre algorithme, avec utilisation des SCM, obtient une prcision de 99,4% en moyenne
(avec cart type de 0,78%) et un rappel de 77,6% en moyenne (85,1% si lon ignore deux
textes non parallles), ce qui en confirme lefficacit comme mthode de pralignement.
Notons que cet algorithme constitue un cadre gnral pour lutilisation dautres sources
dinformation concernant les quivalences lexicales : dictionnaires, lexiques extraits
automatiquement partir de linformation mutuelle ou du t-score, etc.
Bien entendu ces conclusions ne peuvent tre gnralises de manire trop htive : il est
clair que les rsultats obtenus dpendent troitement des textes en question et, de manire
encore plus dterminante, du couple de langues impliqu. Des questions restent ouvertes
quant aux limites de la mthode dalignement : il faudrait lier ses rsultats la densit de
cognats effectivement prsents dans les textes, puisque cette densit semble tre le paramtre
dcisif.
Certes, en ce qui concerne la dtermination des cognats, dautres mthodes dinspiration
linguistique peuvent tre employes, sans doute avec une meilleure prcision. Mais on perd
ainsi la gnralit des mthodes ici dcrites : dans ce cas le recours direct un dictionnaire
bilingue ad hoc semblerait la fois plus simple et plus efficace. En outre, daprs les rsultats
obtenus avec les cognats de rfrence (prcision maximum), lalignement rsultant nest pas
ncessairement meilleur : le recours aux cognats induit un bruit incompressible du la
dispersion des correspondances lexicales lextrieur des bornes des phrases alignes.
Notons enfin que lutilisation des transfuges et des cognats peut stendre des langues
sans aucun lien de parent : dans les domaines technologiques et scientifiques, une grande
partie de la terminologie est normalise et convergente. Des adaptations sont requises
toutefois quant aux systmes de transcription phonologiques, lorsque les alphabets sont
diffrents.

Identification des cognats et alignement

Rfrences
Church K.W. (1993). Char-align : A Program for Aligning Parallel Texts at the Character
Level. In Proceedings of the 31st Annual Meeting of the ACL, Colombus, Ohio, pp.1-8
Debili F, Sammouda E. (1992). Appariements de Phrases de Textes bilingues FranaisAnglais et Franais-Arabes. In Actes de COLING-92, Nantes, pp. 528-524
Fung P., Church K.W. (1994). K-vec : A New Approach for Aligning Parallel Texts. In
Proceedings of the 15th International Conference on Computational Linguistics, Kyoto
Gale W., Church K. W. (1991). A program for aligning sentences in bilingual corpora. In
Proceedings of the 29th Annual Meeting of the ACL, Berkeley, CA, pp. 177-184
Isabelle P. (1992), La bi-textualit : vers une nouvelle gnration daides la traduction et la
terminologie, Meta, XXXVII, 4, pp.721-731
Kay M., Rscheisen M. (1993), Text-Translation Alignment, Computational Linguistics, Vol.
19, N1, pp.121-142
Kraif O. (1998). Alignement de phrases bas sur les cognats. In Actes des 5mes rencontres
de latelier des doctorants en linguistique, Universit Paris 7, Paris, 4-5 dc. 1998, pp. 31-33
Kraif O. (1999). Rflexions autour des concepts de correspondance et dalignement textuel. In
Actes du colloque Linguistique contrastive et Traduction Approches Empiriques, Louvain-laNeuve, 5-6 fvrier 1999, pp. 25-26
Lang J.-M., Gaussier E. (1995), Alignement de corpus multilingues au niveau des phrases,
T.A.L., Vol. 36, N 1-2, pp. 67-80
Langlais P., Simard M., Veronis J. et al, (1998), ARCADE : A cooperative Research Project
on Parallel Text Alignment Evaluation, disponible sur le WEB http://www.lpl.univaix.fr/projects/arcade
Simard M., Foster G., Isabelle P. (1992). Using cognates to align sentences. In Proceedings of
the Fourth International Conference on Theoretical and Methodological Issues in Machine
Translation, Montral, pp. 67-81

Annexe
Les valeurs de Prcision, Rappel, et F-mesure sont donnes en pourcentage.
n-grammes +
transfuges
n-grammes
SCM
transfuges
n
Pc Rc Fc Pc Rc Fc Pc Rc Fc Pc Rc Fc
2
3
4
5
6
7
8
9

100
100
100
100
100
100
100
100

50
29
21
16
15
13
7
6

66
45
34
28
26
22
14
12

15
31
48
72
87
88
93

75
48
38
26
19
10
8

24
37
42
39
31
18
15

18
41
64
86
95
97
99

95
76
71
61
56
52
52

Tableau 1

30
54
67
71
71
68
68

47
64
75
74
76
73
93

55
45
39
30
21
13
10

51
53
51
43
33
22
18

SCM +
transfuges
Pc Rc Fc
55
75
85
86
90
92
99

76
74
72
65
58
55
53

63
74
78
74
70
69
69

O. Kraif

n-grammes

SCM

100%

100%

80%

80%
P

60%

60%

R
40%

40%

20%

20%

0%

0%
3 4 5 6 7 8 9

3 4 5 6 7 8 9

fig. 1

fig. 2

Prcision, Rappel, F pour les n-grammes

3-grammes (*)
4-grammes
CM>=3 + transfuge
CM>=4 + transfuge
CM>=5 + transfuge
CM>=6 + transfuge
CM>=7 + transfuge
CM>=8 + transfuge
CM>=9 + transfuge
Combinaison 1
Combinaison 2
Transfuges seuls
Cognats

Pc Rc Fc
15 75 24
31 48 37
55 76 63
75 74 74
85 72 78
86 65 74
90 58 70
92 55 69
99 53 69
68 73 70
75 73 74
100 50 66
100 100 100

Pa
82
97
99
100
100
100
100
100
100
99
100
100
100

Ra
32
63
76
86
85
84
82
79
76
80
86
68
74

Prcision, Rappel, F pour les SCM


Fa
45,5
76,3
85,9
92,2
91,9
91,2
89,9
88,3
86,3
88,6
92,5
81,2
85,2

Coeff. de
corrlation
Pc
Rc sans (*)
Fc

Pa

Ra

Fa

0,76 0,74 0,75


0,41 0,72 0,71
0,85 0,94 0,93

Tableau 3

Tableau 2

100%

100%

95%

80%

Fa

Ra

Pa

- Combinaison 1 : transfuges, 4-grammes (mots de longueur <7), CMS avec n4 et r>2/3


- Combinaison 2 : transfuges, N-grammes avec N3 et r>2/3, CMS avec n5 et r=2/3
- Cognats : liste de rfrence obtenue manuellement.

100%

80%
90%

60%

85%

40%

80%
10%

60%
Pc
35%

60%

85%

20%
40%

Rc
60%

80%

100%

40%
20%

Fig. 3
Fig. 4
Pa en fonction de Pc Ra en fonction de Rc Fa en fonction de Fc

Fc
40%

60%

Fig. 5

80%

You might also like