Professional Documents
Culture Documents
Rsum Abstract
Ce papier prsente la premire partie dun travail de thse qui vise construire un dictionnaire distributionnel partir dun corpus de rfrence. Le dictionnaire propos est bas sur un ensemble de critres diffrentiels stricts qui constituent des indices exploitables par des machines pour discriminer le sens des mots en contexte. Pour linstant, le travail a port sur 50 000 occurrences qui ont t tiquetes de faon manuelle. Ce sous-corpus pourra servir de corpus damorage pour la constitution d'un corpus tiquet plus grand, qui pourrait servir diffrents tests et travaux sur la dsambigusation automatique. This paper presents the first part of a Ph. D. aimed at the construction of a distributional dictionary from a reference corpus. The dictionary proposed is based on a set of strict differential criteria that can be used as clues for the discrimination of word senses in context. So far, we have worked on 50,000 occurrences that have been manually tagged. This subcorpus can be used as a bootstrap corpus for the construction of a larger tagged corpus that could be used in various tests and studies on automatic disambiguation.
Mots-cls Keywords
Corpus, dictionnaire, tiquetage lexical, information distributionnelle Corpora, dictionaries, lexical tagging, distributional information
1 Introduction
On a vu apparatre au cours de la dernire dcennie des corpus tiquets du point de vue morpho-syntaxique qui se sont avrs extrmement utiles pour de nombreuses applications du traitement automatique des langues. Il serait intressant, afin damliorer encore les performances de ces applications, de pouvoir disposer dinformations supplmentaires sur ces corpus, et notamment dun tiquetage lexical donnant le sens de chaque mot. Toutefois,
Delphine Reymond
malgr des recherches continues depuis une quarantaine dannes (voir ltat de lart de Ide & Vronis, 1998), la dsambigusation automatique du sens des mots, ncessaire tout tiquetage denvergure, reste un thme de recherche plus quune technique oprationnelle. Les rsultats de lvaluation Senseval/Romanseval sur le franais1 ont de ce point de vue t extrmement modestes (Segond, 2000) : on est bien loin dans ce domaine des chiffres suprieurs 95% defficacit couramment publis pour ltiquetage morpho-syntaxique. Selon Vronis (2001), lune des difficults majeures de ltiquetage lexical automatique, qui explique en grande partie la stagnation des performances des systmes, rside dans linadquation des dictionnaires traditionnels pour cette tche, et tout particulirement dans le manque dinformation distributionnelle permettant de relier les sens et les contextes en corpus2. Ainsi, par exemple, aucun des dictionnaires franais que nous avons pu consulter ne mentionne laffinit dun mot aussi simple que barrage avec deux prpositions diffrentes selon son sens : barrage sur <une rivire, un fleuve, etc.>, barrage <une ide, un projet, etc.>. Une telle information fournit une base objective au dcoupage des entres en sens , et est de la premire importance pour la dsambigusation par des machines. La difficult de discrimination entre les sens possibles dun mot tels quils sont lists dans un dictionnaire a t mise en vidence par une exprience dtiquetage manuel portant sur prs de 4000 occurrences de 60 mots diffrents dans un corpus. Six annotateurs, tudiants en linguistique, ont tiquet manuellement la totalit de ces occurrences laide des sens du Petit Larousse (Vronis, 1998, 2000a). Laccord inter-annotateur moyen sest avr trs faible, de lordre de 40% une fois soustrait leffet du hasard. Pour certains mots tels que correct, historique, lancement, mettre, le taux daccord tait peu prs gal celui qui aurait t obtenu si les annotateurs avaient rpondu de faon alatoire. Notre travail de thse sarticule autour de la construction dun dictionnaire distributionnel , spcialement adapt au problme de la dsambigusation par des machines. Linformation idalement contenue dans un tel dictionnaire na plus pour but premier la dfinition du sens comme dans les dictionnaires traditionnels, mais vise organiser les vocables en lexies possdant des proprits distributionnelles cohrentes proprits qui peuvent constituer autant dindices utilisables pour la dsambigusation automatique. Ce travail sinspire largement des ides mises en oeuvre dans la construction du Dictionnaire Explicatif et Combinatoire (DEC) de Melcuk et son quipe (Melcuk, Clas & Polgure, 1995). Toutefois la diffrence de Melcuk et al., qui utilisent le corpus comme outil de vrification a posteriori aprs une construction lexicale introspective, nous considrons le corpus comme rservoir dobservations partir duquel les entres doivent tre labores, la dmarche introspective tant rduite au minimum. Lentre de dictionnaire, dans notre approche, est donc vue comme un modle, qui doit rendre compte au mieux des observations, et doit tre prdictif des observations futures (dans dautres corpus ou un corpus plus large). Le travail dlaboration des entres se fait de faon totalement interactive avec ltiquetage dun corpus de rfrence (le plus large possible), selon une stratgie incrmentale : le corpus
http://www.up.univ-mrs.fr/~veronis/romanseval Les ressources plus orientes machine telles que WordNet nchappent pas cette critique.
est tiquet (avec lassistance doutils informatiques varis) au fur et mesure de la construction des entres, et les entres sont rvises en fonction des nouveaux contextes rencontres. A la fin de ce processus, on obtient un dictionnaire dont chacune des lexies est lie un ensemble de contextes dans le corpus. De mme, chaque occurrence dans le corpus est tiquete par le numro dune lexie dans le dictionnaire. Dans le cadre de notre travail de thse, il sagit dlaborer une mthodologie, et non de construire un dictionnaire dans son intgralit, travail qui ne pourrait se concevoir quau sein dune large quipe lexicographique. Nous avons donc slectionn un corpus de taille manipulable (cinq millions de mots), et nous avons dans un premier temps trait 60 vocables trs polysmiques (20 noms, 20 adjectifs et 20 verbes), qui semblent reprsenter un large ventail des problmes lexicographiques pour le traitement automatique des langues. Ces 60 vocables apparaissent dans environ 50 000 contextes au total, qui ont tous t tiquets selon la stratgie incrmentale dcrite prcdemment, dans le cadre du projet Syntsem, financ par lELRA/ELDA. Dans la deuxime partie de notre travail de thse, nous utiliserons ce souscorpus comme corpus damorage pour tiqueter semi-automatiquement de nouveaux vocables qui apparaissent au voisinage des vocables dj tiquets (par exemple chute dans le contexte de barrage rfre trs probablement au sens chute deau ).
2 Corpus de rfrence
Le corpus de rfrence que nous utilisons est compos de cinq parties denviron un million de mots chacune, de genres varis (chaque partie est dsigne par un code dune lettre) : A J M O P Littrature (serveur ABU). Institutionnel (Commission europenne). Presse (Le Monde). Ouvrages de sciences humaines (Editions CNRS). Priodiques scientifiques (CNRS et Herms).
Ce corpus a t choisi pour des raisons videntes de disponibilit, tout en respectant une diversit de genres intressante et reprsentative de nombreuses applications de traitement automatique des langues. Le corpus a t intgralement tiquet pour la morpho-syntaxe et lemmatis laide du logiciel Cordial 7 Analyseur, dvelopp et distribu par la socit Synapse Dveloppement3. Ce logiciel, qui a lavantage dtre disponible un cot modique, constitue lun des meilleurs tiqueteurs morpho-syntaxiques pour le franais : des tests effectus dans notre quipe montrent des taux de performance de lordre de 98% (Valli & Vronis, 1999). Le logiciel LoX4, outil cr au sein de lquipe DELIC, dont une des principales fonctions est de permettre lextraction de concordances (Audibert, 2001), nous a permis dextraire facilement les fragments du corpus contenant les vocables concerns, sous toutes leurs formes flchies, et en liminant les ambiguts syntaxiques (par exemple, porte verbe vs porte nom).
Delphine Reymond
60 sous-corpus ont t automatiquement crs, chacun compos de la totalit des lignes de concordance dun des vocables traiter, dans un format multicolonnes (voir Annexe 2) : code dsignant la partie du corpus (A, J, M, O, P) ; numro de paragraphe de loccurrence ; numro de caractre dans le paragraphe ; contexte gauche (50 mots) ; occurrence ; colonne vide (destine recevoir ltiquette lexicale) ; contexte droit (50 mots).
Les sous-corpus ainsi obtenus sont dune taille beaucoup plus rduite que le corpus initial de cinq millions de mots, ce qui facilite lensemble des manipulations, et leur format tabulaire est parfaitement adapt la stratgie dtiquetage vertical que nous avons adopte. En effet, nous ntiquetons pas chaque mot dans lordre linaire du texte, mais par vocable : toutes les cooccurrences dun vocable sont traites simultanment, laide dune prsentation sous forme de concordance (Annexe 2). Cette stratgie permet une meilleur cohrence des dcisions dtiquetage sur lensemble du corpus, et facilite grandement la tche de lannotateur, qui peut utiliser des fonctions de tri et de slection diverse et tiqueter des paquets entiers doccurrences qui ont des contextes gauche et/ou droit analogues.
3 Vocables traits
Les 60 vocables que nous avons traits sont ceux qui ont t utiliss dans lexprience dtiquetage manuel mentionne prcdemment (Vronis, 1998, 2000a). Ces mmes vocables ont galement t utiliss dans lvaluation de ltiquetage lexical Senseval/Romanseval (Segond, 2000), ainsi que dans lvaluation de lalignement de textes parallles franaisanglais Arcade (Vronis, 2000b). Notre corpus permettra donc des comparaisons intressantes avec dautres travaux. En particulier, on pourra vrifier si notre dictionnaire distributionnel permet une amlioration de ltiquetage, tant manuel quautomatique. Ces 60 vocables se rpartissent en 20 noms, 20 adjectifs et 20 verbes, et ont t choisis dune part sur la base de leur frquence assez leve, et dautre part de leur forte polysmie (figure 1).
Noms barrage, chef, communication, compagnie, concentration, constitution, degr, dtention, conomie formation, lancement, observation, organe, passage, pied, restauration, solution, station, suspension, vol arrter, comprendre, conclure, conduire, connatre, couvrir, entrer, exercer, importer, mettre, ouvrir, parvenir, passer, porter, poursuivre, prsenter, rendre, rpondre, tirer, venir biologique, clair, correct, courant, exceptionnel, frais, haut, historique, plein, populaire, rgulier, sain, secondaire, sensible, simple, strict, sr, traditionnel, utile, vaste
Verbes
Adjectifs
4 Critres diffrentiels
Nous avons donc entrepris la construction des entres du dictionnaire en utilisant systmatiquement des critres distributionnels stricts, tels que (1) les contraintes syntaxiques observes pour un sens donn (par exemple, type de prposition, comme dans barrage sur, barrage ) ; (2) les restrictions de slection (par exemple on construit un barrage sur un fleuve, on dresse un barrage sur une route, on fait barrage lopposition) ; (3) des tests de commutation de synonymes stricts (on peut remplacer faire barrage lopposition par faire obstacle lopposition , mais on ne peut avoir de faon naturelle construire un obstacle sur un fleuve ), etc. Ces critres sont des critres diffrentiels, en ce sens quils permettent dopposer les diverses classes demplois du vocable, et donc de le dcouper en lexies cohrentes. Nous ne pouvons dans le cadre de ce papier dtailler la totalit des critres utiliss, et nous nous bornerons un certain nombre dexemples significatifs :
valence (type et nombre des complments) comprendre que..., comprendre qqun barrage sur qqch, barrage qqch o traits comptable la communication (dentreprise), la/les communications (tlphoniques) o sexu
Delphine Reymond
hyperonymes
etc.
Linformation ainsi dgage est incorpore dans chaque entre lexicale. Nous prsentons en Annexe 1 une entre (simplifie), concernant le vocable IMPORTER (on trouvera en Annexe 2 ltiquetage dun fragment du corpus correspondant ce vocable).
5 Conclusion
Nous avons expos dans ce papier la premire partie dun travail de thse qui vise construire de faon incrmentale un dictionnaire distributionnel partir dun corpus de rfrence. Ce travail part dun constat dinadquation des dictionnaires classiques (et de ressources informatises telles que WordNet) pour la dsambigusation du sens des mots par des machines et ltiquetage lexical automatique de corpus. Le dictionnaire propos est bas sur un ensemble de critres diffrentiels stricts, qui permettent dopposer les diffrentes classes demploi de chaque vocable (ou lexies). Ces critres, codes dans lentre lexicale, peuvent constituer ultrieurement autant dindices exploitables par des machines pour discriminer le sens des mots en contexte. Pour linstant, le travail a port sur 60 vocables trs polysmiques, reprsentant 50 000 occurrences dans un corpus de cinq millions de mots, qui ont t tiquetes de faon manuelle. Nous esprons que ce sous-corpus pourra servir de corpus damorage pour ltiquetage semi-automatique des mots du voisinage de ceux dj tiquets, permettant, de faon relativement conomique, de constituer un corpus tiquet plus grand, qui pourrait servir diffrents tests et travaux sur la dsambigusation automatique.
Rfrences
Audibert, L. (2001, 2-5 juillet). LoX : outil polyvalent pour l'exploration de corpus annots. Actes de RECITAL'2001, Tours.[Prsent volume]. Ide, N., & Vronis, J. (1998). Introduction to the special issue on word sense disambiguation: the state of the art. Computational Linguistics, 24(1), 1-40. http://www.up.univmrs.fr/~veronis/pdf/1998wsd.pdf Melcuk, I., Clas, A., & Polgure, A. (1995). Introduction la lexicologie explicative et combinatoire. Louvain-la-Neuve : Editions Duculot (Coll. Universits Francophones). Segond, F. (2000). Framework and results for French. Computers and the Humanities, 34(1/2), 49-60 [special issue on Senseval]. Valli, A., & Vronis, J. (1999). Etiquetage grammatical de corpus oraux: problmes et perspectives. Revue Franaise de Linguistique Applique, IV(2), 113-133. http://www.up.univ-mrs.fr/~veronis/pdf/1999rfla.pdf Vronis, J. (1998). A study of polysemy judgements and inter-annotator agreement, Programme and advanced papers of the Senseval workshop (pp. 2-4). Herstmonceux Castle (England). http://www.up.univ-mrs.fr/~veronis/pdf/1998senseval.pdf Vronis, J. (2000a). Sense tagging: Don't look for the meaning but for the use, Computational Lexicography and Multimedia Dictionaries (COMLEX'2000) (pp. 1-9). Kato Achia (Greece). http://www.up.univ-mrs.fr/~veronis/pdf/2000comlex.pdf Vronis, J. (2000b). Evaluation of parallel text alignment systems: the ARCADE project. In J. Vronis (Ed.), Parallel text processing: Alignment and use of translation corpora (pp. 369388). Dordrecht: Kluwer Academic Publishers. Vronis, J. (2001). Sense tagging: does it make sense? Corpus Linguistics'2001 (pp. in press). Lancaster, U.K. http://www.up.univ-mrs.fr/~veronis/pdf/2001-lancaster-sense.pdf
Delphine Reymond
Delphine Reymond
Fichier P P M A A P P P M A A A A A A O O O O O O O O P M O P A O O
P POS Contexte_gauche Mot Etiquette Contexte_droit ar ailleurs , dans le cas qui nous occupe , il importe 1.3 d ' apporter une distinction analytique supplmentaire pour tenir compte d 3891 12 8237 52 . Mais il importe 1.3 d ' introduire une distinction . 5044 16eut bien " tre une vedette . . . mais pas n ' importe 1.4 comment " et surtout il ne veut pas " en avoir bav pour que d ' autres en 18223 5 ? - - N ' importe 1.4 comment , par tout le monde , par le premier venu , par moi , tiens ! 1.4 o . . . l ' heure que vous voudrez . . . pourvu que je vous voie . 5741 22 je vous rencontrerai . . . dans la rue . . . n ' importe 4771 179 . On ne porte pas une robe n ' importe 1.4 o et n ' importe comment . 1.4 quel catalogue de vente par correspondance : 3788 252 lement vendus pas le monde associatif ( baimporte 5680 214 Un enfant pourrait en faire autant , N ' importe 1.4 qui pourrait en faire autant , qui maillent les livres d ' or de tant d ' expo 10562 97 l ' ex - CERES n ' est pas prt signer n ' importe 1.4 quoi ) . 7637 35 . La terre buvait l ' eau , n ' importe 1.5 ! 7435 27 ; n ' importe 1.5 ! 10084 3 . N ' importe 1.5 ! 8069 3 . N ' importe 1.5 ! cette fin du monde , si lointaine qu ' elle ft , les assombrit - - et cte c 7915 6 . - - N ' importe 1.5 ! il en a besoin ! 8315 3 . N ' importe 1.5 ! ils devaient le rendre . xigeaient un charbon de qualit qu ' il fallait importer 2.1 , alors que les centrales EDF acceptent tous les charbons ) , cette affirma 9677 23 8754 73 . En 1913 , il fallait dj importer 2.1 5 000 000 tonnes de premire qualit ( cribls 3 / 4 gras et tout - venant g 8721 89rds sont consomms alors que , dit - il , on importe 2.1 6 milliards de francs de charbon pour la traction vapeur . 8754 12 de charbon de premire qualit qu ' il faut importer 2.1 prix fort , le chemin de fer franais a besoin de plus en plus d ' nergie p 8730 27st toujours li au prix du charbon qu ' il faut importer 2.1 car les locomotives vapeur des rseaux franais exigent un charbon de 3361 65calement est moins coteux que ce qui est import 2.1 d ' Europe . 3343 45 d ' Argentine qui souhaitait ne plus avoir importer 2.1 de pare - chocs en plastique . 2.2 toute la population . 3073 121 cialistes de n ' importe o , on ne peut pas importer 8007 111e , maire socialiste lu en 1977 , dcide d ' importer 2.3 acteurs et structures culturels qui font dfaut la cit . 3511 90 . C ' est l ' amricain Dell qui a import 2.3 cette mthode en France . 2.3 dans le domaine de la critique littraire ou artistique voire dans leur techn 1976 16mthodologie aux sciences naturelles et l ' importent 4787 95 . Il est , certes , impossible d ' importer 2.3 directement la robe dcontracte et dcollete mais il est possible , une f 1214 14 - - Une fameuse mode , dit Joe , et que j ' importerai 2.3 en Angleterre ; 2279 222 la mthode et le vocabulaire de Darwin et importer 2.3 l ' ide d ' volution dans les sciences conomiques et historiques . 2.3 un vocabulaire et une mthode propres aux sciences naturelles vers les s 2191 25es organicistes , une sociobiologie , mais il importe