Art8 p473 482

RECITAL 2001, Tours, 2-5 juillet 2001
Dictionnaires distributionnels et tiquetage lexical de corpus

Delphine Reymond Equipe DELIC Universit de Provence 19, avenue Robert Schuman 13621 Aix-en-Provence - France reymond@up.univ-aix.fr
Rsum Abstract
Ce papier prsente la premire partie dun travail de thse qui vise construire un dictionnaire distributionnel partir dun corpus de rfrence. Le dictionnaire propos est bas sur un ensemble de critres diffrentiels stricts qui constituent des indices exploitables par des machines pour discriminer le sens des mots en contexte. Pour linstant, le travail a port sur 50 000 occurrences qui ont t tiquetes de faon manuelle. Ce sous-corpus pourra servir de corpus damorage pour la constitution d'un corpus tiquet plus grand, qui pourrait servir diffrents tests et travaux sur la dsambigusation automatique. This paper presents the first part of a Ph. D. aimed at the construction of a distributional dictionary from a reference corpus. The dictionary proposed is based on a set of strict differential criteria that can be used as clues for the discrimination of word senses in context. So far, we have worked on 50,000 occurrences that have been manually tagged. This subcorpus can be used as a bootstrap corpus for the construction of a larger tagged corpus that could be used in various tests and studies on automatic disambiguation.
Mots-cls Keywords
Corpus, dictionnaire, tiquetage lexical, information distributionnelle Corpora, dictionaries, lexical tagging, distributional information
1 Introduction
On a vu apparatre au cours de la dernire dcennie des corpus tiquets du point de vue morpho-syntaxique qui se sont avrs extrmement utiles pour de nombreuses applications du traitement automatique des langues. Il serait intressant, afin damliorer encore les performances de ces applications, de pouvoir disposer dinformations supplmentaires sur ces corpus, et notamment dun tiquetage lexical donnant le sens de chaque mot. Toutefois,
Delphine Reymond
malgr des recherches continues depuis une quarantaine dannes (voir ltat de lart de Ide & Vronis, 1998), la dsambigusation automatique du sens des mots, ncessaire tout tiquetage denvergure, reste un thme de recherche plus quune technique oprationnelle. Les rsultats de lvaluation Senseval/Romanseval sur le franais1 ont de ce point de vue t extrmement modestes (Segond, 2000) : on est bien loin dans ce domaine des chiffres suprieurs 95% defficacit couramment publis pour ltiquetage morpho-syntaxique. Selon Vronis (2001), lune des difficults majeures de ltiquetage lexical automatique, qui explique en grande partie la stagnation des performances des systmes, rside dans linadquation des dictionnaires traditionnels pour cette tche, et tout particulirement dans le manque dinformation distributionnelle permettant de relier les sens et les contextes en corpus2. Ainsi, par exemple, aucun des dictionnaires franais que nous avons pu consulter ne mentionne laffinit dun mot aussi simple que barrage avec deux prpositions diffrentes selon son sens : barrage sur <une rivire, un fleuve, etc.>, barrage <une ide, un projet, etc.>. Une telle information fournit une base objective au dcoupage des entres en sens , et est de la premire importance pour la dsambigusation par des machines. La difficult de discrimination entre les sens possibles dun mot tels quils sont lists dans un dictionnaire a t mise en vidence par une exprience dtiquetage manuel portant sur prs de 4000 occurrences de 60 mots diffrents dans un corpus. Six annotateurs, tudiants en linguistique, ont tiquet manuellement la totalit de ces occurrences laide des sens du Petit Larousse (Vronis, 1998, 2000a). Laccord inter-annotateur moyen sest avr trs faible, de lordre de 40% une fois soustrait leffet du hasard. Pour certains mots tels que correct, historique, lancement, mettre, le taux daccord tait peu prs gal celui qui aurait t obtenu si les annotateurs avaient rpondu de faon alatoire. Notre travail de thse sarticule autour de la construction dun dictionnaire distributionnel , spcialement adapt au problme de la dsambigusation par des machines. Linformation idalement contenue dans un tel dictionnaire na plus pour but premier la dfinition du sens comme dans les dictionnaires traditionnels, mais vise organiser les vocables en lexies possdant des proprits distributionnelles cohrentes proprits qui peuvent constituer autant dindices utilisables pour la dsambigusation automatique. Ce travail sinspire largement des ides mises en oeuvre dans la construction du Dictionnaire Explicatif et Combinatoire (DEC) de Melcuk et son quipe (Melcuk, Clas & Polgure, 1995). Toutefois la diffrence de Melcuk et al., qui utilisent le corpus comme outil de vrification a posteriori aprs une construction lexicale introspective, nous considrons le corpus comme rservoir dobservations partir duquel les entres doivent tre labores, la dmarche introspective tant rduite au minimum. Lentre de dictionnaire, dans notre approche, est donc vue comme un modle, qui doit rendre compte au mieux des observations, et doit tre prdictif des observations futures (dans dautres corpus ou un corpus plus large). Le travail dlaboration des entres se fait de faon totalement interactive avec ltiquetage dun corpus de rfrence (le plus large possible), selon une stratgie incrmentale : le corpus
http://www.up.univ-mrs.fr/~veronis/romanseval Les ressources plus orientes machine telles que WordNet nchappent pas cette critique.
est tiquet (avec lassistance doutils informatiques varis) au fur et mesure de la construction des entres, et les entres sont rvises en fonction des nouveaux contextes rencontres. A la fin de ce processus, on obtient un dictionnaire dont chacune des lexies est lie un ensemble de contextes dans le corpus. De mme, chaque occurrence dans le corpus est tiquete par le numro dune lexie dans le dictionnaire. Dans le cadre de notre travail de thse, il sagit dlaborer une mthodologie, et non de construire un dictionnaire dans son intgralit, travail qui ne pourrait se concevoir quau sein dune large quipe lexicographique. Nous avons donc slectionn un corpus de taille manipulable (cinq millions de mots), et nous avons dans un premier temps trait 60 vocables trs polysmiques (20 noms, 20 adjectifs et 20 verbes), qui semblent reprsenter un large ventail des problmes lexicographiques pour le traitement automatique des langues. Ces 60 vocables apparaissent dans environ 50 000 contextes au total, qui ont tous t tiquets selon la stratgie incrmentale dcrite prcdemment, dans le cadre du projet Syntsem, financ par lELRA/ELDA. Dans la deuxime partie de notre travail de thse, nous utiliserons ce souscorpus comme corpus damorage pour tiqueter semi-automatiquement de nouveaux vocables qui apparaissent au voisinage des vocables dj tiquets (par exemple chute dans le contexte de barrage rfre trs probablement au sens chute deau ).
2 Corpus de rfrence
Le corpus de rfrence que nous utilisons est compos de cinq parties denviron un million de mots chacune, de genres varis (chaque partie est dsigne par un code dune lettre) : A J M O P Littrature (serveur ABU). Institutionnel (Commission europenne). Presse (Le Monde). Ouvrages de sciences humaines (Editions CNRS). Priodiques scientifiques (CNRS et Herms).
Ce corpus a t choisi pour des raisons videntes de disponibilit, tout en respectant une diversit de genres intressante et reprsentative de nombreuses applications de traitement automatique des langues. Le corpus a t intgralement tiquet pour la morpho-syntaxe et lemmatis laide du logiciel Cordial 7 Analyseur, dvelopp et distribu par la socit Synapse Dveloppement3. Ce logiciel, qui a lavantage dtre disponible un cot modique, constitue lun des meilleurs tiqueteurs morpho-syntaxiques pour le franais : des tests effectus dans notre quipe montrent des taux de performance de lordre de 98% (Valli & Vronis, 1999). Le logiciel LoX4, outil cr au sein de lquipe DELIC, dont une des principales fonctions est de permettre lextraction de concordances (Audibert, 2001), nous a permis dextraire facilement les fragments du corpus contenant les vocables concerns, sous toutes leurs formes flchies, et en liminant les ambiguts syntaxiques (par exemple, porte verbe vs porte nom).
http://www.synapse-fr.com LoX est disponible l'adresse suivante : http://laurent.audibert.free.fr/lox.htm
Delphine Reymond
60 sous-corpus ont t automatiquement crs, chacun compos de la totalit des lignes de concordance dun des vocables traiter, dans un format multicolonnes (voir Annexe 2) : code dsignant la partie du corpus (A, J, M, O, P) ; numro de paragraphe de loccurrence ; numro de caractre dans le paragraphe ; contexte gauche (50 mots) ; occurrence ; colonne vide (destine recevoir ltiquette lexicale) ; contexte droit (50 mots).
Les sous-corpus ainsi obtenus sont dune taille beaucoup plus rduite que le corpus initial de cinq millions de mots, ce qui facilite lensemble des manipulations, et leur format tabulaire est parfaitement adapt la stratgie dtiquetage vertical que nous avons adopte. En effet, nous ntiquetons pas chaque mot dans lordre linaire du texte, mais par vocable : toutes les cooccurrences dun vocable sont traites simultanment, laide dune prsentation sous forme de concordance (Annexe 2). Cette stratgie permet une meilleur cohrence des dcisions dtiquetage sur lensemble du corpus, et facilite grandement la tche de lannotateur, qui peut utiliser des fonctions de tri et de slection diverse et tiqueter des paquets entiers doccurrences qui ont des contextes gauche et/ou droit analogues.
3 Vocables traits
Les 60 vocables que nous avons traits sont ceux qui ont t utiliss dans lexprience dtiquetage manuel mentionne prcdemment (Vronis, 1998, 2000a). Ces mmes vocables ont galement t utiliss dans lvaluation de ltiquetage lexical Senseval/Romanseval (Segond, 2000), ainsi que dans lvaluation de lalignement de textes parallles franaisanglais Arcade (Vronis, 2000b). Notre corpus permettra donc des comparaisons intressantes avec dautres travaux. En particulier, on pourra vrifier si notre dictionnaire distributionnel permet une amlioration de ltiquetage, tant manuel quautomatique. Ces 60 vocables se rpartissent en 20 noms, 20 adjectifs et 20 verbes, et ont t choisis dune part sur la base de leur frquence assez leve, et dautre part de leur forte polysmie (figure 1).
Noms barrage, chef, communication, compagnie, concentration, constitution, degr, dtention, conomie formation, lancement, observation, organe, passage, pied, restauration, solution, station, suspension, vol arrter, comprendre, conclure, conduire, connatre, couvrir, entrer, exercer, importer, mettre, ouvrir, parvenir, passer, porter, poursuivre, prsenter, rendre, rpondre, tirer, venir biologique, clair, correct, courant, exceptionnel, frais, haut, historique, plein, populaire, rgulier, sain, secondaire, sensible, simple, strict, sr, traditionnel, utile, vaste
Verbes
Adjectifs
Figure 1 : liste des 60 vocables traits
4 Critres diffrentiels
Nous avons donc entrepris la construction des entres du dictionnaire en utilisant systmatiquement des critres distributionnels stricts, tels que (1) les contraintes syntaxiques observes pour un sens donn (par exemple, type de prposition, comme dans barrage sur, barrage ) ; (2) les restrictions de slection (par exemple on construit un barrage sur un fleuve, on dresse un barrage sur une route, on fait barrage lopposition) ; (3) des tests de commutation de synonymes stricts (on peut remplacer faire barrage lopposition par faire obstacle lopposition , mais on ne peut avoir de faon naturelle construire un obstacle sur un fleuve ), etc. Ces critres sont des critres diffrentiels, en ce sens quils permettent dopposer les diverses classes demplois du vocable, et donc de le dcouper en lexies cohrentes. Nous ne pouvons dans le cadre de ce papier dtailler la totalit des critres utiliss, et nous nous bornerons un certain nombre dexemples significatifs :
valence (type et nombre des complments) comprendre que..., comprendre qqun barrage sur qqch, barrage qqch o traits comptable la communication (dentreprise), la/les communications (tlphoniques) o sexu
le chien/la chienne (qui aboie), le chien/*la chienne (de fusil)

o massif
du vin, un (grand) vin

o anim arrter une date, arrter quelquun o etc. auxiliaire tre / avoir Je suis pass sous lchelle, jai pass le baccalaurat emploi rflchi
conduire/se conduire (bien), porter/se porter (candidat)

drivation active (peut tre utilise de faon productive pour reformuler lnonc)
importer : limportation de / avoir de limportance lever : levage de cochons, *levage denfants
Delphine Reymond
hyperonymes
barrage sur un fleuve : ouvrage, barrage sur une route : *ouvrage

synonymes faire barrage/obstacle lopposition, construire un barrage/*obstacle sur un fleuve antonymes, converses boissons fraches/chaudes, roses fraches/fanes importer (des marchandises)/exporter, importer (tre important)/*exporter
restrictions de slection, classes dobjets

construire un barrage (sur un fleuve), dresser un barrage (sur une route), faire barrage (un projet, des ides) lancement de <fuse, missile...>, lancement de < vnement, projet...> lire <expression, sentiment...> (sur un visage), lire <livre, lettre, journal...>
figements, semi-figements rendre lme, chef duvre, haut en couleurs
etc.
Linformation ainsi dgage est incorpore dans chaque entre lexicale. Nous prsentons en Annexe 1 une entre (simplifie), concernant le vocable IMPORTER (on trouvera en Annexe 2 ltiquetage dun fragment du corpus correspondant ce vocable).
5 Conclusion
Nous avons expos dans ce papier la premire partie dun travail de thse qui vise construire de faon incrmentale un dictionnaire distributionnel partir dun corpus de rfrence. Ce travail part dun constat dinadquation des dictionnaires classiques (et de ressources informatises telles que WordNet) pour la dsambigusation du sens des mots par des machines et ltiquetage lexical automatique de corpus. Le dictionnaire propos est bas sur un ensemble de critres diffrentiels stricts, qui permettent dopposer les diffrentes classes demploi de chaque vocable (ou lexies). Ces critres, codes dans lentre lexicale, peuvent constituer ultrieurement autant dindices exploitables par des machines pour discriminer le sens des mots en contexte. Pour linstant, le travail a port sur 60 vocables trs polysmiques, reprsentant 50 000 occurrences dans un corpus de cinq millions de mots, qui ont t tiquetes de faon manuelle. Nous esprons que ce sous-corpus pourra servir de corpus damorage pour ltiquetage semi-automatique des mots du voisinage de ceux dj tiquets, permettant, de faon relativement conomique, de constituer un corpus tiquet plus grand, qui pourrait servir diffrents tests et travaux sur la dsambigusation automatique.
Rfrences
Audibert, L. (2001, 2-5 juillet). LoX : outil polyvalent pour l'exploration de corpus annots. Actes de RECITAL'2001, Tours.[Prsent volume]. Ide, N., & Vronis, J. (1998). Introduction to the special issue on word sense disambiguation: the state of the art. Computational Linguistics, 24(1), 1-40. http://www.up.univmrs.fr/~veronis/pdf/1998wsd.pdf Melcuk, I., Clas, A., & Polgure, A. (1995). Introduction la lexicologie explicative et combinatoire. Louvain-la-Neuve : Editions Duculot (Coll. Universits Francophones). Segond, F. (2000). Framework and results for French. Computers and the Humanities, 34(1/2), 49-60 [special issue on Senseval]. Valli, A., & Vronis, J. (1999). Etiquetage grammatical de corpus oraux: problmes et perspectives. Revue Franaise de Linguistique Applique, IV(2), 113-133. http://www.up.univ-mrs.fr/~veronis/pdf/1999rfla.pdf Vronis, J. (1998). A study of polysemy judgements and inter-annotator agreement, Programme and advanced papers of the Senseval workshop (pp. 2-4). Herstmonceux Castle (England). http://www.up.univ-mrs.fr/~veronis/pdf/1998senseval.pdf Vronis, J. (2000a). Sense tagging: Don't look for the meaning but for the use, Computational Lexicography and Multimedia Dictionaries (COMLEX'2000) (pp. 1-9). Kato Achia (Greece). http://www.up.univ-mrs.fr/~veronis/pdf/2000comlex.pdf Vronis, J. (2000b). Evaluation of parallel text alignment systems: the ARCADE project. In J. Vronis (Ed.), Parallel text processing: Alignment and use of translation corpora (pp. 369388). Dordrecht: Kluwer Academic Publishers. Vronis, J. (2001). Sense tagging: does it make sense? Corpus Linguistics'2001 (pp. in press). Lancaster, U.K. http://www.up.univ-mrs.fr/~veronis/pdf/2001-lancaster-sense.pdf
Delphine Reymond
Annexe 1 - Exemple dentre (simplifie)

IMPORTER, v.
1. IMPORTER (sans objet) 1.1 Qqch importe [ qqun, pour qqun]
TNom : TAdj : Ex : x IMPORTE /pour y x a de lIMPORTANCE pour y x IMPORTE /pour y x a est IMPORTANT pour y le contenu importe plus que le contenant la forme du gouvernement importe peu Les actions qui importent pour eux ce qui mimporte, cest...
1.2 Qu/peu importe qqch/que P [ qqun, pour qqun]

Ex : Peu importait le procd Bouvard Quimporte la croyance Que mimporte la tempte, si jai la boussole
1.3 il importe [ qqun, pour qqun] de Vinf /que P (impersonnel)

Ex : Ils savent, ds avant douvrir un livre, ce quil importe den penser il nous importe donc de montrer
1.4 N/peu importe Pro

Ex : N'importe lequel, laquelle, quel(s), quelle(s), qui, quoi... N'importe o, quand, comment....
1.5. N/peu importe ! 2. IMPORTER QQCH [QQPART]

TNom : Conv : x IMPORTE EXPORTER y lIMPORTATION de y par x
2.1. Importer <objets, marchandises...> [dans/vers <pays, rgion...>]

Ex : Moscou a commenc importer ces produits... des institutions qui importent des armes
2.2. Importer <population, main duvre...> [dans/vers <pays, rgion...>]

Ex : on ne peut pas importer toute la population
2.3. Importer <concepts, ides...> [dans/vers <culture, discipline...>]

Ex : il importe un vocabulaire et une mthode propres aux sciences naturelles vers les sciences sociales . Georges Frche dcide dimporter acteurs et structures culturelles qui font dfaut la cit
Annexe 2 - Exemple dtiquetage

Fichier M O P P A M O A A A A A O O A M A A P M M P O P O O A A A M O P P P POS Contexte_gauche 6620 41 . C ' est l ' avenir qui 11509 45 . Ce qui 9233 180 . Ce qui 5532 178 . Ce qui 12580 58 . Ce qui 6339 51 . Le postulat de M . Pons est que ce foss 7541 149j ralis ou qu ' il se ralise dans le futur 9067 20 . La forme du gouvernement 11684 20 . Le fond de l ' histoire 8452 6 . - - Qu ' 9490 34 . Que ce soit une apparence , qu ' 9660 8 . Elle ou un autre , qu ' 1051 119 . Peu 2126 34 . Peu 1077 89 ; peu 1773 22ut sur la scne , mais la socit , bon , peu 4268 4 : " Qu ' vous - mme , agac peut - tre , mais peu 17039 69 4900 159 . Mais qu ' 10081 42 . Il lui 701 78 . Qu ' 7283 257 . Mais n ' 2758 88 . Aussi 3475 234 . De mme , il 1206 70 . Il 382 18 ection des connaissances tant effectu , il 4882 111soit descendu dans sa tombe , c ' est qu ' il 2227 43 . Ce qu ' il 25247 43 . " Il 2490 59 rt assassins tranglent l ' activit et qu ' il 2794 113 ? Il 8863 2 . Il 7248 231 ues psycho - ou socio - linguistiques qu ' il Mot importe importe importe importe importe importe importe importe importe importe importe importait importe importe importe importe importe importe importe importait importe importe importe importe importe importe importe importe importe importe importe importe importe Etiquette 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.3 Contexte_droit , et cet avenir doit leur tre montr tel qu ' il est : est le cheminement dcrit , les obstacles rencontrs , les hsitations , les , c ' est de comprendre comment tous nos discours , mme les plus quoti ce n ' est pas l ' adquation des noncs politiques avec la ralit qu ' elle , c ' est le chef . peu pourvu que l ' Etat manifeste assez d ' autorit pour imposer la politiq peu , pourvu que sa survenue soit certaine . peu ! peu ; ! ! il s ' agit de la produire . ! le principal tant de sortir d ' embarras . , cet gard , que le rapport ne soit pas encore divulgu . , aprs cela qu ' infidles leurs mthodes , qu ' infidles leurs doctrine , aprs tout , puisqu ' il a d livrer enfin le secret de ses sources ! , ce n ' est pas ici un discours de Franois Mitterrand . , d ' ailleurs , un peu plus ou un peu moins de gnie , puisque tout doit fin , et , par ce travail , vous accroissez , bon gr , mal gr , la vie de Poil de , il faut que ce soit dans le domaine public . , malgr tout , de savoir encore si Mme Lea Katz avait remarqu , l ' UG , rpondent les dirigeants de la Cinq , les techniciens italiens de M . Silvio - t - il pas de reconnatre galement qu ' un chercheur met de l ' avant des - t - il que ne soient pas gaspills les moyens et les efforts consacrs l ' " d ' expliquer " le journal . , cet gard , de relever que le CPI , entres autres considrations , prend , prsent , d ' examiner la question de la protection de la forme de l ' u , aprs ce que vous m ' avez dit , que vous sachiez bien qui je suis , afin d , c ' est de gagner du temps . , dit M . H . Poincar ( * ) , de ne pas multiplier les hypothses outre mesu avant tout de les faire baisser ? bien de savoir si nous faisons de la sociologie . cependant de ne pas assimiler le souci de la mise en relation de la sensib d ' analyser dans leur fonctionnement effectif ;
Delphine Reymond
Fichier P P M A A P P P M A A A A A A O O O O O O O O P M O P A O O
P POS Contexte_gauche Mot Etiquette Contexte_droit ar ailleurs , dans le cas qui nous occupe , il importe 1.3 d ' apporter une distinction analytique supplmentaire pour tenir compte d 3891 12 8237 52 . Mais il importe 1.3 d ' introduire une distinction . 5044 16eut bien " tre une vedette . . . mais pas n ' importe 1.4 comment " et surtout il ne veut pas " en avoir bav pour que d ' autres en 18223 5 ? - - N ' importe 1.4 comment , par tout le monde , par le premier venu , par moi , tiens ! 1.4 o . . . l ' heure que vous voudrez . . . pourvu que je vous voie . 5741 22 je vous rencontrerai . . . dans la rue . . . n ' importe 4771 179 . On ne porte pas une robe n ' importe 1.4 o et n ' importe comment . 1.4 quel catalogue de vente par correspondance : 3788 252 lement vendus pas le monde associatif ( baimporte 5680 214 Un enfant pourrait en faire autant , N ' importe 1.4 qui pourrait en faire autant , qui maillent les livres d ' or de tant d ' expo 10562 97 l ' ex - CERES n ' est pas prt signer n ' importe 1.4 quoi ) . 7637 35 . La terre buvait l ' eau , n ' importe 1.5 ! 7435 27 ; n ' importe 1.5 ! 10084 3 . N ' importe 1.5 ! 8069 3 . N ' importe 1.5 ! cette fin du monde , si lointaine qu ' elle ft , les assombrit - - et cte c 7915 6 . - - N ' importe 1.5 ! il en a besoin ! 8315 3 . N ' importe 1.5 ! ils devaient le rendre . xigeaient un charbon de qualit qu ' il fallait importer 2.1 , alors que les centrales EDF acceptent tous les charbons ) , cette affirma 9677 23 8754 73 . En 1913 , il fallait dj importer 2.1 5 000 000 tonnes de premire qualit ( cribls 3 / 4 gras et tout - venant g 8721 89rds sont consomms alors que , dit - il , on importe 2.1 6 milliards de francs de charbon pour la traction vapeur . 8754 12 de charbon de premire qualit qu ' il faut importer 2.1 prix fort , le chemin de fer franais a besoin de plus en plus d ' nergie p 8730 27st toujours li au prix du charbon qu ' il faut importer 2.1 car les locomotives vapeur des rseaux franais exigent un charbon de 3361 65calement est moins coteux que ce qui est import 2.1 d ' Europe . 3343 45 d ' Argentine qui souhaitait ne plus avoir importer 2.1 de pare - chocs en plastique . 2.2 toute la population . 3073 121 cialistes de n ' importe o , on ne peut pas importer 8007 111e , maire socialiste lu en 1977 , dcide d ' importer 2.3 acteurs et structures culturels qui font dfaut la cit . 3511 90 . C ' est l ' amricain Dell qui a import 2.3 cette mthode en France . 2.3 dans le domaine de la critique littraire ou artistique voire dans leur techn 1976 16mthodologie aux sciences naturelles et l ' importent 4787 95 . Il est , certes , impossible d ' importer 2.3 directement la robe dcontracte et dcollete mais il est possible , une f 1214 14 - - Une fameuse mode , dit Joe , et que j ' importerai 2.3 en Angleterre ; 2279 222 la mthode et le vocabulaire de Darwin et importer 2.3 l ' ide d ' volution dans les sciences conomiques et historiques . 2.3 un vocabulaire et une mthode propres aux sciences naturelles vers les s 2191 25es organicistes , une sociobiologie , mais il importe
Figure 2. Exemple dtiquetage vertical

Art8 p473 482

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Art8 p473 482

Uploaded by

Copyright:

Available Formats

RECITAL 2001, Tours, 2-5 juillet 2001

Dictionnaires distributionnels et tiquetage lexical de corpus

Dictionnaires distributionnels et tiquetage lexical de corpus

http://www.synapse-fr.com LoX est disponible l'adresse suivante : http://laurent.audibert.free.fr/lox.htm

Figure 1 : liste des 60 vocables traits

Dictionnaires distributionnels et tiquetage lexical de corpus

le chien/la chienne (qui aboie), le chien/*la chienne (de fusil)

du vin, un (grand) vin

conduire/se conduire (bien), porter/se porter (candidat)

importer : limportation de / avoir de limportance lever : levage de cochons, *levage denfants

barrage sur un fleuve : ouvrage, barrage sur une route : *ouvrage

restrictions de slection, classes dobjets

figements, semi-figements rendre lme, chef duvre, haut en couleurs

Dictionnaires distributionnels et tiquetage lexical de corpus

Annexe 1 - Exemple dentre (simplifie)

1.2 Qu/peu importe qqch/que P [ qqun, pour qqun]

1.3 il importe [ qqun, pour qqun] de Vinf /que P (impersonnel)

1.4 N/peu importe Pro

1.5. N/peu importe ! 2. IMPORTER QQCH [QQPART]

2.1. Importer <objets, marchandises...> [dans/vers <pays, rgion...>]

2.2. Importer <population, main duvre...> [dans/vers <pays, rgion...>]

2.3. Importer <concepts, ides...> [dans/vers <culture, discipline...>]

Dictionnaires distributionnels et tiquetage lexical de corpus

Annexe 2 - Exemple dtiquetage

Figure 2. Exemple dtiquetage vertical

You might also like