These Lorraine Goeuriot

cole Centrale de Nantes
Universit de Nantes
cole des Mines de Nantes
COLE DOCTORALE STIM SCIENCES ET TECHNOLOGIES DE LINFORMATION ET DE MATHMATIQUES Anne 2009
Dcouverte et caractrisation des corpus comparables spcialiss
tel-00474405, version 1 - 20 Apr 2010
THSE pour obtenir le grade de DOCTEUR DE LUNIVERSIT DE NANTES Discipline : INFORMATIQUE prsente et soutenue publiquement par
Lorraine G OEURIOT
le 30 Janvier 2009 au LINA devant le jury ci-dessous

Directeur de thse : Batrice DAILLE Encadrant de thse : Emmanuel M ORIN Laboratoire : LINA (Laboratoire dInformatique de Nantes Atlantique)
No ED 0366-XXX
tel-00474405, version 1 - 20 Apr 2010
DCOUVERTE ET CARACTRISATION DES CORPUS COMPARABLES SPCIALISS
Specialized Comparable Corpora Discovery and Characterization
tel-00474405, version 1 - 20 Apr 2010
Lorraine G OEURIOT
favet neptunus eunti
Universit de Nantes
Lorraine G OEURIOT Dcouverte et caractrisation des corpus comparables spcialiss xi+152 p.
tel-00474405, version 1 - 20 Apr 2010
AT Ce document a t prpar avec L EX2 et la classe these-IRIN version 0.92 de lassociation de jeunes chercheurs en informatique LOGIN, Universit de Nantes. La classe these-IRIN est disponible ladresse :
http://login.lina.sciences.univ-nantes.fr/
Impression : these-lorraine.tex 1/12/2008 16:47 Rvision pour la classe : $Id: these-IRIN.cls,v 1.3 2000/11/19 18:30:42 fred Exp
Sommaire
Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .v 1 Des collections de textes aux corpus comparables spcialiss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 Corpus comparables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3 Analyse stylistique et typologies multilingues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4 Classication automatique des documents franais et japonais selon leur type de discours . . 63 5 Rsultats et valuation de la classication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 6 Cration dun systme daide la construction de corpus comparables . . . . . . . . . . . . . . . . . . . 109 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
tel-00474405, version 1 - 20 Apr 2010
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 Table des gures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Table des matires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 A La typologie de Biber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 B Liste des mots utiliss pour la mthode par vecteurs de termes . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
iii
tel-00474405, version 1 - 20 Apr 2010
Introduction
Contexte
Il existe autant de langues de spcialit que de domaines (Bowker et Pearson, 2002, p. 25). Chaque langue de spcialit possde des caractristiques propres : syntaxe, terminologie. . . Les problmatiques et concepts dun domaine spcialis sont internationaux mais les caractristiques linguistiques ne le sont pas. De plus, le vocabulaire technique et scientique nest pas toujours prsent dans les dictionnaires de langue gnrale et cela constitue un vritable problme lors de la traduction. Comment permettre aux scientiques dun domaine de communiquer dune langue une autre ? Langlais, lingua franca des communications scientiques, semble apporter une solution ce problme. Cependant, il est toujours ncessaire de traduire la terminologie du domaine en anglais et les scientiques et traducteurs se trouvent confronts ce problme. Llaboration manuelle de dictionnaires bilingues pour les langues de spcialit semble impossible. En effet, les domaines sont trs nombreux et les langues de spcialit sont en constante volution et sont gnralement propices aux nologismes. Traducteurs, terminologues, chercheurs en TAL. . . se sont alors intresss ce problme. Lune des solutions envisages est alors dobserver les terminologies en situation, cest--dire dans un corpus compos de documents issus du domaine de spcialit dans les langues tudies. Les traducteurs et terminologues y analysent manuellement les terminologies dune langue lautre, leur contexte dusage. . . Quant aux informaticiens, ils extraient de manire automatique des informations multilingues de ces corpus. partir dune collection de textes issus dun domaine de spcialit et sans autre connaissance sur ce domaine il est possible dextraire des lexiques multilingues et ce pour la plupart des langues.
tel-00474405, version 1 - 20 Apr 2010
Objet de ltude
Les corpus multilingues sont des corpus composs de textes en deux ou plusieurs langues. Ces corpus sont utiliss par diffrentes communauts, avec diffrents objectifs. Les traducteurs les utilisent comme aide la traduction car ils permettent dobserver les termes en usage dans la langue, les collocations, etc. Les linguistes les utilisent an de mener des tudes comparatives de phnomnes linguistiques dune langue une autre. Enn, lintrt de ces corpus est den extraire des informations multilingues : terminologies, lexiques. . . Il existe deux principaux types de corpus multilingues : les corpus parallles, composs de textes et de leurs traductions, et les corpus comparables, composs de textes ntant pas des traductions mais partageant un certain nombre de caractristiques communes. Les corpus parallles, bien que trs utiliss, prsentent quelques inconvnients : les ressources sont peu nombreuses, notamment lorsque langlais nest pas impliqu et ils ne sont pas pleinement reprsentatifs de chaque langue puisque le texte source inuence souvent la traduction. Les corpus comparables permettent de pallier ces inconvnients : les ressources permettant de les construire sont beaucoup plus nombreuses et ils sont plus reprsentatifs des caractristiques linguistiques et culturelles de chaque langue. Ainsi, de nombreux travaux font maintenant appel aux corpus comparables. Dans les domaines spcialiss, le besoin en ressources et en informations multilingues se fait particulirement ressentir, en particulier le besoin de lexiques et de terminologies multilingues ainsi que leur mise jour. En effet, les terminologies des domaines de spcialit voluent constamment : les thmatiques changent et le lexique associ sen trouve v
vi
Introduction
modi. Des communauts scientiques actives travaillent au sein des domaines de spcialit, ralisant rgulirement de nouvelles publications. Le besoin de communiquer, diffuser les connaissances toute la communaut est grandissant. Cette afuence de nouvelles ressources et le caractre mouvant des domaines de spcialit impliquent un rel besoin de recenser les connaissances pointues et trs spcialises de ces domaines de faon rgulire. Lexiques et terminologies multilingues peuvent tre extraites et actualises grce aux corpus comparables. Ces corpus, contrairement aux corpus parallles, peuvent tre construits sur des domaines restreints. En effet, les contraintes de constitution des corpus comparables sont moins fortes : les documents issus de diffrentes langues ne doivent pas tre des traductions mais partager des caractristiques telles que le domaine, le thme, le genre. . . Cependant, la construction de corpus comparables pose plusieurs problmes. Leur dnition est assez vague, les caractristiques communes varient selon lusage du corpus. De plus, la construction des corpus comparables comme de tout corpus est une tche coteuse en temps et se trouve confronte au manque de prcision de leur dnition. Cette thse sintresse ces deux problmes que nous prsentons plus en dtails dans la section suivante.
tel-00474405, version 1 - 20 Apr 2010
Problmatique
La dnition des corpus comparables est assez oue. De la majorit des travaux portant sur ces corpus (Djean et Gaussier, 2002; Fung et McKeown, 1997; Teubert, 1996; Zanettin, 1998), nous retenons que ceux-ci partagent certaines caractristiques telles que le thme, le genre, la priode. . . Le choix de ces caractristiques communes dpend de lutilisation du corpus. Ce choix varie selon les tudes et selon les constructeurs du corpus. Un corpus construit an den extraire des terminologies multilingues ne sera pas forcment adapt une utilisation pdagogique pour des tudiants en langues. Existe-t-il alors plusieurs dnitions des corpus comparables ? Le degr de comparabilit est une notion permettant de quantier dans quelle mesure les textes dun corpus sont comparables. Un corpus contenant des textes nayant aucun rapport les uns avec les autres a un degr de comparabilit minimal et un corpus dont les textes ont de nombreuses caractristiques communes (priode, thme, genre, mdia par exemple) aura un degr de comparabilit lev. Il existe donc un lien troit entre les caractristiques communes des textes dun corpus comparable et son degr de comparabilit, mais comment le quantier ? Une solution permettant de le calculer a t propose dans quelques travaux et se base sur les similarits lexicales entre textes. Cette solution, proche de la vision en sac de mots des corpus (Habert et al., 1997), ne semble satisfaisante que dans certains contextes dusage (principalement de traitement automatique des textes). Nous analysons ici la dnition de ces corpus, de la comparabilit et des caractristiques communes an de proposer une dnition plus prcise et adapte tous les contextes dutilisation. Une dnition plus claire et dtaillant les diffrents choix faits selon le contexte dutilisation des corpus permettront de faciliter leur construction. La tche de construction de corpus est trs coteuse et nous souhaitons ici proposer un systme dassistance permettant de raliser automatiquement certaines tapes. Les domaines de spcialit sont nombreux et les quantits de ressources ncessaires pour couvrir lensemble de ces domaines le sont aussi. An quune communaut scientique puisse mieux communiquer, il faut au moins disposer de la terminologie dans les diffrentes langues et de lexiques multilingues. Pour que cela soit possible, la construction de corpus doit tre simplie. Nous nous intressons dans cette thse la construction de corpus comparables spcialiss dans les langues franaise et japonaise. Nous proposons une dnition des corpus comparables spcialiss avec pour caractristiques communes un domaine de spcialit, un thme et un type de discours (scientique ou vulgaris). Le thme permet de circonscrire un champ
Introduction
vii
tel-00474405, version 1 - 20 Apr 2010
scientique et le type de discours permet de ltrer le niveau de communication des documents du corpus, garantissant un niveau de langue, un lexique et une syntaxe communs. La constitution dun corpus comparable spcialis se compose de diffrentes tapes. La premire tape est cruciale, il sagit de dterminer le domaine de spcialit dont le corpus sera reprsentatif, ainsi que de xer les critres de choix des documents (selon les caractristiques communes des documents xes notamment). Cette tape ne peut tre ralise automatiquement mais nous en dtaillons les principes. La seconde tape consiste rechercher et slectionner les documents. Il est important de slectionner une source de donnes adapte : le Web constitue la ressource principale, mais des portails scientiques rassemblent des documents dun domaine (par exemple Cismef pour le domaine mdical) en proposant des mta-informations trs utiles pour la constitution du corpus (genre, thme, mots-cls. . . ). Les documents sont ensuite slectionns depuis la source en respectant les critres de choix. Dans notre cas, les documents sont slectionns selon leur thme et leur type de discours. Le thme pouvant facilement tre ltr laide de recherches par mots cls, nous nous concentrons sur la reconnaissance automatique du type de discours. Une analyse contrastive stylistique nous permet de crer une typologie de critres caractrisant le type de discours. Cette typologie est utilise an de gnrer une reprsentation vectorielle des documents qui nous permet dapprendre des modles de classication. Ces modles sont ensuite insrs dans une chane logicielle daide la construction de corpus comparables. Cette chane traite une collection de documents pralablement slectionns et collects par lutilisateur quelle classe, annote et documente an den constituer un corpus comparable.
Plan du document
Dans le chapitre 1 nous prsentons un tat de lart nous permettant de dnir les corpus comparables spcialiss, leurs caractristiques et de lister leurs diffrentes utilisations. Nous dnissons les corpus comparables en plusieurs tapes. Dans un premier temps, nous donnons une dnition des corpus de faon gnrale puis les corpus lectroniques. Nous abordons ensuite la notion de reprsentativit des corpus et effectuons une analyse des diffrentes typologies de corpus utilises. Dans un second temps, nous dnissons les corpus spcialiss en analysant comment les domaines ou langues de spcialit peuvent tre circonscrits. Enn, nous prsentons les deux principaux types de corpus multilingues : les corpus parallles et les corpus comparables. Nous justions ainsi notre choix portant sur les corpus comparables en comparant ces deux types de corpus. Ce chapitre se termine par une partie portant sur les utilisations des corpus multilingues dans diffrents domaines. Le chapitre 2 est consacr aux corpus comparables. Nous analysons dans une premire partie la comparabilit. Les travaux dtaillant cette notion tant peu nombreux, nous tentons de la confronter avec des notions proches telles que la similarit ou la reprsentativit an de dgager une dnition prcise. Dans une seconde partie nous listons les critres de compa rabilits choisis dans la littrature : domaine, genre, priode. . . Cet tat de lart nous permet ainsi de prsenter notre choix de critres pour des corpus comparables spcialiss. La troisime partie de ce chapitre est consacre la construction de ces corpus. Nous nous appuyons sur diffrents ouvrages traitant de la construction de corpus lectroniques an de dgager les tapes de la construction de corpus comparables spcialiss. La dernire partie de ce chapitre prsente le corpus dtude que nous avons construit, portant sur la thmatique du diabte et de lalimentation en franais et japonais. Dans le chapitre 3 nous prsentons lanalyse stylistique du corpus dtude et la typologie des types de discours cre. Un tat de lart sur le sujet nous permet de dgager les mthodologies existantes (inductive, dductive, contrastive. . . ) et de cibler les mthodes les plus adaptes selon les objectifs. Dans
viii
Introduction
le cas de la reconnaissance des types de discours scientique et vulgaris dans les langues franaise et japonaise, la mthode dductive et contrastive parat la plus adapte : partant dun ensemble de textes prclasss, la comparaison de couples de documents appartenant des classes diffrentes permet de dgager des caractristiques discriminantes pour chaque classe. Le fruit de cette analyse, un ensemble de critres, est organis dans une typologie compose de trois niveaux danalyse : structurel, modal et lexical. Les critres de la modalit sappuient sur deux thories : cella de Charaudeau (1992) appele la modalit locutive et celle de Givn (1994) appele la modalit irrealis. Le chapitre 4 est consacr llaboration dun systme de classication automatique. Il se compose de deux parties : la premire prsente la thorie et les mthodes, la seconde est la mise en application de ces mthodes. La premire phase consiste indexer les documents du corpus dapprentissage, cest-dire gnrer, pour chaque document, une reprsentation de celui-ci comprhensible par les systmes dapprentissage automatique. Cette reprsentation sappuie sur la valeur de chaque critre de la typologie sur le document. Une tape dimplmentation de la typologie est donc ncessaire. Dans la seconde phase, ces reprsentations des documents sont transmises un systme dapprentissage automatique qui gnre alors un modle de classication reproduisant la classication fournie. La troisime phase consiste valuer le modle de classication sur un second corpus. Nous prsentons pour chacune de ces phases le travail que nous avons fourni et justions nos choix. Dans le chapitre 5 gurent les rsultats de lvaluation des modles de classication gnrs. Le corpus dvaluation est prsent dans une premire partie, ce corpus comparable porte sur le thme du cancer du sein en franais et japonais. Nous prsentons ensuite les rsultats obtenus sur ce corpus avec la typologie complte. Nous essayons ensuite damliorer ces rsultats en valuant chaque catgorie de critres de la typologie, et nous comparons notamment des critres correspondant deux thories de la modalit. La typologie compose des critres structurels, lexicaux et modaux de la thorie de Charaudeau (1992) donnent en moyenne de meilleurs rsultats (pour les deux langues et les classieurs). Nous analysons ensuite plus en dtails les rsultats obtenus pour les critres de la typologie en observant la frquence de certains sur le corpus. Ce chapitre se termine sur une discussion sur laspect binaire de notre classication. Ce travail nous a permis de constater quil existe un continuum entre les deux types de discours et nous justions cette observation avec quelques expriences. Le chapitre 6 est consacr la mise en commun des travaux prsents dans les cinq chapitres prcdents. Nous y prsentons llaboration dun systme daide la construction de corpus comparables spcialiss en franais et japonais. laide de la plateforme UIMA (Unstructured Information Management Architecture), que nous prsentons dans une premire partie, nous crons un systme permettant, partir dune collection de documents en franais et japonais relevant dune mme thmatique spcialise, de les classer et de gnrer un corpus annot et document. Nous suivons donc les diffrentes tapes de construction prsentes dans le chapitre 2 et intgrons un classieur prsent dans le chapitre 4. Cet outil, encore volutif, permet lutilisateur de crer des corpus en ne se souciant plus que de la slection des documents selon une thmatique, tout en gardant un contrle sur les diffrentes tapes et le corpus ainsi gnr.
tel-00474405, version 1 - 20 Apr 2010
C HAPITRE
Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010
1.1
Introduction
Lvolution du Web produit depuis quelques annes une augmentation trs importante des ressources textuelles accessibles. Cette brusque augmentation de la quantit de donnes textuelles a eu un impact sur la perception et la constitution de corpus. Une collection de textes rassemblant des centaines de millions de mots telle que le British National Corpus et une collection de plusieurs centaines de milliers de mots seront appels de la mme faon corpus. Nous nous intressons dans cette thse la constitution de corpus comparables spcialiss et il est ncessaire avant toute chose de bien les dnir. Dans ce premier chapitre, nous prsentons lobjet de notre tude, les corpus comparables spcialiss. Ces corpus ont de plus quelques caractristiques : ils doivent tre adapts un traitement automatique et ils sont construits partir du Web. En tenant compte de ces proprits nous dnissons dans ce chapitre chaque lment constituant les corpus comparables spcialiss : les corpus, les corpus spcialiss et les corpus comparables. Le terme corpus dsigne gnralement une collection de documents, prenant diffrentes formes selon la discipline. Nous nous intressons ici aux corpus dans le cadre dtudes multilingues (en TAL, linguistique ou traduction). Nous partons dune dnition trs gnrale des corpus que nous centrons ensuite sur le TAL et les tudes multilingues. Nous abordons ensuite le problme de ladquation entre les corpus et les objectifs de leur tude, cest--dire la reprsentativit. La constitution dun corpus est gnralement lie un besoin particulier, qui inuence fortement sa composition. Dans la suite, nous nous appuyons sur diffrentes thories des langues de spcialit an de donner une dnition et de caractriser les corpus spcialiss. La dernire partie de ce chapitre est consacre aux corpus multilingues et leur exploitation.
1.2
Les corpus
1.2.1 Dnition
Dans les disciplines philosophiques, un corpus est un recueil runissant ou se proposant de runir, en vue de leur tude scientique (linguistique, socio-linguistique, etc.), la totalit des documents disponibles dun genre donn, par exemple pigraphiques, littraires, etc. (TLFi, 1960). Cette dnition semble limite pour plusieurs raisons. Tout dabord, il parat difcile de collecter la totalit des textes disponibles dun genre donn (par exemple pour les genres du Web, comment collecter la totalit des 1
CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss
articles de forum ?). De plus, les travaux en linguistique des corpus se penchent gnralement sur des phnomnes particuliers de la langue et ncessitent un corpus reprsentant ces phnomnes. Il faut donc se pencher du ct de la linguistique et du TALN pour obtenir des dnitions plus oprationnelles des corpus. Les dnitions suivantes correspondent en fait la notion de corpus informatis ou corpus lectronique1 , souvent appels corpus par abus de langage. La plupart des disciplines, en particulier la linguistique de corpus se basent sur des corpus lectroniques. Sinclair (1996a, p. 5) en donne la dnition suivante : A computer corpus is a corpus which is encoded in a standardised and homogenous way for open-ended retrieval tasks. Deux conceptions des corpus sont distingues par Rastier (2002) : les sacs de mots et les archives de textes. Selon lui, un ensemble de mots ou de phrases ne peut tre considr comme un corpus, ils ncessitent dtre observs dans un contexte qui est le texte : Si le mot [...] est lunit lmentaire, le texte est pour une linguistique volue lunit minimale, et le corpus lensemble dans lequel cette unit prend son sens. Limportance de lunit texte est aussi prsente dans Pry-Woodley (1995, p. 8), pour qui un corpus se compose par dnition de discours, de langue concrte , et cest immanquablement sous la forme de textes [...] que la langue se ralise en discours. Habert (2000) apporte cela une prcision en distinguant les rservoirs corpus (ou bases de donnes textuelles) aux corpus eux-mmes. En effet, on trouve de nombreuses bases de donnes textuelles, telles que le BNC (British National Corpus) ou Frantext (textes littraires datant du XVIme sicle nos jours rassembls par lINaLF). Ces bases de donnes sont trs souvent utilises an de gnrer des corpus, mais elles ne peuvent selon lui pas tre considres comme des corpus. Cest, lopration de choix raisonn parmi les composants disponibles qui cre un corpus (Habert, 2000, p. 4). La dnition de Sinclair (1996a) rsume bien les prcisions prcdentes : A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language . Le terme donnes langagires ( pieces of language ) est utilis an dindiquer quun corpus ne contient pas ncessairement uniquement des uvres compltes mais aussi des extraits. Les critres linguistiques voqus correspondent tous les lments linguistiques dterminants lors de la construction du corpus, et qui permettront deffectuer des analyses sur un corpus reprsentatif du(es) phnomne(s) linguistiques viss. Ces critres correspondent gnralement la rcurrence de traits linguistiques dans les donnes langagires. Lexpression chantillon du langage indique que le corpus doit tre reprsentatif du langage. Cependant, reprsenter un langage dans sa globalit grce un chantillon est un projet qui parat irralisable. Un sous-ensemble de base de donnes textuelles peut au mieux reprsenter un phnomne linguistique dun langage (Habert, 2000) ou dun sous-langage (Bowker et Pearson, 2002). Habert (2000, p. 1) reprend ainsi cette dnition en la restreignant : un corpus est une collection de donnes langagires qui sont slectionnes et organises selon des critres linguistiques et extra-linguistiques explicites pour servir dchantillon demplois dtermins dune langue Teubert (1996) afrme que les corpus sont les ressources les plus adaptes pour les tudes empiriques sur le langage, plus able que lintrospection (Teubert, 1996, p.240). Pour lui, la conception dun corpus appropri dpend des connaissances que lon souhaite en extraire. Un corpus est toujours
1 Computer corpus , appel corpus informatis chez Dubreil (2006) par exemple, et corpus lectronique chez Habert et al. (1997).
tel-00474405, version 1 - 20 Apr 2010
construit dans le cadre dune tude, an dobserver un ou des phnomnes linguistiques prcis, ou emplois dtermins dune langue . Lobjectif ainsi x du corpus dtermine les critres de construction du corpus. Dubreil (2006) rsume ces diffrentes dnitions des corpus en les caractrisant selon trois axes : la nature : le corpus est compos de donnes langagires. la structure : les donnes du corpus sont slectionnes, mises en formes et enrichies. Leur slection se fait selon des critres de choix, de faon ce que le corpus soit reprsentatif des objectifs viss. Les critres appliqus sont dordre linguistiques ou extra-linguistiques. Le corpus ainsi constitu est ensuite mis en forme (normalisation) et enrichi (documentation). la nalit : obtenir un corpus reprsentatif dun langage, dun sous-langage ou de certains phnomnes linguistiques. Cette dnition est trs gnrale, Bowker et Pearson (2002, p. 11) afrment quil existe autant de types de corpus quil existe dtudes. Parmi les types les plus gnraux, elles citent :
tel-00474405, version 1 - 20 Apr 2010
les corpus de rfrences (general reference corpora) : corpus trs larges, reprsentatifs dun langage dans son ensemble (par exemple le British National Corpus (Aston et Burnard, 1998)) ; et les corpus dtudes (special purpose corpora), corpus crs an dobserver un aspect particulier du langage (par exemple le corpus cr par Beauvisage (2001) dans le cadre de son tude sur des sous-genres du roman policier ; les corpus crits : corpus composs de textes crits et les corpus oraux, corpus compos de transcription de matriel oral (par exemple le corpus Switchboard, compos de conversations tlphoniques (Godfrey et al., 1992) ; les corpus monolingues et les corpus multilingues (voir section 1.4) ; les corpus synchrones : contenant des documents datant dune priode restreinte, permettant dtudier le langage sur une priode prcise et les corpus diachroniques, rassemblants des crits de priodes diffrentes, an dobserver lvolution du langage (voir (Kyto et al., 1994) pour plus de dtails) ; les corpus ouverts ( monitor corpus ) : corpus auxquels des textes sont constamment ajouts et les corpus ferms. Quel que soit le type de corpus, il sert gnralement dchantillon demplois dtermins dune langue Habert (2000). Il est donc adapt la nalit du cadre dans lequel il est construit. Mais questce exactement quun corpus reprsentatif de phnomnes langagiers ? Comment dterminer quun corpus contient sufsamment dinformations pour gnraliser des observations ? Nous prsentons dans la section suivante une dnition de la reprsentativit.
1.2.2 Reprsentativit des corpus

Comme nous lavons mentionn dans la section 1.2.1, un corpus fait ofce dchantillon du langage, et se doit den tre reprsentatif. Biber (1993, p. 1) dnit la reprsentativit en ces termes : Representativeness refers to the extent to which a sample includes the full range of variability in a population. Par population, Biber dsigne une langue, un langage, un sous-langage ou un ensemble de phnomnes langagiers. Au sein dune population ou dun corpus, deux types de variations apparaissent : les variations de situation et les variations linguistiques. Les variations de situation portent sur tous les lments extrieurs au texte, tandis que les variations linguistiques concernent uniquement le texte. En travaillant
sur un corpus compos darticles scientiques, les variations de situation porteront sur le domaine, le thme, lauteur, la priode, etc. Les variations linguistiques seront plutt dordre stylistique : syntaxe, lexique, etc. Un corpus reprsentatif dune population langagire doit inclure (Biber, 1993, p. 1) : un ensemble des types de textes de la population langagire ; un ensemble de distributions linguistiques de la population langagire. Il parat cependant irraliste de prtendre pouvoir construire un corpus reprsentatif de nimporte quelle population langagire. En effet, la langue gnrale semble par exemple impossible cerner dans sa globalit. Il en va de mme pour des tudes plus circonscrites, la constante volution de la langue rend difcile la tche de trouver un chantillon pleinement reprsentatif dun phnomne linguistique. Il est donc ncessaire de prendre en considration ces difcults rencontres lors de la cration de corpus. Les premires considrations lors de la construction dun corpus sont souvent le type des textes, le nombre de textes, leur longueur, etc (Biber, 1993). Les documents sont souvent collects parce quils sont faciles daccs, et la priorit est donne la disponibilit des donnes et leur quantit plutt qu la population qui doit tre reprsente (Habert, 2000). Selon Biber (1993), la reprsentativit dun corpus dpend de plusieurs lments. Elle dpend en premier lieu de la dnition de la population cible, cest-dire de la population que lchantillon (le corpus) doit reprsenter. Cette population se dnit deux niveaux, que nous illustrons grce au corpus LOB (Johansson et al., 1978)2 : par ses bornes : quels textes sont inclus dans le corpus, quels textes en sont exclus (ex. : tous les textes publis en anglais en 1961 au Royaume Uni) ; par lorganisation hirarchique au sein de la population : quelles catgories de textes sont inclues, quelles sont leurs dnition (ex. : 15 catgories principales et de nombreux sous-genres au sein de ces catgories dans le corpus LOB). La reprsentativit dpend en second lieu de lventail des distributions linguistiques au sein du corpus, qui doit tre quivalent celui de la population cible. Cet ventail des distributions linguistiques correspond lensemble des traits linguistiques, leurs variations et leurs distributions au sein dun mme texte, entre textes et entre types de textes. Le corpus, chantillon de la population, doit rendre possible des analyses de ces distributions, ainsi quune gnralisation de leurs rsultats la population. Cet aspect de la reprsentativit dpend fortement du premier aspect : si un corpus ne reprsente pas lensemble des types de textes dune population, il ne reprsentera pas lensemble des distributions linguistiques. En dernier lieu, la reprsentativit dpend de lchantillonnage des textes de la population dans le corpus. Pour cela, des choix de rpartitions doivent tre faits, par exemple slectionner au hasard x documents de chacun des types de textes de la population cible. Cet chantillonnage induit un certain nombre de choix techniques, parmi lesquels gurent le nombre de textes par catgories, la taille des textes, etc. Habert (2000) aborde la reprsentativit sous un angle plus pratique. Selon lui, un corpus peut tre considr, du point de vue purement statistique, comme lchantillon dune population. Deux problmes apparaissent alors avec la notion dchantillon : lincertitude, qui survient quand un chantillon est trop petit pour reprsenter la population, et la dformation, survenant quand les caractristiques dun chantillon sont systmatiquement diffrentes de celles de la population cible. De ces problmes dcoulent deux approches chez les crateurs de corpus. La premire, quHabert nomme gros, cest beau , part du postulat que laugmentation des donnes produit des corpus plus reprsentatifs de la langue (en englobant le maximum dnoncs possibles). Cette mthode fait cho aux rservoirs corpus, tels que le BNC, conus pour englober lensemble des phnomnes dun langage.
2
tel-00474405, version 1 - 20 Apr 2010
Ce corpus sert aussi dexemple dans Biber (1993).
Cependant, sur des populations plus restreintes, cette approche peut apporter du bruit dans le corpus, cest ce quHabert appelle linscurit des grands ensembles . Cette seconde approche privilgie les conditions de production et rception des documents, en corrlation avec les caractristiques langagires de la population cible. Cette deuxime approche nous amne alors nous intresser de plus prs au processus de construction dun corpus. La reprsentativit dun corpus se caractrise par une dimension interne (dtermination des diffrents emplois du langage cibl) et/ou une dimension externe (conditions de production et rception des documents). Les documents sont catgoriss avant dtre introduits dans un corpus, et chaque tude donne lieu une nouvelle catgorisation. Malaise dans la classication ? , Habert (2000) observe un parpillement typologique , d aux nombreuses tudes sur corpus, amenant invitablement de nombreux besoins et de nouvelles classications. Nous allons tenter dans la section suivante de faire un bref tour dhorizon des travaux typologiques.
1.2.3 Typologies de corpus

tel-00474405, version 1 - 20 Apr 2010
Pour Adam (1992, p. 6), la catgorisation des textes fait partie des activits cognitives spontanes des sujets. [...] Sans lexistence de catgories, notre apprhension des noncs produits serait probablement impossible . Habert (2000) la bien remarqu, il existe de nombreuses classications de textes dans les corpus, et elles sont dues la diversit des tudes sur corpus. Les classications les plus frquentes sont les suivantes : genres, registres, discours, domaines, thmes. . . Nanmoins, les textes dun corpus peuvent aussi tre classs selon les cooccurrences de certains traits linguistiques. Habert (2000) distingue deux types de classications : Les classications a priori : le classement est bas sur des catgories ou caractristiques des documents ; Les classications a posteriori : dans lesquelles le classement repose sur les caractristiques linguistiques des textes uniquement, partir desquelles sont gnres les catgories. Les classications a priori sont gnralement bases sur les classes frquemment utilises, tandis que les classications a posteriori se basent uniquement sur les caractristiques des textes, qui ne correspondent gnralement pas des classes prdnies. Les classes cres partir de cooccurrences de traits linguistiques sont appeles type de texte par Biber.
1.2.3.1
Les classications a priori
Les classications a priori peuvent reposer sur (Habert, 2000, p. 14): les conditions de production des textes ; les buts viss par les textes ; leur inscription dans des genres ou autres catgories (sous-genres, types de discours. . . ) ; lemploi ou non de certaines marques linguistiques. Les conditions de production des textes correspondent la dnition de la situation de communication dans laquelle sinscrit le document. Le locuteur ou destinateur, ainsi que le destinataire doivent donc tre connus. Cette identication constitue une premire difcult, puisquils peuvent tre totalement inconnus (lors dune recherche de textes sur le Web par exemple). De plus, ces informations doivent tre renforces par la reprsentation que lauteur a de lui-mme et de son destinataire. Les buts viss par les textes correspondent la fonction vise par le texte. Adam (1992) distingue par exemple sept fonctions : narrative, descriptive, explicative, argumentative, prdictive, conversationnelle et rhtorique. Le
troisime critre sur lequel peut reposer la classication est le choix dune catgorie textuelle. Les plus frquentes sont les domaines, les thmes et les genres. Nous les prsentons succinctement dans cette section, elles seront dtailles dans le chapitre 2. Les catgorisations en domaine ou en thme Vite limites, selon Habert, par la constante volution des thmes et domaines, ainsi que des parutions (notamment sur le Web), ces classications permettent dassurer une certaine reprsentativit et forment un ltre imparfait mais efcace. Sinclair (1996b) dresse une liste des diffrents thmes et domaines utiliss dans de nombreux corpus : religion, droit, sciences, histoire... Habert y note cependant un certain nombre dinconvnients. Tout dabord les corpus traitant un thme le recouvrent rarement. De plus, lensemble des thmes / domaines reprsents ne prsentent aucune structure : ils sont plus ou moins gnraux, certains thmes en regroupent dautres, etc. Les catgorisations en genres Les genres, selon Biber (1989), sont les catgories de textes distingues spontanment par les locuteurs conrms dune langue ; par exemple les genres de langlais incluent les romans, les articles de journaux, les ditoriaux, les articles de recherche, les discours en public, les nouvelles radiophoniques et la conversation de tous les jours 3 . Les genres sont des dispositifs de communication socio-historiquement dnis (Maingueneau, 1996, p. 43). Ainsi, les textes dun mme genre partagent gnralement une mme fonction communicative, et un certain nombre de caractristiques linguistiques. Une classication par genre assure donc une certaine reprsentativit dans un corpus. Karlgren et Cutting (1994) font par exemple appel au corpus Brown, dans lequel les documents sont classs selon leur genre. Dubreil (2006) utilise un corpus compos darticles scientiques. Le quatrime critre est lemploi de certaines marques linguistiques. La slection des documents dun corpus peut se faire sur la prsence (ou labsence) de certains traits linguistiques. Benveniste (1966)4 sest par exemple intress aux embrayeurs, units linguistiques dont la valeur rfrentielle ncessite de connatre les conditions de leur nonciation (lieu, moment, identit des locuteurs et interlocuteurs. . . ) (Habert, 2000, p. 19). Ltude de son corpus lui permet alors de distinguer deux catgories : lhistoire (nonciation historique) et le discours (nonciation personnelle). Les classications des documents au sein des corpus peuvent galement tre bases sur des combinaisons de ces quatre critres.
tel-00474405, version 1 - 20 Apr 2010
1.2.3.2
Les classications a posteriori
Autrement appeles typologies inductives, ce mode de classication repose sur les caractristiques des textes uniquement. partir de ces catgories sont gnrs des groupements de textes ayant la mme tendance recourir un ensemble de traits linguistiques et en viter dautres. Un corpus est utilis an dobserver la rpartition des traits, et reprer les plus discriminants. Bronckart (1996)5 ralise une typologie discursive de textes en croisant deux paramtres : le rapport de lauteur la situation dnonciaton : prsence dembrayeurs dans les textes notiant un ancrage du texte dans un certain contexte, ou absence dembrayeurs, donc autonomie du texte par rapport tout contexte ; le rapport de lauteur au monde : distance entre la reprsentation du monde faite dans le texte et linteraction sociale en cours. Si celle-ci est grande, les faits prsents dans le texte paraissent passs, sinon les faits noncs semblent proches du lecteur et peuvent se produire dans son monde.
3 4
La traduction vient de Habert (2000, p. 16). Cit dans (Habert, 2000). 5 Cit dans Habert (2000, p. 23).
Une analyse inductive des variations de ces deux paramtres lui permettent daboutir 4 catgories, appeles architypes discursifs (Habert, 2000). Ces catgories sont prsentes dans le tableau 1.1. Rapport au monde Conjonction Disjonction Discours interactif Rcit Discours thorique Narration
Rapport interactif la situation
Implication Autonomie
Table 1.1 Architypes discursifs de Bronckart (1996) Ces travaux inductifs font bien videmment cho aux travaux de Biber, qui sont prsents dans le chapitre 2.
tel-00474405, version 1 - 20 Apr 2010
1.2.3.3
Synthse
Cette liste de typologies, qui ne se veut pas exhaustive nous permet dentrevoir le foss entre la reprsentativit thorique des corpus et le ct pratique lors de la construction de ceux-ci. Pour Biber, un corpus (considr comme chantillon dune population) est reprsentatif sil inclut lensemble des variations caractristiques de la population. Faisons lanalogie avec un sondage, comment sassurer que les sonds soient reprsentatifs de lensemble de la population ? Classer les sonds par ge, ville ou profession peut permettre davoir une ide plus prcise de lchantillon quils reprsentent et ainsi viser les catgories manquantes pour que lensemble soit plus reprsentatif. Les textes des corpus sont donc rpartis suivant plusieurs classes, lintrieur desquelles chaque sous-classe est reprsente jusqu obtenir un corpus sufsamment important et vari. Le plus important semble donc de dnir rigoureusement la population cible avant la construction du corpus. Dans le cas des corpus dits de spcialit , la dnition de la population cible se restreint souvent la simple slection dun domaine de spcialit. Un domaine est-il sufsant pour circonscrire une langue de spcialit ? Nous prsentons dans la section suivante les langues de spcialit et communauts de discours et proposons une dnition des corpus spcialiss.
1.3
Les corpus spcialiss
Un corpus spcialis porte sur un domaine de connaissance ou une situation de communication particuliers. Il doit tre reprsentatif de la langue de spcialit en usage dans le domaine. Les textes dun corpus spcialis sont slectionns selon une conguration domaine-genre (Pry-Woodley, 2000), par exemple des articles de recherche en TALN pour Dubreil (2006, p. 66). Les corpus spcialiss se doivent dtre reprsentatifs dun domaine ou dune situation de communication, ils doivent contenir des documents dune certaine qualit (traitant rellement et rigoureusement du domaine) et reprsenter lensemble des varits du domaine auquel il a trait. Dubreil (2006, p. 67) en donne la dnition suivante : tout regroupement de donnes langagires cr des ns spciques et reprsentatif dune situation de communication ou dun domaine dans la pratique. Elle prcise que la constitution dun corpus spcialis implique donc que le domaine des textes inclus dans le corpus soit dni et dlimit et que les textes soient reprsentatifs de ce domaine pour garantir lauthenticit des conclusions quon en tire .
Il est donc primordial, lors de la construction, de savoir dnir et dlimiter un domaine. Plusieurs modles thoriques permettent de mener bien cette tche : les langues de spcialit, les sous-langages, les communauts de discours.
1.3.1 Dlimiter un domaine

Bowker et Pearson (2002, p. 25) opposent la langue gnrale ou LGP (Language for General Purpose) la langue de spcialit ou LSP (Language for Specialized Purpose). La LGP correspond au langage que nous utilisons tous les jours, pour parler de sujets ordinaires dans des situations communes. La LSP correspond aux langages utiliss pour parler de domaines de connaissance spcialiss, par exemple le domaine de la chimie. On parle en ralit de LSP au pluriel, car il existe autant de langues de spcialit que de domaines. chaque langue correspond une langue gnrale et des langues de spcialit. Un locuteur natif dune langue est gnralement un expert de la langue gnrale, il en connat le vocabulaire et la syntaxe. La connaissance dune langue de spcialit est par contre rserve aux spcialistes dun domaine scientique ou technique. Lerat (1995) prsente trois notions constitutives des langues de spcialit6 : Une origine : une langue de spcialit appartient un domaine particulier ; Une nature : une langue de spcialit est une varit de la langue gnrale, elle possde les mmes caractristiques, mais celles-ci sont restreintes ; Une fonction : une langue de spcialit sert communiquer, transmettre des informations. De l peuvent apparatre diffrentes caractristiques propres aux langues de spcialit (Bowker et Pearson, 2002, p. 26) : un vocabulaire spcialis ; des combinaisons particulires de mots et des mthodes de prsentation des informations7 ; des caractristiques stylistiques particulires. titre dexemple, la rdaction des rsultats dune exprimentation scientique se fait en utilisant le vocabulaire spcialis propre au domaine, en utilisant un style et une syntaxe particuliers. Nous illustrons ceci avec un extrait tir dun article scientique crit par Fung et Yee (1998), correspondant la gure 1.1. Nous trouvons dans cet exemple un vocabulaire spcialis au TAL ou plus gnralement linformatique : algorithm , corpus , ranking candidates , etc. , des mthodes de prsentation particulire : les deux items Evaluation I: unknown words et Evaluation II: known words par exemple. Quant au style, nous pouvons observer des marqueurs de glose dans les phrases, ainsi que des quantits numriques et des rfrences diffrents tableaux et gures. La notion de langue de spcialit est largement dbattue chez les linguistes. Selon Dubreil (2006, p. 68), tant du point de vue lexical que grammatical, les langues de spcialit ne se distinguent pas clairement de la langue gnrale et peuvent y tre inclues ou se chevaucher. Les langues de spcialit sont souvent compares la thorie des sous-langages, bien que le terme sous-langage soit souvent utilis comme fourre-tout pour tous les langages scientiques et spcialiss (Williams, 1999, p. 40). Un sous-langage (SL) correspond : the language used by a particular community of speakers, say, those concerned by a particular subject matter or those engaged in a specialized occupation (Sager (1986) cit par Pry-Woodley (1995)). Les SL semblent donc sancrer au niveau de la communaut concerne par le domaine de spcialit plus que sur le domaine lui-mme. Notons que le
6 7
tel-00474405, version 1 - 20 Apr 2010
Cit dans (Dubreil, 2006). Special ways of combining words and arranging information.
tel-00474405, version 1 - 20 Apr 2010
Figure 1.1 Exemple : valuation dexprimentations extrait de (Fung et Yee, 1998) terme sous-langage est un faux ami, les sous-langages ntant pas forcment des sous-ensembles de la langue gnrale (Habert et al., 1997, p. 149). Cette thorie se base sur lhypothse que les SL utilisent un lexique ni, il est donc en thorie possible de dlimiter un SL. Dubreil (2006, p. 70) examine les diffrents critres permettant la dlimitation. Les deux premiers critres, linguistiques, sont le lexique et la grammaire. Pour le lexique, nous avons vu quil est en thorie ni. En pratique, il faut prendre en compte le principe dynamique des langues vivantes : de nouveaux mots sont perptuellement intgrs aux langages ou sous-langages. Quant la grammaire, elle est en thorie un sous-ensemble ni de la grammaire de la langue gnrale (Harris, 1988). Cependant, cette hypothse thorique ne tient pas compte du fait que la ralit est plus expressive que la grammaire simplie de Harris (Williams, 1999, p.50). Les critres extra-linguistiques sont le thme et la communaut des locuteurs. Circonscrire un SL par son thme revient se baser sur une classication pr-tablie. Cependant, il faut en thorie disposer dune telle classication ou de sufsamment de connaissances pour pouvoir statuer sur lappartenance dun texte une catgorie. Le dernier critre, la communaut des locuteurs de la SL, se base sur le fait que les locuteurs appartenant un mme domaine partagent certaines habitudes. La thorie des sous-langages ne dnit cependant pas lappartenance dun locuteur un domaine. Ce modle thorique est trs utilis en TAL an de construire des corpus, mais il est plus difcile thoriquement den dnir
10
ses contours. Williams (1999) met en exergue le fait que les sous-langages, selon certains chercheurs, seraient des langues articielles, construites des ns scientiques uniquement. Circonscrire un souslangage consisterait en effet dlimiter le domaine sur lequel il porte. La dlimitation dun domaine pose une fois de plus problme. Williams (1999) et Dubreil (2006) font donc appel la thorie des communauts de discours, qui semble tre un compromis entre la dnition thorique et la pratique : la constitution de corpus. Cette fois-ci, la dnition de la thorie fait en partie abstraction de la notion de langage, pour sattarder sur une communaut particulire et le discours qui lui est propre. Knowles et Roe (1994, p. 138)8 , une communaut correspond : any group of individuals who are dened by a shared global purpose to which all publicly subscribe, and who have evolved or adopted mechanisms and procedures for achieving their shared objectives . une communaut correspondent des moyens du discours et un lexique. Lappartenance une communaut ncessite dadopter ces rgles. Une communaut de discours se distingue dun domaine ou dun sous-domaine par six caractristiques Williams (1999, p. 52) : 1. Un but commun accept par tous les membres de la communaut ; 2. Des mcanismes dinteraction entre les membres ; 3. Des mcanismes de participation garantissant linformation et le retour dinformation ; 4. Lutilisation et la possession dun ou plusieurs genres ; 5. Lacquisition dun lexique spcique ; 6. Un seuil de membres. Ce modle semble rendre possible la dnition et la dlimitation de la communaut et sa mise en pratique lors de la constitution dun corpus.
tel-00474405, version 1 - 20 Apr 2010
1.3.2 La thorie face la pratique

Nous venons de lister et comparer trois modles thoriques permettant de dlimiter un domaine en vue de constituer un corpus spcialis. Les linguistes Williams (1999); Dubreil (2006) ont analys ces modles et montrent les failles que peuvent avoir ces modles thoriques. Nanmoins, chacun dentre eux est utilis par les chercheurs lors de la cration de leurs corpus. Compte tenu du principe dynamique de la langues et de ses constantes volutions et ambiguts, certaines thories comme les LSP ou les SL omettent des lments bancals an de se concentrer sur les aspects pratiques. Les communauts de discours semblent alors fournir un compromis entre la thorie et la pratique. En se concentrant sur la caractrisation de la communaut de discours, les problmes de limites oues sont cartes. Cependant, baser la dnition dun corpus spcialis uniquement sur la communaut de discours dont sont issus les documents pose aussi quelques problmes pratiques. Cette dnition des corpus spcialis implique que lauteur de chaque document insr dans un corpus soit identi. Nombreux sont les corpus construits partir du Web, qui constitue une ressource intarissable de donnes textuelles. Cependant, la provenance des documents du Web et les informations sur lauteur ntant pas toujours fournies, il est parfois difcile dassocier un document une communaut de discours. Dans cette thse, nous travaillons sur des corpus spcialiss dont les documents sont extraits du Web. Bien que certains portails permettent daccder de nombreuses informations sur les documents, il est
8
Cits dans Williams (1999, p. 51).
11
assez difcile pour la majorit des ressources de disposer dinformations sur la publication. Il est ainsi difcile de cibler une communaut de discours. De plus, la thorie des communauts de discours est utilise dans le cadre dtudes trs cibles avec un groupe dauteurs trs restreint et souvent un genre particulier (par exemple le corpus de Dubreil (2006) compos darticles de la confrence TALN et de la revue TAL). Les contraintes sont moins fortes pour nos corpus et le manque potentiel dinformations sur les documents du Web nous poussent utiliser la thorie de Bowker et Pearson (2002) des langues de spcialit. Le terme corpus spcialis dsignera donc ici un corpus compos de documents issus de langues de spcialit.
1.4
tel-00474405, version 1 - 20 Apr 2010
Du corpus monolingue au corpus multilingue
Depuis les annes 80, les travaux en linguistique de corpus, auparavant en majorit sur la langue anglaise, se sont ouverts sur les langues europennes et asiatiques (McEnery et Xiao, 2007). De l sont apparus les corpus multilingues, corpus composs de textes en plusieurs langues9 . Les corpus multilingues reprsentent des ressources trs utiles dans de nombreux domaines : traduction automatique, aide la traduction, extraction dinformations multilingues, tude comparatives. . . McEnery et Xiao (2007, p. 2) listent trois types de corpus multilingues : les corpus de type A : composs de textes sources accompagns de leurs traductions ; les corpus de type B : composs de corpus monolingues partageant des caractristiques (sampling frame) ; les corpus de type C : combinaisons de A et de B. Selon les travaux et les priodes, ces corpus sont appels comparables ou parallles (voir McEnery et Xiao (2007, p. 2)). Nous appellerons ici parallles les corpus de type A et comparables les corpus de type B et C. Il existe dans la littrature dautres appellations pour les corpus multilingues. Fung et McKeown (1997) parlent de corpus non-parallles ou de corpus parallles bruits, et Rapp (1995) de corpus non-lis. Si lensemble de ces types de corpus devait tre class selon un degr de similarit des textes les composant, nous pourrions obtenir le classement de la gure 1.2.
Figure 1.2 Classication des types de corpus multilingues Nous prsentons dans la suite de cette section les deux principaux types de corpus : les corpus parallles et comparables.
9 Dans le cas o seulement deux langues sont reprsentes dans un corpus, on parle de corpus bilingue. Par soucis de simplicit, nous ne distinguerons pas les deux et parlerons dans tous les cas de corpus multilingue.
12
1.4.1 Les corpus parallles

Un corpus parallle10 est un ensemble de textes accompagns de leurs traductions dans une ou plusieurs langues (Bowker et Pearson, 2002, p. 92). Lanctre le plus connu des textes parallles est la Pierre de Rosette. Dcouverte au 18me sicle, elle permit Champollion en 1822 de dcouvrir la cl du dchiffrement de lcriture hiroglyphique (Vronis, 2000). Mme si le terme parallle est utilis an dindiquer quun corpus contient des textes et leurs traductions, les paires de textes dans un corpus parallle ne sont pas forcment des traductions directes, elle peuvent tre des traductions dun troisime texte. Cette situation apparat souvent dans certains environnements multilingues (lUnion Europenne par exemple) dans lesquels il peut tre impossible de savoir dans quelle langue a t rdig le texte source. Parmi les corpus parallles de rfrence, on compte : Le corpus Hansard : cr dans les annes 80, ce corpus est compos de texte anglais et franais tirs des transcriptions des dbats du parlement canadien de 1970 1988. Ce corpus contient plusieurs dizaines de millions de mots (Vronis, 2000) ; Le corpus Europarl : corpus rassemblant des textes du Parlement Europen dans 11 langues, avec plus de 20 millions de mots par langue (Koehn, 2004) ; Le corpus Hong-Kong Hansard : cr par le LDC (Linguistic Data Consortium), ce corpus rassemble les textes en anglais et franais issus des discussions, rapports, etc. du parlement de Hong Kong ; Le corpus de lUBS (Union des banques suisses), utilis par exemple par Gale et Church (1993), organisme publiant dans plusieurs langues (franais, anglais, italien, allemand) des rapports sur le dveloppement de lconomie suisse ; Certains ouvrages lus dans le monde entier, comme la Bible, sont traduits dans la plupart des langues et peuvent constituer un corpus parallle.
tel-00474405, version 1 - 20 Apr 2010
1.4.2 Les corpus comparables

Pour Teubert (1996), les corpus comparables sont des corpus en deux ou plusieurs langues ayant une composition ou une structure11 similaire (ou quasi-similaire). Les textes du corpus sont slectionns selon des critres linguistiques ou extra-linguistiques (le domaine par exemple), ce qui permet de garantir aux textes un ensemble de caractristiques communes (ou composition). Nous avons vu dans la section 1.2 que les lments dun corpus taient slectionns en fonction de certains critres. La dnition gnrale de Teubert ne nous permet pas de dterminer ce quest une composition similaire et quels critres permettent de lobtenir. Ainsi, nous nous ramenons la dnition de Bowker et Pearson (2002), selon laquelle les corpus comparables sont composs de documents en plusieurs langues, qui ne sont pas des traductions, mais qui partagent certaines caractristiques (Bowker et Pearson, 2002, p. 93). Il existe quelques travaux abordant la notion de corpus comparables monolingues, constitus de deux ensembles de textes, lun compos de textes crits dans une langue et lautre compos de textes traduits dans cette mme langue (Zanettin, 1998; Culo et al., 2008). Le but de ces corpus tant dtudier le processus de traduction, un certain nombre de contraintes de composition du corpus sont identiques au contexte multilingue : thmatique, vocabulaire, syntaxe communs. Nous ne nous intresserons dans cette thse quaux corpus comparables multilingues.
10 11
LHomme (2004) parle de corpus aligns. Composition dans larticle anglais.
13
Nous ne nous intressons ici quau contexte multilingue et ne dvelopperons pas cet aspect de la comparabilit. En rassemblant les diffrents critres prsents dans la littrature, on voit que ceux-ci vont de la priode de rdaction des documents, leur thme, au mdia utilis, etc. Djean rassemble ceux-ci en deux catgories : les critres qualitatifs : critres utiliss en stylistique tels que le genre, lauteur, la priode, le mdia, etc. ; les critres quantitatifs : critres bass sur les mesures de frquences de certains traits linguistiques (ex. : frquence de certains termes). Lensemble des critres de comparabilit choisi pour un corpus fait varier son degr de comparabilit. Il nexiste pas, notre connaissance, de corpus comparable de rfrence. Teubert (1996) note toutefois que le projet NERC (Network of European textual Reference Corpora) constitue une bonne base pour la construction de corpus comparables (Calzolari, 1993). Il existe deux principales catgories de corpus comparables :
tel-00474405, version 1 - 20 Apr 2010
Les corpus comparables gnralistes : composs gnralement darticles de journaux. Les documents sont souvent extraits de journaux nationaux, et portent sur une mme priode, voire une mme thmatique. Fung et McKeown (1997), par exemple, utilisent un corpus anglais/japonais compos darticles tirs du Wall Street Journal et du Nikkei Financial News (journaux traitant du domaine nancier) sur une mme priode. Rapp (1999) utilise lui aussi des articles tirs de grands journaux nationaux allemands et anglais sur une mme priode, mais sans cibler de domaine particulier. Les corpus comparables spcialiss : composs de documents manant dun domaine spcialis, souvent scientique, faisant appel un langage spcialis. Djean et Gaussier (2002) utilisent par exemple un corpus compos de documents mdicaux tirs de la base de donnes mdicales MEDLINE, ainsi que Chiao (2004), utilisant les bases CISMEF, CLINIWEB et OSHUMED.
1.4.3 Synthse
Au premier abord, les corpus parallles peuvent paratre plus adapts tout type de tche dextraction dinformations multilingues puisque lalignement de phrases y est facilit. De nombreuses bases de donnes textuelles ou des corpus de rfrences servent de base la cration de corpus parallles, par exemple le corpus Hansard, compos de dbats du parlement canadien publis dans les langues nationales, franais et anglais ; ou lEuropean Corpus Initiative (ECI), compos de textes parallles dans diffrentes langues europennes. Nanmoins, ce type de corpus comporte un certain nombre dinconvnients. Tout dabord, ces ressources sont limites, voire rares pour certaines langues peu rpandues, il est en effet plus facile de construire un corpus comparable dans un domaine donn quun corpus parallle de bonne qualit (Fung et Yee, 1998). De plus, la traduction est gnralement inuence par les ressources traduire. En effet, les tournures de phrases et le vocabulaire du texte traduit sont fortement lis au texte source. Cet cart faible entre texte source et texte cible nest pas trs dommageable pour les langues proches (langues romanes/anglais), mais peut ltre pour de nombreuses langues grande distance typologique et culturelle. Les corpus comparables permettent de plus de passer outre les restrictions de langues et autres contraintes imposes par les corpus parallles. Enn, ces corpus sont beaucoup plus reprsentatifs des particularits linguistiques de chaque langue. Revenons la gure 1.2. Il est possible de considrer laxe comme celui de la comparabilit. Ainsi, un corpus parallle serait un corpus forte comparabilit, tandis quun corpus non-li aurait une comparabilit minimale. Un continuum peut tre peru entre ces diffrents types de corpus. Cependant, nous
14
avons vu en dnissant la comparabilit que celle-ci sinstancie sur les caractristiques propres aux textes. Peut-on considrer quun corpus parallle portant sur une thmatique particulire par exemple a un degr de comparabilit plus lev que celui dun corpus comparable sur cette mme thmatique ? Si les textes dun corpus parallle ne sont pas considrs par paires, celui-ci peut alors tre utilis comme un corpus comparable. Mais est-il plus comparable quun corpus ne contenant aucune traduction ? Le fait est quun tel corpus provoquerait une certaine perte dinformations. En effet, un corpus comparable, sil ne contient aucune traduction, sera compos uniquement de textes originaux, ayant tous un contenu, un style et des informations propres, ce qui ne sera pas le cas dans un corpus parallle. Ce continuum peut exister si lon ne considre que le point de vue informatique et applicatif des corpus, mais ce nest plus le cas ds lors que lon largit le cadre. Nous considrerons donc que ces deux types de corpus sont bien distincts et quil ny a pas lieu dvaluer la comparabilit dun corpus parallle.
1.5
tel-00474405, version 1 - 20 Apr 2010
Exploitation des corpus multilingues
Les corpus multilingues sont utiliss dans de nombreux types de travaux. Nous allons dans cette section prsenter succinctement quelques travaux majeurs traitant de lexploitation des corpus. Ces travaux relvent de diffrentes disciplines, informatiques ou linguistiques principalement.
1.5.1 Aide la traduction et enseignement

Les dictionnaires et lexiques multilingues constituent des ressources insufsantes pour les traducteurs. Il leur est ncessaire dobserver la langue dans son usage et les corpus multilingues sont un bon moyen dy arriver. Any work of translation must [...] be not only linguistically correct but also appropriate to the frame of reference of the source, i.e. it must also achieve equivalence at the level of style, register, cultural and social context, etc. (Peters et al., 1996, p. 68). Les travaux de plus en plus nombreux en linguistique de corpus et les progrs effectus sur la cration et le traitement des corpus ont permis de dmocratiser ces ressources et ainsi de lier la communaut TAL celle des traducteurs (Zanettin, 2002). Laviosa (1998)12 en fait le constat : The corpus-based approach is evolving, through theorical elaboration and empirical realisation, into a coherent, composite and rich paradigm that addresses a variety of issues pertaining to theory, description and the practice of translation studies. Les travaux de traduction base sur corpus (corpus-based translation) se partagent en deux parties : lune thorique et lautre pratique. Les travaux thoriques se basent sur des corpus multilingues an dtudier le processus de traduction, cest--dire comment une ide est exprime dune langue une autre, ou encore tudier certains traits linguistiques et leur frquences. Par exemple, Xiao et McEnery (2002) utilisent un corpus parallle anglais-chinois an dobserver comment les expressions temporelles et aspectuelles anglaises sont exprimes en chinois. Certains travaux se basent sur des corpus comparables monolingues pour analyser le processus de traduction au sein dune langue : comparaison entre textes traduits et textes crits dans la langue, comparaison entre traductions faites par des professionnels et par des tudiants, etc. (Zanettin, 1998; Kbler, 2008; Culo et al., 2008).
12
Cite dans McEnery et Xiao (2007, p. 5).
15
Les utilisations pratiques des corpus multilingues dans le cadre de la traduction sont plus nombreuses. Ils reprsentent une base dentranement et dapprentissage pour la traduction, ainsi quune base de dveloppement dapplications telles que la traduction automatique ( machine translation ), et la traduction assiste par ordinateur ( computer-assisted translation ) (McEnery et Xiao, 2007, p. 9) : As corpora can be used to raise linguistic and cultural awareness in general, they provide a useful and effective workbench for translators and trainee . Bowker (1998) afrme que la traduction assiste par ordinateur permet dobtenir des textes traduits de meilleure qualit tant au niveau de la comprhension du sujet trait qu celui du choix des termes et expressions idiomatiques. Les corpus parallles sont trs utiles pour la traduction puisquils apportent des quivalents de traduction de mots ou dexpressions, par le biais des concordances dans le corpus. Sils contiennent plusieurs traductions pour un mme texte, ils sont alors encore plus riches et permettent par exemple danalyser la structure et les stratgies dune traduction. Les corpus parallles tant des ressources rares et prsentant leffet de translationese (inuence de la source sur la traduction produite), les corpus comparables sont aussi utiliss pour laide la traduction et pour lapprentissage des langues. Sharoff et al. (2006) prsente un outil faisant appel des corpus comparables an de trouver des quivalents aux expressions de la langue gnrale difciles traduire. Partant dune phrase ou dune expression dans la langue source, le systme identie dans un corpus comparable un ensemble dexpressions quivalentes utilises dans un mme contexte dans la langue cible. Ce systme ncessite bien entendu des corpus de taille consquente an dassurer la rsolution du plus grand nombre de problmes mais cela semble plus simple atteindre avec des corpus comparables. Zanettin (1998) fait quant lui appel aux corpus comparables an de former les traducteurs ou de favoriser lapprentissage dune langue de faon plus gnrale. Selon lui, les corpus comparables peuvent tre utiliss dans diffrentes tches : Aide la traduction : by looking for homographs [...], cognates and perceived equivalents, learners were able to evaluate the respective behaviour in the two languages of similar discourse units and to draw from a selection of citations in the target language suitable candidates [...], in adherence to the linguistic and genre convention of the receiving culture ; Apprentissage de domaines et de leur terminologie : ils permettent de parcourir diffrents domaines, spcialement les domaines de spcialit quelle que soit la langue, et den dcouvrir leurs terminologies ; Fouille textuelle : ils permettent enn danalyser des genres et thmatiques particulires (ce qui peut tre une tche pr- ou post-traduction), et dtudier leurs caractristiques linguistiques communes, leurs similarits. Dans le cadre de laide la traduction, McEnery et Xiao (2007) ajoutent que les corpus comparables sont principalement utiles dans les domaines de spcialit pour valider et viter les erreurs lors dune traduction vers la langue maternelle, et pour chercher des suggestions de traduction et conrmer les choix lors dune traduction depuis la langue maternelle.
tel-00474405, version 1 - 20 Apr 2010
1.5.2 Lexicographie et terminologie

Dans les corpus parallles peuvent tre alignes les phrases quivalentes dune langue lautre. Cette mthode permet dobtenir pour chaque phrase, expression ou terme dans une premire langue, un ou des quivalents de traduction dans la seconde langue. Ces squences alignes permettent aux lexicographes daccder lensemble des quivalents de traduction dune expression, ce qui peut tre utile pour des expressions particulires ou des collocations (Vronis, 2000).
16
tel-00474405, version 1 - 20 Apr 2010
De trs nombreux travaux portent sur lextraction de terminologies multilingues et la cration automatique de lexiques partir de corpus multilingues. Les premiers portent sur les corpus parallles, Catizone et al. (1989) furent parmi les premiers publier un article sur lextraction de lexique multilingue grce des mthodes statistiques et un dictionnaire lectronique, sur un corpus parallle anglaisallemand. lpoque, les lexiques extraits de corpus parallles portaient gnralement sur des termes simples, mais les recherches se sont vite penches sur des phnomnes plus complexes, tels que les collocations, expressions, phrases, etc. (Daille et al. (1994), Dagan et Church (1994) par exemple). Cest en 1995 que Fung et Rapp cherchent pallier le manque de ressources parallles en crant des mthodes permettant daligner des corpus non-parallles (corpus parallles bruits puis corpus comparables). Sen suivent alors un grand nombre de travaux portant dabord sur les termes simples, puis les termes composs, collocations, etc., notamment Chiao (2004), Djean et Gaussier (2002), Morin et Daille (2004). . . Les travaux de dsambiguisation du sens des mots (word sense disambiguation) utilisent aussi des corpus multilingues. En effet, en supposant que la plupart des ambiguts proviennent du niveau lexical, le recours un corpus de mme thmatique dans une autre langue peut permettre de lever lambigut (Brown et al., 1991).
1.5.3 Autres travaux

Les travaux en CLIR (Cross Language Information Retrieval) visent rechercher des documents dans une langue laide de requtes dans une autre langue. Les outils de CLIR sont trs utiliss an deffectuer des recherches multilingues sur le Web (Vronis, 2000). Ces travaux requirent des outils de traduction terminologiques et font donc appel aux corpus multilingues (Oard et Diekema, 1998). Certains utilisent les corpus an den extraire directement des lexiques bilingues utiliss ensuite pour traduire des requtes, tandis que dautres utilisent les corpus multilingues comme bases documentaires (une recherche dans une langue obtiendra comme rsultats les traductions des documents correspondants, pour des corpus parallles) (ibid.).
1.6
Synthse
Dans ce chapitre nous avons dni notre sujet dtude, les corpus comparables spcialiss, en les dcomposant. Dans un premier temps nous avons dni les corpus. En partant dune dnition trs gnrale couvrant plusieurs domaines nous avons donn une dnition des corpus sappliquant au domaine du TAL. Un corpus se caractrise par : une nature (des donnes langagires), une structure (la slection, mise en forme et documentation des donnes) et une nalit (tre reprsentatif dun phnomne langagier). Nous avons ensuite dni les corpus spcialiss. Nous avons compar trois thories permettant de circonscrire des domaines de spcialit lors de la cration de corpus spcialiss. Compte tenu des contraintes imposes lors de la construction de nos corpus (adaptation un traitement automatique et extraction des documents depuis le Web), la thorie la plus adapte notre travail est celle de Bowker et Pearson (2002), des LSP (language for special purpose). Un corpus spcialis est alors compos de documents relevant dune langue de spcialit. Celles-ci sont caractrises par une origine (un domaine particulier), une nature (varit de la langue gnrale) et une fonction (transmission dinformations). Cette thorie permet de construire des corpus spcialis malgr les inconvnients du Web (origine des documents souvent inconnue) puisquelle est moins restrictive que les thorie des sous-langages ou des communauts de discours. Nous avons enn pass en revue les diffrents types de corpus multilingues et leur exploitation. Cet tat de lart nous permet de faire un comparatif entre les deux types de corpus
17
multilingues les plus utiliss, les corpus parallles et les corpus comparables, ainsi que denvisager leurs diffrents usages. Les corpus comparables, auxquels nous nous intressons, sont des ensembles de textes dans plusieurs langues qui ne sont pas des traductions mais partagent un certain nombre de caractristiques. Le choix de ces caractristiques et la comparabilit des corpus tant des concepts un peu ous, nous nous y intressons dans le chapitre suivant.
tel-00474405, version 1 - 20 Apr 2010
tel-00474405, version 1 - 20 Apr 2010
C HAPITRE
Corpus comparables
2.1 Introduction
Nous avons prsent dans le chapitre prcdent lobjet de notre tude : les corpus comparables spcialiss. Nous en avons donn une dnition gnrale : ils sont composs de textes dans plusieurs langues partageant certaines caractristiques. Le choix de ces caractristiques dpend de lutilisation des corpus. Un tat de lart nous a permis de dgager des groupements rcurrents de caractristiques : pour les corpus comparables de langue gnrale, le choix se porte souvent vers le genre, la priode, la mdium, tandis que pour les corpus spcialiss, le choix se porte plus souvent sur le thme, le genre, le type de discours. . . Nous avons galement introduit la notion de comparabilit : dans quelle mesure les textes dun corpus sont-ils comparables ? La comparabilit dpend des caractristiques communes aux textes : plus ils ont de caractristiques communes, plus ils sont comparables. Cependant, le choix des caractristiques dpendant des objectifs applicatifs du corpus, la comparabilit en dpend-elle aussi ? Le but de ce travail est dexplorer la notion de comparabilit des corpus dans le cadre des langues de spcialit. Nous abordons dans un premier temps la notion de comparabilit, sa dnition ainsi que ses ambiguts. Nous prsentons dans un second temps les diffrents critres de comparabilit utiliss dans la littrature puis nous terminons sur la construction des corpus comparables et limpact de ces critres sur celle-ci. Enn, nous prsentons notre corpus dtude, sa construction et ses caractristiques.
tel-00474405, version 1 - 20 Apr 2010
2.2
La comparabilit des corpus
Nous nous basons ici sur la dnition des corpus comparables de Bowker et Pearson (2002, p. 93) prsente dans le chapitre prcdent : les corpus comparables sont des ensembles de textes en plusieurs langues qui ne sont pas des traductions mais partagent un certain nombre de caractristiques. Les caractristiques communes aux textes, ou critres de comparabilit, permettent de garantir une certaine homognit dans le corpus. Djean et Gaussier (2002) rassemble ceux-ci en deux catgories : les critres qualitatifs : critres utiliss en stylistique tels que le genre, lauteur, la priode, le mdium, etc. ; les critres quantitatifs : critres bass sur les mesures de frquence de certains traits linguistiques. La notion de comparabilit formalise grce des traits communs aux textes est oue. Le choix de ces traits communs dpend des objectifs xs lors de la construction. Des textes crits sur la mme priode et tirs dun mme type de mdia permettront, par exemple, de comparer la diversit des thmes abords selon la langue et la culture. Dans le cadre de lextraction automatique dinformations multilingues, des textes portant sur un mme thme et manant dun mme genre seront plus adapts. La restriction dun corpus permet en effet de garantir dans ses textes des structures syntaxiques et un lexique communs (Djean et Gaussier, 2002). 19
20
CHAPITRE 2 Corpus comparables
tel-00474405, version 1 - 20 Apr 2010
Dans le domaine de laide la traduction, Zanettin (1998) utilise diffrents corpus comparables an danalyser leur utilit dans le processus de traduction. Le premier, compos de documents dun mme genre (journalistique), sur un mme domaine (le sport), issus de journaux anglais et italiens datant de 1992 est utilis an dassister et de former des traducteurs. Le second, compos darticles mdicaux anglais et italiens traitant de lhpatite C, sert tudier la terminologie dun domaine. Le troisime permet danalyser comment un mme thme est trait selon les sources et les langues, il est compos de documents issus de journaux nationaux anglais et italien traitant de la France. Ces corpus sont relativement petits (moins dun million de mots). Lewis (2005) fait appel un corpus comparable de deux millions de mots contenant des discours politiques prononcs entre 1995 et 2002 en anglais, franais et irlandais, an de faire une analyse contrastive des connecteurs adversatifs. Morin et Daille (2004) utilisent, quant eux, un corpus comparable spcialis de cinq millions de mots franais et anglais tirs dune revue spcialise du domaine de la foresterie an den extraire des terminologies bilingues. Le choix de ces traits communs inue sur le degr de comparabilit des corpus, notion permettant de quantier la comparabilit des textes dun corpus. Cette donne reste thorique, puisquelle parat difcile calculer sans tenir compte des objectifs applicatifs du corpus. Il existe lheure actuelle peu de travaux abordant le calcul de ce degr. Si les caractres communs de corpus comparables peuvent tre si varis, comment calculer, mais aussi formaliser le degr de comparabilit de ces corpus ? Cest en comparant deux notions proches de la comparabilit que nous tentons de rpondre cette question.
2.2.1 Comparabilit et similarit

Kilgarriff (2001) introduit la notion de similarit entre corpus. Il cherche dterminer comment calculer la similarit (ou la distance) entre deux corpus. Cette notion parat tout dabord utile dans un cadre purement thorique, mais elle fait aussi rfrence diffrents problmes plus concrets. On peut par exemple se demander lors de la construction dun corpus sil nexiste pas dautres corpus disponibles et similaires ; un automate valide sur un corpus pourra tre valide sur un corpus similaire ; quel cot peut avoir lapplication dune mthode dun corpus manant dun domaine sur un corpus dun autre domaine... Cependant, la quantication dune telle mesure fait face de nombreuses difcults. En effet, juger de la similarit entre des lments complexes et multidimensionnels est une tche subjective, des lments peuvent tre similaires sous un certain angle, mais totalement opposs sous un autre. On peut alors assumer quil existe autant de mesures de similarits quil existe de contextes dtude. Il part cependant dans son tude de lhypothse quil existe une telle mesure, permettant dvaluer la similarit entre deux corpus. Celle-ci est intimement lie la notion dhomognit des deux corpus. Kilgarriff appelle homogne un corpus compos de documents du mme type, au sens de Biber (1989) : un type de texte correspondant un ensemble de textes au sein duquel certains traits linguistiques sont fortement corrls. Cette similarit tant principalement base sur des frquences de termes, elle ne peut tre applique au contexte multilingue. Mais la dmarche de Kilgarriff permettant dvaluer diffrentes mesures, peut tre intressante. Pour quantier une telle mesure, il faut disposer dun ensemble de corpus sur lequel les similarits sont connues (Known-similarity corpus). Il propose par exemple de construire N corpus composs de textes de type A ou B . Le corpus 1 est alors compos de 100 % de textes de type A, le corpus 2 de 90 % de textes de type A et 10 % de textes de type B , etc. Il est ainsi possible dvaluer les diffrentes mesures de similarit sur des corpus sur lesquels le rsultat attendu est connu. En adaptant cette mthode des mesures de similarit particulires, ainsi quune dnition de lhomognit adapte aux corpus comparables, il est possible dvaluer diffrentes mesures du degr de comparabilit.
21
2.2.2 Comparabilit et reprsentativit

Nous avons prsent dans le chapitre prcdent (section 1.2) la notion de reprsentativit dans un corpus. Rappelons que, selon Habert (2000), un corpus se caractrise par : la dnition de la population cible, lventail des distributions linguistiques au sein de cette population et le nombre de mots par texte et le nombre de textes par type. Construire un corpus reprsentatif consiste donc, dans un premier temps, dlimiter la population cible. En ralit, cela revient bien souvent dnir des classes dappartenance des documents (cf. chapitre 2 section 1.3). Ces classes peuvent tre dnies a priori, auquel cas elles correspondent des catgories dnies manuellement, comme le domaine, le thme, le genre. . . Ces classes peuvent aussi tre dtermines a posteriori, sur la base de caractristiques linguistiques pralablement observes dans un corpus. La classication qui en rsulte se base sur des corrlations de traits linguistiques entre les textes. Biber (1989) nomme ces classes types de textes, en opposition aux catgories dnies par des caractristiques externes aux textes. Ces types, pouvant ne correspondre aucune classication cohrente pour lhomme, garantissent cependant une homognit linguistique dans le corpus. Ces mthodes, permettant de garantir la reprsentativit au sein dun corpus, font cho la comparabilit des corpus. En effet, dans les deux cas, les textes sont minutieusement classs dans diffrentes catgories de faon homogniser le corpus. La nalit semble pourtant diffrente. Dans le cadre de la reprsentativit des corpus, le but est de crer un corpus reprsentatif dune population langagire, alors que dans le cadre de la comparabilit, le but est de garantir que les textes soient sufsamment comparables pour pouvoir exploiter le corpus. Un corpus comparable est-il reprsentatif ? Un corpus reprsentatif peut-il tre quali de comparable ? Il apparat dans un premier temps que ces deux notions ninterviennent pas au mme niveau. La question de la reprsentativit dun corpus intervient au moment de la dnition de ltude portant sur le corpus, lorsque la population langagire cible est identie. La comparabilit intervient au moment de la construction du corpus. Si la population langagire peut tre reprsente et est sufsamment restreinte et dlimite pour chaque langue, alors le corpus multilingue qui en rsulte pourra tre considr comme comparable. linverse, un corpus comparable dont les critres sont rigoureusement dnis peut tre reprsentatif.
tel-00474405, version 1 - 20 Apr 2010
2.2.3 Calcul de la comparabilit

Les quelques travaux sattelant la tche du calcul de la comparabilit au sein dun corpus le font dans le cadre de lextraction de lexiques multilingues. Djean et Gaussier (2002) proposent ainsi un critre minimal, permettant de dterminer si deux corpus peuvent tre qualis de comparables1 . Ce critre est le suivant : Deux corpus de langues l1 et l2 sont dits comparables sil existe une sous-partie non ngligeable du vocabulaire du corpus de langue l1 , respectivement l2 , dont la traduction se trouve dans le corpus de langue l2 , respectivement l1 . Djean et Gaussier (2002) se basent ici sur le rsultat de lexploitation de leurs corpus an de statuer sur leur comparabilit, ce qui devrait tre dtermin avant lexploitation. Cependant, cette dnition peut tre utilise an de dterminer la comparabilit dun corpus avant mme de lexploiter dans le cadre dextractions terminologiques multilingues.
1
Ce critre minimal servira de base an dafrmer quun corpus est utilisable dans le cadre de lextraction terminologique.
22
tel-00474405, version 1 - 20 Apr 2010
Saralegi et al. (2008) utilisent quant eux la notion de similarit an dvaluer la comparabilit dans un corpus comparable anglais - basque compos de documents de vulgarisation scientique destin lextraction de terminologies bilingues base sur la comparaison des contextes des mots. Selon eux, cette similarit sinstancie au niveau smantique et ils basent leur travail sur lhypothse suivante : plus les documents sont similaires, plus le contexte des mots doit ltre2 . La comparabilit dans leurs corpus correspond donc la quantit de contextes de mots similaires dune langue lautre, garantissant une certaine efcacit lors de lextraction de traductions. Ils considrent pour cela chaque document comme le vecteur contenant les mots les plus reprsentatifs. Pour cela, ils tiquettent et lemmatisent leurs documents et en extraient les termes les plus reprsentatifs : noms propres, entits nommes et termes composs principalement. En traduisant les termes de chaque vecteur laide dun dictionnaire, ils peuvent ainsi comparer des documents issus de deux corpus de langues diffrentes. laide de la mtrique cosinus, ils mesurent la distance entre chaque paire de textes de langues diffrentes (Saralegi et Alegra, 2007). Partant dun corpus C1 , compos de documents eui (i [0 . . . n]) en langue L1 et C2 , compos de documents enj (j [0 . . . m]) en langue L2 , ils crent une matrice des distances dij entre chaque couple bilingue de documents (eui , enj ) issus des corpus C1 et C2 : d11 . . . d1j . . . d1m . . . . . . . . . di1 . . . dij . . . dim . . . . . . . . . dn1 . . . dnj . . . dnm laide de cette matrice, ils calculent ensuite la similarit entre les deux corpus laide de la Earth Movers Distance (EMD). Cette mthode, uniquement base sur le lexique, est directement hrite de la notion de similarit de Kilgarriff. Elle permet de mesurer si les contextes des mots dun corpus dans une langue sont similaires ceux dun corpus dans une autre langue. Cette adaptation dune technique la base monolingue un environnement bilingue leur permet dvaluer lhomognit lexicale de deux corpus. Leur hypothse de dpart tant que si deux corpus sont comparables, les contextes des mots des textes de ces corpus le sont aussi, cette mthode peut tre considre comme une mesure de la comparabilit. Elle semble efcace sur un nombre limit de documents, mais les rsultats de son extension la mesure de la comparabilit au sein dun corpus sont moins bons. Le principe de cette mesure est proche de celle de Djean et Gaussier (2002) : les rsultats de lexploitation du corpus dans le cas de Djean et Gaussier (2002) (un vocabulaire commun), le traitement effectu sur le corpus dans le cas de Saralegi et al. (2008) (contexte des mots similaires). La comparabilit parat donc directement lie aux objectifs du corpus comme le conrment ces deux applications.
2.2.4 Bilan et dnition

Nous avons vu que la communaut utilisant les corpus comparables an den extraire des lexiques multilingues sest intresse la notion de comparabilit et en a propos des dnitions ainsi que des mthodes de calcul. Pascale Fung (Fung et Yee, 1998; Fung, 2000) utilise des corpus comparables an den extraire des lexiques multilingues. Elle caractrise la comparabilit selon diffrentes hypothses : Sur un mme thme, les mots ont des contextes comparables quelque soit la langue ;
2
The more similar the documents are, the more similar the context of words should be [...] .
23
Dans une priode ou un domaine communs, les mots sont utiliss selon la mme forme dusage ( usage pattern ). Le choix de ces critres communs est dict par les objectifs dexploitation du corpus xs au pralable. Les corpus comparables sont exploits dans de nombreux travaux des ns varies. Ainsi, le degr de comparabilit et les critres de comparabilit doivent dpendre de lobjectif applicatif du corpus. Plus nombreux sont les critres communs et plus comparables sont les textes du corpus. Il en va de mme pour la granularit de ces critres : plus ces derniers sont prcis et plus les textes sont comparables. Cependant, plus ils sont nombreux et prcis, plus il est difcile de rcolter de textes correspondants. Un compromis doit tre trouv entre la quantit, la prcision des critres et la taille du corpus. La comparabilit semble donc, dans certains cas, calculable, et dans dautres plus empirique. Dans le cadre de la traduction automatique, la comparabilit quivaut la garantie de trouver dans les textes bilingues (ou multilingues) du corpus le mme vocabulaire et des contextes similaires. Les corpus ntant exploits quautomatiquement, une tendance la construction de gros corpus peut tre observe, an de garantir cette couverture lexicale. De plus, cette comparabilit opratoire peut parfois restreindre les corpus comparables un sac de mots , privilgiant des correspondances au niveau lexical, au dtriment des textes, qui sont pourtant lunit minimale au sein dun corpus (Pry-Woodley, 1995). La comparabilit quivaut ainsi la garantie de la russite du traitement automatique du corpus. Elle ne se base donc pas rellement sur des critres linguistiques ou des classications pr-tablies, mais certaines combinaisons de critres peuvent toutefois approcher la comparabilit souhaite. La comparabilit dans ce cadre peut-tre assimile la notion de similarit lexicale comme le font Saralegi et al. (2008). Les linguistes, traducteurs et enseignants, faisant essentiellement une utilisation manuelle des corpus comparables, cherchent afner manuellement et empiriquement cette notion de comparabilit, en slectionnant et classant rigoureusement les documents. Lunit texte prend tout son sens dans ces travaux, et les diffrents critres de comparabilit portent donc essentiellement sur les textes composant les diffrents sous-corpus. La comparabilit quivaut alors plutt la reprsentativit des corpus, lobjectif tant de construire un corpus de grande qualit, pleinement reprsentatif de certaines communauts de discours, thmatiques, genres, etc. Des mesures, telles que la similarit multilingue de Saralegi et al. (2008) semblent donc adaptes dans un contexte dextraction automatique dinformations multilingues, mais peut paratre obsolte dans dautres cas. Pour conclure cette tude, rassemblons lensemble des lments collects permettant de dnir au mieux et de faon la plus gnrale possible les corpus comparables et la comparabilit : Un corpus comparable est un ensemble de textes dans plusieurs langues (deux ou plus) qui ne sont pas des traductions et partagent des caractristiques. Ces caractristiques peuvent tre : qualitatives : caractristiques extra-linguistiques (auteur, priode, thme. . . ) ou catgories pr-tablies (genre, type de discours. . . ) ; quantitatives : bases sur les mesures de frquences de certains traits linguistiques (ex. : types de textes de Biber). Le choix de ces critres dpend directement des objectifs applicatifs du corpus et des mthodes employes pour atteindre les objectifs. Les choix rcurrents de critres sont les suivants (Morin, 2007, p. 29, 30): Pour les corpus comparables spcialiss : domaine, thme, type de discours, genre, etc. ; Pour les corpus comparables gnraux : thme, mdium, priode, genre. . . Examinons maintenant les principaux critres de comparabilit utiliss dans la littrature.
tel-00474405, version 1 - 20 Apr 2010
24
2.3
Critres de comparabilit
Nous lavons vu dans la partie 2.2.2, la comparabilit est assez proche de la reprsentativit. En effet, elle repose sur une catgorisation des textes an de dlimiter les variations de textes au sein du corpus. Nous exposions dans le chapitre prcdent les diffrentes typologies de corpus recenses par Habert (2000). Ces diffrentes catgorisations sont aussi effectues sur les documents des corpus comparables, nous y voyons des critres de comparabilit. Nous listons dans cette section les critres de comparabilit les plus frquemment utiliss.
2.3.1 Domaine et Thmatique

Comme cest souvent le cas dans les travaux sur les corpus comparables, un premier niveau de comparabilit est assur grce un domaine, voire une thmatique commune. Rapp (1995) fut lun des premiers travailler sur lextraction de lexiques partir de corpus non-parallles. Sans pour autant utiliser le terme corpus comparable , les textes composant ses corpus portaient sur une thmatique commune. Rapp supposait en effet que la qualit des lexiques extraits dun corpus dpendait en grande partie de la comparabilit thmatique des textes le composant. De nombreux travaux sintressent la construction de lexiques et de terminologies multilingues grce aux corpus comparables spcialiss. Il existe peu de ressources pour les domaines spcialiss pourtant propices lapparition rgulire de nologismes (Fung et McKeown, 1997). Selon Harris (1991), les langues de spcialit par opposition aux langues gnrales, sont caractrises par un lexique et une syntaxe restreints. Ces particularits linguistiques permettent dattnuer les phnomnes polysmiques (Fung et McKeown, 1997) et problmatiques dans le cadre de lextraction dinformation multilingues.
tel-00474405, version 1 - 20 Apr 2010
2.3.2 Discours
Malrieu et Rastier (2002) donnent une reprsentation hirarchique des diffrents niveaux de classication textuelle (voir gure 2.1) dans laquelle le discours se trouve tre le niveau le plus gnral. Ducrot et Schaeffer (1999) dnissent le discours comme tout ensemble dnoncs dun nonciateur caractris par une unit globale de thme (topic) .
Figure 2.1 Niveaux de classication selon Malrieu et Rastier
25
Bowker et Pearson (2002) prsentent une notion similaire au discours : dans un corpus de langue de spcialit, diffrents niveaux communicationnels (communicative settings, (Bowker et Pearson, 2002, p. 36)) apparaissent : la communication dexpert expert, dexpert initi, dexpert non initi et de professeur lve. Dans des textes relevant de domaines spcialiss, deux niveaux communicationnels appels discours en rfrence Malrieu et Rastier (2002) apparaissent : le discours scientique, regroupant tous les crits dexperts ou dinitis destination dexperts ou dinitis ; le discours de vulgarisation scientique, dans lequel on trouve diffrents degrs de vulgarisation : les crits dexperts ou dinitis des non-initis, ainsi que les crits de non-initis non-initis, trs frquents maintenant sur le Web pour certaines thmatiques du domaine scientique et en particulier mdical. Cette catgorisation, moins dtaille que celle de Bowker, nous permet de conserver une certaine homognit dans le corpus, du point de vue lexical, mais aussi syntaxique.
tel-00474405, version 1 - 20 Apr 2010
2.3.3 Genres
Le terme genre est gnralement utilis pour classer diffrents types de textes littraires (roman, comdie, etc.). En vue des rcents dveloppements sur lanalyse du discours, les genres font maintenant rfrence des notions plus gnrales. Les travaux de traitement automatique du langage, et plus particulirement lanalyse des genres, sont lorigine de llargissement de cette notion, maintenant diffrente de celle utilise dans le champs littraire (Beauvisage, 2001). Selon Biber (1989), les genres sont des catgories de textes distingues spontanment par les locuteurs conrms (matures) dune langue ; par exemple, les genres de langlais incluent les romans, les articles de journaux, les ditoriaux, les articles de recherche. . . tablir une typologie des genres est une tche subjective, les avis divergent sur ce qui constitue un genre et sur les critres dappartenance ce genre (Finn et Kushmerick, 2005). Ainsi, selon ces derniers, le genre serait une classe de documents qui manent de ltude du style de langage et du texte utilis dans lensemble de ces documents, procurant aux utilisateurs des fonctions discriminatoires efcaces. Dans leur classication hirarchique, Malrieu et Rastier (2002) (gure 2.1) placent les genres en dessous des discours. partir de 1995, Biber utilise le terme registre pour cette notion de genre plus large. Ces notions oues posent des problmes dordre terminologique. Selon Pry-Woodley (2000), les frontires entre registre et genre sont invitablement oues et il serait vain de chercher en tablir une liste exhaustive . Le genre est un critre de comparabilit frquent. Dans les travaux sur la langue gnrale, ceux-ci sont souvent coupls une priode et un mdium, par exemple des articles journalistiques dans (Fung et McKeown, 1997). Dans les travaux sur les langues de spcialit, le genre est souvent associ au type de discours et au domaine, par exemple des articles de recherche dans (Djean et Gaussier, 2002). Un nombre restreint de genres apparat dans les corpus comparables puisque ce critre est souvent ml dautres critres. La notion de genres peut poser quelques problmes, parmi lesquels la limitation des ressources pour un genre donn, mais aussi lvolution incessante des genres sur le Web, illustre par lapparition rcente des blogs, des forums. . . Cependant, au sein dun mme genre, les textes peuvent partager un style particulier (terminologie, syntaxe. . . )3 . Par exemple, les articles scientiques adoptent gnralement une mme structure (rsum, bibliographie. . . ). Des textes partageant un mme genre ont gnralement une structure et un style propre.
3
Nous dtaillerons cette notion de style dans le chapitre suivant.
26
2.3.4 Autres critres

Les corpus comparables de langue gnrale contiennent, la plupart du temps, des textes tirs dune mme priode. Lorsque le corpus contient uniquement des articles journalistiques tirs dun domaine particulier (ex. : articles du Monde et du Times tirs de la rubrique conomique), il est important de dlimiter leur priode de parution, dune part pour ltrer une partie des articles et dautre part pour garantir leur comparabilit. En effet, sans dlimitation de la priode, les thmes peuvent tre trs diffrents sur plusieurs mois, et dautant plus sur plusieurs annes. Le style des auteurs change au cours des annes, le vocabulaire et la syntaxe peuvent tre diffrents. Morin et Daille (2004) traitent un corpus dont les documents sont tirs dun mme mdium : un magazine publi en plusieurs langues consacr aux forts et industrie forestire. Nanmoins, la comparabilit dans ce cas revient celle dun corpus ayant un un thme et un genre communs. De plus, les articles ne sont pas issus dune priode particulire. Selon Djean et Gaussier (2002), les critres peuvent tre dordre qualitatif (comme ceux exposs dans cette section) ou quantitatifs, cest--dire relatifs des frquences de traits linguistiques dans le corpus. Ces critres quantitatifs correspondent aux typologies inductives prsentes dans le chapitre prcdent. Nayant pas rencontr de travaux faisant appel ce type de critre, nous ne pouvons en discuter lefcacit. Cependant, nous pouvons supposer quils sont utiles dans le cadre de ltude contrastive multilingue de traits linguistiques par exemple. De plus, les travaux en classication automatique par genres, discours, etc., se basant sur des caractristiques externes et internes aux textes, nous laissent penser quune classe base sur les caractristiques propres aux textes peut tre pertinente et homogne.
tel-00474405, version 1 - 20 Apr 2010
2.4
Construction des corpus comparables
Nous nous intressons ici la construction des corpus, et plus particulirement des corpus comparables spcialiss. Nous considrons le document comme unit minimale dans les corpus. La constitution dun corpus peut se dcomposer en quatre phases essentielles : la dlimitation du cadre de ltude permettant de cibler la population langagire vise et les caractristiques textuelles correspondantes ; la slection et la collecte des donnes textuelles ; la normalisation et lannotation des donnes slectionnes, puis la documentation du corpus. Selon Biber (1993), avant de considrer la collecte des documents termine (et passer la phase de normalisation et annotation), lajustement des critres de slection des documents peut tre fait de faon cyclique (voir gure 2.2). Nous dtaillons dans les sections suivantes les quatre tapes de la construction dun corpus, en tentant de faire un rsum des diffrents travaux sur la construction des corpus tout en ciblant celle-ci sur les corpus comparables et spcialiss.
2.4.1 Dlimitation du cadre

2.4.1.1 Dnition de la population
La dlimitation du cadre de ltude est ltape essentielle de la construction dun corpus. Comme nous lavons vu dans la partie 1.3 du chapitre 1, pour pouvoir gnraliser des phnomnes langagiers observs sur un corpus un langage, celui-ci doit tre reprsentatif de ce langage. Une attention toute particulire doit tre porte la dnition de la population et de ses caractristiques. Dans notre cas, la construction dun corpus comparable spcialis, il est ncessaire de dnir la langue de spcialit. Les langues de spcialit se caractrisent par :
27
tel-00474405, version 1 - 20 Apr 2010
Figure 2.2 Processus cyclique dajustement du corpus de Biber une origine : une langue de spcialit appartient un domaine de spcialit ; une nature : une langue de spcialit est une varit de la langue gnrale ; une fonction : une langue de spcialit sert communiquer, transmettre des informations. Un domaine de spcialit doit donc tre slectionn. Il est important de vrier quil soit actif et que sufsamment de documents soient publis dans chaque langue du corpus. Biber (1993, p. 380-385)4 permet dajouter un niveau de restrictions supplmentaire. Ses paramtres situationnels permettent de restreindre le type de texte souhait : 1. Canal : crit / parl / crit lu ; 2. Format : publi / non publi ; 3. Cadre : institutionnel / autre cadre public / priv - interpersonnel ; 4. Destinataire : a. Pluralit : non compt / pluriel / individuel / soi-mme ; b. Prsence : prsent / absent ; c. Interaction : aucune / peu / beaucoup ; d. Connaissances partages : gnrales / spcialises / personnelles ; 5. Destinateur : a. Variation dmographique : sexe, ge, profession, etc. ; b. Statut : individu / institution dont lidentit est connue ; 6. Factualit : informatif-factuel / intermdiaire / imaginaire ; 7. Objectifs : persuader, amuser, dier, informer, expliquer, donner des consignes, raconter, dcrire, enregistrer, se rvler, amliorer les relations interpersonnelles, etc. ; 8. Thmes : . . .
4
Cit dans Habert et al. (1997, p. 152).
28
Utiliser et conserver ce type dinformation lors de la constitution dun corpus permet de garder un lien entre un objet danalyse purement linguistique (les textes du corpus) et les paramtres situationnels de chacun des composants du corpus (Habert et al., 1997, p. 153). Dans le cadre de la construction de corpus comparables, nous distinguons deux types de critres : les critres de constitution et les critres de comparabilit. Nous avons vu prcdemment (section 2.2.2) que ces deux notions nintervenaient pas au mme niveau mais pouvaient tre redondantes. La plupart5 des travaux portant sur les corpus comparables utilisent les critres de comparabilit an de construire le corpus. En effet, lorsque ces critres portent sur la thmatique, la priode ou les genres, ils conditionnent la recherche et la slection des documents. Cependant, des critres de comparabilit quantitatifs peuvent permettre de mesurer la comparabilit a posteriori.
2.4.1.2
Taille du corpus
Quelle est la taille idale dun corpus ? Cette question est souvent dbattue et les chiffres voluent au gr des progrs technologiques. Dans les annes 60, le Brown Corpus rassemblait 1 million de mots, ce qui tait norme lpoque (Williams, 1999, p. 29). Le corpus BNC, datant des annes 90, rassemble quant lui 100 millions de mots lheure actuelle et il existe de plus gros corpus. Cette course au gigantisme (ibid.) nest pas sans rappeler le penchant quHabert nommait gros, cest beau . Cependant, cette course na lieu dtre que dans les travaux sur la langue gnrale. Les travaux sur les langues spcialises se penchent maintenant de plus en plus sur des corpus de taille moindre dont les documents sont rigoureusement slectionns. Il faut tout de mme rester prudent sur la taille rduite, elle doit toujours tre adapte aux besoins de ltude et les textes doivent tre sufsamment nombreux et reprsentatifs pour pouvoir en tirer des gnralits. Selon Williams (1999), la taille gnralement accepte dun corpus spcialis sapproche des 500 000 mots. Bowker et Pearson (2002) estiment quil nexiste pas de taille idale pour un corpus, mais que celle-ci doit tre un compromis entre les besoins de ltude et le temps dispos pour la collecte. Un corpus spcialis peut avoir une taille restreinte car les langues de spcialit sont des sousensembles dune langue plus restreints que la langue gnrale. Elles considrent quun corpus spcialis peut aller dune dizaine de milliers de mots plusieurs centaines de milliers. Enn, un quilibre doit tre trouv entre longueur et largeur dans le corpus (Williams, 1999) : le nombre de mots est important, mais le nombre de textes lest aussi.
tel-00474405, version 1 - 20 Apr 2010
2.4.1.3
chantillonnage
Pry-Woodley (1995, p. 221) prsente trois critres de constitution dun corpus : (1) Cest dabord au niveau de lunit texte, unit fonctionnelle, que vont se faire les choix de constitution de corpus ; (2) Les textes devront comporter des indications permettant de les situer en termes de domaine et de registre ; (3) Pour que lunit texte puisse tre prise en compte dans lanalyse ou le traitement, le corpus doit tre constitu de textes entiers et non dextraits . Travaillant sur des domaines spcialiss, il est peu frquent de trouver des textes trs longs et il est gnralement plus pertinent de choisir des textes entiers. Biber (1993) sest pench sur les mthodes dchantillonnage dans un corpus : quelles catgories de documents choisir et dans quelles proportions ? Selon lui, la dnition de la population et des mthodes
5
Tous ne dtaillent malheureusement pas la construction des corpus.
29
dchantillonnage priment sur la taille du corpus. La mthode dchantillonnage choisie dpend des caractristiques non linguistiques des textes. Si le corpus doit contenir des textes appartenant diffrentes classes, il est important que le nombre de documents par classes soit homogne, et que le contenu mme de ces classes soit reprsentatif. Pour cela, Biber propose entre autres dutiliser la mthode de stratied sampling consistant slectionner de faon alatoire plusieurs chantillons ou textes par classe.
2.4.2 Slection et collecte des donnes textuelles

2.4.2.1 Slection des donnes
Une fois les caractristiques du corpus correctement dnies et les documents recherchs cibls, la recherche et la slection de ces documents peut commencer. Nous lavons vu dans le chapitre 1, les corpus construits de nos jours sont en grande majorit des corpus lectroniques, an de pouvoir leur appliquer des traitements informatiques. Bowker et Pearson (2002, p.61) listent deux principales ressources de textes lectroniques : 1. Les CD-ROMs et bases de donnes en ligne ; 2. Le Web. Les CD-ROMs et bases de donnes en ligne sont des collections de documents relevant dune institution ou dun organisme mettant disposition ses textes sous format lectronique. Le journal Le Monde met par exemple disposition ses archives sous la forme de CD-ROM. Lavantage de ces ressources rside dans la garantie de leur qualit. En effet, elles sont gnralement soumises des charges ditoriales lourdes et la qualit de leur contenu est able. Cependant, ces collections sont le plus souvent payantes (pour les raisons nonces prcdemment), ce qui explique en partie pourquoi nombre de chercheurs et utilisateurs de corpus se tournent vers le Web. Kilgarriff et Grefenstette (2003) sinterrogent sur le fait que le Web puisse tre considr comme un corpus. En effet, les linguistes et chercheurs en TAL sy penchent car il constitue une incontournable ressource langagire. En 2003, ils estimaient plusieurs centaines de milliards les documents sur le Web qui ont lavantage dtre disponibles instantanment et gratuitement. De plus, il contient des documents dans toutes les langues et leur quantit laisse supposer la grande diversit de thme, de genre, etc. Sans forcment le considrer comme un corpus, nous le considrons toutefois comme lune des ressources textuelle les plus importantes. Cependant, la profusion des donnes et labsence totale de contrle sur celles-ci oblige les constructeurs de corpus une grande vigilance et un soin particulier quant la slection des documents. Bowker et Pearson (2002, p. 61-62) prsentent deux outils de recherche de documents sur le Web : les moteurs de recherche et les classications thmatiques6 . Les moteurs de recherche sont des outils permettant de chercher des documents sur le Web grce des mots cls recherchs dans les textes et dans leurs mta informations. Lavantage de ce type doutil est quil cherche dans lintgralit des pages indexes par le moteur (plusieurs dizaines de milliards pour les moteurs les plus connus). La probabilit de trouver dans cette gigantesque collection des textes correspondant des critres trs prcis nest donc pas ngligeable. De plus, lindexation se faisant sur les termes des textes eux-mmes, la recherche peut donc tre trs prcise. Lun des inconvnients de ces moteurs de recherche est le temps ncessaire pour trier de telles quantits de donnes. De plus, lindexation tant faite automatiquement, les rsultats dune requte peuvent contenir des textes ne correspondant pas du tout la recherche effectue. Si les mots cls sont peu prcis, les rsultats peuvent traiter de thmatiques ou de
6
tel-00474405, version 1 - 20 Apr 2010
Subject directories dans le texte.
30
tel-00474405, version 1 - 20 Apr 2010
domaines diffrents. Les moteurs de recherche ncessitent des mots cls. Si les mots cls de dpart sont peu nombreux, il est possible de les tendre en utilisant : des dictionnaires de synonymes ; des mots smantiquement lis trouvs dans les pages visites. Les classications thmatiques sont des arborescences thmatiques cres manuellement dans lesquelles sont classes des documents. Lavantage de ces classications est laspect manuel, qui garantit la pertinence des pages classes. Cependant, les documents disponibles sont beaucoup moins nombreux et les arborescences souvent peu prcises (au regard des nombreux critres de slection dun corpus). Pour certains domaines de spcialit, il existe un troisime type doutils : les portails thmatiques, sites contenant des documents portant tous sur un domaine particulier. Habert et al. (2001) utilisent par exemple des portails mdicaux pour construire un corpus reprsentatif du domaine mdical. Quel que soit loutil utilis lors de la recherche, quelques prcautions doivent tre prises en plus des critres de slection des documents. Tout dabord, ne pas oublier que nimporte qui peut publier nimporte quoi sur le Web. Il est donc important de sassurer que les documents sont attests par une institution ou une organisation certiant sa qualit. De plus, certains textes peuvent tre rpartis sur de nombreuses pages ou sappuyer sur un grand nombre de documents multimdias, ce qui peut se rvler problmatique pour la construction dun corpus (nous perdons alors lunit document que nous avons x comme unit minimale).
2.4.2.2
Collecte des donnes
Considrer le Web comme la principale ressource textuelle est quelque peu erron. Les documents en ligne sont rarement des textes. Tous les formats de chiers sont y disponibles. Parmi ceux qui contiennent principalement du texte, le format HTML (HyperText Markup Language) est le plus frquent. Dautres formats de chiers contenant du texte sont assez courants, comme le format PDF, PS, Microsoft Word. . . Laspiration des documents peut se faire depuis la page Web, ou grce des logiciels daspiration , tel que wget. La structuration des chiers une fois aspirs ne doit pas tre nglige, il est important de conserver le plus dinformations possibles sur chacun de ces chiers (voir partie 2.4.3.2), de classer ceux-ci si ncessaire et de trouver un systme de nommage de chiers pertinent.
2.4.3 Normalisation, annotation des textes et documentation du corpus

2.4.3.1 Nettoyage et annotation
Une phase de nettoyage intervient aprs la collecte des documents. En effet, cette tape ne permet que de collecter un ensemble de chiers sous diffrents formats et encodages. Des outils de conversion permettent de convertir facilement certains formats en textes, notamment le HTML et le PDF, les plus frquents. Bien quefcaces, ces programmes laissent parfois passer des erreurs, notamment pour les chiers PDF, qui sont dues en gnral la mauvaise qualit des chiers source. Un nettoyage manuel peut tre envisag, bien que certaines erreurs peuvent tre ngliges si elles sont peu nombreuses. Il est ensuite important de sassurer que tous les chiers utilisent le mme encodage. Tout comme le format des chiers, tous les encodages se trouvent sur le Web. LAmerican Standard Code for Information Interchange (ASCII) est la norme de codage informatique la plus connue et la plus rpandue. Bon nombre de normes nationales sont des extensions de celle-ci, par exemple lISO 8859-1 ou Latin1 est une extension de lASCII auquel ont t ajouts les caractres accentus pour coder la majorit des langues occidentales dont le franais. Pour la langue japonaise, de nombreux encodages sont utiliss, parmi lesquels
31
tel-00474405, version 1 - 20 Apr 2010
EUC-JP, lISO 2022-JP. . . Deux projets visent crer une norme dencodage universelle : Unicode7 , dvelopp par le Consortium Unicode et ISO/CEI 106468 , dvelopp par lOrganisation Internationale de standardisation et la Commission lectrotechnique Internationale. Ces projets sont directement lis, les trois organisations ayant dcid dunir leurs efforts. Leur but est de donner aux caractres de tous les alphabets un nom et une identication numrique de manire unie. Ce code pourrait permettre de remplacer les normes nationales, posant des problmes lors de communications internationales (un mme code peut correspondre diffrents caractres dune langue lautre). Contrairement lASCII et la plupart des normes nationales dont les caractres sont cods sur 8 bits, les codages de lUnicode utilisent 16 32 bits pour chaque caractre. Il existe plusieurs formats Unicode : UTF-8, UTF-16 et UTF-32. UTF-8 est le plus commun, il est couramment utilis sur Unix et sur le Web. Le codage des caractres est de taille variable, ce qui est moins coteux en mmoire. De plus, il est compatible avec la manipulation de chanes en ASCII dans les langages de programmation ainsi qu la transmission de donnes dans des rseaux de systmes htrognes. Il est important, surtout pour des corpus multilingues, de bien choisir lencodage. LUTF8 est adapt tous les alphabets et permet de stocker nimporte quel corpus multilingue. Les outils iconv ou utrac permettent de convertir un chier dune langue lautre. Une fois le corpus nettoy et normalis, diffrentes oprations peuvent tre effectues sur celui-ci, an dy ajouter des informations. Selon sa nalit, plusieurs informations peuvent tre ncessaires : morphologiques, syntaxiques, smantiques, etc.
2.4.3.2
Normalisation et documentation
Sans une documentation jointe, un corpus est mort-n (Habert et al., 1997, p. 156). Des documents lectroniques sont maintenant instantanment disponibles et ce sans aucun cot. Cela peut conduire ngliger les conditions de production et de rception du document, en nenregistrant pas les rfrences. Le corpus nest pas rutilisable si ces informations ne sont pas conserves. Habert et al. (1997, p. 153) distinguent la reprsentation physique de la reprsentation logique des documents. La reprsentation physique correspond aux aspects visuels dun texte. Lentre dun dictionnaire par exemple fait appel des codes visuels quil est ncessaire de connatre pour la comprendre. La reprsentation logique correspond la structuration dun document. Un balisage logique permet dindiquer quelles sont ses subdivisions et leurs relations. Il seffectue en deux tapes (ibid.) : lidentication des diffrents lments structurant le texte, donnant lieu la dnition dune grammaire de texte , ou dnition de type de document (DTD) ; puis lintroduction de ces informations structurelles (balises) dans le document en respectant la DTD. La norme la plus utilise de nos jours est la norme TEI (Text Encoding Initiative). Elle a t cre en 1994 par un consortium compos de chercheurs de lAssociation for Computers and the Humanities (ACH)9 , lAssociation for Computational Linguistics (ACL)10 , et lAssociation for Literary and Linguistic Computing (ALLC)11 souhaitant proposer une norme avec sufsamment dlments pour pouvoir reprsenter tout type de texte et leur structure. Depuis 1994, les membres du consortium TEI tiennent jour la TEI DTD, maintenant utilise pour normaliser de nombreux corpus (le BNC par exemple).
http://www.unicode.org http://anubis.dkuug.dk/JTC1/SC2/WG2/ 9 http://www.ach.org/ 10 http://www.aclweb.org/ 11 http://www.allc.org/
8 7
32
Un corpus correctement document doit contenir, pour chaque document, la trace des sources utilises et les responsabilits ditoriales de sa constitution (ibid.) : les sources primaires utilises ; les rfrences bibliographiques prcises ; les objectifs viss par la constitution du corpus ; les rvisions qua subies le corpus au l de sa mise au point. Ces informations constituent lensemble minimal dinformations documentant un corpus. Elles sont utilises par la norme TEI, mais aussi le Dublin Core12 .
2.5
Corpus dtude
tel-00474405, version 1 - 20 Apr 2010
An deffectuer une premire tude sur les corpus comparables spcialiss et leur construction, nous avons cr un corpus dtude. Ce corpus donnera lieu par la suite diverses analyses linguistiques prsentes dans le chapitre 3. Ce corpus dtude est un corpus comparable en franais, russe et japonais13 . Nos corpus doivent rpondre diffrentes contraintes. Tout dabord, nous situons lunit minimale au sein de nos corpus au niveau du document. Ainsi, les critres de comparabilit des corpus dpendent des caractristiques des documents. Comme nous lavons vu dans la section 2.2.4, le degr de comparabilit maximal dun corpus spcialis peut tre atteint si les documents partagent un domaine, un thme et un type de discours. Dans cette partie, nous prsentons tape par tape la construction de ce corpus. La dlimitation du cadre permet de dterminer quel domaine de spcialit notre corpus reprsentera et lincidence de ce choix sur les critres de comparabilit. En fonction des choix effectus, les documents sont slectionns et collects. Nous choisissons alors la ressource dont sont extrait les documents, la mthode de recherche et lchantillonnage des documents. Nous prsentons ensuite la phase de nettoyage, dannotation et de documentation des documents et du corpus. Nous prsentons dans une dernire partie les caractristiques principales du corpus ainsi constitu.

Nous situons la comparabilit deux niveaux. Comme cest souvent le cas en recherche dinformation, nous assurons un premier niveau de comparabilit grce la thmatique commune partage par les documents en trois langues. Nous avons choisi le domaine mdical et, plus prcisment, la thmatique diabte et alimentation . Le choix du domaine mdical permet de garantir un certain nombre de ressources accessibles, grce aux portails mdicaux et la quantit importantes de publications et dinformations. La restriction la thmatique permet daugmenter la comparabilit au sein du corpus, grce un lexique et des particularits linguistiques propres. Toutefois, ce thme touche un large public et prsente une garantie potentielle de collecter une diversit de documents sur le Web. Diffrents niveaux de communication sont observables dans le corpus : communication dexpert expert, dexpert non-expert, de non-expert non-expert. . . Nous les rassemblons en deux types de discours : vulgaris (communications sadressant aux non-spcialistes du domaine) et scientique (communications sadressant aux spcialistes).
http://dublincore.org/ Ce corpus a t construit dans le cadre du projet DECO, programme TCAN-CNRS 2004-2006 en partenariat avec le NII et lINaLCO.
13 12
33
La taille du corpus est xe 200 000 mots par langue et par type de discours. Nous cherchons donc des documents issus du Web portant sur le thme diabte et alimentation , que nous classons dans les deux catgories scientique ou vulgaris. Comme nous construisons un corpus comparable, il est important de ne pas avoir de traduction dans le corpus, pour que les textes soient pleinement reprsentatifs des particularits linguistiques et culturelles de chaque langue.
2.5.2 Slection et collecte des donnes

Le corpus de cette tude est un corpus comparable dans les langues franaise, japonaise et russe. Les documents sont extraits du Web. La dmarche de constitution du corpus repose sur trois tapes principales : Recherche de pages web correspondant la thmatique vise ; Slection des pages pertinentes ; Classement de ces pages selon leur type de discours. Ainsi, lors de la premire tape de recherche des pages web, nous avons utilis trois approches : (1) Recherche sur le web laide de moteurs de recherche gnraux ; (2) Recherche interne sur des portails (mdicaux) en utilisant le cas chant les moteurs de recherche propres aux sites ; (3) Exploitation des liens entre les pages. Les deux premires approches ncessitent lutilisation de mots cls. An dobtenir un large spectre de documents, les requtes utilises sont formes avec des combinaisons varies de mots cls tels que alimentation, diabte et obsit tendus avec i) leurs synonymes relevs dans les dictionnaires, et ii) aux termes quivalents extraits des pages visites. Notons aussi que dans le cas dutilisation dun moteur de recherche spcique un portail, les mots cls sont galement spciques ce portail. Parmi ces documents, nous avons slectionn manuellement les documents pertinents pour la thmatique vise. Et enn, les pages slectionnes ont ensuite t classes selon le type de discours manant. Lors de la classication manuelle, nous utilisons les heuristiques suivantes : un document scientique est rdig par des spcialistes destination de spcialistes ; en ce qui concerne la vulgarisation scientique, nous distinguons deux degrs de vulgarisation : les textes crits par le grand public destination de tous, et les textes crits par des spcialistes destination du grand public . Nous ne distinguerons pas par la suite ces deux niveaux de vulgarisation mais avons cependant accord une plus grande place aux documents crits par des spcialistes au dtriment des discussions sur des forums par exemple. Ils savrent en effet tre plus riches en vocabulaire et plus complets en contenu. La classication manuelle est donc base sur ces heuristiques et elle est appuye par des lments supplmentaires : la nature du site contenant le document, le vocabulaire utilis dans le document, etc. Il faut noter cependant que la tche de classication manuelle reste assez empirique. Cela nous a conduit ne pas inclure certains documents ambigus dans les corpus dapprentissage : les documents dont le type de discours tait trs ambigu et ceux sur lesquels les avis des personnes construisant le corpus et classant les documents divergeaient. Nous navons collect que des documents HTML et PDF (les autres formats tant peu prsents, et pour certains impossibles manipuler). La collecte des documents sest faite en utilisant loutil wget.
tel-00474405, version 1 - 20 Apr 2010
2.5.3 Normalisation et annotations

An de pouvoir mener bien diverses analyses linguistiques, nous avons choisi dappliquer sur notre corpus un analyseur morpho-syntaxique (en utilisant le systme Brill), puis une lemmatisation (en utilisant Flemm).
34
2.5.4 Documentation
Des informations sur les chiers sont inclues dans une version du texte au format XML suivant la norme TEI. Les informations gnrales sur les documents sont indiques dans la partie header du chier, dlimite par la balise <teiHeader> (TEI Consortium, 2007). Pour chacun des textes slectionns, nous conservons : la source du texte : son URL (champ fileDesc dans la TEI) ; la mthode de recherche utilise : moteur de recherche et mots cls par exemple (champ fileDesc dans la TEI) ; la date de tlchargement du document (champ profileDesc dans la TEI) ; la langue du document (champ profileDesc dans la TEI).
2.5.5 Caractristiques du corpus

tel-00474405, version 1 - 20 Apr 2010
Le tableau B.1 prsente les principales caractristiques du corpus ainsi constitu : le nombre de documents et le nombre de mots dans chacune des langues et pour chaque type de discours (SC = scientique, VU = vulgaris). Franais SC VU 65 183 425 800 267 900 2 668 783 2 845 114 SC 119 Japonais VU 419 1 154 773 Russe SC VU 45 150 318 596 175126 2298306 2 165 768
Nb. documents Nb. mots Nb. caractres
493 587
Table 2.1 Caractristiques du corpus Ce corpus rassemble ainsi plus de 1 500 000 mots dans trois langues. Les chiffres donns pour la langue japonaise correspondent au nombre de caractres, le nombre de mots tant difcilement estimable. Lensemble de nos documents utilise plus de 3 alphabets et un grand nombre dencodages diffrents. Cest pourquoi les textes ont tous t transcods en Unicode UTF-8, seul codage permettant de traiter les alphabets latin et cyrillique, ainsi que les caractres kanjis japonais. Les documents du corpus appartiennent diffrents formats (HTML et PDF). Toutes les pages ont t conserves dans leur format original, mais aussi converties en texte brut. Les genres du Web (Bretan et al., 1998) ne sont pas tous reprsents dans le corpus franais, dans lequel on trouve en majorit des rapports et articles (de presse ou scientiques), contrairement au corpus japonais dans lequel on trouve davantage de diversit (allant du rapport scientique loffre demploi). Le corpus russe montre galement une variabilit de genres (articles, ouvrages, recettes de cuisine, guides de bonne pratique, discussions sur des forums spcialiss. . . ).
2.6
Conclusion
Dans ce chapitre nous avons prsent une analyse de la notion de comparabilit. Celle-ci permet de mesurer dans quelle mesure deux corpus peuvent tre qualis de comparables. Peu tudie, cette notion a une grande importance. En effet, la comparabilit permet de garantir la russite de lexploitation du corpus. En tudiant les quelques propositions de mesure de la comparabilit et en la comparant des notions similaires, la similarit de Kilgarriff et la reprsentativit, nous avons pu donner une description
35
tel-00474405, version 1 - 20 Apr 2010
plus prcise. Il apparat alors que la comparabilit est fortement lie aux objectifs applicatifs du corpus : un corpus comparable utilis pour lextraction de traductions ne sera pas forcment adapt une tude linguistique inter-langues. Elle dpend alors des critres de comparabilit, caractristiques communes aux documents dun corpus. Nous avons propos dans ce chapitre une tude des diffrents critres existants et proposons une mthode de construction de corpus comparables spcialiss avec pour caractristiques communes un domaine, un thme et un type de discours. Cette mthode est ensuite applique an de construire un premier corpus dtude portant sur le thme du diabte et de lalimentation. Lobjectif de ce travail est de proposer ensuite un systme daide la construction de corpus comparables, bas sur les diffrentes tapes prsentes dans ce chapitre. Nous considrons dans les chapitres suivants la premire partie de la construction : la slection des documents. Nos documents doivent partager trois caractristiques : un domaine, un thme et un type de discours. Ce sont ces critres de comparabilit qui permettront de les slectionner. Lorsquils sont extraits du Web ou de portails spcialiss, leur domaine et leur thme peuvent tre ltrs grce aux mots-cls utiliss lors de la recherche. La reconnaissance du type de discours ncessite quant elle de crer un systme de reconnaissance automatique. Pour cela, nous prsentons dans le chapitre 3 une analyse stylistique du corpus dtude nous permettant de crer une typologie des types de discours scientiques et vulgariss en franais et japonais contenant des critres caractrisant lappartenance dun document lune de ces classes. Cette typologie sera ensuite utilise an de crer un systme de reconnaissance automatique du type de discours.
tel-00474405, version 1 - 20 Apr 2010
C HAPITRE
Analyse stylistique et typologies multilingues

3.1
tel-00474405, version 1 - 20 Apr 2010
Introduction
Dans le chapitre prcdent nous prsentions une analyse de la comparabilit ainsi quun mode opratoire pour la construction de corpus comparables spcialiss. Notre choix de caractristiques communes sest port sur un domaine, un thme et un type de discours. Ces caractristiques permettent de garantir une comparabilit leve dans nos corpus. Le corpus dtude construit porte sur le domaine mdical, la thmatique est celle du diabte et de lalimentation et les documents sont rpartis en deux classes : les documents scientiques et les documents vulgariss. An dautomatiser une partie du processus de constitution dun corpus comparable spcialis, le type de discours dun document doit tre reconnu automatiquement. Pour cela, nous devons trouver un ensemble pertinent de caractristiques permettant de distinguer ces deux classes. Elles pourront par la suite tre utilises an dapprendre un systme de classication automatique. Lobjectif dune analyse stylistique sur corpus est de faire merger un ensemble de critres relevant du style dans un document. Cette mthode est par exemple utilise an de trouver des critres discriminants entre deux classes. Un tat de lart des diffrents travaux adoptant cette mthode nous permet denvisager son adaptation notre travail : des documents extraits du Web, un contexte multilingue, deux classes. . . (section 3.2) Lanalyse stylistique nous permet donc de faire merger des documents une typologie compose de critres discriminants (section 3.3). En les analysant selon diffrents niveaux (section 3.4), nous avons rassembl des critres en une typologie bilingue, gnrique et robuste (section 3.5).
3.2
Analyse Stylistique
Nous prsentons dans cette section un tat de lart sur lanalyse stylistique. Dans un premier temps nous dcrivons le principe gnral et la nalit de cette mthode. Nous dcrivons ensuite lun des travaux fondateur de cette mthode. Les diffrentes dmarches pouvant tre adoptes lors dune analyse stylistique sont ensuite dtailles. Nous terminons cette section par une synthse dans laquelle nous tudions ladaptation de cette mthode notre cas.
3.2.1 Dnition
Avant de dnir la notion danalyse stylistique, tchons de prciser ce quest le style. Au sens littraire, le style correspond lensemble des moyens dexpression (vocabulaire, images, tournures de 37
38
CHAPITRE 3 Analyse stylistique et typologies multilingues
phrases, rythme) qui traduisent de faon originale les penses, les sentiments, toute la personnalit dun auteur (TLFI). Le style rassemble ainsi lensemble des lments du texte caractrisant son auteur. La stylistique vise tudier lensemble des modes de composition et procds littraires utiliss dans un texte par son auteur (TLFI), cest--dire analyser dans un texte lensemble des lments traduisant la prsence de lauteur. Bally (1952, p.59) introduit la stylistique en ces termes : La tche de la stylistique consiste rechercher quels sont les types expressifs qui, dans une priode donne, servent rendre les mouvements de la pense et du sentiment des sujets parlants, et tudier les effets produits spontanment chez les sujets entendants par lemploi de ces types. La premire partie de cette dnition reprend celle expose prcdemment : la stylistique consiste analyser les lments caractrisant lauteur, sa personnalit et ses sentiments dans un texte. Cependant, la deuxime partie ajoute une nouvelle dimension cette discipline : ltude de limpact du style dun auteur chez son lecteur. Le style est tudi dans diffrentes disciplines, telles que la linguistique et la littrature, en vue danalyser un texte sous diffrents angles. Il se manifeste diffrents niveaux dans un texte : syntaxique, lexical, smantique, etc. linitiative de Biber (1989), de nombreuses tudes statistiques sur les textes se sont bases sur des reprsentations regroupant diffrents niveaux danalyse. Les travaux de Karlgren (1999) et Argamon et al. (2007) ont tabli de ces tudes statistiques un lien entre linformatique et la stylistique. Karlgren (1999) dnit le style comme la variation entre les diffrentes faons dexprimer une mme ide. Un auteur se trouve toujours face plusieurs choix lors de la rdaction dun texte : le choix des termes, des structures syntaxiques, du public vis, etc. Ils sont faits selon des prfrences personnelles, mais aussi en fonction des lecteurs viss, et des textes similaires, cest--dire vhiculant la mme ide. Dans un certain sens, le style est un moyen dorienter le lecteur dans sa comprhension du sens du texte. Karlgren (1999, p. 1) dnit alors la stylistique comme : the variation in a text that is not primarily topical 1 , that has not to do with meaning 2 . An de mieux comprendre cette dnition, il parat important de prciser ce que sont les variations de thme et de sens dans un texte. Selon Ducrot et Schaeffer (1999, p. 345), le thme (. . . ) dun acte dnonciation, cest ce dont parle le locuteur, cest lobjet du discours, ou comme disaient les linguistes du dbut du sicle, le sujet psychologique, le propos . Meaning peut se traduire en franais par signication ou sens. La diffrence entre ces deux termes tant dbattue, nous nous sommes bass sur les dnitions de Rossignol (2005, p. 196, 197) : Signication : contenu dune unit linguistique, dni en faisant abstraction des contextes et des situations ; Rfrence : tre ou tat de choses du monde rel que veut voquer un mot ou un syntagme ; Sens : le sens doit tre distingu, dune part, de la rfrence, car il est dni au sein du systme de la langue, sans rfrence au monde rel , et dautre part de la signication, qui est dnie pour un mot de manire statique et absolue tandis que son sens ne prend corps quen contexte, cest--dire par lusage. Selon Rastier (1989), la signication ne serait quun artefact des linguistes. Si la langue se dnit selon des textes, un mot peut avoir un sens diffrent dans chaque contexte dusage. Pourtant, les dictionnaires
1 2
tel-00474405, version 1 - 20 Apr 2010
thmatique ou sujet sens ou signication
39
et lexiques recensent un sens standard pour chaque mot. Cest celui-ci que Rossignol (2005) appelle signication. Le sens dun mot, quant lui, ne se dnit que par rapport un contexte dnonciation. La traduction du mot meaning, utilis par Biber pour un texte, semble donc correspondre plutt au sens, cest--dire la signication absolue dun texte, indpendante du contexte paraissant impossible dcrire. Argamon et al. (2007) distinguent dans un texte le quoi (ou thme) du comment (style). Selon eux, le style de lauteur inue sur : Les motions exprimes dans le texte ; Le genre du texte ; Le type de discours du texte ; La personnalit de lauteur. Lensemble de ces caractristiques, trs htrogne, a toutefois un point commun : elles sont indpendantes du thme du texte. Elles peuvent se caractriser par des variations de surface dans les textes. Le style dun auteur est marqu par des caractristiques indiquant son choix vers un mode dexpression parmi un ensemble de modes pour un contenu donn. Lauteur choisit donc certains mots, une certaine syntaxe, des stratgies de discours, etc. (ibid.). Karlgren (1999, p. 1) afrme que la stylistique consiste analyser les variations entre deux textes, indpendamment de leur thme et de leur sens. Cependant, comme il le remarque, la dmarcation entre les variations thmatiques et les variations stylistiques nest pas nette. Certains thmes sont intrinsquement lis un style particulier, par exemple les textes de lois qui sont toujours crits dans un jargon juridique. De plus, le sens et le style semblent aussi tre lis. Comment savoir si le sens quun auteur veut donner son texte ninuence pas le style prsent dans ce texte ? linverse, le style dun texte a t-il un impact sur son sens ? Thoriquement, lanalyse des variations stylistiques devrait tre indpendante du thme et du sens ; mais en pratique ce nest pas le cas. Dans le cadre de lanalyse stylistique automatique, ce problme nest pas forcment gnant. En effet, ces liens entre le style, le thme et le sens peuvent tre enrichissants. Des variations thmatiques peuvent tre un complment aux variations stylistiques an de caractriser un phnomne linguistique. La thmatique dun texte peut tre un indice lors de la dtermination de son genre. Un texte portant sur larchitecture logicielle fera plus probablement partie des genres article de recherche ou rapport technique que roman ou recette de cuisine. Lanalyse stylistique est donc une discipline visant caractriser les variations stylistiques entre plusieurs textes, an den dgager des caractristiques mesurables ( stylistic items ).
tel-00474405, version 1 - 20 Apr 2010
3.2.2 Objectif et dmarche de cette analyse

Lanalyse stylistique consiste dterminer quels sont les facteurs et les caractristiques des variations de style observables entre des textes. Dune grande quantit de donnes textuelles doit merger un ensemble dlments caractristiques dun phnomne stylistique. Ces lments stylistiques (stylistic items, Karlgren (1999)), appels aussi critres, sont bass sur la structure des textes et leurs caractristiques linguistiques. Ils sont rassembls et organiss de faon former une typologie, cest--dire une classication et une description des textes sappuyant sur leurs caractristiques internes. Si lanalyse stylistique est effectue dans le but dautomatiser la reconnaissance de phnomnes linguistiques, ces critres doivent tre des quantits mesurables. On les appelle alors critres opratoires. Leur slection se fait au dtriment de critres reprsentant des notions subjectives ou non-opratoires. Nous appelons non-opratoires les critres subjectifs, comme lexpression de lironie dans un texte, ou non-calculables, comme la prsence ou labsence dune introduction dans un texte.
40
Une analyse stylistique se base sur un ensemble de textes ou sur un corpus, avec pour objectif la caractrisation dune ou plusieurs classes (correspondant alors des catgories pr-tablies ou des phnomnes linguistiques). Dans le cas o les textes ne sont pas classs, elle permet de gnrer des classes de similarits, cest la dmarche inductive. Dans le cas o les documents sont classs, on parle de dmarche dductive (Habert, 2000). Biber fut lun des pionniers de la discipline, nous prsentons dans un premier temps ses travaux, puis abordons chacune des dmarches inductives et dductives.
3.2.3 Les travaux de Biber

Biber prsente en 1988 une analyse multidimensionnelle de la langue anglaise, se basant sur des textes oraux et crits issus de 23 genres (cf. table 3.1). An de caractriser ces genres, et plus gnralement les textes crits et oraux de langlais, Biber cherche tablir une liste la plus complte possible3 de critres linguistiques. La typologie ainsi forme comporte 67 critres linguistiques organiss en 16 catgories, telles que les adverbes de temps et de lieu, les formes passives, les modaux. . . (voir la partie 3.4.1 pour les dtails). Genres de lcrit Reportage de presse ditoriaux Revues de presse Religion Comptences et hobbies Textes traditionnels populaires Biographies Documents ofciels Prose acadmique Fiction gnrale Fiction policire Science ction Fiction daventure Fiction romantique Humour Lettres personnelles Lettres professionnelles Genres de loral Conversation en face--face Conversations tlphoniques Conversations publiques, dbats et interviews missions Discours spontans Discours prpars
tel-00474405, version 1 - 20 Apr 2010
Table 3.1 Genres prsents dans ltude de Biber Cette typologie, volontairement gnraliste, contient un panel de critres couvrant diffrents niveaux danalyse linguistique dont les variations peuvent caractriser les diffrents aspects dun texte ou dune classe de texte. partir de ces critres, Biber souhaite dterminer un ensemble de dimensions. Les textes sont valus selon certains paramtres, pouvant souvent tre considrs comme des continuums (ex. : formel / informel). Une dimension correspond un groupement de critres qui co-occurrent haute frquence dans le corpus. Six dimensions sont identies dans le corpus de Biber : Informational vs involved production ;
3 Liste la plus complte possible mais non exhaustive, il semble difcile de dresser une liste exhaustive de tous les critres linguistiques dun texte.
41
Narrative vs non-narrative concern ; Explicit vs situation dependant reference ; Overt expression of persuasion ; Abstract - non abstract information ; On-line information elaboration. Cest ensuite selon les variations des textes dans ces diffrentes dimensions que Biber caractrise langlais crit ou oral, mais aussi les diffrents genres prsents dans le corpus. Cette typologie est ensuite utilise dans le cadre dune tude sur les types de textes (Biber, 1989). Biber distingue les genres, catgorisations seffectuant partir de critres externes, des types de textes, dnis partir des caractristiques linguistiques des textes. En effet, alors que les genres ne sont pas des classes homognes en termes linguistiques (un texte du genre science ction peut tre dun type abstrait, ou dun type technique), les types peuvent tre pleinement dnis par un ensemble de caractristiques linguistiques. En adoptant une dmarche inductive, il sattelle faire merger au sein dun corpus des traits discriminants permettant didentier diffrents types de textes. Son hypothse est que les traits permettant didentier des groupements de textes doivent venir des textes eux-mmes. Ainsi, les textes doivent tre le matriau des travaux dingnierie linguistique, lobjet, la source dobservation et non le moyen de vrier des hypothses (Beauvisage, 2001, p. 5). Il utilise ensuite la statistique multidimensionnelle an de faire merger des oppositions/associations de traits permettant ainsi dopposer/rapprocher certains textes sous la forme de classes. Les textes, reprsents dans un espace n dimensions (n tant le nombre de critres utiliss) se trouvent entours de textes similaires. De multiples regroupements de ce type apparaissent dans lespace. De cette analyse mergent huit types de textes : linteraction intime personnelle ; linteraction informationnelle ; lexpos scientique ; lexpos savant ; la ction narrative ; le rcit ; le reportage situ ; largumentation implique. De nombreux travaux se sont inspirs de ceux de Biber, en adoptant une dmarche inductive (Bretan et al., 1998; Folch et al., 2000) ou dductive (Malrieu et Rastier, 2002; Vinot et al., 2003). Ce sont notamment sa dmarche et ses mthodes qui sont utilises, ainsi que sa typologie et ses dimensions dans les travaux que nous prsentons dans les sections suivantes.
tel-00474405, version 1 - 20 Apr 2010
3.2.4 La dmarche inductive

Se basant sur un corpus compos de documents non classs, la dmarche inductive consiste les analyser selon certains traits. Ces traits dpendent des objectifs xs, cest--dire des objectifs de lanalyse, de la nature souhaite des classes qui en sont dduites. Lensemble des traits jugs signicatifs dans cette analyse forment alors une typologie inductive. Celle-ci fait apparatre des corrlations entre documents permettant de dterminer des classes de similarit au sein du corpus. Cette dmarche peut permettre de conrmer une typologie existante. On peut parler ici de cadre non-supervis (voir schma 3.1). Folch et al. (2000) sattellent au problme dhtrognit dans les corpus. En effet, il est maintenant possible, grce internet par exemple, de collecter de grandes quantits de donnes textuelles an de constituer des corpus. Cependant, ces donnes, pour certains traitements, se doivent dtre homognes
42
tel-00474405, version 1 - 20 Apr 2010
Figure 3.1 Dmarche inductive (notamment du point de vue lexical, syntaxique, morphologique. . . ). Ils proposent donc des mthodes et outils de prolage de textes, permettant de calibrer diffrentes parties dun corpus, selon des caractristiques linguistiques propres chaque texte : vocabulaire, catgories morpho-syntaxiques, etc. Leur projet porte sur trois axes : lanalyse stylistique des textes ; le dveloppement dune architecture de travail sur corpus (comprenant tiqueteurs et outils dextraction4 ) ; le dveloppement dun ensemble doutils danalyse statistique multidimensionnelle. Cest au premier axe que nous nous intressons ici. Lobjectif de Folch et al. (2000) tant dadapter la dmarche de Biber au franais an dobtenir des parties de corpus homognes. Aux 67 critres dgags par Biber et adapts au franais sajoutent des critres inspirs des travaux en analyse du discours de Sueur (1982), ainsi que ceux de Bronckart et al. (1985). Ils collectent ainsi environ 200 critres linguistiques appliqus la langue franaise, appartenant aux catgories suivantes : Caractres : ponctuation, lettres capitales, chiffres, etc. ; Critres lexicaux : ensembles ferms de mots fonctionnels ;
4
extractor dans le texte
43
Catgories linguistiques ne granularit : critres issus de (Sueur, 1982; Bronckart et al., 1985) ; Structure textuelle : titre, prsence dimages, tableaux. . . Ces 200 critres, auxquels ils appliquent la statistique multidimensionnelle, permettent dobserver quelles parties dun corpus sont les plus homognes, celles qui partagent le plus grand nombre de caractristiques linguistiques et structurelles communes. Ces types de textes, tout comme les groupements homognes, relvent dune analyse linguistique, ils correspondent des corrlations de critres linguistiques dans des textes. Les genres ou les types de discours sont au contraire des catgories existantes, socio-culturelles. Ces catgorisations sont bases sur les besoins humains, et sont souvent apprhendes de faon intuitive. On peut alors se demander si une dmarche inductive, cest--dire qui ne se base pas sur un classement des textes, peut permettre daboutir des classications pr-tablies telles que la classication en genres.
3.2.5 La dmarche dductive

tel-00474405, version 1 - 20 Apr 2010
Se basant sur un corpus dont les documents sont classs (manuellement), lobjectif de la dmarche dductive est de crer une typologie des textes du corpus permettant de caractriser leur appartenance une des classes du corpus. Cette typologie, appele typologie dductive est le fruit dune analyse des lments des diffrentes classes, couple une analyse stylistique/linguistique de ses lments. Cette dmarche peut tre assimile au cadre supervis, o les classes vises sont connues lavance (voir schma 3.2).
Figure 3.2 Dmarche dductive Quelle que soit la dmarche adopte, deux mthodes permettent danalyser les documents : la mthode contrastive, dans laquelle les documents de diffrentes classes sont compars, an de dtecter quels lments caractrisent leurs diffrences ; la mthode unitaire, dans laquelle chaque classe est analyse individuellement (par ses documents), an den dgager des caractristiques.
44
Il existe de nombreux travaux, particulirement en classication textuelle, adoptant la dmarche dductive, mais seuls quelques uns prsentent de faon dtaille la dmarche et les fruits de leurs analyses stylistiques. Les premiers travaux auxquels nous nous intressons portent sur la classication de textes en genres. En effet, la notion de genre est assez difcile dnir, mais aussi caractriser, cest pourquoi elle est trs tudie. Malrieu et Rastier (2002) se sont intresss la caractrisation automatique des genres laide de critres morphosyntaxiques et la spcication des fonctionnements propres aux genres . Cest en effectuant une analyse des variations morphosyntaxiques sur un corpus reprsentant une varit de genres que ceux-ci sont caractriss. Leur corpus comprend plus de 2 500 ouvrages, soit 164 millions de mots, rpartis sur 4 discours (scientique, juridique, essayiste, littraire), chacun dentre eux tant ensuite divis en champs gnriques puis en genres. Lanalyse de ce corpus les amne alors distinguer 3 types de critres : Variables bibliographiques : titre de louvrage, nom dauteur, date de la premire publication ; Variables quantitatives : la taille en Ko, des chiffres absolus concernant quelques grandes catgories morphosyntaxiques, le pourcentage de chaque catgorie par rapport la catgorie superordonne ; Pour chaque catgorie morphosyntaxique : moyennes par ouvrage ; moyennes par taille ; valeurs minimale et maximale de chaque variable par discours, champ gnrique et genre. Une partie de ces critres est commune ceux de Biber, comme le temps des verbes, les pronoms. . . Une fois ces valeurs attribues chaque texte, diffrentes expriences sont menes an de caractriser les genres, mais aussi pour voir linuence de ces critres sur les discours et les champs gnriques : lapproche univarie (permettant de mesurer les distances relatives entre textes du mme genre, du mme discours ou du mme champs gnrique), lapproche multivarie (recherche densemble de critres apportant la plus grande variance entre les textes) et certaines techniques de classication. Karlgren et Cutting (1994) se sont eux aussi intresss aux genres, en essayant de crer un systme de classication automatique. Leur objectif est de trouver un nombre minimal de critres permettant de classer correctement les documents en genres. Pour cela, ils se basent sur la liste de critres de Biber (1989), dont ils ne conservent que ceux qui sont fortement opratoires. laide de ces derniers, ils effectuent une analyse discriminante : partant dun ensemble de textes pr-classs et de leurs variations sur un certain nombre de critres, ils crent un ensemble de fonctions discriminantes permettant de distinguer les classes. De nombreux autres travaux portent sur ltude des genres, notamment ceux de Marina Santini (Santini et al., 2006; Santini, 2007) et Beauvisage (2001). Nous ne les dtaillerons pas ici, la dmarche tant sensiblement similaire aux travaux prsents ci-dessus. Vinot et al. (2003) se sont penchs sur la dtection de contenus racistes sur le Web. La principale diffrence avec les travaux exposs prcdemment est que les documents ne doivent pas ici tre classs selon leur genre, mais selon le point de vue nonc. Ils se basent sur lhypothse suivante : la combinaison dindices venant de plusieurs niveaux dunits linguistiques (caractres, morphmes, catgories syntaxiques, expressions complexes, isotopies smantiques, code HTML, etc.) et base sur une analyse plus globale des documents Web permet de mieux cerner et proler le contenu de ces documents . Se basant sur un corpus de documents du Web classs manuellement selon lopinion exprime par lauteur dans le texte, leur analyse stylistique vise crer une typologie permettant de reproduire la classication de dpart. Cest donc en effectuant une analyse dductive quils dgagent un ensemble de critres portant sur diffrentes caractristiques lexicales, syntaxiques. . . des documents, mais aussi en tenant compte de leur structure. Un autre cadre de lanalyse stylistique est le domaine de la cration et analyse de corpus. En effet, un certain nombre de travaux, sous limpulsion de Biber se sont penchs sur la notion de reprsentativit
tel-00474405, version 1 - 20 Apr 2010
45
tel-00474405, version 1 - 20 Apr 2010
des corpus (voir chapitre 3). Selon Biber (1994), la reprsentativit rfre la gnralisation permettant de considrer quun chantillon reprsente toute la population. Ainsi, tout corpus ou sous-corpus (subcorpus, Sinclair (1996a)) doit tre pleinement reprsentatif des particularits linguistiques de lensemble considr. Pour cela, une technique consiste sparer le corpus en sous groupes ou strates correspondant la population cible (Stratied sampling). Ces strates peuvent correspondre : des catgories de situation (situationnally dened text categories) : bases sur des critres externes au corpus (intentions de lauteur, position du texte dans la communaut. . . ) ; des catgories linguistiques (linguistically dened categories) : bases sur des critres internes au corpus (donc mergeant aprs construction). Ces catgories peuvent tre ltres manuellement ou automatiquement. Dans les deux cas, une analyse stylistique des documents peut tre effectue an dtablir une liste de caractristiques propres la(es) catgorie(s), facilitant la classication. En effet, une fois ces strates ou catgories dnies, les documents choisis pour tre inclus dans le corpus doivent y tre classs. La dmarche dductive permet de reproduire automatiquement des classication effectues a priori, mais aussi de caractriser des catgories textuelles dnies thoriquement et reconnues intuitivement (les genres par exemple).
3.2.6 Synthse
Lanalyse stylistique consiste dterminer quels sont les facteurs et les caractristiques des variations de style observables entre des textes. Dune grande quantit de donnes textuelles doit merger un ensemble dlments caractristiques dun phnomne stylistique. Deux dmarches peuvent tre adoptes : la dmarche inductive, se basant sur les caractristiques des textes an den dgager des classes de similarit ; et la dmarche dductive, partant sur une classication des textes, et cherchant dgager un ensemble de critres caractrisant ces diffrentes classes. Au dpart de toute analyse stylistique se trouve un ensemble de textes, ou corpus : les textes doivent tre le matriau des travaux dingnierie linguistique, lobjet, la source dobservation et non le moyen de vrier des hypothses (Biber, 1989). Lanalyse inductive est gnralement utilise dans les cas o lobjectif est de rassembler un ensemble de textes selon certaines particularits linguistiques, comme dans ltude de Biber (1989). Elle peut aussi tre utilise dans le cas o les textes doivent tre rassembls en classes de similarit (ou homognit) (Folch et al., 2000). Cette notion de groupe de textes homognes est pertinente dans le cadre de la construction de corpus reprsentatifs. Cette dmarche vise rpertorier des ensembles de textes similaires, sans pour autant accorder un sens la classication gnre. Au contraire, les classes sont un lment central de la dmarche dductive. Selon Malrieu et Rastier (2002), aucune typologie des textes fonde sur des critres dnis indpendamment des genres (comme oral vs crit, public vs priv, etc.) na permis disoler les genres. . On peut gnraliser cette afrmation dans ce sens : dans le cadre dune dmarche dductive, la typologie cre doit se reposer sur les classes que lon souhaite observer. En effet, que ce soit une classication en genres, en discours, en points de vue, la typologie dgage de lanalyse est entirement base sur les classes. Cependant, on trouve de nombreux liens entre ces deux dmarches. Tout dabord, Biber (1989) fut lun des premiers satteler la cration dune typologie de la langue gnrale anglaise, en dgageant prs de 70 traits linguistiques discriminants, aboutissant 8 types de textes. Ce travail constitue une rfrence dans le domaine et sa dmarche ainsi que ses critres sont cits et utiliss par un grand nombre de travaux, quils soient inductifs ou dductifs. De plus, en sinspirant dans une dmarche dductive
46
dlments issus des connaissances thoriques, une part inductive est introduite. Selon Malrieu et Rastier (2002), lopposition entre dmarche inductive et dmarche dductive fait rfrence deux conceptions bien diffrentes du texte : lune considre un texte comme un ensemble de chanes de caractres, la deuxime comme une uvre, au sens gnral du terme . Nous cherchons ici caractriser les types de discours scientiques et vulgariss. Partant de classes existantes, nous allons donc adopter une dmarche dductive. Nous allons voir dans la section suivante que lanalyse stylistique que nous ralisons fait appel des connaissances thoriques linguistiques et contient donc une part dinduction.
3.3
Application de lanalyse stylistique
Lobjectif de notre analyse stylistique est de caractriser les types de discours scientiques et vulgariss pour des documents issus du Web en franais et japonais traitant de domaines de spcialit. Nous nous basons pour cela sur notre corpus dtude, prsent dans la section 2.5 du chapitre 2. Les documents de ce corpus, issus du domaine mdical, ont t classs manuellement selon leur type de discours. Nous adoptons donc une dmarche dductive an de caractriser la distinction entre ces deux classes. Elle sera de plus contrastive : en comparant conjointement des couples de documents scientiques et vulgariss, nous pourrons identier les diffrences rcurrentes et sen inspirer pour crer la typologie. Cette dmarche se distingue clairement de la vision en sacs de mots des corpus : le document reprsente lunit fondamentale de cette analyse. Nous nous basons sur la globalit des lments dnissant le document an de caractriser son type de discours. La typologie rassemble lensemble des traits caractristiques identis lors de lanalyse. Nous souhaitons quelle soit : linguistiquement motive : de nombreux travaux se basant sur la typologie de Biber font lhypothse suivante : plus les critres sont nombreux, plus les chances de caractriser une classe seront leves. Lun des problme de cette mthode est quil est parfois impossible de savoir quels sont les traits les plus discriminants. Nous cherchons ici, non seulement crer une typologie pouvant tre utilise par des systmes de classication automatique, mais surtout caractriser les deux types de discours. Il nous parat donc indispensable de bien dnir la liste des traits insrs dans la typologie. robuste : lanalyse stylistique peut tre considre comme un processus nous permettant de passer dun ensemble dindices empiriques une liste de traits motivs qui devront tre opratoires, cest-dire pourront tre implments, an de classer automatiquement les documents. Nous choisirons donc, dans la mesure du possible, des marqueurs de surface. gnrique : nous travaillons sur deux langues, il est donc ncessaire de veiller ce que la typologie soit sufsamment gnrique pour couvrir tous les types de discours dans ces deux langues. De plus, elle devra tre adapte dautres domaines de spcialit, et pas seulement celui du corpus dtude. Nous prsentons dans la section suivante les diffrents niveaux danalyse des documents, puis les critres correspondants.
tel-00474405, version 1 - 20 Apr 2010
3.4
Structure de la typologie
Notre analyse stylistique, adoptant une dmarche dductive et contrastive, sest aussi appuye sur des travaux fondateurs de la discipline, an de dgager les diffrents axes danalyse des documents. Nous parlons ici des travaux de Biber et Sinclair, voqus prcdemment.
47
3.4.1 Structure dimensionnelle

Nous avons prsent sa mthodologie dans la section 3.2.3, dtaillons maintenant la typologie des textes anglais labore par Biber. Elle est compose de 67 critres linguistiques organiss en 16 catgories. Par souci de clart, nous nen donnons que quelques exemples pour chaque catgorie, la typologie complte se trouve en annexe A. Marqueurs de temps : pass, prsent, perfect aspect ; Adverbes de lieu et de temps ; Pronoms et pro-verbes : pronoms personnels, dmonstratifs, indnis, pro-verb do ; Questions : Questions en WH ; Formes nominales : nominalizations (-tion, -ment, -ness, -ity), grondifs ; Formes passives ; Formes statives (qui indiquent un tat permanent) ; lments de subordination : complments de verbes THAT, complment dadjectif THAT, propositions WH, innitifs, etc. ; Adverbes, adjectifs et locutions prpositionnelles : tous les adverbes, adjectifs attributs, adjectifs prdicatifs ; Spcicits lexicales : ration type/token, longueur moyenne des mots ; Classes lexicales : adverbes conjonctifs, dprciatifs, amplicatifs, emphatiques, etc. ; Modaux : modaux de possibilit, ncessit, prdictifs ; Classes spciales de verbes : verbes publics (assert, declare. . . ), verbes privs (assume, believe. . . ), etc. ; Formes rduites et structures peu usites : contractions, omission de that, etc. ; Coordination : coordination phrastique, coordination de propositions indpendantes ; Ngation. Cette typologie contient un large panel de critres dont les variations peuvent caractriser les diffrents aspects dun texte ou dune classe de texte. Cest pour cette raison quelle est si souvent utilise. partir de ces critres, Biber souhaite trouver un ensemble de dimensions, groupements de critres qui co-occurrent haute frquence dans un corpus. Six dimensions sont identies dans le corpus de Biber : Informational vs involved production ; Narrative vs non-narrative concern ; Explicit vs situation dependant reference ; Overt expression of persuasion ; Abstract - non abstract information ; On-line information elaboration. Cest ensuite selon les variations des textes dans ces diffrentes dimensions que Biber caractrise langlais crit ou oral, mais aussi les diffrents genres prsents dans le corpus.
tel-00474405, version 1 - 20 Apr 2010
3.4.2 Structure externe/interne

Dans son rapport sur les typologies de textes, Sinclair (1996b) distingue diffrentes catgories de critres, correspondant diffrents niveaux danalyse des documents : Niveau externe : les participants, le contexte social, les fonctions communicatives du langage, etc. Origine : critres concernant lorigine du texte, susceptibles daffecter sa structure ou son contenu ; Structure : critres concernant lapparence du texte, sa structure et sa relation aux lments non textuels:
48
Buts : critres concernant les raisons de la cration du texte et les effets dsirs ; Niveau interne : la rcurrence des phnomnes langagiers (language patterns) dans les parties du langage. Thme : critres concernant le sujet, les domaines de connaissance du texte ; Style : lments du texte et de la langue qui peuvent tre en corrlation avec les critres externes. Ces diffrents niveaux danalyse peuvent permettre de mieux organiser lanalyse stylistique en observant successivement les documents sous diffrents angles.
3.4.3 Structure de notre typologie des types de discours scientiques et vulgariss

Nous nous appuyons sur la typologie de Sinclair qui distingue deux dimensions : la dimension externe et la dimension interne. La dimension externe sera principalement compose de caractristiques structurelles des documents. Quant aux caractristiques linguistiques, correspondant la dimension interne, elles seront spares en deux catgories : les caractristiques lexicales et les caractristiques modales. Nous dtaillons et justions lusage de ces trois catgories dans la suite de cette section.
tel-00474405, version 1 - 20 Apr 2010
3.4.3.1
Les caractristiques structurelles
Les textes de notre corpus, tant extraits du Web, comportent dune part de multiples informations linguistiques, lexicales, syntaxiques ; mais aussi des informations externes, relatives la structure mme des documents, comme on peut le voir dans les documents HTML. Contrairement de nombreux travaux se basant uniquement sur le texte et ses aspects linguistiques, nous exploitons la structure des documents an de caractriser leur discours. Riboni (2002) montre par exemple que lexploitation de certaines balises, couple lanalyse du texte en lui-mme, permet damliorer les rsultats dune classication thmatique. Notre typologie tant destine tre automatise, nous souhaitons que les critres la composant soient oprationnels, cest--dire dont la reconnaissance peut-tre effectue automatiquement. Ainsi, nous navons conserv dans la partie externe que les critres structurels, lorigine et les buts des textes du Web tant trs difciles, voire impossibles dterminer sans intervention humaine.
3.4.3.2
Les caractristiques modales
La prsence du locuteur et son rapport linterlocuteur sont diffrents dun texte un autre. Dans une discussion sur un forum, elle est fortement marque, de mme que celle de linterlocuteur. Dans un article scientique, elle est marque tandis que linterlocuteur est quasiment absent. Nous pensons que ces marques, caractristiques de lnonciation, peuvent tre discriminantes pour distinguer les deux types de discours. Il parat vident que le ton du locuteur et sa faon de sadresser linterlocuteur volue selon son degr de spcialisation (sur le thme quil aborde) et celui de son interlocuteur. Ces volutions sont caractristiques de lnonciation. Lnonciation correspond lacte de production dun nonc par un locuteur destination dun allocutaire dans une situation de communication (contexte spacio-temporel particulier) (Riegel et al., 1994, p. 575). Les situations de communication dans lesquelles un acte dnonciation est effectu sont caractrises par (ibid.) : le locuteur et lallocutaire, acteurs de la communication changeant des informations ; un temps et un lieu ;
49
lenvironnement des protagonistes. Ltude du phnomne dnonciation vise analyser les diffrents lments dune situation de communication et son contexte. Ces tudes se basent sur deux principaux types dindices : les ditiques et les modalits. Les ditiques sont les units dont le sens implique obligatoirement un renvoi la situation dnoncation pour trouver le rfrent vis (Riegel et al., 1994, p. 577). Les modalits sont des lments exprimant lattitude du locuteur par rapport son nonc. Selon Bally (1952), une phrase peut sanalyser sous deux aspects : le dictum, ou contenu reprsent et le modus, position du locuteur par rapport la ralit du contenu exprim. Cest ici au modus, ou la ralit, que nous nous intressons. Riegel et al. (1994, p. 580) distinguent les modalits dnonciation et les modalits dnoncs. Les modalits dnonciation renvoient au sujet de lnonciation en marquant lattitude nonciative de celui-ci dans sa relation son allocutaire , par exemple linterrogation ou linjonction ; Les modalits dnoncs renvoient au sujet de lnonciation en marquant son attitude vis--vis du contenu de lnonc , cest--dire la manire dont le locuteur apprcie son nonc ;
tel-00474405, version 1 - 20 Apr 2010
Nous pensons que les modalits dnoncs vont nous permettre de caractriser les types de discours scientique et vulgaris. En effet, lattitude du locuteur au sein de son nonc est bien diffrente dans un texte scientique et dans un texte vulgaris. Nous avons distingu dans cette partie deux thories de la modalit qui nous paraissent pertinentes : la thorie de la modalit Locutive de Charaudeau (1992), se basant sur la position du locuteur vis--vis de son interlocuteur, ainsi que la thorie de la modalit Irrealis de Givn (1994), se basant sur la ralit ou vrits des vnements noncs par le locuteur. Nous les prsentons dans la section 3.5.2.
3.4.3.3
Les caractristiques lexicales
Charaudeau (1992, p. 65) note quune situation de spcialisation engendre un vocabulaire spcialis, compris de manire prcise par les seuls spcialistes [. . . ] dans diffrents domaines de spcialit ; alors que la situation de vulgarisation engendre un vocabulaire parallle au vocabulaire spcialis, [ou] une transformation du sens du mot spcialis . Les caractristiques lexicales, contrairement aux caractristiques modales, permettent danalyser le contenu de lnonc. Lanalyse de la terminologie et du lexique employs dans des textes pourraient nous servir dindices dans la dtermination de leur degr de spcialisation.
3.5
Typologie des discours scientiques et vulgariss dans les langues franaise et japonaise
Nous prsentons dans cette section la typologie issue de notre analyse stylistique. Celle-ci est organise en trois parties, correspondant aux trois niveaux danalyse prsents prcdemment. Nous appelons critre un lment de la typologie, et marqueur(s) le ou les lments nous permettant de dtecter les critres dans nos documents. Les critres de cette typologie sont issus de lobservation des documents, mais aussi de travaux plus dtaills dont nous nous sommes inspirs. Nous navons conserv dans ce cas que les critres que nous jugions pertinents (cest--dire susceptibles dapparatre dans les documents et de caractriser lun des types de discours). Certains deux ont d tre adapts notre tude, particulirement aux domaines de spcialit, mais aussi la langue. Pour cela, des linguistes japonais et russes ont travaill sur ladaptation des critres et de leurs marqueurs aux deux langues.
50
3.5.1 Caractristiques structurelles

Les caractristiques structurelles sont tous les lments relatifs la structure, lorigine et laspect graphique du document. Cette catgorie rassemble tous les lments extrieurs au texte. Patron dURL : patrons gnriques dURL en France, par exemple http://www.univ-***.fr pour les universits ou http://www.chu-***.fr pour les hpitaux. Format de document : principaux formats des documents du Web (html, pdf. . . ). Les articles de recherche sont souvent au format pdf ou Microsoft doc, tandis que les articles de journaux en ligne par exemple sont souvent dans des formats gnrant du html (php, asp. . . ). Mta-informations : prsence de mta-informations dans le code des documents HTML. Ces mtainformations permettent de conserver au sein des chiers certains renseignements sur leurs crations tels que le crateur du chier, la date de cration, mais aussi des informations sur le contenu du chier comme les mots cls5 .
tel-00474405, version 1 - 20 Apr 2010
Titre de la page : prsence dun titre correspondant la balise TITLE des documents HTML. Seuls quelques sites ne possdent pas de titre. Techniques de mise en page : utilisation de CSS ou de tableaux pour la mise en page des documents HTML. Les CSS sont encore rservs aux experts, bien que cet usage ait tendance se dmocratiser. Les crateurs de pages Web nayant pas ou peu de connaissances font davantage appel aux tableaux ou aux cadres6 . Fonds : couleur ou image de fond des documents HTML. La balise BACKGROUND permet de mettre en fond de page une image ou une couleur. Les sites raliss par des professionnels nutilisent gnralement quune couleur de fond, an de ne pas surcharger les pages. Images : prsence dimages dans les documents HTML. Les images peuvent avoir diffrents rles au sein dune page. Certaines sont informatives (schmas, graphiques), certaines illustrent la page (photos) et dautres servent uniquement dcorer la page ou attirer lattention du visiteur. Ces dernires, appeles images de navigation sont les plus frquentes : elles servent mettre en valeur un lien hypertexte, attirer lattention sur une phrase ou une partie de la page. . . Ces diffrents types dimages peuvent tre distingus (notamment par leur taille), mais nous avons observ que les sites utilisant le plus dimages sont souvent les sites grand public ou les sites ayant vocation ltre. Le nombre dimages nous parat donc sufsamment discriminant. Paragraphes : structuration du texte sous forme de paragraphes dans les documents HTML. Trs couramment utiliss, ils sont toutefois beaucoup plus nombreux dans les pages cres avec des systmes wysiwyg (what you see is what you get, systme interface graphique permettant de gnrer des pages HTML). Listes : structuration du texte sous forme de listes ditems dans les documents HTML. Liens : prsence de liens hypertexte dans les documents HTML. Les liens peuvent tre externes au texte (dans le menu, lentte. . . ) ou internes au texte. Les textes spcialiss contiennent gnralement peu de liens, ou ceux-ci sont rassembls la n du document.
5 Ces mots-cls taient utiliss il y a quelques annes par les moteurs de recherche lors de lindexation des documents. Ainsi, certains abus se produisaient : des pages Web contenaient des listes de mots cls trs longue, recouvrant la plupart des recherches les plus populaires. Un gain en popularit au dtriment de la pertinence des recherches. Ces mta-informations sont moins utilises maintenant. 6 Ce critre est toutefois dpendant des effets de mode sur la toile. Lusage des CSS a quelque peu dtrn les tableaux et cadres.
51
Typographie : prsence de balises typographiques dans les documents HTML (italique, gras. . . ). Utilises gnralement pour mettre en emphase certains passages ou mots dun texte. Nombre de phrases, nombre de caractres : estimation de la longueur des documents et de leurs phrases. Les textes scientiques ont tendance tre plus longs. Certains de ces critres se basent sur la structure HTML des documents. Le nombre des critres structurels se trouve donc rduit pour les documents PDF.
3.5.2 Caractristiques modales

Deux thories nous ont parues pertinentes dans le cadre de notre tude, nous les prsentons ici avec les critres qui leur sont associs.
3.5.2.1
Thorie de la modalit de Charaudeau
tel-00474405, version 1 - 20 Apr 2010
Selon Charaudeau (1992), tout acte de communication doit tre considr comme un dispositif au cur duquel se trouve un sujet parlant, en relation avec un partenaire . Ce dispositif se compose de : la situation de communication : cadre la fois physique et mental dans lequel se trouvent les partenaires de lchange langagier ; les modes dorganisation du discours : principes dorganisation de la matire linguistique , dpendants de la nalit communicative que se donne le sujet parlant ; la langue : matriau verbal ; le texte : rsultat matriel de lacte de communication . Charaudeau dcrit lnonciation comme le phnomne qui tmoigne de la faon dont le sujet parlant sapproprie la langue pour lorganiser en discours . Selon Benveniste (1970), avant lnonciation, la langue nest que la possibilit de la langue . Le discours se construit donc travers lnonciation et la langue nest quun concept tant que ce processus nest pas mis en uvre. Comme lillustre la gure 3.3, ce phnomne dnonciation amne le sujet parlant se situer vis--vis de son interlocuteur, vis--vis du monde qui lentoure et de son propos (Charaudeau, 1992, p. 572).
Figure 3.3 Phnomne dnonciation Toute modalit implique un acte locutif qui est spci par un certain nombre de modalits. Nous distinguons la modalit dnonciation de la modalit dnonc. La modalit dnonciation renvoie au sujet de lnonciation en marquant lattitude nonciative de celui-ci dans sa relation son allocutaire. La modalit dnonc renvoie au sujet de lnonciation en marquant son attitude vis--vis du contenu de lnonc. Elle exprime la manire dont le locuteur apprcie le contenu de lnonc. Nous prsentons dans les sections suivantes les diffrents actes locutifs caractristiques des discours scientiques et vulgariss
52
en franais et en japonais, ainsi que les diffrentes caractristiques du mode dorganisation du discours. La modalisation est une partie du phnomne dnonciation. Elle permet d expliciter ce que sont les positions du sujet parlant par rapport son interlocuteur, lui-mme et son propos (Charaudeau, 1992, p. 572). M odalisation = {(Loc. Interloc.), (Loc. Loc.), (Loc. P ropos)} La modalisation est compose dactes locutifs, position particulire du locuteur dans son acte de locution, qui sont spcis par des modalits nonciatives. On compte parmi les actes locutifs : Lacte allocutif, dans lequel le locuteur implique linterlocuteur dans son acte dnonciation et lui impose le contenu de son propos. ; Lacte locutif, dans lequel le locuteur situe son propos par rapport lui mme, dans son acte dnonciation. Il rvle sa propre position quant ce quil dit. ;
tel-00474405, version 1 - 20 Apr 2010
Lacte dlocutif, dans lequel le locuteur laisse simposer le propos en tant que tel, comme sil nen tait nullement responsable. Locuteur et interlocuteur sont absents de cet acte dnonciation. . La gure 3.4 reprend ces trois actes locutifs.
Figure 3.4 Les trois principaux actes locutifs de Charaudeau Toute modalit implique un acte locutif, et tout acte locutif est spci par un certain nombre de modalits. Du point de vue linguistique, les modalits peuvent tre caractrises par : 1. des marques formelles explicites : verbes, adverbes, adjectifs, noms en construction personnelle ou impersonnelle, statuts de phrase (impratif, interrogatif, exclamatif) ; 2. une organisation particulire du discours : les marqueurs implicites du discours permettent de linterprter correctement. Lnonc Je reviendrai demain peut par exemple tre interprt comme une promesse ou une menace selon les marqueurs implicites (intonation, gestes, contexte. . . ) (Charaudeau, 1992, p. 573). Dans lnonc de lacte allocutif, la prsence de linterlocuteur rside sous la forme de pronoms personnels ( tu , vous ), du nom propre et commun qui lidentient. Cet nonc contient galement de limpratif et de linterrogatif.
53
tel-00474405, version 1 - 20 Apr 2010
linverse, dans lacte locutif le locuteur nindique pas linterlocuteur mais lui-mme, cest sa propre position quil rvle dans son nonciation. Sa prsence est marque sous la forme de pronoms personnels ( je , nous , on en tant que nous), du nom propre et du nom commun qui identient le locuteur. Lacte locutif tient galement compte de lexclamatif et de loptatif (expression dun souhait). Enn, lacte dlocutif ne fait pas rfrence au locuteur ni linterlocuteur. Ainsi les noncs de cet acte prennent les formes impersonnelles et rfrentielles. Nous nous intressons ici aux textes issus de domaines spcialiss, en particulier le domaine mdical, dont nous pouvons estimer que la majorit utilise lacte dlocutif. En analysant dans de tels textes la modalit locutive, nous souhaitons observer si lexistence du locuteur ou de linterlocuteur dans les textes diffrencient les types de discours scientique et vulgaris et si cest le cas, dtecter les marqueurs pertinents pour les distinguer. Ainsi, dans notre tude, nous ne traitons pas lacte dlocutif, puisquil ne concerne pas directement le locuteur et linterlocuteur. Charaudeau (1992) fait un inventaire trs complet de toutes les modalits possibles. Nous avons d les slectionner selon plusieurs critres : Leur adaptabilit aux domaines de spcialit ; Leur adaptabilit aux langues franaise et japonaise ; La possibilit de trouver des marqueurs permettant de dtecter automatiquement ces modalits dans les textes. Pour cela, chaque modalit a t examine, et pour chacune nous avons cherch des applications et des exemples dans les domaines de spcialit (par le biais de notre corpus dtude), et cela pour chaque langue. Les exemples illustrant chaque modalit sont issus de notre corpus dtude. Nous avons pour cela slectionn alatoirement dix documents par type de discours pour chaque langue, dans lesquels nous avons cherch des marqueurs de chaque modalit. Les actes allocutifs Modalit de linterpellation : Les caractristiques de la modalit de linterpellation sont : Le locuteur identie une personne (son interlocuteur ou autre) parmi un ensemble dinterlocuteurs possibles ; Il attend que son interlocuteur ragisse son interpellation. Ex. : Madame, Monsieur, vous tes atteint dun diabte de type 2 . Ce document est destin vous aider (. . .) ! (Bonjour tout le monde !) Modalit de linjonction : La caractristique de la modalit de linjonction est que le locuteur pose, dans son nonc, une action dire ou faire. Le locuteur impose fortement son interlocuteur de raliser cette action. Ex. : Ne pas dpasser lquivalent en alcool de deux verres de vin par jour. (. . .) (Suivez le conseil de votre mdecin) Modalit de lautorisation : Le locuteur pose une action raliser. Il sait ou suppose que linterlocuteur dsire lexcuter. Jugeant que les circonstances sont convenables, il lui donne le droit dexcuter cette action. Ex. : Si le got du sucre vous manque vraiment, vous pouvez avoir recours aux dulcorants. ((Vous) pouvez (nous) assister quand vous voulez.) Modalit de lavertissement : La modalit de lavertissement se dnit par les points suivants :
54
Le locuteur nonce une action raliser par lui-mme qui peut tre assortie dune condition (Charaudeau, 1992, p. 587) ; Il sait ou suppose que linterlocuteur ignore son intention ; Par la dclaration de son intention, le locuteur protge le risque de dgradation de sa situation. Ex. : Attention, si vous tes trait par sulfamides hypoglycmiants, vitez les boissons alcoolises en dehors des repas !! (Attention si (vous) tes sous le contrle de la salinit !!) Modalit du jugement : La modalit du jugement porte sur une action ralise, dont le locuteur suppose que la responsabilit appartient linterlocuteur. Il juge si cet acte est bien/mauvais, en dclarant son approbation / rprobation. Sa qualication de linterlocuteur y est indique. Ex. : Ce menu vous tente mais vous hsitez et vous faites bien [. . . ] 1 13 (Il faut respecter la limite de calories quotidienne. Si vous la respectez, (vous) pouvez manger tout ce que vous voulez, mais noubliez pas de manger trois repas quilibrs par jour.) Modalit de la suggestion : Le locuteur pose une action raliser ou ne pas raliser. La caractristique de cette modalit, savoir lnonciation par rapport laction raliser, se partage avec celle de la thorie Irrealis mentionn ci-dessous. Tandis que la thorie locutive concentre cette modalit en tant quune catgorie dans lacte allocutif. Irrealis sintresse tous les noncs qui parlent dun vnement qui nest pas ralis. Le locuteur sait, ou il suppose, que linterlocuteur nest pas content de sa situation, et lui propose dexcuter laction an de lamliorer. Les verbes devoir et falloir au conditionnel fonctionnent galement comme la modalit de la suggestion. Ex. : Revenons donc aux malheureux engags leur insu sur la voie du diabte. (Prenons un repas qui contient un nombre de calories raisonnable) La modalit de proposition : Comme prcdemment, en utilisant la modalit de la proposition, le locuteur pose une action raliser. La diffrence avec la modalit de suggestion est que la ralisation de cette action permet le prot de 1) linterlocuteur ou de 2) linterlocuteur + le locuteur. Le bnciaire est toujours linterlocuteur, le rsultat dpend de son acceptation. Ex. : Vous pouvez dcaler lhoraire du petit djeuner dans la matine ou le fractionner. (Chez Ansei, (nous) (vous) proposons les menus riches ainsi que des plannings de repas programms par le ditticien ou de lexercice.) La modalit de linterrogation : Avec cette modalit, le locuteur pose une information acqurir. Il demande linterlocuteur de dire ce quil sait ; il rvle ainsi son ignorance par rapport ce quil demande. Il impose donc linterlocuteur un rle de rpondeur, et se donne le droit de questionner. La demande du locuteur peut deux signications : lun est la demande des informations et lautre est la vrication de la connaissance de linterlocuteur par rapport au contenu concern dans lnonc. Ex. : Comment adapter votre rgime face une situation particulire ? ? (Quel est leffet principal des exercices ?) Modalit de la requte :
tel-00474405, version 1 - 20 Apr 2010
55
Avec cette modalit, le locuteur se trouve dans une situation dfavorable et il demande son interlocuteur de faire quelque chose pour lui. Ex. : Pouvez-vous nous parler des problmes de vision associs au diabte ? (Si (vous) avez un empchement, (nous) (vous) prions de (nous) contacter pour annuler votre prsence.) Les actes locutifs Modalit du constat : Avec cette modalit, le locuteur dcrit un fait sans donner son opinion ou jugement. Ex. : Or aujourdhui, on observe dans de nombreux pays (. . .) une augmentation particulirement importante du diabte de type 2 (. . .), lequel est reconnu pour accompagner la frquence accrue de lobsit infantile et de ladulte. CCK (Nous avons constat galement que les protines dissocies du soja recevaient directement leffet fort de la scrtion de CCK.) Modalit du savoir/lignorance : Avec cette modalit, une information est prsuppose et le locuteur afrme la connatre ou non. Ex. : On sait de longue date quune alimentation trop riche et lobsit sont des facteurs de risque de diabte de type 2 (Le rgime alimentaire est efcace. Jusqu maintenant (je) ne connaissais pas la quantit de calories idale.) Modalit de lopinion : Le locuteur exprime son point de vue par rapport un fait ou une information qui rside dans sa croyance. Il value galement la vrit de son propos. Ex. : Il ne nous semble pas justi de proposer un dpistage systmatique du diabte de type 2 dans la population gnrale (. . . ) (Il (nous) semble trs signicatif.) Modalit de lapprciation : Dans les noncs de la modalit de lapprciation, le locuteur montre son valuation dun fait, en rvlant ses propres sentiments. Cette valuation ne vient pas du jugement daprs la raison mais elle vient dun jugement daprs laffect. Ex. : Depuis, mon diabte va bien mieux ((Je) serai heureux si ce numro spcial aidait la comprhension et au dveloppement de la recherche du domaine.) Modalit de lobligation : Les noncs de la modalit de lobligation concernent une action faire par le locuteur lui-mme. La ralisation de cette action dpend de lui mais le caractre de lobligation est diffrent selon le lien entre laction et le locuteur. Ex. : Nous devons mener une importante rexion quant la gestion de ces diffrents facteurs ,, (Nous, lquipe mdicale, devons connatre les patients an davoir une approche psychologique et ducative.)
tel-00474405, version 1 - 20 Apr 2010
56
Modalit de la possibilit : Comme pour la modalit de lobligation, la modalit de la possibilit concerne une action faire dont la ralisation dpend de lui. Le locuteur mentionne son aptitude ou sa disposition desprit an dachever cette action. Ex. : On peut parfaitement avoir du diabte depuis de nombreuses annes sans le savoir. ((Je) ne peux pas arrter lalcool.) Modalit du vouloir : La modalit du vouloir concerne une action faire dont la ralisation ne dpend pas toujours de lui. Ex. : Cette aide informatique gagnerait tre incluse dans les ches mdicales informatises utilises par les mdecins (. . . ) ((Nous) voulons encourager limportation de ce mdicament dans notre pays)
tel-00474405, version 1 - 20 Apr 2010
Modalit de la dclaration : Avec cette modalit, le locuteur montre lexistence et la vrit dun savoir son interlocuteur. Ex. : on reconnat de plus en plus le tissu adipeux comme un organe endocrinien (En fait, (je) nai pas pris (le mdicament).) Les modes dorganisation du discours Les modes dorganisation du discours constituent les principes dorganisation de la matire linguistique . Ces principes dpendent de la nalit que se donne le sujet parlant dans la communication. Ils consistent utiliser certaines catgories de langue pour les ordonner en fonction des nalits discursives de lacte de communication . On compte quatre modes dorganisation : lnonciatif, le descriptif, le narratif et largumentatif. Les modes dorganisation du discours sont caractriss par un ensemble de procds discursifs. Nous nous intressons en particulier aux suivants : Citations : prsence dextraits cits (placs entre guillemets). Forme de discours rapport, permettant de faire rfrence un texte, mise en emphase dun mot ou dune expression, etc. ; Type de phrase : phrases afrmatives, interrogatives, exclamatives ; Connecteurs pragmatiques : mots qui ne sont pas destins apporter des informations, mais marquer le rapport du locuteur la situation Ducrot (1980) (mais, donc, alors que, nanmoins. . . ). Organisation de la logique argumentative dans le discours ; Fins de phrases : marqueurs de politesse en n de phrase.
3.5.2.2
La modalit Irrealis
Nous avons vu que la modalit de Charaudeau, telle que nous lutilisons dans notre typologie, se base en grande partie sur la prsence du locuteur ou de linterlocuteur. En langue franaise, cela sexprime principalement grce aux pronoms. Prsentation La notion de modalit Irrealis (irrealis modality) se base sur la dimension binaire : Realis et Irrealis. Dune manire gnrale, ce concept remonte, notamment pour les langues europennes, la distinction entre lindicatif et le subjonctif. Lindicatif touche la notion de Realis, le subjonctif, celle dIrrealis. Comme on le verra dans cette section, ce schma prototypique, qui ne rete pas exactement la varit nonciative, encadre tout de mme la stratgie basique de cette modalit.
57
tel-00474405, version 1 - 20 Apr 2010
La modalit Irrealis examine la nature de la ralit ou de la vrit dun tat ou dun vnement (Givn, 1994, p. 321). La distinction entre Realis/Irrealis est tablie en recherchant si la situation exprime par le locuteur appartient lintrieur ou lextrieur de la ralit. Selon Palmer (2001, p. 4), la majorit des propositions en sens phrastique se groupe en Realis ou en Irrealis. La thorie de la modalit Irrealis considre les indices marquant lirralit dun vnement dans lnonc. De ce point de vue, elle conduit sinterroger sur les attitudes pistmiques et valuatives. Par lattitude pistmique, on examine le degr de certitude indiqu par la croyance ou la probabilit par rapport un vnement. Par lattitude valuative, on examine la force dopration indique par le dsir ou la prfrence du locuteur par rapport un vnement (Givn, 1994, p. 266, 328). Les marqueurs dIrrealis se trouvent dans plusieurs catgories grammaticales. Par exemple, Givn (1994) prsente les catgories suivantes pour langlais : Temps et aspect ; Adverbes modaux ; Verbes compltifs ; Actes de parole non-dclaratifs (suggestion, demande, avertissement, impratif) ; Phrases adverbiales ; Auxiliaires modaux. Cette typologie permet dexaminer les diffrents degrs de la certitude du locuteur par rapport la ralit de son propos. Comme on le verra dans le reste de cette section, nous avons appliqu cette classication notre tude franco-japonaise. Avec la modalit Irrealis, lobjectif du locuteur envers son nonc est moins important pour interprter la modalit, mais son attitude envers la ralit de la proposition se situe au centre de linterprtation. Elle nous parat tre une thorie intressante pour notre tude, et ce pour deux raisons : premirement au niveau de la comparaison avec la modalit locutive et deuximement au niveau de lapplication au franais et au japonais. Critres Irrealis Givn a cr sa thorie de la modalit pour la langue anglaise. Une adaptation de ses diffrents critres a d tre effectue, de faon ne conserver, comme pour les critres de la modalit de Charaudeau, que ceux tant adaptables aux deux langues, aux domaines de spcialit, et caractrisables par des marqueurs simples. Pour chaque critre, nous prsentons un exemple tir de (Givn, 1994), puis un exemple tir du corpus. Temps futur : Un vnement qui aura lieu aprs le moment de lnonciation est irrel et potentiel (Chung et Timberlake, 1985, p. 206). En franais, le temps futur se forme par le futur simple, le futur proche et le futur antrieur. Ex. : le conseil nutritionnel pourra aller vers des aliments plutt riches en potentiel anti-oxydants Lapproche de la ralisation de lvnement se marque par les locutions telles que tre sur le point de, tre en passe de (Riegel et al., 1994, p. 253). Les verbes au prsent peuvent galement exprimer une activit raliser dans lavenir immdiat ou plus lointain (Ex. :Je viens tout de suite.) En japonais, le pass est galement employ pour parler du futur. Le locuteur souhaite vrier si quelque chose se ralisera dans lavenir et il sait que cette ralisation a t dcide dans le pass ou quon le sait depuis longtemps. Dans lexemple suivant, le contenu de la question est la runion du lendemain. On utilise ici le verbe tre au pass an daccentuer le fait que le locuteur veut vrier la connaissance quil possde mais dont il nest pas certain : Ex. : 2(La runion tait (=sera) partir de 2 h demain aussi ?)
58
Adverbes modaux : Ladverbe modal est un adverbe qui modie le degr de certitude ou de potentialit de la ralisation dun vnement. Les adverbes tels que probablement, peut-tre, sans doute ou certainement expriment le jugement de certitude du locuteur par rapport la proposition de lnonc. Ex. : La destruction auto-immune des cellules produisant linsuline est probablement un processus lent[. . . ] (Il est probable quune grande douleur ou un stress psychique soient provoqus.) Irrealis dans les complments de verbe : Quand un verbe saccompagne dun complment, ce dernier a une nature Irrealis dans les cas suivants (la partie compltive que lon traite ici est un verbe ou la subordonne). Le complment du verbe de demande : Il sagit des verbes qui comportent la nature de demande du locuteur linterlocuteur de faire quelque chose an de raliser une action indique dans le verbe compltif. Ex. : Demandez conseil votre guide (ditticien ou mdecin) pour le choix des graisses. (Renseignez-(moi) sur la vie diabtique.) Le complment de verbes de perception : Ce groupe de verbes exprime notamment le jugement du locuteur par rapport au contenu exprim dans le complment. Ex. : Les enfants prdiabtiques prsentent en effet une croissance plus rapide, que lon croyait lie des facteurs gntiques prdisposants[. . . ] 602.64 %2.15 % (Par exemple, pour les gens de plus de soixante ans, la moyenne (du coefcient uctuant de lintervalle du pouls) est 2.64 %, et (si quelquun a) moins de 2.15 %, (on) doute quil est diabtique.) Ordre : Lordre est aussi class dans la catgorie Irrealis. Quand le locuteur ordonne ou demande quelque chose son interlocuteur, lactivit nest pas encore ralise. Impratif de la premire personne plurielle : Givn distingue limpratif en trois groupes selon le destinataire de lnonc. Limpratif la premire personne du pluriel est diffrent de limpratif la premire personne du singulier, parce que le locuteur montre sa volont de participer lvnement quil nonce : Ex. : Allons manger cette galette. ! (Faites attention si vous devez contrler le sel !) Ordre pour la troisime personne : Quand le locuteur ordonne quelque chose son interlocuteur et que sa ralisation dpend dune troisime personne, le contenu de lordre est destin cette troisime personne. Ex. : Revenons donc aux malheureux engags leur insu sur la voie du diabte. (Faites manger (aux patients) un repas qui contient beaucoup de cellulose vgtale.) Question oui/non : Dans la question dont la rponse se forme par oui ou non, quand le locuteur montre sa connaissance par rapport au contenu de son propre nonc, cet nonc contient la nature irrelle. Ce genre
tel-00474405, version 1 - 20 Apr 2010
59
dnonc implique une certitude moindre de la connaissance du locuteur. Ex. : Obsit et diabte, mme combat ? ? (Un rgime alimentaire contrlant les calories est ncessaire, nest-ce pas ?) Proposition temporelle dIrrealis : Comme lnonc anglais when you get a loan, Ill sell you my car, cette catgorie propose une nature Irrealis dans lnonc o lvnement sera ralis quand la condition indique dans la subordonne est satisfaite. Conditionnel simple : Le conditionnel simple se forme, en franais, par si + prsent / prsent. Ex. : Si cet indice est suprieur ou gal 30, lindividu est considr comme obse. En japonais, le conditionnel simple se forme par le verbe pass + ra dans la subordonne / prsent. (Si (la maladie) fait des progrs, il sera ncessaire de suivre un traitement mdicamenteux.) Conditionnel (hypothse probable) : La probabilit de lhypothse se forme par la structure, en franais, si + prsent / futur. Ex. : Cela ne vous prendra pas plus de temps si vous marchez dun pas un peu plus rapide. En japonais, ladverbe moshi (possible omettre) + verbe + nara dans la subordonne prcde la proposition principale qui se forme par le verbe prsent ou futur : Ex. : (Mme si (vous) navez pas de symptmes subjectifs, si (vous) tes diagnostiqu comme diabtique, il faut immdiatement commencer le traitement, an dviter toute complication chronologique.) Conditionnel dirrel : Cette catgorie exprime un tat contraire la ralit. En franais, elle se forme par les structures diffrentes selon le temps : si + imparfait / conditionnel prsent. Exemple : Si javais connu plus tt lexistence de cette association, jaurais certainement bien mieux vcu. si + pass compos / pass compos ou prsent. Exemple : Contrlez votre glycmie au doigt avant et aprs votre activit physique de faon juger si ladaptation de votre alimentation a t sufsante, insufsante ou exagre. si + plus-que-parfait / conditionnel pass ou prsent. Exemple : Si javais connu lassociation cette poque et si javais t immdiatement pris en charge comme je lai t en 1996, jaurais appris que cette maladie tratresse vous conduit inexorablement de nombreuses complications. En japonais, lhypothse ou ltat contraire la ralit se forment par la combinaison de certaines terminaisons du verbe et de certaines conjonctions dans la subordonne. Les conjonctions utilises pour exprimer une situation irrelle sont tara, dara, reba, toshitemo, mo, to, nara qui correspondent gnralement aux terminaisons convenables : Ex. : , . (La vie, la vieillesse, la maladie et la mort sont les thmes ternels et invitables, quelque soit lenvironnement qui entoure ltre humain.) Auxiliaires modaux : Les auxiliaires modaux en franais tels que vouloir, pouvoir, devoir introduisent videmment la
tel-00474405, version 1 - 20 Apr 2010
60
nature irrelle. En les rajoutant, Givn prsente la dimension smantique, cest--dire les expressions qui fonctionnent comme les auxiliaires modaux tels que les verbes souhaiter, aimer. Ex. : Le patient diabtique doit l encore veiller respecter les recommandations et modrer ses apports en protine. En japonais, les expressions modales telles que ou (pouvoir), ou (pouvoir), ou (tre oblig de), ou (vouloir), ou ou (souhaiter) etc. Elles sont attaches linnitif du verbe qui les prcdent : Ex. : (Mme si (on) est diabtique, il faut que les glucides reprsentent au moins la moiti de lalimentation.)
3.5.3 Caractristiques lexicales

tel-00474405, version 1 - 20 Apr 2010
Nous avons vu dans la section 3.4.3.3 que le degr de spcialisation dun document se caractrisait aussi par le lexique utilis dans les documents. Nous prsentons dans cette section les critres nous paraissant discriminants dans la distinction des types de discours scientique et vulgaris. Vocabulaire spcialis : le vocabulaire scientique et technique est lune des caractristiques des langues de spcialit (Mortureux, 1995) (ex: triglycrides, lipotoxicit. . . ). Dans les documents scientiques il est extrmement frquent. Les documents vulgariss emploient aussi des termes spcialiss, mais ceux-ci sont gnralement uniquement introduits puis substitus par des synonymes ou des termes de la langue gnrale. Noms propres : gnralement des noms de personnes ou de lieux sont utiliss. Les auteurs des documents et de nombreuses citations bibliographiques sont indiqus par le nom dans les articles scientiques. Caractres numriques : trs souvent des quantits numriques dans un corpus mdical, des dates dans le cas de citations bibliographiques par exemple. Units de mesure : principales units de mesures, frquemment utilises dans les domaines scientiques (grammes, mtres, calories. . . ). Bibliographie : prsence dune bibliographie la n du document, souvent sous la forme dune liste de noms suivie dun titre, dune date, dun nom de journal ou de confrence. . . Les bibliographies sont le plus souvent prsentes dans les documents scientiques. Citations bibliographiques : rfrences des lments de la bibliographie dans le texte. Celles-ci sont sous diffrentes formes : (nom, date), [identiant]. . . Ces citations sont gnralement prsentes dans les documents scientiques. Ponctuation : utilisation des principaux symboles de ponctuation. Marqueurs de glose : la glose correspond lexplication dune ide par une autre dans un discours Steuckardt et Niklas-Salminen (2005). Ceci est souvent indiqu grce un ensemble de marqueurs, parmi lesquels on trouve savoir, autrement dit, cest--dire, par exemple, etc. Parenthses : les parenthses peuvent tre utilises dans diffrents buts. Elles peuvent servir dtailler une ide, donner un exemple, expliciter un acronyme. . . Autres alphabets (latin, hiragana, katakana) : diffrents alphabets utiliss dans des textes en langue japonaise. Lalphabet katakana permet dcrire en japonais les mots dorigine trangre, les onomatopes, ils permettent aussi de mettre des mots en vidence dans un texte. Lalphabet hiragana est
61
utilis an dcrire les mots japonais auxquels aucun kanji ne correspond, les mots pour lesquels lauteur ne connat pas lcriture en kanji ou dans le cas o lcriture en kanji est trop formelle. Les kanjis sont hrits des caractres chinois et permettent avec les deux autres alphabets dcrire lensemble des mots en japonais. Les caractres latins (romajis) sont utiliss assez rarement, ils permettent dcrire certains noms trangers et sont utiliss pour crire les formules mathmatiques. Symboles : caractres ne faisant pas partie des alphabets ni des principaux symboles de ponctuation (moticones, , ). Ces derniers sont rarement utiliss sur des articles scientiques, des rapports de recherche ou des documents institutionnels. Ils sont parfois introduits par des logiciels facilitant la cration de pages Web. Quelques symboles se trouvent dans les formules mathmatiques des articles scientiques.
3.6
tel-00474405, version 1 - 20 Apr 2010
Conclusion
Nous avons prsent dans ce chapitre une analyse stylistique de notre corpus dtude. Notre dmarche est dductive et contrastive : en partant de documents rpartis dans deux classes (scientique et vulgarise), ils sont analyss par couples (un de chaque classe) an de dterminer quels lments caractrisant chaque classe peuvent tre discriminants. Ces caractristiques relvent de trois niveaux : les caractristiques structurelles, correspondant aux lments graphiques et structurels des documents ; les caractristiques modales, correspondant aux lments relatifs la modalit dans les documents et les caractristiques lexicales. Nous avons choisi dutiliser deux thories de la modalit : la thorie Locutive de Charaudeau et la thorie Irrealis de Givon. Elles sont compares dans le chapitre 5. Cette typologie est donc compose de caractristiques du type de discours scientique ou vulgaris. Elle est de plus multilingue et motive linguistiquement : les niveaux danalyse et la slection rigoureuse des critres permettent rellement de caractriser un phnomne (plutt que de lister des critres potentiellement discriminants). Nous prsentons dans le chapitre suivant la mise en uvre de cette typologie, cest--dire limplmentation des diffrents critres. Cette mise en uvre nous permet dapprendre un modle de classication, mais aussi de tester la robustesse et la gnricit de notre typologie.
tel-00474405, version 1 - 20 Apr 2010
C HAPITRE
tel-00474405, version 1 - 20 Apr 2010
Classication automatique des documents franais et japonais selon leur type de discours
4.1 Introduction
La catgorisation des textes fait partie des activits cognitives spontanes des sujets. [. . . ] Sans lexistence de catgories, notre apprhension des noncs produits serait probablement impossible (Adam, 1992, p. 6). Toute collection de donnes textuelles doit, pour tre exploite par lhomme, tre ordonne (bibliothques, bases de donnes. . . ). La quantit sans cesse croissante de donnes textuelles lectroniques, notamment sur le Web, a engendr un gros besoin de classication et soulev le problme de la classication automatique. Les donnes tant trs nombreuses (et chaque instant plus nombreuses), la classication manuelle est devenue impossible. Il a alors t ncessaire de crer des systmes capables de produire une classication au sein de ces donnes permettant lhomme dy accder. Le domaine de la classication automatique est n de ces difcults. Nous cherchons dans ce chapitre adapter les mthodes de ce domaine la classication de documents du Web sur des domaines spcialiss en type de discours scientique ou vulgaris. La gure 4.1 prsente les diffrentes tapes ncessaires la mise en uvre de la typologie et son application aux mthodes de classication automatique. Les deux premires tapes sont manuelles. La premire tape consiste analyser le corpus dapprentissage an de crer une typologie adapte la classication souhaite. Il sagit, dans notre cas, danalyser les documents du corpus rpartis en deux classes : les documents scientiques et les documents vulgariss an den dgager des caractristiques propres ces deux classes. Ces caractristiques forment une typologie des discours scientiques et vulgariss dans les domaines de spcialit en franais et japonais (voir chapitre 4). Les systmes de classication automatique se basent gnralement sur une reprsentation vectorielle des documents, chaque lment des vecteurs correspondant un critre de la typologie. La reconnaissance de chacun des critres doit donc tre implmente, an de pouvoir construire ces vecteurs. Sebastiani (2005) nomme cette tape lindexation des documents, elle est en partie manuelle (implmentation de chacun des vecteurs) et automatique (application dun programme de cration du vecteur correspondant chaque document). Une fois les reprsentations vectorielles des documents ralises, les mthodes 63
64
CHAPITRE 4 Classication automatique des documents franais et japonais selon leur type de discours
tel-00474405, version 1 - 20 Apr 2010
Figure 4.1 Diffrentes tapes de la mise en uvre de la typologie dapprentissage automatique peuvent tre appliques. Nous prsentons dans la section 4.2 les diffrentes tapes de llaboration dun modle de classication : indexation, apprentissage, classication, valuation. Nous prsentons dans la section 4.3 lapplication de chacune de ces tapes notre problme et les algorithmes de classication choisis.
4.2
Mthodes de classication automatique de textes
Nous prsentons dans cette section un bref tat de lart des mthodes de classication automatique textuelle. Nous verrons dans un premier temps les principales tapes de llaboration dun classieur, puis nous dtaillons chacune de ces tapes.
4.2.1 Prsentation
Sebastiani (2002, 2005) propose des descriptions et tats de lart complets sur le classication automatique textuelle. Nous nous appuyons ici sur son travail et ses notations. Dnissons dans un premier temps une fonction de classication : Denition 1. Une fonction de classication est une fonction : D C {V, F }, avec C = {c1 , . . . c|C | } un ensemble de classes et D = {d1 , . . . d|D| } un ensemble de documents, telle que : V si di cj (di , cj ) = F sinon
65
Dans le cas o (di , cj ) = V , di est appel un exemple positif de la classe cj , sinon il est appel exemple ngatif. Nous nous plaons ici dans le cadre supervis, cest--dire que les classes sont prdnies. La classication automatique de textes peut donc tre dnie comme suit (Sebastiani, 2005, p. 111) : Denition 2 (Classication automatique). La classication automatique de textes est une tche dont le but est dapproximer une fonction de classication cible : D C {V, F } dtermine par un expert, : D C {V, F } appele classieur. en utilisant la fonction Sebastiani distingue les classieurs mono-catgorie (single-label) des classieurs multi-catgories (multi-label) : un classieur mono-catgorie est un classieur tel que di D, !cj C : (di , cj ) = V ; un classieur binaire (bi-catgories) est un cas particulier des classieurs label unique : C = {c} : di D, (di , c) = V ou (di , c ) = V ;
tel-00474405, version 1 - 20 Apr 2010
un classieur multi-catgories est un classieur tel que di D, Cdi = {cj : (di , cj ) = V }. Gnralement, les classes sont symboliques, aucune information sur leur signication nest disponible. La classication est alors base sur les informations extraites des documents. De plus, la tche de classication est subjective : deux experts, quils soient humains ou articiels ayant statuer sur lappartenance dun document une classe peuvent ne pas tre du mme avis. Les outils et recherches en apprentissage automatique ne prtendent pas fournir de compromis ces ambiguts, mais plutt de reproduire la classication dun expert parmi dautres (Sebastiani, 2005). Llaboration dun systme de classication automatique comporte trois grandes tapes (ibid.) : 1. Lindexation des documents (document indexing) : reprsentation vectorielle des documents utiliss pour apprendre le modle de classication ; 2. Lapprentissage du classieur (classier learning) : apprentissage du modle sur un corpus dapprentissage compos de documents pr-classs ; 3. Lvaluation du classieur (classier evaluation) : valuation du modle sur un corpus de test. Lensemble de ces tapes est repris sur la gure 4.2. Nous prsentons dans la suite de cette section chacune de ces tapes en dtails.
4.2.2 Indexation des documents

Les textes ne peuvent pas tre interprts directement par un classieur, il est donc ncessaire de lui fournir une reprsentation adapte des donnes. Lindexation des documents consiste convertir lensemble des documents dun corpus en une reprsentation compacte de leur contenu pouvant tre directement interprte par un algorithme dapprentissage automatique et par un classieur une fois construit. Les mthodes utilises pour extraire ces traits des documents sont hrites de la Recherche dInformation. Les documents des corpus sont gnralement reprsents sous la forme de vecteurs : di = w1i , . . . , w|T |i o T est lensemble des critres caractrisant les documents, et wji quantie la valeur du trait tj dans le document di . Une mthode dindexation est caractrise par : la dnition des critres ; la mthode pour implmenter ces critres.
66
tel-00474405, version 1 - 20 Apr 2010
Figure 4.2 tapes de llaboration dun classieur Le choix de la reprsentation des donnes, et donc des critres correspondant, dpend des units porteuses de sens des textes (lexical semantics problem) et des rgles propres la langue de combinaison de ces units (compositional semantics problem) (Sebastiani, 2002, p. 2). De nombreux travaux en apprentissage automatique ngligent ces aspects et se basent sur une reprsentation en sac de mots des textes.
67
tel-00474405, version 1 - 20 Apr 2010
Cest pourquoi la reprsentation vectorielle la plus frquente se base sur des vecteurs doccurrence des termes dans les textes (Sebastiani, 2005). Les critres utiliss peuvent tre les mots simples (hors mots outils) des textes, les lemmes, mais aussi des units plus longues telles que des n-grammes, des phrases ou des units plus complexes extraites grce des mthodes statistiques ou au shallow parsing. Quelques tudes comparatives ont t menes sur ces diffrentes approches (le corpus comme un sac de mots ou le corpus comme un ensemble de textes) avec des critres plus complexes. Lewis (1992) montre que dans certains cas, lutilisation de reprsentations plus complexes que les vecteurs de termes ntait pas forcment plus efcace. Selon elle, bien que les reprsentations bases sur les units complexes telles que les phrases soient plus riches smantiquement, elles sont de moindre qualit du point de vue statistique. Les phrases peuvent contenir plusieurs exions du mme mot ou des synonymes, qui ne seront pas lis et qui font baisser la probabilit pour une phrase dtre frquente. Selon Sebastiani (2002, p. 11), une combinaison des deux approches pourrait tre la meilleure solution, linstar de Tzeras et Hartmann (1993) qui amliorent leurs rsultats en utilisant les groupes nominaux, obtenus grce des critres statistiques et syntaxiques. Le poids calcul de ces critres peut tre binaire (wij {0, 1}) il signale alors la prsence ou labsence du critre ou rel (wij R) il correspond alors la frquence dapparition du critre par exemple. Les poids rels sont implments laide de mthodes statistiques ou probabilistes. Les calculs bass sur la frquence dapparition dun critre dans un document dpendent fortement de la longueur des documents. Il est donc souvent ncessaire de normaliser les poids. Deux hypothses sont trs utiles lors du calcul du poids des critres et sont issues de la mthode tf idf , trs utilise en classication automatique textuelle (Sebastiani, 2005) : plus un critre est frquent dans un document, plus il est important pour dcrire ce document (term frequence) ; plus un critre apparat dans les documents dun corpus, moins il est discriminant : sa contribution la caractrisation dun document ou dune classe sera moindre (inverse document frequency). Un nombre trop important de critres peut poser des problmes, notamment pour certains classieurs devenant plus lents ou moins efcaces avec trop de critres. Il est parfois ncessaire de rduire le nombre de ces critres, en slectionnant les plus pertinents.
4.2.3 Apprentissage du modle de classication

Un classieur est gnr automatiquement par un systme inductif (le systme dapprentissage). Linduction peut se dnir comme un type de raisonnement consistant remonter, par une suite doprations cognitives, de donnes particulires (faits, expriences, noncs) des propositions plus gnrales, de cas particuliers la loi qui les rgit, des effets la cause, des consquences au principe, de lexprience la thorie (TLFi). Ainsi, partir dun ensemble de documents pr-classs, le systme inductif apprend des rgles bases sur les critres des documents permettant de les classer. Le but tant de pouvoir reproduire le classement initial, et ainsi pouvoir classer tout nouveau document. Pour construire un classieur pour un ensemble de classes C , il est ncessaire de disposer dun corpus D compos de documents tel que (di , cj ) est connue (di , cj ) C D. Gnralement, les corpus D sont diviss en deux parties : le corpus dapprentissage, utilis pour gnrer le classieur, et le corpus de test, utilis pour valuer le classieur. Les travaux en classication textuelle exprimentale ajoutent parfois une troisime partie : le corpus de validation, utilis pour rgler le classieur une fois celui-ci gnr (Sebastiani, 2005). Deux types de systmes dapprentissage peuvent tre distingus : : D C {V, F } ; les mthodes gnrant des classieurs valeurs binaires :
68
les mthodes gnrant des classieurs valeurs relles, CVS (Categorization Statue Value) : CV S : D C [0, 1]. Les mthodes gnrant des classieurs valeurs relles peuvent tre utilises lorsque la qualit de la classication est importante, les classieurs fournissent alors un degr dappartenance une classe. Sinon, il est ncessaire de dterminer un seuil i permettant de passer dune valeur relle reprsentant le degr dappartenance dun document une classe ci une valeur binaire.
4.2.4 valuation du systme de classication

Sebastiani (2005) cite trois mesures de qualit dun classieur : les performances dapprentissage (training efciency) : temps moyen de cration dun classieur ; les performances de classication (classication efciency) : temps moyen de classication dun document ; lefcacit (effectiveness) : pourcentage de rsultats corrects. En classication textuelle, lefcacit est la mesure la plus utilise. Pour les classieur label unique, lefcacit est mesure grce lexactitude (accuracy), pourcentage de classications correctes. Dans le cas de la classication binaire, la mesure de lexactitude nest pas adapte. En effet, il arrive souvent quune classe soit plus importante quune autre. Un classieur mettant tous les documents dans cette classe obtiendrait alors un bon rsultat. Un couple de mesures est utilis dans ce cas : la prcision (i ) et le rappel (i ) : di , cj ) = V |(di , cj ) = V ) i = P (( di , cj ) = V ) i = P ((di , cj ) = V |( La prcision reprsente donc la probabilit que la classication dans cj dun document pris au hasard soit correcte, tandis que le rappel reprsente la probabilit quun document appartenant la classe cj y soit rellement class. La prcision et le rappel dun classieur peuvent donc tre calculs en faisant la moyenne des i et i sur lensemble des catgories. Ces probabilits peuvent tre estimes grce une table de contingence pour ci sur un corpus de test donn (Sebastiani, 2002, p. 33). Cette table de contingence est prsente dans le tableau 4.1. F Pi correspond au nombre de documents classs par erreur dans ci , F Ni correspond au nombre de documents appartenant ci mais ny tant pas classs, etc. Les estimations de la prcision et du rappel pour ci sont alors : T Pi T Pi i = , i = T Pi + F Pi T Pi + F N i Catgorie ci Jugement du OUI classieur NON Jugement de lexpert OUI NON T Pi F Pi F Ni T Ni
tel-00474405, version 1 - 20 Apr 2010
Table 4.1 Table de contingence pour une classe ci (Sebastiani, 2002) Pour calculer la prcision et le rappel globaux, Sebastiani (2002) propose deux mthodes. La premire, appele micro-moyenne (microaveraging), consiste faire la somme des rsultats obtenus dans le tableau 4.1, ce qui donne le tableau 4.2.
69
Ensemble de catgories C = {c1 , . . . , c|C| Jugement du classieur OUI NON TP = FN =
Jugement de lexpert OUI NON

|C| i=1 T Pi |C| i=1 F Ni
FP = TN =
|C| i=1 F Pi |C| i=1 T Ni
Table 4.2 Table de contingence globale (Sebastiani, 2002) partir de cette table, la prcision et le rappel sobtiennent de la mme faon que prcdemment, cest--dire : TP TP , = TP + FP TP + FN est utilis pour indiquer quil sagit de microaveraging. La seconde mthode, dite de macro-moyenne (macroaveraging), consiste valuer la prcision et le rappel pour chaque classe, et den faire une moyenne : = , = |C| |C| M est utilis pour indiquer quil sagit de macroaveraging. Il existe dautres mesures, que nous ne dtaillerons pas ici puisquelles sont assez peu utilises, plus de dtails sont disponibles dans Sebastiani (2002, p. 33-34).
M
tel-00474405, version 1 - 20 Apr 2010
|C| i i=1
|C| i i=1
4.2.5 Synthse
Le domaine de la classication automatique est trs vaste : tout type de document peut tre class, selon nimporte quelle catgorie. Nous nous sommes ici restreints la classication textuelle. Bien que travaillant sur des documents issus du Web, ils sont de par leur contenu similaires de simples textes. Nous avons vu dans cette partie le fonctionnement global de llaboration dun systme de classication automatique de textes. Celle-ci se compose de trois principales tapes : lindexation des documents, lapprentissage du classieur et lvaluation du classieur. Nous prsentons dans la section suivante ladaptation de chacune de ces tapes notre problme : la classication automatique de documents issus du Web en langues franaise et japonaise, dans des domaines de spcialits, selon leur type de discours, scientique ou vulgaris.
4.3
laboration dun systme de classication des types de discours scientique et vulgaris sur des documents franais et japonais
Nous prsentons dans cette section llaboration dun systme de classication automatique de documents spcialiss issus du Web en franais et japonais selon leur type de discours : scientique ou vulgaris. Nous dtaillons la mise en place de chacune des tapes prsentes prcdemment : lindexation des documents (section 4.3.1), le choix des mthodes dapprentissage (section 4.3.2), la cration des classieurs (section 4.3.3).
70
4.3.1 Indexation des documents

Nous avons vu dans la section 4.2.2 quun systme dapprentissage se base sur une reprsentation compacte et vectorielle des documents. Les documents sont alors dcrits de la faon suivante : di = (w1i , . . . , w|T |i ) o T correspond un ensemble de critres caractrisant les documents, et chaque wij au poids associ chacun de ces critres. Il est donc ncessaire de savoir comment dcrire les documents, en fonction de la classication souhaite. Avant toute chose, xons la terminologie que nous employons dans cette partie. Nous distinguons trois notions dans la description des documents : les critres, dnition thorique dun des lments caractrisant les documents ; les marqueurs, dnition oprationnelle dun critre, cest--dire moyen de mise en uvre de ce critre ; les poids des critres, valeur numrique pour chaque critre, calcule sur la base des marqueurs. Comme nous lavons vu dans la section 4.2.2, nombreux sont les travaux en classication textuelle se basant uniquement sur une reprsentation en sac de mots des documents, o chaque lment des vecteurs correspond la frquence pondre dun terme du texte. Dans cette reprsentation, un critre correspond lun des termes du texte, le(s) marqueur(s) associ(s) peu(ven)t alors tre sa forme lemmatise, ses diffrentes formes chies ou un ensemble de synonymes. Le poids de ce critre correspond par exemple au nombre doccurrences de ses marqueurs dans le texte. Nous souhaitons cependant viter la reprsentation en sac de mots , partant du principe que le texte est lunit fondamentale de notre corpus, et que le discours, contrairement la thmatique qui peut tre caractrise lexicalement, sancre diffrents niveaux dans un texte. Nous nous basons donc ici sur les critres dnis dans notre typologie (voir chapitre 3). Cette typologie est compose de trois niveaux danalyse : structurel : concernant les caractristiques propres au contexte de cration du document, ainsi que ses caractristiques graphiques ; modal : concernant les caractristiques relatives la modalisation dans les documents ; lexical : concernant le vocabulaire et les caractristiques lexicales des documents. Lewis (1992) afrme que les reprsentations des vecteurs de termes se basant sur lunit mot des textes est la plus efcace. Cependant, Tzeras et Hartmann (1993) amliorent leurs rsultats en accompagnant les termes de marqueurs plus complexes, bass sur les groupes nominaux. An de trouver un compromis entre une reprsentation structure des documents et une reprsentation laide de marqueurs simples, nous avons donn la priorit une analyse en surface des documents, laide de patrons lexicaux et lexico-syntaxiques. Ces marqueurs se basent sur les documents dans leur forme originale, ainsi quune version texte brute et une version enrichie, tiquete et lemmatise. Ltape la plus importante pour lindexation des documents consiste dterminer, pour chacun des critres de la typologie, le marqueur correspondant. La premire contrainte de ce travail porte sur la nature des critres et a donc t travaille en amont de la phase dindexation. Il sagit de dterminer quels sont les critres opratoires. La notion doprabilit est assez complexe. Dnissons une condition minimale : un critre est opratoire sil existe des marqueurs lui correspondant. Ainsi, loprabilit dpend fortement de la complexit de limplmentation des marqueurs. Puisque nous privilgions ici une analyse en surface des documents, nous souhaitons avoir des marqueurs dont la reconnaissance a une complexit linaire.
tel-00474405, version 1 - 20 Apr 2010
71
Le choix de cette complexit linaire pour nos marqueurs peut toutefois introduire deux phnomnes : Le bruit, apparaissant lorsque des occurrences dtectes grce aux marqueurs ne correspondent pas au critre recherch. Dans ce cas, les marqueurs sont souvent trop gnraux ce qui permet de dtecter tous les critres en introduisant dans les rsultats des faux exemples, ce qui correspond une forte prcision mais un faible rappel ; Le silence, apparaissant lorsque certaines occurrences recherches ne sont pas dtectes. Des marqueurs trop prcis peuvent causer le silence, cela correspond une faible prcision et un fort rappel. An de minimiser chacun de ces deux phnomnes, il est ncessaire de trouver un compromis entre des critres trs prcis permettant de ne pas introduire de bruit et des critres trs gnraux an dviter le silence. Pour cela, nous cherchons crer des listes exhaustives de marqueurs relativement simples. Nous tudions cependant le bruit et le silence introduits par certains critres dans le chapitre 5. Nous prsentons dans les parties suivantes les marqueurs pour chacune des catgories de critres.
tel-00474405, version 1 - 20 Apr 2010
4.3.1.1
Critres structurels
Les critres structurels dcrivent principalement les caractristiques non linguistiques des documents. Celles-ci portent principalement sur la structure des documents (mise en page, typographie, images, etc.), ainsi que certains aspects relatifs leur mise en ligne sur le Web (patron dURL, format, etc.). Selon le format des documents traits, toutes les informations ne sont pas disponibles. Elles le sont pour les documents au format HTML, majoritaires sur le Web. Par contre, pour les chiers PDF, aucune information sur la structure nest disponible (pas de structuration en paragraphes, pas dhyperliens, etc. dans leur version au format texte). Nous recherchons nanmoins la prsence de mta-informations dans les chiers PDF (contenant gnralement lauteur, le logiciel crateur, la date de cration. . . ). Critres Patron dURL Marqueurs Franais Japonais http://www.univ-***.fr http://www.chu-***.fr ... Nb. de mots dans le texte Nb. de caractres dans le texte Extension du chier Utilisation de balises <META> Utilisation de balises <TITLE> Utilisation de tableaux sans bordures, feuilles de style CSS Images ou couleurs de fond Nombre de balises <IMG> Nombre de liens, balises <A HREF> Nombre de balises <P> Nombre de listes ditems, balises <UL> et <LI> Nombre de symboles de ponctuation de n de phrase Nombre de balises <B>, <I>
Longueur des documents Format des documents Mta-informations Titre de la page Mise en page Fond de page Images Liens Paragraphes Listes ditems Nombre de phrases Typographie
Table 4.3 Marqueurs des caractristiques structurelles
72
Les marqueurs relatifs la structure des documents HTML correspondent tous des balises. Quant aux informations sur le format et lURL, nous nous basons sur des patrons lexicaux. La longueur des documents est value grce au nombre de mots et caractres dans les textes pour le franais et le japonais (respectivement). Ce critre nous apporte des informations pour la classication, et nous permet aussi de normaliser les documents (cf. section 4.3.1.4). Lensemble des marqueurs pour chacun des critres structurels est prsent dans le tableau 4.3. Tous ces marqueurs se basent sur les documents dans leur format original, ainsi que sur les mta-informations de chaque chier.
4.3.1.2
Critres modaux
tel-00474405, version 1 - 20 Apr 2010
Nous avons prsent dans le chapitre prcdent les caractristiques modales de notre typologie. Nous y proposions deux modalits : la modalit locutive de Charaudeau (1992), base sur les liens entre le locuteur, son interlocuteur, son propos, et le contexte dans lequel il se trouve et la modalit Irrealis de Givn (1994), base sur la ralisation des actions nonces. Dans les deux ouvrages de rfrence, la thorie est prsente et illustre sur la langue gnrale. Nous avons donc, dans un premier temps, slectionn les critres pouvant sadapter aux langues de spcialit. Dans un second temps, nous avons, pour chaque critre et pour chaque langue, trouv un ensemble de marqueurs adapts1 . Nous nous sommes pour cela aids du corpus dapprentissage, ayant dj servi lanalyse stylistique. Pour dterminer lensemble des marqueurs, nous nous sommes bass sur les documents du corpus dans leur format texte, ainsi que dans leur format enrichi, cest--dire tiquet et lemmatis. Notre objectif tant de trouver des marqueurs simples, bass sur des patrons lexicaux et lexico-syntaxiques, nous avons privilgi pour chaque critre une analyse simple, en supercie. La modalit locutive Nous comptons trois catgories de critres dans cette thorie de la modalit (cf. chapitre 3). Les modes dorganisation du discours sont prsents dans le tableau 4.5. Dans cette catgorie se trouvent les critres permettant dorganiser, darticuler son discours. Pour certains critres, les marqueurs sont trs simples, comme pour la ponctuation ou les citations. Dautres par contre demandent quelques recherches, notamment les connecteurs pragmatiques. Nous nous sommes alors bass sur Ducrot (1980) pour trouver les principaux connecteurs. Les marqueurs de la modalit allocutive et locutive sont prsents dans le tableau 4.4. Certains de ces marqueurs se basent sur des mots cls, comme linterpellation, tandis que dautres se basent sur des patrons lexico-syntaxiques, faisant appel aux tiquettes grammaticales. Par exemple, lorsque les marqueurs sont des verbes, il faut sassurer du sujet de la phrase (je et nous pour la modalit locutive, tu et vous pour la modalit allocutive). La langue japonaise nutilisant pas ou peu de pronoms, il a fallu adapter ce travail. Cest grce lutilisation de particules en n de verbes, au mode de conjugaison ainsi quaux marqueurs de politesse que nous dtectons la prsence du locuteur et de linterlocuteur. La modalit Irrealis La modalit Irrealis, bien que ne se servant pas des pronoms, se base beaucoup sur les catgories grammaticales et les temps des verbes. Ainsi, nous utilisons les documents en texte ainsi quen format enrichi pour implmenter les marqueurs. Labsence de pronoms dans cette thorie simplie la tche pour la langue japonaise. Givn (1994) ayant cr sa thorie sur la langue anglaise, nous avons d effectuer une double adaptation : au franais et au japonais. Les marqueurs franais sont
1
Ce travail a t effectu en collaboration et a donn lieu deux publications (Guriot et al., 2007, 2008).
73
Critres Modalit allocutive Pronoms personnels Injonction Autorisation Avertissement Jugement
Marqueurs franais Tu, vous Verbes 2me pers impratif ordonner (sujet 1re pers + complment) 2me pers) Verbe pouvoir (2me pers) permettre de, autoriser (sujet 1re pers + complment 2me pers) Attention, verbes avertir, prvenir, informer (sujet 1re pers + complment 2me pers) Bravo, heureusement, malheureusement, malencontreusement Flicitations fliciter, reprocher, applaudir approuver, accuser, condamner (2me pers.) Conseiller, recommander, inviter, proposer, suggrer, solliciter(sujet 1re pers + complment 2me pers) Madame, monsieur, docteur, mademoiselle Vouloir, demander, prier (sujet 1re pers + complment 2me pers) Je, nous, on
Marqueurs japonais , , , , , ,
tel-00474405, version 1 - 20 Apr 2010
Suggestion
, , , , , S, , , , , , , , , , , , , , , , , , , , , , , , , ,
Interpellation Requte Modalit locutive Pronoms personnels
Constat Savoir
Remarquer, apercevoir, constater, dcouvrir, noter, observer, voir (1re pers) Savoir, connatre, ignorer (1re pers)
Opinion Volont Dclaration
Obligation Interdiction
Penser, paratre, sembler, estimer (1re pers) Vouloir, souhaiter, avoir envie (1re pers) Avouer, confesser, reconnatre, rvler, dvoiler, afrmer, prtendre, conrmer, attester, certier (1re pers) Verbe devoir (1re pers), oblig, obligatoirement Interdire, dfendre (1re pers)
..., ..., , , ,
Table 4.4 Marqueurs des caractristiques modales (thorie de Charaudeau)
74
Critres Citations Types de phrases Dclarative Interrogative Exclamative Connecteurs pragmatiques
Marqueurs franais . . . , . . . , . . .
Marqueurs japonais <. . . >,. . . , . . . , . . . , . . . .. ?? !! , , , , , , , , . . . , , , , , , ,
., . . . ? ! alors, car, comme, dailleurs, donc, enn, mais, puisque, sinon. . .
Fins de phrases
tel-00474405, version 1 - 20 Apr 2010
Table 4.5 Marqueurs des modes dorganisation du discours essentiellement des verbes ou leur conjugaison (ex. : temps futur, ordre. . . ), et les marqueurs japonais se basent eux-aussi sur les verbes et les particules. Lensemble de ces marqueurs est prsent dans les tableaux 4.6 et 4.7. Critres Temps futur Adverbes modaux Marqueurs franais Verbes au futur et formes tre en passe de, sur le point de Probablement, peut-tre, certainement, peu prs, possiblement, assurment, selon toute apparence, ventuellement, srement, vraisemblablement, nullement, aucunement, pas du tout, point, rien, apparemment, sans doute, presque Prfrer, suggrer, esprer, demander, permettre, risquer, prier, souhaiter, commander Croire, trouver, penser, souponner, suggrer, esprer, souhaiter Impratif, forme faire + INF Voulez-vous, pouvez-vous, etc. Est-ce . . . ? Faut-il . . . ? Conditionnel Pouvoir, vouloir, devoir, aller, paratre, sembler
Complments de verbes de manipulation de perception Discours non-dclaratif ordre requte questions oui-non propositions temporelles adverbes modaux
Table 4.6 Marqueurs des caractristiques modales du franais (thorie Irrealis)
4.3.1.3
Critres lexicaux
La catgorie lexicale de la typologie contient un ensemble de critres assez htrognes. En effet, souhaitant que notre typologie soit adaptable tout domaine de spcialit et ventuellement extensible dautres langues, ces critres rassemblent des lments pouvant paratre trs diffrents les uns des autres. Lobjectif est nalement de couvrir le plus de manifestations possibles de spcialisation dans un document. Par exemple, la prsence dune bibliographie et de citations bibliographiques dans un texte est un indice assez fort sur son genre (article de recherche par exemple), qui donne ainsi une ide du
75
Critres Temps futur Adverbes modaux
Marqueurs japonais , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Particules en n de mot : , , , , , , , Impratif du verbe + , , ,,, Innitif du verbe + , , ,,, Innitif du verbe + +, , , , , , , , , , , , , Forme tiquetes : e, yo, i, ro, -, te-forme du verbe + te-forme du verbe + te-forme du verbe +, forme ngative pour demander plus poliment, ou montrer la colre (te-forme du verbe + te-forme du verbe + te-forme du verbe +) , , en n de phrase
tel-00474405, version 1 - 20 Apr 2010
Complments de verbes modaux
de manipulation
de perception Discours non-dclaratif ordre requte
exhortation jussive questions oui-non propositions temporelles
Table 4.7 Marqueurs des caractristiques modales du japonais (thorie Irrealis)
76
type de discours auquel cela peut rfrer. linstar de Namer et Baud (2007), nous nous basons sur les racines grco-latines des termes an de dterminer leur spcicit. Nous partons donc de lhypothse quun document spcialis fait plus appel aux termes forms de racines grco-latines. Nous cherchons donc dans les textes les mots ayant des afxes et sufxes couramment utiliss, que nous avons collect dans (Bchade, 1992). Les marqueurs correspondant aux critres tels que les caractres numriques, la ponctuation, les parenthses, etc. ne sont que de simples collectes de toutes leurs expressions en franais et en japonais. Les marqueurs de glose ont t collects dans (Steuckardt et Niklas-Salminen, 2005). Lemploi dautres alphabets est trs peu utilis en franais, mais beaucoup en japonais : utilisation de deux alphabets pour crire en japonais, un alphabet pour les noms trangers et parfois lalphabet latin pour certaines expressions trangres. Les marqueurs des critres lexicaux sont prsents dans le tableau 4.8. Critres Vocabulaire spcialis Caractres numriques Marqueurs franais nano-, semi-, post-, inter-. . . -gramme, -ique, -isme, -algie. . . 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 Marqueurs japonais ,
tel-00474405, version 1 - 20 Apr 2010
Units de mesure
Bibliographie Citations bibliographiques Ponctuation Marqueurs de glose
Parenthses Autres alphabets Symboles
0, 1, 2, 3, 4, 5, 6, 7, 8, 9 , , , , , , , , , , , , , mtre, gramme, degr, calorie, , , , leurs composs et abrviations leurs composs et abrviations bibliographie , rfrences , (nom, AAAA), (nom, AA), [AA] ? , .; :! ... , . . . . ?? !! par exemple, exemple, ainsi, , , , cependant, comme, en revanche, entre autres, notamment, par contre, . . . (. . . ), -. . . (. . . ), (. . . ), . . . , [. . . ], {. . . } hiragana, katakana, latin caractres non-alphanumriques : moticones, ,
Table 4.8 Marqueurs des caractristiques lexicales
4.3.1.4
Finalisation de lindexation
Une fois lensemble des marqueurs dtermin, la phase dindexation se droule de la faon suivante : pour chaque document un vecteur est calcul. La forme de ces vecteurs peut varier quelques dtails prs selon le classieur utilis, nous voquons ce problme dans la section suivante. La cration des vecteurs pour chacun des documents est prsente dans lalgorithme 1. Cet algorithme est appliqu lensemble des documents du corpus. Sils font partie du corpus dapprentissage, nous indiquons dans le vecteur son type de discours pour que lalgorithme dapprentissage utilise cette information. Les poids de chaque critre sont normaliss. Pour cela, nous utilisons la lon-
77
tel-00474405, version 1 - 20 Apr 2010
Algorithme 1 : Construction de vecteur di Entre : Indice i du document di Sortie : Vecteur di dbut // Initialisation t m do i OuvrirOriginal(i) ; di OuvrirM eta(i) ; di OuvrirT exte(i) ; de i OuvrirEtiquette(i) ; di 0 ; li LongueurDocument(dt i) ; // Construction du vecteur si di CorpusApprentissage alors di [0] T ypeDiscours(di ) ; sinon di [0] 0 ; pour tous les j [1 . . . | T |] faire suivant Critre j faire cas o j Critres Structurels si j Mta-informations alors di [j ] CalculeP oids(j, dm i ); sinon di [j ] CalculeP oids(j, do i); cas o j Critres Modaux si j tiquettes-lemmes alors di [j ] CalculeP oids(j, de i); sinon di [j ] CalculeP oids(j, dt i) ; cas o j Critres Lexicaux si j tiquettes-lemmes alors di [j ] CalculeP oids(j, de i); sinon di [j ] CalculeP oids(j, dt i) ; // Normalisation du vecteur pour k allant de 1 NbCritres faire d i [k ] n
di [k] li
retourner di ;
78
gueur du document dans sa version texte. Nos critres tant peu nombreux et rigoureusement slectionns, nous navons pas eu besoin dappliquer de mthode de dimensionality reduction.
4.3.2 Choix des mthodes dapprentissage

partir dune indexation de documents, de nombreux algorithmes peuvent apprendre un modle. Parmi les plus connus, citons les rseaux de neurones, les classications de Bayes, les machines vecteurs de support, etc. Sebastiani (2002) a men une tude comparative sur ces systmes. Il teste dans cette tude diffrents systmes de classication automatique se basant sur des corpus composs de dpches Reuters, en faisant varier la quantit de documents, de documents dapprentissage et de catgories. Il semble dans cette tude que, pour un nombre de classes limites, les meilleures techniques soient les machines vecteur de support ainsi que les arbres de dcision (Sebastiani, 2002, p. 38). Nous cherchons ici produire un classieur binaire partir de reprsentations vectorielles de documents bases sur une quarantaine de critres. Nous prsentons dans les sections suivantes les deux algorithmes choisis, les systmes utiliss et les choix effectus pour lvaluation de ces classieurs.
tel-00474405, version 1 - 20 Apr 2010
4.3.2.1
Machines vecteurs de support
Figure 4.3 Le cas le plus simple : dans un espace bidimensionnel, une droite spare les deux ensembles dexemples Le modle des machines vecteurs de support2 a t introduit par Vapnik (1998) et a t appliqu la classication textuelle par Joachims (2002). Cette mthode se base sur une reprsentation de chaque lment classer sous la forme dun point dans un espace multidimensionnel. Chaque critre correspond une dimension ; chaque lment est donc reprsent par les poids de chacun de ses critres. Le principe gnral de cette mthode est de chercher, dans un espace multidimensionnel, un hyperplan H , combinaison des i T = {1 , . . . , | T | }, tel que i spare les exemples positifs des exemples ngatifs. Tous nos exemples reprsenteront des cas deux dimensions, par simplication. La gure 4.3 prsente le cas le plus simple, o une droite spare les exemples positifs (en blanc), des exemples ngatifs (en noir).
2
Support vector machines , traduit par Cornujols et Miclet (2002).
79
tel-00474405, version 1 - 20 Apr 2010
Figure 4.4 Cette mthode cherche trouver lhyperplan sparant lespace des donnes en deux en ayant une marge maximale Cet espace i doit de plus prsenter une marge la plus grande possible, cest--dire permettant les translations les plus grandes de i . La gure 4.4 prsente un cas simple despace bidimensionnel. Les deux droites traces sparent lespace en deux, mais seule celle note i a des marges maximales. Les vecteurs les plus proches de lhyperplan, dterminant ainsi la taille de la marge, sont appels vecteurs de support(Joachims, 2002, p. 37). Dans un cas non-linaire, lalgorithme ajoute une dimension lespace vectoriel, gnrant ainsi un espace de re-description de plus grande dimension dans lequel il va chercher retomber sur un cadre linaire. Cette technique est aborde plus en dtail dans Joachims (2002). Nous utilisons le systme SVMlight3 , dvelopp par Thorsten Joachims en 2002.
4.3.2.2
Arbres de dcision
La thorie des arbres de dcision est base sur la thorie de Breiman labore en 1984. Cette thorie se dmarque des classieurs probabilistes et fait partie des algorithmes qualis de symboliques. Dans le cadre de la classication textuelle, un arbre de dcision est compos de nuds, reprsentant des critres de classication, de branches reprsentant des conditions sur les poids des critres et de feuilles reprsentant les classes. Le parcours dune branche correspond ainsi une combinaison de poids de critres que la reprsentation vectorielle dun document doit contenir pour appartenir la classe correspondant la feuille. Le tableau 4.9 dcrit un exemple prsent par Quinlan (1993), permettant de dcider, en fonction des conditions mtorologiques si un jeu est possible ou pas. Un arbre correspondant cet exemple est prsent dans la gure 4.5. Cette mthode dapprentissage se base sur une dcomposition dun problme de classication en une suite de tests (imbriqus) portant sur un critre ou une combinaison linaire de plusieurs critres, an de crer des rgles de classication sous forme darbres. Lobjectif nal tant de crer une squence hirarchique de tests, aussi courte que possible, divisant successivement lensemble des donnes dapprentis3
http://svmlight.joachims.org/
80
tel-00474405, version 1 - 20 Apr 2010
Numro 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Ensoleillement soleil soleil soleil soleil soleil couvert couvert couvert couvert pluie pluie pluie pluie pluie
Temprature (F) 75 80 85 72 69 72 83 64 81 71 65 75 68 70
Humidit (%) 70 90 85 95 70 90 78 65 75 80 70 80 80 96
Vent oui oui non non non oui non oui non oui oui non non non
Jouer oui non non non oui oui oui oui oui non non oui oui oui
Table 4.9 Exemple de Quinlan (1993)
Figure 4.5 Exemple darbre de dcision sage en sous-ensembles disjoints. Sebastiani (2002) dcrit lune des mthodes permettant de gnrer un arbre de dcision pour une classe ci , base sur une stratgie divide and conquer : (i) Si tous les vecteurs dapprentissage appartiennent la mme classe ci ou c i alors larbre ne contient quune feuille ; (ii) Sinon slectionner un critre ck partitionnant lespace des vecteurs dapprentissage en espaces ayant la mme valeur pour ck (segmentation). ck devient alors un nud et les deux espaces correspondent aux sous-arbres. (iii) Ritrer ltape (ii) sur les sous-arbres jusqu avoir class tous les exemples du corpus dapprentissage ; (iv) laguer larbre si ncessaire. Les points cls de cette mthode sont : le choix du critre ck et llagage de larbre (suppression des branches qui ne sont pas ncessaires, quitte ajouter quelques erreurs). Le choix du critre ck seffectue grce des mesures de gain ou dentropie (ex. : 2 , entropie de Shannon, etc.), an de slectionner
81
chaque tape le critre le plus discriminant possible. Llagage de larbre permet de pallier le problme de sur-apprentissage. En effet, les arbres de dcision tendent tre trs complexes en collant le plus possible aux donnes. La dtermination de la taille de larbre est alors essentielle pour diminuer la complexit des arbres gnrs (Breiman et al., 1984). Deux mthodes permettent de rduire la taille des arbres : le pr- et le post-lagage. Le pr-lagage consiste xer un critre permettant de stopper la construction de larbre. Ce critre darrt peut par exemple valuer lapport informationnel de la segmentation initie. Le postlagage consiste rduire la taille de larbre une fois celui-ci construit, en estimant par exemple le taux derreur introduit par llagage dune branche. Lensemble de ces techniques est abord plus en dtail dans Breiman et al. (1984); Quinlan (1993). Nous utilisons le systme C4.54 , dvelopp par Quinlan (1993).
4.3.3 Cration des classieurs et protocole dvaluation

tel-00474405, version 1 - 20 Apr 2010
4.3.3.1 Indexation des documents
Nous avons prsent dans la section 4.3.1.4 la phase dindexation, crant pour chaque document sa reprsentation vectorielle. Les systmes C4.5 et SVMlight ncessitent un format particulier, prsent dans le tableau 4.10. Le format requis pour le systme SVMlight ncessite : dindiquer en dbut de vecteur la classe laquelle appartient le document, prcder chaque poids de lindice correspondant au critre. Le dernier lment du vecteur est facultatif, nous avons choisi dy indiquer le numro de chier. Si certains critres ont un poids nul ou que leur calcul nest pas pertinent, il suft de les omettre. Le format requis pour le systme C4.5 ncessite : dindiquer en n de vecteur la classe laquelle appartient le document, donner les poids de chaque critre (0 si non pertinent), spars par des virgules. Document dapprentissage scientique di Document dapprentissage vulgaris dj Document dvaluation dk Document dapprentissage scientique di Document dapprentissage vulgaris dj Document dvaluation dk +1 1 : w1i 2 : w2i . . . n : wni #nomchier 1 1 : w1j 2 : w2j . . . , n : wnj #nomchier 0 1 : w1k 2 : w2k . . . n : wnk #nomchier w1i , w2i , . . . wni , S w1j , w2j , . . . , wnj , V w1k , w2k , . . . , wnk , S ou V
SVMlight
C4.5
Table 4.10 Formats dindexation pour SVMlight et C4.5 Exemple : Le document correspondant au vecteur suivant : sera reprsent par la chane Fichier lename Classe SC Critre 1 0.556 Critre 2 0.7 Critre 3 21 Critre 4 2.8
+1 1 : 0.556 2 : 0.7 3 : 21 4 : 2.8#f ilename pour SVMlight et 0.556, 0.7, 21, 2.8, S
4
http://www.rulequest.com/Personal/c4.5r8.tar.gz
82
pour C4.5. Pour ces deux systmes, les vecteurs doivent tre stocks dans des chiers : un chier pour le corpus dapprentissage, un pour le corpus de test. Le systme C4.5 a de plus besoin dun chier de description, dans lequel les critres sont succinctement dcrits. Le chier doit dbuter par les diffrentes classes apprendre : Scientifique, Vulgaris Puis doit suivre la description des critres, o seule la nature (continu ou discret) de chaque critre est ncessaire, par exemple : format-fichier : html, pdf, ps compte-images : continuous Une fois les chiers de description des vecteurs dnis, ils peuvent tre utiliss an dapprendre les classieurs et les tester.
tel-00474405, version 1 - 20 Apr 2010
4.3.3.2
Application des systmes dapprentissage
Deux systmes dapprentissage sont utiliss : SVMlight et C4.5. Ne disposant au dpart que dun corpus, le corpus [DIAB_CP], nous avons dcid dutiliser la mthode dite par validation croise (Nfold cross validation) (Cornujols et Miclet, 2002, p. 113). Cette mthode consiste : 1. Partitionner le corpus en N sous-corpus de tailles gales ; 2. Retenir le ieme sous-corpus, apprendre le classieur sur les N 1 autres sous-corpus ; 3. valuer le classieur avec le ieme sous corpus ; 4. Ritrer les tapes 2 et 3 avec i allant de 1 N . Nous choisissons N = 5. Les rsultats sont alors prsents sous la forme de moyenne sur les cinq classieurs et le meilleur classieur (meilleurs rappel et prcision) est slectionn pour la phase dvaluation. Pour apprendre un classieur avec SVMlight, il faut utiliser la commande : ./svm_learn [options] chier-apprentissage svm-classieur Les options de la commande svm_learn sont nombreuses, elles permettent de paramtrer le classieur. Joachims (2002) a mis en place un rglage de ces paramtres par dfaut permettant de nombreux cas de fonctionner sans paramtrage. Cependant, il arrive que les classieurs, si les classes sont de taille ingale, classent tous les documents dans la classe la plus importante en taille. Ce problme peut tre rgl en paramtrant loption j. Cette option permet de faire varier le cot des erreurs lors de lapprentissage. Plus de dtails sur ces options sont disponibles dans (Joachims, 2002, p. 197). Le chier svm-classieur correspond au classieur cr, qui peut tre par la suite test en utilisant la commande : ./svm_classify [options] chier-test svm-classieur chier-resultat Le systme C4.5 permet dapprendre un classieur (et gnrer un arbre de dcision) grce la commande : c4.5 -f le-id Loption -f permet de spcier un identiant de chier file-id, auquel doivent correspondre : le chier de description des critres, file-id.names, le chier dapprentissage file-id.data. partir de ces chiers sont gnrs : file-id.unpruned larbre de dcision non-lagu et file-id.tree larbre de dcision lagu. Loption -u permet de fournir un chier de test file-id.test.
83
4.3.3.3
valuation des classieurs
Nous choisissons dvaluer nos classieurs laide des mtriques de rappel et de prcision (voir section 4.2.4). Nous souhaitons valuer nos classieurs sous diffrents angles. Dans un premier temps, an de mettre en uvre la mthode par validation croise, chaque sous-corpus doit tre test avec le classieur correspondant. Dans un second temps, nous souhaitons mettre lpreuve notre systme de classication en le soumettant un corpus portant sur une autre thmatique. Enn, nous souhaitons utiliser ces systmes de classication an de mesurer la pertinence de chacune de nos catgories de critres. Le chapitre 5 porte sur la phase dvaluation, les rsultats de la classication et leur analyse.
4.4
tel-00474405, version 1 - 20 Apr 2010
Conclusion
Nous avons prsent dans la premire partie de ce chapitre la mthode dlaboration dun systme de classication automatique. Celle-ci se droule en trois tapes : lindexation des documents, lapprentissage du classieur et lvaluation du classieur. Lindexation des documents consiste gnrer pour chaque document une reprsentation vectorielle, chaque lment des vecteurs correspondant la valeur dun critre. Ces critres peuvent tre des frquences de termes, de patrons lexico-syntaxiques. . . Ces reprsentations vectorielles sont ensuite utilises an quun systme dapprentissage automatique apprenne reproduire la classication souhaite partir des valeurs des critres. Enn, le classieur gnr est valu laide de documents nayant pas servi lapprentissage. La seconde partie de ce chapitre est consacre la mise en uvre de cette mthode aux classes scientiques et vulgarises de domaines spcialiss. Dans un premier temps nous avons prsent la cration des reprsentations vectorielles des documents de notre corpus dapprentissage ([DIAB_CP]) laide des critres de la typologie prsente dans le chapitre 3. Ces vecteurs sont ensuite utiliss an dapprendre les modles de classication laide des systmes SVMlight (machines vecteurs de support) et C4.5 (arbres de dcision). Les rsultats obtenus par ces classieurs sont prsents dans le chapitre 5.
tel-00474405, version 1 - 20 Apr 2010
C HAPITRE
Rsultats et valuation de la classication

5.1
tel-00474405, version 1 - 20 Apr 2010
Introduction
Nous prsentons dans ce chapitre lvaluation des classieurs dont llaboration a t dcrite dans le chapitre 4. Nous souhaitons les valuer dun point de vue technique : rsultats obtenus par chaque classieurs, mais aussi valuer quelle inuence ont les critres de la typologie sur la classication. Leur apprentissage a t effectu sur le corpus dapprentissage [DIAB_CP], portant sur le diabte et lalimentation. Nous les valuons sur un second corpus, appel [BC_CP] et portant sur le cancer du sein (dcrit dans la section 5.2). Les rsultats de cette valuation gurent dans la section 5.3. Dans un second temps nous testons la pertinence de chacune des catgories de critres de la typologie dans la section 5.4, ce qui nous permet damliorer nos classieurs en ne conservant que les catgories de critres les plus discriminantes. Nous analysons ensuite plus en dtails les classieurs obtenus et linuence des critres sur la classication (section 5.5). An de prouver lefcacit de notre classication, nous la comparons une mthode classique de catgorisation textuelle : la mthode par vecteurs de termes (section 5.6. Nous terminons ce chapitre par une discussion sur laspect binaire de la distinction des types de discours scientique et vulgaris, dans laquelle nous montrons quil existe un continuum entre ces deux classes (section 5.7).
5.2
Corpus dvaluation
Dans le chapitre 2, nous prsentions le corpus dtude ayant tout dabord servi mettre en application les tudes menes sur la construction des corpus comparables. Dans un second temps, ce corpus a t utilis an de mener bien une analyse stylistique, permettant de crer une typologie des discours scientiques et vulgariss dans des documents issus du domaine mdical, en franais et japonais. partir de ce corpus et de cette typologie, des classieurs ont pu tre gnrs laide des systmes SVMlight et C4.5. Ce corpus dtude, utilis comme corpus dapprentissage, va nous permettre de tester une premire fois les classieurs gnrs. Il est compos de documents issus du Web, traitant de la thmatique diabte et alimentation . Notre objectif tant dintgrer un classieur un systme dassistance la construction de corpus comparables, ce classieur doit tre sufsamment robuste pour classer correctement des documents spcialiss issus de diffrentes thmatiques. Nous avons alors construit un corpus comparable dvaluation en franais et japonais portant sur une nouvelle thmatique. Nous prsentons dans cette section les diffrentes tapes de la construction de ce corpus : dlimitation du cadre, slection et collecte des donnes, normalisation, annotations. Nous prsentons pour nir les caractristiques du corpus ainsi constitu. 85
86
CHAPITRE 5 Rsultats et valuation de la classication

Nous cherchons, comme pour le corpus [DIAB_CP], collecter des documents scientiques et vulgariss. Le choix de la thmatique de ce corpus dvaluation a t fait en fonction des thmatiques pour lesquelles de nombreux textes sont publis. Nous restons dans le domaine mdical et cherchons donc une thmatique sur laquelle il existe un grand nombre de publications scientiques et vulgarises. Nous avons choisi le thme du cancer du sein , les travaux dans cette thmatique nous semblant trs actifs, que ce soit en France ou au Japon. Des publications scientiques telles que des articles de recherche, rapports, note aux praticiens. . . sont accessibles directement sur le Web ou via certains portails mdicaux et scientiques, ainsi que des brochures lusage des patientes. Comme pour le corpus [DIAB_CP], nous situons la comparabilit deux niveaux : le thme cancer du sein et le type de discours, scientique ou vulgaris. Nous nous xons une taille limite dune centaine de documents par langue.
tel-00474405, version 1 - 20 Apr 2010
5.2.2 Slection et collecte des donnes

Nous souhaitions nous limiter aux portails mdicaux pour construire notre corpus. En effet, ces sites garantissent une certaine qualit des documents (qualit ditoriale et garantie du contenu pertinent des documents) et en rassemblent de grandes quantits. Cette solution est donc plus rapide. Pour tendre les mots cls, nous nous sommes principalement bass sur la mthode consistant utiliser des mots smantiquement lis collects lors de la recherche de documents. Nous utilisons les mmes critres de classication que dans le chapitre 2 : un document scientique est rdig par des spcialistes destination de spcialistes ; en ce qui concerne la vulgarisation scientique, nous distinguons deux degrs de vulgarisation : les textes crits par le grand public destination de tous, et les textes crits par des spcialistes destination du grand public . Cependant, nous disposons, en utilisant les portails, dinformations complmentaires permettant de faciliter la classication. La gure 5.1 montre quel type dinformations le portail CISMeF fournit sur chaque document lors de recherches. Le champ rsum nous permet de vrier que le document correspond notre thmatique. la n de ce rsum est souvent indiqu le pays dorigine de lauteur du document. Cette information nous permet de ltrer les documents crits par des auteurs franais (et donc non traduits). Le champ site diteur permet de plus de vrier que le document nest pas issu dune organisation internationale (auquel cas il est trs probable quil soit une traduction). Le champs Type renseigne souvent le genre du document, nous utilisons ce champ ainsi que le contenu du document an de dterminer son type de discours. Par exemple, un document dont le type est brochure information patient sera class comme vulgaris. Un document dont le type est information scientique et technique sera class come scientique. Pour les types tels que article de priodique, nous consultons le contenu an de dterminer le type de discours. Nous navons collect que les documents aux formats PDF et HTML, en utilisant loutil wget.
5.2.3 Normalisation, annotation et documentation

Les documents slectionns sont convertis en format texte, transorms en encodage UTF-8 et nettoys si ncessaire (an de ne conserver que le texte). Nous annotons ensuite le corpus avec des tiquettes morpho-syntaxiques. Cela est ralis en franais avec les logiciels Brill (Brill, 1994) et Flemm (Namer,
87
tel-00474405, version 1 - 20 Apr 2010
Figure 5.1 Exemples de description de documents sur CISMeF 2000), en japonais avec le logiciel Chasen (Matsumoto et al., 1999). Pour chacun des textes slectionns, nous conservons : la source du texte : son URL (champ fileDesc dans la TEI) ; la mthode de recherche utilise : moteur de recherche et mots cls par exemple (champ fileDesc dans la TEI) ; la date de tlchargement du document (champ profileDesc dans la TEI) ; la langue du document (champ profileDesc dans la TEI).
5.2.4 Caractristiques du corpus

Le tableau 5.1 prsente les principales caractristiques du corpus ainsi constitu, que nous appellons [BC_CP] : le nombre de documents et le nombre de mots dans chacune des langues et pour chaque type de discours (SC = scientique, VU = vulgaris). Franais SC VU 50 42 443 741 71 980 Japonais SC VU 48 51 211 122 123 277
Nb. documents Nb. mots
Table 5.1 Caractristiques du corpus [BC_CP] Ce corpus rassemble plus de 800 000 mots dans deux langues. Il contient moins de documents que le corpus [DIAB_CP], ce qui ne pose pas de problme puisquil est seulement utilis pour lvaluation des classieurs. Les corpus comparables tels que nous les construisons nont pas vocation tre trs
88
volumineux. Le systme dindexation prsent dans le chapitre prcdent, permettant dobtenir la reprsentation vectorielle dun corpus pour quun classieur puisse interprter les donnes, a t appliqu ce corpus.
5.3
Rsultats de la classication
Nous prsentons dans cette section les rsultats des classieurs crs. Ces classieurs sont crs partir des reprsentations vectorielles des documents utilisant la totalit des critres de la typologie prsente dans le chapitre 3. Ces classieurs seront tests dans un premier temps sur le corpus dapprentissage [DIAB_CP] puis sur le corpus dvaluation [BC_CP]. Le premier corpus nous permet de valider les classieurs, tandis que le second nous permet dvaluer la robustesse de nos classieurs (et donc de la typologie) sur une autre thmatique. Les mtriques utilises sont le rappel et la prcision.
tel-00474405, version 1 - 20 Apr 2010
Corpus [DIAB_CP]
Systme SVMlight
Classe SC VU MOY SC VU MOY SC VU MOY SC VU MOY
C4.5
[BC_CP]
SVMlight
C4.5
Franais Prc. Rapp. 0.92 0.65 0.73 0.95 0.83 0.80 0.88 0.97 0.96 0.78 0.92 0.86 0.90 0.57 0.66 0.93 0.78 0.75 0.67 0.91 0.83 0.49 0.75 0.70
Japonais Prc. Rapp. 0.77 0.58 0.87 0.95 0.82 0.77 0.50 0.39 0.30 0.42 0.40 0.41 0.74 0.47 0.65 0.86 0.70 0.67 0.35 0.58 0.05 0.02 0.20 0.30
Table 5.2 Prcision et rappel pour chaque langage et chaque classieur sur les deux corpus Le tableau 5.2 prsente les rsultats de la classication pour chaque corpus, chaque classe, chaque langue et chaque systme de classication. Nous avons utilis la mthode dite par validation croise (cf. chapitre 4 section 4.3.3.2). Les rsultats sur le corpus [DIAB_CP] prsents dans ce tableau sont la moyenne des 5 tests. Les rsultats sur le corpus dvaluation ont t obtenus en slectionnant le meilleur des 5 classieurs obtenus. En premier lieu, nous remarquons que les rsultats obtenus avec le corpus dvaluation sont plus faibles que ceux obtenus avec le corpus dapprentissage, denviron 5 10 points. Cela semble assez logique : les documents ayant servi lapprentissage (appartenant au corpus [DIAB_CP]) sont mieux classs que les documents inconnus du classieur (appartenant au corpus [BC_CP]). Nous constatons ensuite que SVMlight donne de meilleurs rsultats en moyenne quelle que soit la langue et le corpus : les rsultats sont doubls pour le japonais et ils sont lgrement suprieurs sur le corpus [BC_CP]. De plus, les rsultats pour le franais sont gnralement suprieurs aux rsultats obtenus sur la langue japonaise. Avec le classieur SVMlight, ceux-ci sont lgrement plus faibles, tandis quavec C4.5 une baisse considrable est observe (de 92 % de prcision 40 % sur le corpus [DIAB_CP]). Cette baisse peut tre due aux critres de la typologie. En effet, les deux classieurs
89
tel-00474405, version 1 - 20 Apr 2010
nont pas la mme tolrance face aux critres peu discriminants : si ceux-ci naltrent pas lapprentissage avec SVMlight, ils apportent beaucoup de bruit avec C4.5 et peuvent gner lapprentissage. Avec SVMlight, le rappel de la classe scientique et la prcision de la classe vulgarise ont tendance tre plus levs. Sur le corpus [BC_CP], la prcision pour la classe scientique est de 90 % et le rappel pour la classe vulgarise est de 93 % par exemple. Ce phnomne apparat lorsque beaucoup de documents sont classs dans la classe vulgarise. Cette tendance est inverse avec C4.5. Ces tendances peuvent sexpliquer par la proportion dsquilibre de documents scientiques et vulgariss dans le corpus dapprentissage (cf table 2.1 dans le chapitre 2). Pour terminer, nous jugeons certains de ces rsultats satisfaisants : nous obtenons plus de 70 % de documents correctement classs pour le franais quel que soit le classieur. Avec SVMlight, les rsultats sont relativement bons pour la langue japonaise avec en moyenne 70 % de prcision et 67 % de rappel sur le corpus dvaluation. Nanmoins, les rsultats obtenus avec C4.5 sur la langue japonaise sont trs insufsants : 40 % de prcision et 41 % de rappel sur le corpus dapprentissage, et 20 % de prcision et 30 % de rappel sur le corpus dvaluation. Ces rsultats particulirement faibles nous amnent nous poser des questions sur lefcacit de certains critres de la typologie. Nous avons vu que C4.5 tait sensible aux critres peu discriminants, qui posent problme lors de lapprentissage du modle. Nous examinons dans la section suivante chacune des catgories de critres an de dterminer leur pertinence et ainsi crer une nouvelle typologie plus efcace.
5.4
tude des catgories de critres de la typologie
Nous avons vu dans le chapitre 3 les diffrentes catgories de critres dtermines suite lanalyse stylistique sur le corpus [DIAB_CP]. Notre typologie est compose de quatre catgories, correspondant diffrents niveaux danalyse des documents. Ces catgories sont les suivantes : critres structurels, critres modaux (thorie de Charaudeau et thorie Irrealis) et critres lexicaux. Nous avons prsent dans le chapitre 4 les marqueurs associs chacun de ces critres. Nous allons dans cette partie analyser ces diffrentes catgories, en crant diffrents classieurs grce au corpus [DIAB_CP] que nous testons ensuite sur le corpus [BC_CP].
5.4.1 Pertinence de chaque catgorie de critres

Quatre expriences ont t ralises dans un premier temps, nous prsentons celles-ci dans le tableau 5.3. Exprience 1 2 3 4 Critres structurels Critres modaux (Charaudeau) (Givon) Critres lexicaux
Table 5.3 Quatre expriences menes an de tester la pertinence de chaque catgorie de critres Le tableau 5.4 prsente les rsultats de la classication pour chaque catgorie de critres, cest-dire les expriences 1 4. Pour cela, nous avons gnr pour chaque document quatre reprsentations vectorielles : une par catgorie de critres. De nouveaux classieurs ont donc t appris pour chacune
90
de ces catgories en suivant la mthode de validation croise sur le corpus [DIAB_CP] laide des deux systmes de classication SVMlight et C4.5.
Systme SVMlight Exprience 1 2 3 4 1 2 3 4 Catgorie de critres Critres structurels Critres modaux : - Charaudeau - Givon Critres lexicaux Critres structurels Critres modaux : - Charaudeau - Givon Critres lexicaux Franais Prc. Rapp. 0.90 0.67 0.60 0.78 0.91 0.85 0.89 0.66 0.85 0.50 0.76 0.75 0.85 0.91 0.65 0.85 Japonais Prc. Rapp. 0.59 0.71 0.50 0.23 0.58 0.41 0.39 0.15 0.47 0.49 0.23 0.53 0.44 0.44 0.21 0.45
C4.5
tel-00474405, version 1 - 20 Apr 2010
Table 5.4 Rsultats pour chaque catgorie de critres sur le corpus [BC_CP] Quels que soient les classieurs et les langues, les critres permettant dobtenir les meilleurs rsultats sont les critres structurels et lexicaux. Par exemple, ils permettent datteindre une prcision de plus de 90 % en franais avec le systme SVMlight. Par contre, les critres modaux donnent en moyenne de moins bons rsultats : entre 60 % et 78 % en franais pour SVMlight. Les critres structurels et lexicaux sont trs efcaces en franais, avec les deux classieurs mais relativement moins bons pour le japonais bien quils soient les meilleurs pour cette langue. Avec C4.5, 85 % des documents scientiques franais sont correctement classs en utilisant les critres structurels ou lexicaux seuls, tandis que pour le japonais, seulement 41 % ou 47 % le sont. Les critres modaux de Charaudeau permettent dobtenir des rsultats similaires ceux des critres structurels et lexicaux en utilisant C4.5. Par contre, les rsultats obtenus en utilisant les critres modaux de Givon sont moins bons avec ce classieur. Avec SVMlight, les rsultats sont plus contrasts : avec les critres de Givon, les rsultats sont meilleurs pour le franais (78 % et 76 % de prcision et rappel contre 60 % et 50 %) ; tandis que pour le japonais, ce sont les critres de Charaudeau qui permettent datteindre les meilleurs rsultats (50 % et 49 % de prcision et rappel contre 23 % et 23 %). Ces rsultats nous permettent de faire lhypothse que les critres structurels et lexicaux sont les plus pertinents, pour les deux langues et les deux classieurs. Nous souhaitons tester la combinaison de ces deux catgories, ainsi que mesurer lapport des caractristiques modales cette combinaison.
5.4.2 valuation de combinaisons de critres

Dans cette section, nous prsentons quatre nouvelles expriences. Dans la premire, nous testons lefcacit de la combinaison critres structurels - critres lexicaux. Cette exprience servira de base aux deux expriences suivantes, visant tester limpact des catgories modales sur la combinaison des critres lexicaux et structurels.
91
Exprience 5 6 7 8
Critres structurels
Critres modaux (Charaudeau) (Givon)
Critres lexicaux
Table 5.5 Huit exprience menes an de tester la pertinence de chaque catgories de critres
5.4.2.1
Rsultats de lexprience 5
tel-00474405, version 1 - 20 Apr 2010
Dans cette exprience nous testons la typologie sans aucun critre modal (uniquement les critres structurels et lexicaux). Celle-ci nous sert de base pour ltude de linuence de chacune des modalits dans la performance des classieurs gnrs. Les rsultats sont prsents dans le tableau 5.6. Les rsultats obtenus sont assez proches de ceux obtenus pour les critres seuls, mises part quelques baisses sur le rappel pour les documents japonais, qui peuvent sexpliquer par la diffrence du nombre doccurrences entre la partie scientique et la partie vulgarise dans le sous-corpus japonais. Systme SVMlight C4.5 Classe SC VU SC VU Franais Prc. Rapp. 0.90 0.57 0.66 0.93 0.61 0.91 0.78 0.34 Japonais Prc. Rapp 0.71 0.47 0.63 0.84 0.95 0.49 0.69 0.98
Table 5.6 Rsultats obtenus pour lexprience 5 : critres modaux + critres lexicaux Nous pouvons remarquer que dans lensemble les rsultats de la combinaison des critres structurels et lexicaux sont meilleurs.
5.4.2.2
Expriences 6, 7 et 8
Lexprience 8 correspond la typologie complte, celle dont nous prsentions les rsultats en section 5.3. Dans les expriences 6 et 7, nous ajoutons la base prsente dans lexprience 5 (critres structurels et lexicaux) alternativement les deux ensembles de critres modaux correspondant aux thories Locutive de Charaudeau et Irrealis de Givon. Le but de cette exprience est de conrmer les observations sur les expriences 2 et 3 sur les catgories de critres et leur pertinence en les insrant dans une typologie compose de deux ensembles de critres qui savrent efcaces. Nous cherchons connatre quelle thorie est la plus pertinente dans notre contexte (deux langues, documents issus du Web sur des thmatiques spcialises, deux classes). Pour les documents en franais, le systme SVMlight donne des rsultats identiques ceux de lexprience 5. Les critres modaux sont donc neutres dans ce contexte. Le systme C4.5 apporte quant lui des amliorations notables en utilisant les critres modaux de Charaudeau, quils soient seuls (exprience 6) ou combins avec ceux de Givon (exprience 8). Cest dans lexprience 6 quils sont les meilleurs.
92
Systme SVMlight
Exprience 6 7 8
Classe SC VU SC VU SC VU SC VU SC VU SC VU
C4.5
6 7 8
tel-00474405, version 1 - 20 Apr 2010
Franais Prc. Rapp. 0.90 0.57 0.66 0.93 0.90 0.57 0.66 0.93 0.90 0.57 0.66 0.93 0.68 0.91 0.84 0.51 0.60 0.91 0.76 0.32 0.67 0.91 0.83 0.49
Japonais Prc Rapp 0.71 0.47 0.63 0.84 0.71 0.47 0.63 0.84 0.74 0.47 0.65 0.86 0.95 0.49 0.69 0.98 0.33 0.56 0.05 0.02 0.35 0.58 0.05 0.02
Table 5.7 Rsultats obtenus pour les expriences 6 et 7 : critres structurels et lexicaux + critres modaux de Charaudeau ou Irrealis Pour les documents en japonais, SVMlight donne des rsultats identiques, sauf pour lexprience 8 dans laquelle la prcision passe de 71 % et 63 % 74 % et 65 % (ce qui reprsente un document de plus correctement class). Cette trs faible amlioration nous amne penser que les critres modaux sont neutres avec ce systme. Lutilisation des critres modaux de Givon dgrade trs fortement les rsultats, quils soient seuls (exprience 7) ou combins avec les critres de Charaudeau (exprience 8). Ces derniers permettent en revanche dobtenir des rsultats identiques lexprience 5. Les critres de la thorie de Charaudeau permettent donc damliorer les rsultats pour le franais et dobtenir des rsultats stables pour les documents en japonais. Par contre, les critres de Givon font baisser considrablement les rsultats pour le japonais, quils soient seuls ou combins avec les critres de Charaudeau. La combinaison de lexprience 6 : critres structurels, lexicaux et modaux de Charaudeau semble tre la meilleure pour les deux langues et les deux classieurs (aucune baisse des rsultats et amlioration de certains).
5.5
tude des classieurs, pertinence des critres
Dans cette section nous tudions la pertinence des critres de la typologie. Nous cherchons savoir quels sont les critres les plus discriminants, pour quel type de discours et quelle langue.
5.5.1 Arbres de dcision

La gure 5.2 reprsente un arbre de dcision obtenu en apprenant le classieur sur la partie franaise du corpus [DIAB_CP] et la gure 5.3 un arbre obtenu sur la partie japonaise du corpus. Les valeurs notes sur les arbres correspondent des quantits normalises, ce qui explique quelles paraissent faibles. Quelques branches de larbre de dcision pour la partie franaise se distinguent. Tout dabord, la racine de larbre correspond au nombre de phrases du document. Si le nombre de phrases normalis est suprieur 48, larbre classe correctement 40 % des documents scientiques. Pour un nombre de
93
phrases normalis infrieur 48, si le document contient une bibliographie et des connecteurs logiques, larbre classe environ 15 % des documents scientiques correctement. Sans bibliographie, les documents nayant aucun patron dURL connu, ayant des balises paragraphe et aucune marque de la modalit de la dclaration reprsentent 79 % des documents vulgariss. Enn, si les documents dcrits ci-dessus ne font pas appel aux balises paragraphe et ne comptent aucun marqueur de la modalit dobligation, larbre dtecte un peu moins de 20 % des documents scientiques.
tel-00474405, version 1 - 20 Apr 2010
Figure 5.2 Arbre obtenu avec la dernire typologie choisie pour la langue franaise Dans larbre japonais, nous notons de la mme faon quelques branches nous paraissant les plus efcaces. Un document contenant un nombre normalis de parenthses infrieur 201 et un nombre de balises paragraphe <P> infrieur 0.044, le classieur classe correctement 60 % des documents vulgariss. Si le nombre normalis de parenthses est suprieur 201 et le nombre de caractres infrieur 7206, larbre classe correctement 66 % des documents vulgariss. Pour 13 % des documents vulgariss, le nombre de parenthses normalis est compris entre 201 et 212, le nombre de caractres suprieur
94
7206 et les marqueurs dinterrogation et de volont sont infrieurs 0.089 et 0.004. 34 % des documents vulgariss ont les caractristiques suivantes : plus de 201 parenthses, un nombre de caractres suprieur 7206, plus de 0.089 marqueurs de linterrogation et pas de bibliographie.
tel-00474405, version 1 - 20 Apr 2010
Figure 5.3 Arbre obtenu avec la dernire typologie choisie pour la langue japonaise
5.5.2 Illustration sur quelques documents du corpus

Nous souhaitons dans cette section illustrer la prsence de critres dans deux documents extraits de notre corpus [BC_CP]. Nous avons pour cela choisi dextraire quelques paragraphes des deux documents obtenant avec SVM les scores minimaux et maximaux. Sur la gure 5.4 se trouve un extrait de texte scientique sur lequel nous avons surlign et color certains critres lexicaux et modaux. Ce document est un rapport au gouvernement sur ltat des campagnes et des technologies de dpistage du cancer du sein en
95
France. Ce document contient donc, comme nous pouvons le constater sur la gure, de nombreuses rfrences bibliographiques. Les seuls caractres numriques prsents dans cet extrait sont des dates, mais dautres passages dans ce document contiennent diffrentes quantits numriques. Le discours sarticule autour de quelques connecteurs logiques. Nous notons de plus lemploi de nombreux termes utilisant des racines grco-latines. Enn, nous trouvons un marqueur de la modalit locutive du constat, ce qui parat logique pour un document scientique : lauteur ne sadresse pas directement au lecteur mais sexprime rgulirement la premire personne du singulier ou du pluriel.
tel-00474405, version 1 - 20 Apr 2010
Figure 5.4 Exemples de critres pertinents tiquets sur un extrait de chier scientique du corpus
96
Le deuxime document prsent sur la gure 5.5 est extrait dune brochure dinformation destine aux patientes faisant un dpistage du cancer du sein. Nous observons tout dabord plus de pronoms personnels dans ce documents dans le premier : des pronoms personnels allocutifs ( vous ) et des locutifs ( nous , on ). Ici, le locuteur sadresse directement au lecteur. Nous notons un peu moins de racines grco-latines dans cet extrait. Cette brochure se prsente sous la forme de questions-rponses, nous notons donc des phrases interrogatives, comportant des pronoms interrogatifs ainsi que des symboles de ponctuation interrogative.
tel-00474405, version 1 - 20 Apr 2010
Figure 5.5 Exemples de critres pertinents tiquets sur un extrait de chier vulgaris du corpus
5.5.3 Analyse de lvolution de quelques critres

Nous tudions dans cette section lvolution de quelques critres discriminants selon le score attribu chaque document par SVM. Pour cela, nous avons observ les valeurs des diffrents critres sur lensemble du corpus et navons conserv que quelques uns des critres prsentant une volution que nous jugions intressante. Les valeurs de chacun des critres prsents dans les sections suivantes sont les valeurs normalises. Chaque graphique gurant dans les sections suivantes reprsente lvolution des valeurs dun critre selon le score SVM attribu aux documents correspondants. Ces schmas permettent de se rendre compte de la difcult de la tche de classication. Rares sont les critres permettant de
97
trancher. Gnralement, leur volution est assez oue, ou nest discriminante que sur un sous-ensemble dune classe.
5.5.3.1
Critres franais
Le graphique 5.6 reprsente la proportion de balises IMG et P dans le corpus, permettant dinsrer dans un document HTML des images et des paragraphes (respectivement). Notons que les deux courbes voluent de faon sensiblement quivalente selon le score des documents. Les documents classs comme vulgariss (au score ngatif) semblent contenir plus de ces balises que les documents classs comme scientiques. Cela peut sexpliquer par la proportion de chiers PDF, plus importante dans la partie scientique du corpus que dans la partie vulgarise.
tel-00474405, version 1 - 20 Apr 2010
Figure 5.6 Proportion de balises IMG et P en fonction du score des documents Le graphique 5.7 reprsente la proportion de pronoms personnels allocutifs et locutifs dans le corpus. Les documents utilisant des pronoms obtiennent en majorit un score ngatif. Les pronoms locutifs semblent tre moins utiliss que les pronoms allocutifs (sauf pour un document). Quelle que soit le type de pronom personnel, si un document class comme scientique en utilise, leur quantit sera en moyenne infrieure celle des documents classs comme vulgariss. Le graphique 5.8 prsente la proportion de racines grco-latines dans les documents en fonction de leur score SVM. Cette courbe peut se dcomposer en trois parties. Les documents dont le score est infrieur 0.7 environ contiennent globalement moins de racines grco-latines. Entre 0.7 et 0 se trouvent les documents contenant le plus de racines, avec des pics 200 et 300 (valeurs normalises). Au dessus de 0, les valeurs sont constantes et lgrement suprieures la premire partie de la courbe. Il parat logique que les documents les plus scientiques contiennent plus de racines grco-latines que les autres. Cette courbe ne contredit pas forcment cette hypothse, elle signie juste que les document les plus scientiques selon SVM ne correspondent pas aux valeurs maximales. Le graphique 5.9 reprsente lvolution de la proportion de caractres numriques dans les documents du corpus. Nous constatons tout dabord que la quantit de caractres numriques est trs faible pour les documents obtenant les scores minimaux. Une forte hausse du nombre de caractres numriques apparat entre -0.5 et 0. Cette brusque augmentation correspond en ralit deux documents
98
tel-00474405, version 1 - 20 Apr 2010
Figure 5.7 Proportion de pronoms en fonction du score des documents
Figure 5.8 Proportion de racines grco-latines en fonction du score des documents classs comme vulgariss pour lesquels la proportion est largement suprieure. Ces documents peuvent simplement contenir des tableaux avec beaucoup de quantits numriques par exemple. Le graphique 5.10 montre lvolution de la prsence de marqueurs des modalits dopinion, de dclaration et dobligation dans les documents du corpus. Nous notons tout dabord que la quantit de marqueurs de ces modalits est assez faible en gnral (sauf pour quelques documents dont les scores se situent entre -0.6 et 0). Globalement, la quantit de marqueurs de lobligation semble tre lgrement suprieure aux autres marqueurs, nous remarquons toutefois que lvolution des trois modalits semble corrle. De plus, les marqueurs de ces modalits sont lis lutilisation des pronoms personnels allocutifs ou locutifs, leurs volutions sont corrles entre elles, ainsi quavec la courbe des pronoms (graphique 5.7).
5.5.3.2
Critres japonais
Le graphique 5.11 prsente la proportion de citations bibliographiques dans les documents en fonction de leur score SVM. Bien que la proportion soit globalement trs faible, nous remarquons que les seuls
99
Figure 5.9 Proportion de caractres numriques en fonction du score des documents
tel-00474405, version 1 - 20 Apr 2010
Figure 5.10 Proportion de marqueurs des modalits dopinion, de dclaration et dobligation en fonction du score des documents documents dans lesquels des citations bibliographiques ont t dtectes sont classs comme scientiques, ce qui parat assez logique. Ce critre parat donc fortement discriminant pour dterminer un sous-ensemble des documents scientiques. Le graphique 5.12 illustre lvolution du nombre normalis de parenthses en fonction du score des documents. Cette courbe est trs irrgulire, mais nous observons globalement une baisse de lintervalle (valeur minimale, valeur maximale). De plus, les documents ayant un score suprieur 0.6 ont la proportion de parenthses la plus basse. linverse, nous remarquons sur le graphique 5.13 que lutilisation de particules neutres ou polies en n de phrase semble tre caractristique des documents vulgariss. En effet, seuls quelques documents scientiques utilisent des ns de phrases neutres. Les ns de phrases polies semblent tre lgrement plus frquentes en moyenne pour les documents classs comme vulgariss et elles ne sont jamais utiliss dans les documents scientiques.
100
tel-00474405, version 1 - 20 Apr 2010
Figure 5.11 Proportion de citations bibliographiques en fonction du score des documents
Figure 5.12 Proportion de parenthses en fonction du score des documents La courbe 5.14 prsente la proportion de phrases narratives, interrogatives et exclamatives dans le corpus. Nous constatons tout dabord que les phrases narratives sont beaucoup plus frquentes que les phrases interrogatives. Les phrases exclamatives quant elles sont quasiment inexistantes. Nanmoins les quelques occurrences de phrases exclamatives (peu visibles sur le graphique) sont, quelques exceptions prs, dans des documents classs comme vulgariss. Les courbes des deux autres types de phrases sont assez peu discriminantes. Bien quayant chacune une lgre tendance crotre ou dcrotre, les carts entre deux documents ayant quasiment le mme score sont trop levs pour pouvoir conclure. La gure 5.15 prsente la proportion de marqueurs identiant les pronoms dans les documents du corpus. Ces marqueurs sont peu frquents dans les deux cas bien que quelques documents utilisent plus de pronoms allocutifs. Les documents classs comme scientiques utilisent peu de pronoms locutifs, seuls ceux obtenant un score proche de zro en utilisent. Sur la courbe 5.16 est prsente lutilisation de balises IMG et P dans les documents japonais. Ces
101
tel-00474405, version 1 - 20 Apr 2010
Figure 5.13 Proportion de ns de phrase polies et neutres en fonction du score des documents
Figure 5.14 Proportion de phrases narratives, interrogatives et exclamatives en fonction du score des documents critres ntant pas prsents dans les documents PDF, les courbes ont des formes assez crantes. La proportion de ces balises semble plus faible dans les documents scientiques, ce qui peut sexpliquer par la proportion de documents PDF dans la partie scientique du corpus.
5.5.4 tude du bruit et du silence gnrs par les critres sur quelques exemples
Dans cette section, nous tudions sur quelques exemples les notions de bruit et de silence prsentes dans la section 4.3.1 du chapitre 4. Le bruit apparat lorsque de mauvais exemples se trouvent dans les occurrences des critres. Le silence apparat lorsque certains exemples ne gurent pas dans les occurrences. Le bruit peut tre introduit pour diverses raisons :
102
tel-00474405, version 1 - 20 Apr 2010
Figure 5.15 Proportion de pronoms en fonction du score des documents
Figure 5.16 Proportion de balises IMG et P en fonction du score des documents polysmie des marqueurs. Exemple : le verbe pouvoir la 2me personne doit indiquer la modalit de lautorisation, cela nest pas le cas dans la phrase Pouvez-vous nous parler des problmes de vision associs au diabte ? ; ambigut des tiquettes du logiciel Flemm. Par exemple, quand la conjugaison est la mme pour le prsent de lindicatif et pour limpratif, les deux tiquettes sont prsentes ( il est conseill de bien choisir les graisses que vous consommez / Consommez-le en quantit contrle et rgulire ). Le silence peut tre constat lorsque la liste des marqueurs pour un critre ne couvre pas toutes les occurrences possibles. Cest le cas lorsque certaines occurrences sont implicites par exemple ou correspondent des phnomnes trs rares que nous navons pas recens. Par exemple, tous les termes spcialiss ne peuvent pas tre dtects grce notre liste non-exhaustive de racines grco-latines (stradiol,
103
tamoxifne, adnocarcinome. . . ). Nous avons choisi de minimiser le bruit au dtriment du silence. Les occurrences des critres dans les documents sont moins nombreuses et parfois nulles mais nous avons une certaine assurance sur ce que les reprsentations vectorielles signient rellement. De plus, cet objectif correspond notre volont de nous distinguer des mthodes utilisant beaucoup de critres sans attacher beaucoup dimportance leur sens en utilisant une typologie linguistiquement motive. Notre priorit tait de minimiser le bruit dans notre systme et nous avons alors tent dcarter les marqueurs pouvant caractriser dautres phnomnes que celui que nous tudions. Nous avons de plus tent de ltrer les critres en utilisant les informations apportes par des tiquettes morpho-syntaxiques : conjugaisons, pronoms. . .
5.5.5 Synthse
Nous avons dans cette section prsent plus en dtail les classieurs gnrs et la pertinence de nos critres. La section 5.5.1 nous permet davoir un aperu des arbres gnrs par C4.5 avec notre typologie sur notre corpus [DIAB_CP], ainsi quune ide des critres les plus discriminants de la typologie. Nous nous rendons tout dabord compte que les critres discriminants relvent des trois catgories de la typologie. De plus, nous notons que les critres discriminants ne sont pas les mmes selon la langue. En franais, ce sont le nombre de phrases, la bibliographie, le nombre de paragraphes, les marqueurs de la modalit de lopinion, tandis quen japonais ce sont la balise <TITLE>, la bibliographie, le nombre de sufxes, le nombre de phrases. La section 5.5.2 nous permet de constater sur quelques documents obtenant les plus forts scores positifs ou ngatifs avec SVM la similitude entre les critres empiriques ayant permis la classication manuelle et les critres discriminants de la typologie. En effet, en surlignant quelques critres modaux et lexicaux il est possible de voir que la classication manuelle, sans forcment formaliser les critres de classication, se base sur certains des critres discriminants de notre typologie. La section 5.5.3 montre toutefois quune poigne de critres est insufsante pour classer une telle quantit de documents. Mme si certains dentre eux nous paraissent, a priori, trs discriminants, les courbes de leur volution sont gnralement irrgulires. Bien que nos corpus soient reprsentatifs et donc homognes du point de vue thmatique, ils sont htrognes du point de vue lexical ou modal et le sont encore plus du point de vue dun seul critre.
tel-00474405, version 1 - 20 Apr 2010
5.6
Comparaison de notre mthode avec la mthode classique des vecteurs de termes
Nous prsentions dans le chapitre prcdent une approche trs courante en classication automatique textuelle se basant uniquement sur les termes apparaissant dans les documents. Nous souhaitons tester cette mthode an de comparer ses rsultats aux notres. Cette mthode consiste slectionner un ensemble de termes reprsentatifs du corpus dapprentissage. Une liste de termes les plus frquents est slectionne, en omettant les mots outils, trop frquents et peu reprsentatifs. Il existe plusieurs approches pour slectionner les termes , ils peuvent tre des mots, des lemmes, des bigrammes. . . Nous avons choisi ici, par simplicit, de ne collecter que les mots les plus frquents, hors mots outils, de notre corpus dapprentissage [DIAB_CP]. Nous ne testons cette mthode que sur les corpus franais. La liste
104
de ces mots est disponible en annexe B. La reprsentation vectorielle des documents est donc compose de la frquence de chaque terme, pondre par le nombre de caractres des documents. Deux classieurs ont t crs partir du corpus [DIAB_CP] laide des systmes SVMlight et C4.5. Nous avons ensuite valu ces deux classieurs sur les corpus [DIAB_CP] et [BC_CP] laide des mtriques du rappel et de la prcision. Les rsultats de ces valuations sont prsents dans le tableau 5.8. Corpus Systme Mthode vecteurs de termes Prc. Rapp. 0.76 0.79 0.89 0.93 0.61 0.60 0.68 0.65 Notre mthode Prc. 0.83 0.95 0.78 0.76 Rapp. 0.80 0.97 0.75 0.71
[DIAB_CP] [BC_CP]
SVMlight C4.5 SVMlight C4.5
tel-00474405, version 1 - 20 Apr 2010
Table 5.8 Rsultats obtenus grce notre mthode et celle par vecteurs de terme Cette mthode permet dobtenir des rsultats satisfaisants sur le corpus [DIAB_CP], avec une prcision et un rappel moyens de 89 % et 93 % avec C4.5 et 76 % et 79 % avec SVMlight. Les termes reprsentant les documents tant extraits de ce corpus, ce rsultat semble normal. Ces rsultats sont trs proches de ceux que nous obtenons avec notre mthode. Nous observons une baisse sensible de ces rsultats lorsque les classieurs sont appliqus au corpus [BC_CP] : un rappel de 65 % et 60 % et une prcision de 68 % et 61 % respectivement pour les systmes C4.5 et SVMlight. Bien que ces rsultats soient corrects, ils nous amnent nous interroger sur la pertinence de cette mthode dans notre cas. Nous souhaitons que nos classieurs soient capables de reconnatre les documents scientiques des documents vulgariss quel que soit le thme de ces documents. Si les rsultats baissent de 15 points en passant dune thmatique une autre dans le domaine mdical, quelle baisse observerait-on sur un document portant sur la physique nuclaire ? Le vocabulaire peut tre commun un domaine, mais il ne lest pas pour toute la communaut scientique. Cette mthode parat donc trop limite pour notre cas. De plus, elle se base sur une reprsentation du texte se limitant aux mots qui le composent. Nous souhaitons dans ce travail ancrer les marqueurs des types de discours diffrents niveaux danalyse, se basant sur le texte lui-mme. Cette approche semble plus robuste et permet de caractriser le type de discours indpendamment du domaine sur lequel portent les textes.
5.7
Discussion sur la catgorisation en type de discours scientique et vulgaris
Nous nous interrogeons dans cette section sur la lgitimit de notre classication binaire en type de discours scientique et vulgaris. En effet, ce problme se pose ds la construction des corpus. Pour beaucoup de documents, la classication est claire. Les diffrents indices glans au cours de la collecte et lobservation dun document permettent souvent den dterminer le type de discours. Mais pour une autre partie des documents, le type de discours est difcile voire impossible dterminer et les avis diffrent selon les personnes. Existe-t-il alors 3 classes ? Une scientique, une vulgarise et une troisime compose de documents mi-scientiques, mi-vulgariss ? La distinction entre ces deux types de discours parat plus complexe.
105
Tout dabord, en observant ces deux classes, nous remarquons quelles sont trs htrognes. Des rapports techniques ctoient des articles scientiques et des cours universitaires dans la classe scientique, tandis que des articles de revues grand public, des recommandations aux patients ctoient des conversations sur forums dans la classe vulgarise. Ces diffrents genres de documents ne partagent pas les mmes objectifs, ni le mme public. Comme le remarquent juste titre Bowker et Pearson (2002, p.28), because LSP users have different levels of expertise, there are also different levels of LSP communication . Elles distinguent ainsi les experts (chercheurs, praticiens, . . . ), les semi-experts (experts dun domaine li, tudiants. . . ) et les non-experts (les autres). Plutt que de compter 2 catgories comme nous le faisons, nous pouvons distinguer avec ces 3 utilisateurs : la communication dexpert expert, dexpert semi-expert, dexpert non-expert, mais aussi la communication de semi-expert expert, de semi-expert semi-expert, de semi-expert non-expert et enn de non-expert non-expert. Certaines de ces catgories sont obsoltes, ou ne sont pas forcment considres comme spcialises (notamment la communication de non-expert non-expert). Cette distinction ne permet cependant pas de rsoudre les ambiguts : les semi-experts peuvent tre des tudiants de Licence 1 Master 2, ce qui nimplique pas le mme niveau de spcialisation et de langue. Nous pourrions alors distinguer au sein de ces utilisateurs plusieurs catgories selon le niveau de connaissance par exemple. Ainsi, nous pensons quil existe un continuum entre le type de discours scientique et le type de discours vulgaris. Ce continuum peut tre vu comme un degr de spcialisation ou linverse, de vulgarisation. Il est souvent ncessaire de catgoriser ces deux types de discours, den dnir ses limites et cette tche est complexe parce que ces limites sont oues. Le systme de classication SVMlight attribue un score chaque document class. Ce score peut tre vu comme un degr de spcialisation. En effet, en observant les rsultats de classication et les scores attribus chaque document, nous remarquons, quelques exceptions prs, que la complexit des documents augmente avec le score des documents. Ainsi, les scores les plus levs sont attribus des rapports dvaluation et des articles scientiques. Ces textes ont pour proprit des structures propres, un vocabulaire trs spcialis, de nombreuses donnes numriques. . . linverse, les documents obtenant les plus petits scores sont des brochures dinformation pour les patients, des articles de presse grand public. . . Ces documents sont gnralement courts, contiennent des couleurs et des images. . . Les scores du milieu sont attribus des cours, des articles de presse spcialise. . . Ces documents partagent des caractristiques des deux catgories : un vocabulaire spcialis mais beaucoup de marqueurs de glose, des images et des couleurs par exemple. An de vrier nos hypothses, nous avons collect quelques documents que nous jugions ambigus : un article tir de la revue La recherche 1 , larticle de Wikipdia consacr au cancer du sein2 , un cours duniversit sur le cancer du sein3 et un cours sur le TALN4 . Les scores que nous attribuons aux documents pour lapprentissage sont +1 pour les documents scientiques et 1 pour les documents vulgariss. Les scores attribus par le classieur varient entre ces deux bornes, mais peuvent les dpasser. Larticle de la revue La recherche porte sur le thme de lhydrologie, plus particulirement sur lexploitation des ressources du Rhne. Cet article est technique, illustr et assez long. Il obtient un score de 0.64. Larticle Wikipedia sur le cancer du sein est long, comporte un grand nombre de termes spcialiss mais aussi de nombreux marqueurs de glose, aucun pronom, quelques images et des rfrences bibliographiques. Il est au format HTML. Il obtient un score de 0.23. Le cours sur le cancer du sein est au format HTML. Il nest pas trs long, contient beaucoup de
www.larecherche.fr/html/2008/pdf/399_Rhone.pdf http://fr.wikipedia.org/wiki/Cancer_du_sein 3 http://www.uvp5.univ-paris5.fr/CAMPUS-GYNECO-OBST/cycle3/poly/20000faq1.asp 4 http://sites.univ-provence.fr/veronis/cours/INFZ18/veronis-INFZ18.pdf
2 1
tel-00474405, version 1 - 20 Apr 2010
106
listes ditems, de tableaux, pas dimages. Il contient des questions et peu de connecteurs logiques. Le classieur lui attribue un score de 0.15. Enn, le cours sur le TALN est au format PDF, il est destin des dbutants donc contient peu de vocabulaire spcialis, beaucoup de reformulations, dillustrations. En revanche il contient de nombreuses rfrences bibliographiques et est assez long. Il obtient un score de 0.2. Aucun de ces documents ne dpasse les bornes [1, 1] et un seul dentre eux dpasse les bornes [0.5, 0.5]. Ces documents obtiennent un score qui correspond leur degr de spcialisation, cest-dire moyen pour la majorit. linverse, certains documents de notre corpus, trs spcialiss, peuvent obtenir des scores allant jusqu 4. Le travail de classication dans ces deux types de discours ne peut tre effectu sans avoir conscience de ce continuum. Il est important de bien dnir au pralable quel degr de spcialisation commencent les catgories scientique et vulgarise.
tel-00474405, version 1 - 20 Apr 2010
5.8
Conclusion
La premire partie de ce chapitre tait consacre lvaluation des classieurs prsents dans le chapitre 4. Dans cette perspective, un corpus comparable dvaluation [BC_CP] a t cr. Il est compos de documents franais et japonais extraits du Web, portant sur le thme du cancer du sein et contient deux classes : documents scientiques et documents vulgariss. Les classieurs appris sur le corpus [DIAB_CP] avec les systmes C4.5 (arbres de dcision) et SVMlight (machines vecteurs de support) ont alors t tests sur ce mme corpus puis sur le corpus dvaluation. Les rsultats obtenus sont globalement satisfaisants, sauf pour les documents japonais avec le classieur C4.5. Les rsultats faibles obtenus dans ce cas nous ont amen nous poser des questions sur la pertinence des critres de notre typologie. Diffrents tests ont alors t effectus an de dterminer quelles catgories de critres taient les plus pertinentes. Cette tude nous a men ter de notre typologie les critres de la modalit Irrealis, donnant de trs faibles rsultats pour la langue japonaise. La typologie que nous conservons an dapprendre les modles de classication se compose donc des critres structurels, de la modalit locutive et lexicaux. Nous avons souhait par la suite tudier plus en dtails les classieurs ainsi gnrs et la pertinence des critres conservs. Une premire tude des arbres de dcision obtenus nous permet davoir un premier aperu des critres les plus discriminants dans les deux langues : le nombre de phrases, la bibliographie, certaines balises HTML. . . pour le franais et le nombre de parenthses, de balises paragraphe, de marqueurs dinterrogation. . . en japonais. Nous avons ensuite voqu les notions de bruit et de silence dans nos rsultats. En effet, lors de la slection des marqueurs nous avons choisi de minimiser le bruit dans notre analyse. Nous constatons sur quelques exemples que certains critres apportent toutefois du bruit. Cela est principalement d la polysmie de certains marqueurs et lambigut de certaines tiquettes lexico-syntaxiques. De plus, notre volont de minimiser le bruit introduit du silence dans le systme : pour que la typologie ne contienne pas de marqueurs trop gnraux ou ambigus (reprsentant dautres critres de la typologie ou dautres caractristiques linguistiques), certaines occurrences ne sont pas dtectes dans les textes. De plus, certaines occurrences implicites ne peuvent tre dtectes automatiquement. Nous sommes partis du principe quun nombre doccurrences restreint tait cependant plus pertinent quun grand nombre doccurrences contenant des faux-positifs. Enn, nous avons observ lvolution de certains critres selon le score attribu aux documents par SVM. Lvolution des critres pris individuellement ne parat pas sufsamment discriminante pour distinguer les deux classes et cette tude nous pousse croire que notre typologie trois niveaux propose une combinaison de critres efcace. An de conrmer cette ide, nous comparons dans la section suivante notre typologie
107
la mthode classique de vecteurs de termes. Si cette mthode semble efcace sur le corpus dapprentissage, elle prouve ses limites sur un corpus la thmatique diffrente. Une typologie linguistiquement motive semble donc bien tre mieux adapte la caractrisation du type de discours dans les langues de spcialit. Pour terminer, nous nous sommes interrogs dans la dernire partie sur la lgitimit de notre classication binaire. Nous proposons alors une alternative, sous la forme dun degr de spcialisation des documents. En nous appuyant sur les scores SVM attribus aux documents lors de la classication, nous montrons quun continuum peut effectivement tre observ entre ces deux classes.
tel-00474405, version 1 - 20 Apr 2010
tel-00474405, version 1 - 20 Apr 2010
C HAPITRE
Cration dun systme daide la construction de corpus comparables

tel-00474405, version 1 - 20 Apr 2010
6.1
Introduction
Dans les chapitres prcdents, nous avons prouv lintrt des corpus comparables dans le cadre dtudes multilingues des langues de spcialit. La constitution de corpus comparables spcialiss de qualit, cest--dire reprsentatifs dun domaine et au degr de comparabilit lev, est une tche complexe. Nous avons propos une mthode de constitution et dcrivons les diffrentes tapes dans le chapitre 2. Dans ce chapitre 6 nous prsentons la mise en uvre dun outil daide la construction de corpus comparables. Cet outil doit permettre dassister lutilisateur dans la cration dun corpus comparable spcialis en franais et en japonais. Il doit atteindre plusieurs objectifs. Tout dabord, il doit permettre de construire des corpus portant sur un domaine et un thme xs par lutilisateur. De plus, il doit garantir la construction dun corpus de bonne qualit. Dun point de vue pratique, lutilisateur doit garder une part de libert : il doit pouvoir contrler certaines parties cruciales de la constitution du corpus, en particulier la slection des documents. Enn, cet outil doit tre stable, portable et facilement utilisable et modiable. Nous prsentons dans cette section les diffrentes tapes de la construction de corpus comparables spcialiss puis leur mise en place ainsi que les choix techniques sous-jacents.
6.1.1 Construction de corpus comparables

Nous souhaitons crer un outil daide la construction de corpus comparables spcialiss. Cet outil doit faciliter la tche de lutilisateur lors de la construction dun corpus. Les tapes de la constitution dun corpus sont les suivantes : laboration du cahier des charges : un corpus est gnralement construit an de mener une tude. Cette tape consiste dnir clairement les besoins et les critres que devra suivre le corpus pour quil soit reprsentatif de la population analyser. Pour cela, la projection de la population dans le corpus doit tre spcie en premier lieu : comment la population, dans notre cas une langue de spcialit, peut-tre reprsente dans un corpus ? Pour les corpus comparables spcialiss, cela revient dnir les langues, le domaine, le thme et le type de discours du corpus. Du point de vue pratique, il est aussi ncessaire de xer une taille a priori au corpus (dpendant de lexploitation du corpus), ainsi que la (les) ressource(s) dont seront extraits les documents (Web, collections de documents, portails spcialiss. . . ). Enn une mthode dchantillonnage des donnes doit tre dnie, permettant de dterminer la distribution au sein des sous-catgories dans le corpus (an 109
110
CHAPITRE 6 Cration dun systme daide la construction de corpus comparables
quelles soient toutes reprsentes). Pour les corpus comparables, cela peut revenir dnir la proportion de documents par type de discours, mais aussi la rpartition en genre au sein des types de discours. . . Slection et collecte des donnes : une fois le cahier des charges labor, cette tape consiste chercher et collecter des documents correspondants aux critres tablis. Selon la ressource et la mthode dchantillonnage, des documents correspondant au domaine et au thme doivent tre slectionns. La plupart des ressources proposent des systmes de recherche bass sur des mots-cls. Ceux-ci permettent de ltrer les rsultats. Ensuite, les documents slectionns doivent tre classs selon leur type de discours. Normalisation et annotation des documents : cette tape consiste effectuer plusieurs tches de traitement sur les textes an de pouvoir les exploiter. Dans le cas de documents extraits du Web, une premire phase de nettoyage doit tre ralise an dextraire des documents le texte. La deuxime phase consiste annoter les documents, cest--dire ajouter aux textes extraits des informations (tiquettes morpho-syntaxiques par exemple) ; Documentation du corpus : le corpus, une fois constitu et annot, doit tre document. Une trace des informations sur sa constitution doit tre conserve an quil puisse tre rutilis, par exemple les ressources utilises, la date de constitution, les outils utiliss lors de sa constitution. . . Nous abordons dans la partie suivante lautomatisation de ce processus dun point de vue technique.
tel-00474405, version 1 - 20 Apr 2010
6.1.2 Mise en place et choix techniques

Parmi les tches que nous avons prsentes, certaines sont automatisables, tandis que dautres ne le sont pas. En effet, llaboration du cahier des charges et la dlimitation du cadre dpendent des objectifs applicatifs xs par le crateur du corpus, seuls son expertise et son jugement peuvent permettre de dterminer quels critres permettent dobtenir le corpus le plus reprsentatif. Dans le cadre de notre tude, lutilisateur doit xer lui mme le domaine, le thme, la distribution au sein des types de discours, la taille du corpus et les ressources. La slection des donnes peut tre automatique ou semi-automatique (slection faite par le systme ou slection de lutilisateur parmi une pr-slection tablie par le systme). Nous avons choisi de laisser dans un premier temps lutilisateur les tches de dnition du cahier des charges, de slection et de collecte des documents. Cela permet dviter dinsrer dans le corpus des documents non-pertinents (pouvant gurer parmi les rsultats dune requte) et donc de garantir la qualit du corpus construit. Nous travaillons donc sur lautomatisation de la normalisation, de lannotation et de la documentation des corpus comparables spcialiss en franais et japonais. Notre systme daide la cration de corpus comparables est une chane de traitement compose de plusieurs composants ou units de traitements. Nous souhaitons que cette chane soit stable, portable, facilement utilisable et surtout facilement modiable. Pour cela, nous avons choisi de dvelopper notre systme en utilisant la plateforme UIMA (Unstructured Information Management Architecture). Celle-ci, dveloppe par IBM Research Division, permet de dvelopper en Java ou C++ des chanes de traitements de corpus en faisant abstraction de certaines modalits techniques. De plus, UIMA permet une grande modularit : cration de chanes de modules, ajout et suppression facilite, outils dexcution des chanes de traitement. . . De plus, cette plateforme est actuellement utilise par lquipe TALN du LINA an de disposer dun outil adapt permettant la mise en commun des composants raliss par chacun. Nous avons donc souhait nous inscrire dans ce projet an de rendre accessible notre outil. Nous prsentons dans une premire partie le fonctionnement de la plateforme UIMA puis exposons les diffrentes tapes de la ralisation de notre chane.
111
6.2
Prsentation de UIMA
Dans cette section nous dcrivons tout dabord le principe des application de gestion de donnes non structures (UIM applications), leurs objectifs et dnissons ce que sont des donnes non structures. Dans un second temps, nous prsentons larchitecture du systme UIMA et ses principales composantes.
6.2.1 Principe et objectifs de UIMA

Les applications de gestion de donnes non-structures (UIM, Unstructured Information Management) sont des systmes logiciels qui analysent des grandes collections de donnes non-structures an den extraire, dorganiser et de reprsenter des connaissances pertinentes (Ferrucci et Lally, 2004b). Les donnes structures (structured information) sont des informations dont le sens est non ambigu et reprsent explicitement dans leur structure, par exemple des bases donnes relationnelles. Par opposition, les donnes non-structures (Unstructured data) sont des donnes dont le sens et la forme sont libres, une interprtation est ncessaire pour dduire et reprsenter le sens, par exemple du texte, du son, des images, etc. (Ferrucci et Lally, 2004a, p. 455). Il est ncessaire, pour traiter des quantits sans cesse croissantes de donnes non-structures, de dvelopper des outils permettant de les grer et den extraire des connaissances. Un corpus de notices pharmaceutiques peut par exemple tre utilis an dextraire les interactions mdicamenteuses les plus dangereuses. Les diffrents outils de gestion de donnes non structures visent les reprsenter sous forme de donnes structures. Pour cela, ils utilisent des technologies telles que le traitement statistique de la langue, la recherche dinformations, lapprentissage automatique, les ontologies,etc. ainsi que des donnes structures telles que des bases de donnes relationnelles. Depuis quelques annes, diffrents outils de traitement linguistique ont t dvelopps, par exemple des segmenteurs, tiqueteurs syntaxiques, lemmatiseurs. . . Bien souvent, ces outils sont dvelopps par une personne ou une quipe de personnes qui utilisent un langage, des structures, une syntaxe particuliers. Il est alors difcile de mettre en commun ces diffrents outils et plusieurs mthodes ont t adoptes pour mutualiser les efforts. Premirement, des sites de dpt ont permis de mettre disposition de tous ces outils (Linguistic Data Consortium, European Language Resources Association. . . ). La deuxime mthode consiste fournir des systmes logiciels au sein desquels peuvent tre dvelopps ces outils. Les premiers systmes crs sont GATE (Bontcheva et al., 2002) et ATLAS (Laprun et al., 2002). Ces logiciels prsentent lavantage disoler les algorithmes centraux de traitement du langage des services systme tels que le stockage des donnes, la communication entre composants. . . Les outils crs sur ces systmes peuvent par la suite tre facilement imports et utiliss, en faisant abstraction de nombreux aspects techniques (Hahn et al., 2008a). GATE, General Architecture of Text Engineering, est une plateforme de traitement de donnes textuelles. Elle se compose dun environnement et dune base de dveloppement de composants et propose de nombreuses librairies et mthodes dinteraction. Elle est utilise dans de nombreux projets1 , portant notamment sur le domaine de la gestion de connaissance et du Web smantique, la cration de librairies lectroniques, la recherche dinformations dans le domaine de la bioinformatique. . . La plateforme ATLAS, Architecture and Tools for Linguistic Analysis Systems, correspond au mme type doutil. Cette plateforme propose un langage dannotation ainsi quun systme permettant de combiner et dintgrer des informations produites par diffrents outils dannotation. Une ontologie et un systme de gestion de graphes dannotations sont de plus disponibles. La plateforme UIMA a t dveloppe par IBM Research Division et propose une architecture trs exible et extensible. Notre choix a port sur cette plateforme pour plusieurs raisons. Tout dabord, il nous permet de nous
1
tel-00474405, version 1 - 20 Apr 2010
La liste des projets utilisant GATE se trouve cette adresse : http://www.gate.ac.uk/projects.html.
112
inscrire dans le projet global de notre quipe de recherche. De plus, la communaut UIMA est lune des plus active : de nombreuses contributions (librairies JAVA, composants. . . ), publications et des ateliers (par exemple Hahn et al. (2008b)).
6.2.2 Architecture de UIMA

Lexcution dune chane de traitement sur larchitecture UIMA est compose de deux phases principales : lanalyse des donnes et le retour dinformations. Ces deux phases sont rsumes dans la gure 6.1. La premire phase, lanalyse des donnes, consiste dabord charger une collection de donnes non-structures. Ces donnes sont analyses, an den extraire des informations qui sont ensuite stockes sous forme de donnes structures. La seconde phase consiste accder ces donnes structures et les reprsenter en fonction des besoins de lutilisateur (ou du client).
tel-00474405, version 1 - 20 Apr 2010
Figure 6.1 Principales phases de larchitecture UIMA Pour simplier la prsentation de cette architecture, nous dcomposons cette section en deux parties : lanalyse au niveau du document (document-level analysis) et lanalyse au niveau de la collection de documents (collection-level analysis)2 .
6.2.2.1
Analyse au niveau du document
Lanalyse dun document correspond la phase analyse des documents de la gure 6.1. Elle consiste prendre un document et en extraire des donnes structures ou mta-donnes (meta data) dcrivant le document ou des parties du document. Une unit danalyse de document est compose dun ou plusieurs composants (component). Un composant analyse un document et ses mta-donnes et produit dautres mta-donnes, des exemples de composants en TALN peuvent tre des segmenteurs, des tiqueteurs syntaxiques, des dtecteurs dentits nommes. . . Le systme UIMA traite deux types de composants : les composants primitifs et les composants agrgs. Les composants primitifs correspondent une unit de traitement, tandis que les composants agrgs sont composs dun ou plusieurs composants primitifs. La gure 6.2 prsente un exemple de composant agrg, qui fait appel trois composants primitifs (segmentation, tiquetage et lemmatisation). Dans le cas o les donnes traites sont textuelles, les composants sont alors appels Text Analysis Engine (TAE).
2
Nous nous inspirons de la prsentation de UIMA faite par Ferrucci et Lally (2004a).
113
Figure 6.2 Exemple de composant agrg Un Type System est associ chaque TAE : il permet de dnir et de rassembler lensemble des annotations qui seront extraites du texte pendant lanalyse. Un type system se dnit par un ensemble de types dannotations, appels feature structure. Les documents et leurs mta-donnes transitent entre les diffrents composants dans une structure appele Common Analysis Structure (CAS). Comme lillustre la gure 6.3, un composant prend en entre un CAS, analyse le texte, en extrait des informations (correspondant aux lments du type system associ) et le met jour avec ces informations. Le CAS rsultant peut alors tre trait par une autre application. Lavantage de cette mthode est que le dveloppement dun composant est indpendant du composant prcdent, au sens o la sortie du composant prcdent est connue et standard.
tel-00474405, version 1 - 20 Apr 2010
Figure 6.3 Les CAS (Common Analysis Structure) permettent de transmettre les donnes dun composant lautre UIMA considre les textes traits comme des artefacts : les textes ne sont pas traits mais seulement analyss. Les informations extraites des textes sont ajoutes aux CAS sous la forme de mta-donnes ou annotations, qui peuvent porter sur le texte entier ou sur une partie, auquel cas leur localisation dans le texte est conserve avec lannotation. UIMA propose une reprsentation XML des CAS, permettant de spcier leur structure et une interface permettant laccs, lindexation et la mise jour du contenu des CAS. Une interface oriente objet a t dveloppe en JAVA : JCas. Elle permet la gnration automatique de classes JAVA et des mthodes dinteraction entre les Text Analysis Engine et les CAS.
114
6.2.2.2
Analyse au niveau de la collection de documents
tel-00474405, version 1 - 20 Apr 2010
Lanalyse au niveau du document nest quune partie de larchitecture UIMA. Nous abordons dans cette section son fonctionnement au niveau dune collection de documents. Une chane UIMA prend en entre une collection de documents, les traite un un laide doutils danalyse niveau document puis rassemble les donnes extraites des diffrents documents an de fournir lutilisateur les rsultats, qui peuvent tre par exemple un dictionnaire, une ontologie. . . Sur une collection de textes, lunit fondamentale du systme est appele Collection Processing Engine (CPE). Ces CPE permettent dappliquer des TAE (Text Analysis Engine) toute une collection de textes. Le composant permettant daccder la collection de texte et la transmettre aux TAE sous une forme approprie est un Collection Reader. Le composant permettant de restituer lutilisateur les donnes extraites de la collection est un CAS Consumer. Le systme UIMA propose de plus des API (Application Programming Interface) pour les CPE permettant de spcier chacun des composants utiliser : en dbut de chane le Collection Reader, puis une srie doutils danalyse des textes (TAE) et enn un CAS Consumer. Le systme propose enn des mthodes permettant de grer les performances, le ltrage des donnes, les erreurs, etc.
6.2.2.3
Composants UIMA
Comme nous lavons vu dans les sections prcdentes, UIMA propose deux composants principaux de traitement : les TAE, au niveau des documents et les CPE, au niveau des collections. Le dveloppement de chanes sur UIMA consiste implmenter et contrler des combinaisons de ces composants. Deux proprits doivent caractriser les composants UIMA, ils doivent tre (Ferrucci et Lally, 2004a, p. 451) : data-driven : le fonctionnement de chaque composant doit se baser uniquement sur les donnes qui lui sont fournies, ce qui est important pour que lagrgation de composants ne ncessite aucune autre ressource ; self-descriptive : chaque composant doit tre accompagn de sa description (donnes en entre, en sorties. . . ). La description des composants est contenue dans un chier XML contenant : leur nom et un lien vers le code source du composant ; les paramtres de conguration ; le type system associ ; les spcications des entres et sorties du TAE. Il existe diffrents types de composants, correspondant chacun une tche prcise an de faciliter leur combinaison : Collection Reader, CAS Initialiser, TAE, CAS Consumer. Un TAE primitif est compos dun descripteur et dun annotateur (programme danalyse de documents). Un TAE agrg est compos de couples (descripteur ; annotateur). Un CPE se dnit par : 1. un Collection Reader ; 2. un CAS Initializer ; 3. un ou plusieurs TAE ; 4. un CAS Consumer. Cest ensuite le systme UIMA qui orchestre les instances de ces composants pour pouvoir excuter le Collection Processing Engine.
115
6.2.3 Synthse
Le schma 6.4 reprend les notions prsentes prcdemment et dcrit larchitecture globale de UIMA. Partant dune collection de donnes, le CPE dbute par un composant de type Collection Reader, permettant de lire, de charger et deffectuer un pr-traitement sur les documents de la collection. Le CAS Initializer gnre ensuite pour chaque document le CAS associ, quil transmet ensuite au TAE principal. Celui-ci peut tre compos dun ou plusieurs TAE, agrgs ou primitifs. Chaque TAE met jour les CAS en y ajoutant des annotations. Les CAS extraits du TAE principal sont ensuite transmis un ou plusieurs CAS Consumers, transformant les donnes du CAS dans un format exploitable par lutilisateur (base de donnes, chiers XML. . . ).
tel-00474405, version 1 - 20 Apr 2010
Figure 6.4 Architecture globale dun CPE
Notre but est de crer un systme daide la construction de corpus comparables dont le fonctionnement sera le suivant : partant dune collection de documents extraits du Web et slectionns par un utilisateur, le systme effectuera les tches de nettoyage, dannotation, de classication puis de documentation des documents an de constituer le corpus. Cet outil peut donc se dcomposer en un ensemble de traitements entre lesquels navigueront les documents. Pour cela, la plateforme UIMA est parfaitement adapte. Elle propose une architecture permettant de charger une collection de documents puis de dnir un ensemble doutils dannotations textuels effectuant diffrents traitements. La gestion des documents entre chaque tape de la construction du corpus est directement prise en charge par la plateforme. De plus, UIMA permet de traiter tout type de donnes non structures et propose des outils permettant de stocker un document sous diffrents formats, ce qui peut savrer trs utile lorsque lon travaille sur des documents extraits du Web. Enn, le systme UIMA est capable de charger facilement et en trs peu de temps des collections de plusieurs centaines de documents. Nous prsentons dans la section suivante la mise en uvre de notre outil sur la plateforme UIMA.
116
6.3
Mise en uvre de loutil daide la cration de corpus comparables
tel-00474405, version 1 - 20 Apr 2010
Notre objectif est de construire des corpus comparables spcialiss de qualit en franais et japonais, cest--dire reprsentatifs et au degr de comparabilit lev. Pour cela, nous avons choisi de dvelopper sur la plateforme UIMA un outil daide la construction de corpus. Les documents de ces corpus partagent un domaine, un thme et un type de discours. Les tapes de la construction de ces corpus sont prsentes dans la section 6.1.1. An de garantir la reprsentativit et la comparabilit, nous laissons lutilisateur libre de slectionner les documents. Cela permet de garantir ladquation entre les critres de construction des corpus et les documents choisis (par exemple viter dinclure des documents ne portant pas sur le domaine et la thmatique choisis). Nous laissons lutilisateur choisir des documents de nimporte quel type de discours, loutil se charge de trier ensuite les documents grce aux classieurs que nous avons prsents dans les chapitres 4 et 5. Les tches ralises par loutil sont donc : la classication des documents selon leur type de discours, la normalisation et lannotation des documents, puis la cration du corpus et de sa documentation. Les documents franais et japonais sont traits sparment pour certaines tches telles que la normalisation, lannotation, et la classication. Deux collections de documents sont donc considres, une par langue.
6.3.1 Architecture globale

Le schma global de cet outil est prsent dans la gure 6.5.
Figure 6.5 Schma global de loutil daide la construction de corpus comparables La gestion de la collection de documents se fait grce aux composants suivants :
117
Collection Reader : ce composant charge les documents de la collection, convertit chacun dentre eux au format texte puis gnre grce au CAS Initializer les structures de donnes CAS pour chaque document ; CAS Consumer : ce composant intervient la n du traitement. Son rle est de repasser dune collection de structure CAS une relle collection de documents (ici un corpus). Cela consiste ici enregistrer sur le disque dur de lutilisateur chaque version des documents (originale, texte, tiquete), de rpartir ces chiers selon leur type de discours et de raliser une documentation sur le corpus. Lanalyse au niveau des documents est ralise lorsque ceux-ci sont stocks dans des CAS. Les diffrents composants sont les suivants : La phase dannotation et danalyse morpho-syntaxique : cette partie est en ralit compose de deux tapes, lune consacre au nettoyage et au traitement prsyntaxique (segmentation en phrase et en mots), lautre consacre ltiquetage morpho-syntaxique des textes. Le nettoyage consiste liminer une partie du bruit introduit dans les documents lors de la conversion an de nen conserver que le texte principal. Le traitement pr-syntaxique consiste segmenter en phrases puis en units lexicales (mots) les textes. Ces traitements sont ncessaires pour effectuer ltiquetage morpho-syntaxique. Ce dernier est ralis grce aux outils Brill (Brill, 1994) et Flemm (Namer, 2000) pour le franais, et ChaSen (Matsumoto et al., 1999) pour le japonais. La phase de classication : compose de deux tapes, la cration des reprsentations vectorielles des documents puis la classication de ces vecteurs grce aux classieurs SVM gnrs et prsents dans le chapitre 4. Cette classication a pour rsultat un score qui sera utilis par le CAS Consumer an de rpartir physiquement les documents selon leur type de discours. Nous prsentons dans la section suivante le type system dni pour nos documents puis nous prsentons les deux niveaux danalyse et leurs composantes dans les sections suivantes.
tel-00474405, version 1 - 20 Apr 2010
6.3.2 Type System dnis

Le Type System que nous avons dni nous permet de stocker les informations gnrales relatives aux documents et leur stockage dans le corpus. Il est reprsent dans la gure 6.6 : un document est caractris par sa langue, son chemin absolu, son format, la date de son tlchargement, son URL (ou les informations sur la ressource dont il provient) et son score. Le score correspond au rsultat de la classication SVM. Nous navons besoin en sortie de la chane que dinformations globales sur les documents, nous ne crons pas vraiment un outil dannotation de textes. Ainsi, les annotations portent sur la globalit du document et pas sur des segments. Seules les annotations score SVM, langue et format sont utilises pendant le traitement, les autres informations seront utilises pour la documentation du corpus. De plus, nous utilisons un Type System dni par lquipe TALN du UIMA permettant de stocker un grand nombre dinformations, parmi lesquelles les catgories morpho-syntaxiques des mots ainsi que leurs lemmes. Une partie de ce type system est prsente dans la gure 6.7. Nous utilisons ce type system lors de la phase dannotation des documents. Ce type system permet de spcier pour chaque mot dun texte son lemme, son stemme ainsi que sa catgorie grammaticale. Pour certaines catgories grammaticales, des attributs tels que le temps, le genre, le mode. . . peuvent tre renseigns galement. Ce type system a t conu de faon tre exhaustif et couvrir les besoins de lquipe.
118
Figure 6.6 Type System Document
tel-00474405, version 1 - 20 Apr 2010
Figure 6.7 Type System cr par lquipe TALN
6.3.3 Analyse au niveau de la collection

UIMA permet de traiter des collections de documents : en chargeant chacun des documents, des composants les analysent ensuite un un. Deux composants sont importants dans le traitement de la collection en tant que telle : le collection reader et le CAS consumer. Le collection reader intervient au dbut de la chane, il permet de charger chacun des documents de la collection et de les stocker dans une structure de donnes appele CAS. Le CAS consumer permet de passer de la structure de donnes avec annotations des chiers. Nous prsentons en dtail dans les sections suivantes chacun de ces deux composants et leur fonctionnement dans notre outil de construction de corpus.
6.3.4 Collection Reader

Puisque nous avons laiss lutilisateur la charge de slectionner et collecter les documents, la collection de dpart est compose de documents extraits du Web ou dautres bases de donnes textuelles. Ces documents peuvent tre en HTML, au format PDF ou au format texte. Pour chacun de ces documents un CAS doit tre cr dans lequel nous pouvons initialiser chacune des annotations dnies dans notre
119
type system. De plus, les documents pouvant tre dans diffrents formats, il est ncessaire de les convertir dans un format unique facilitant le traitement : le format texte. Nous avons cr un Collection Reader bas sur celui de base propos par UIMA et nous avons redni certaines mthodes (initialize et getNext) an de les adapter nos besoins. La gestion des diffrents formats de chiers est gre grce aux vues, un mme document peuvent correspondre plusieurs vues. An de traiter des documents dans les langues franaise et japonaise, les documents doivent tre convertis dans lencodage UTF-8. La conversion et le traitement des encodages sont facilits par le langage JAVA qui permet de choisir lencodage lors de louverture des chiers. Le traitement de chacun des chiers est le suivant : 1. Cration du CAS, structure de donnes permettant de stocker un document, ses diffrentes vues et ses annotations ; 2. Lecture du document ; 3. Transformation en texte du document, ralise laide des outils ExtractText et HTMLUtils ;
tel-00474405, version 1 - 20 Apr 2010
4. Nettoyage des textes (nettoyage des dernires balises, caractres spciaux. . . ) : bien que le nettoyage des pages Web constitue un vritable challenge tant la tche est complexe (Baroni et al., 2008), nous nous sommes bass sur des principes simples nous permettant dliminer la majorit du bruit laiss par les outils de conversion. Ce bruit se caractrise par des balises ou du code JavaScript, des symboles, sauts de lignes superus, etc. ; 5. Stockage de la vue Texte : les textes ainsi nettoys sont alors stocks dans la vue principale du CAS, celle qui sera la plus consulte ; 6. Pour les chiers HTML, stockage de la vue Original : puisque nous ne traitons pas les versions originales des documents PDF mais seulement leur version texte, nous navons pas jug ncessaire de stocker la version originale ; 7. Mise jour des annotations Langue, Chemin et Format : ces informations sont fournies par lutilisateur au moment du lancement de la chane. Nous proposons de plus lutilisateur de fournir un chier appel resources.info dans lequel il peut donner des informations sur les documents quil a slectionn. Ces informations, utilises pour documenter le corpus, sont la date de tlchargement du document et la ressource dont il est extrait (et son URL sil est extrait du Web). Le chier est constitu dune ligne par document, dans laquelle gurent le nom du chier dans lequel le document est enregistr, la date de tlchargement et la ressource. Nous chargeons ce chier au dbut de lexcution du collection reader et lutilisons an de mettre jour les CAS. Une fois ces tches effectues, le collection reader passe le relais au CAS initializer qui est charg de passer du niveau collection au niveau analyse en grant les diffrents CAS crs. Nayant pas modi le composant de base, nous ne le prsentons pas dans cette partie.
6.3.5 CAS Consumer

Nous avons cr un CAS Consumer propre notre travail. Celui-ci est une extension du CAS Consumer de base, dans lequel nous avons redni quelques mthodes. Ce composant permet de passer dune reprsentation structure sous forme de CAS une reprsentation adapte lutilisateur, en loccurrence un corpus. Trois rpertoires sont crs : un rpertoire de documents scientiques, un rpertoire de documents vulgariss et un rpertoire de documents ambigus. Pour chaque chier, le traitement suivant est effectu :
120
1. Selon le score du document, REP = (scientique ; vulgaris ; ambigu) ; 2. Copie du chier texte, original et tiquet dans REP ; 3. Cration du chier XML correspondant adoptant le format TEI 3 . Pour la premire tape, nous classons les documents obtenant un score compris entre [0.1, 0.1] dans le rpertoire ambigu, les documents ayant un score suprieur 0.1 dans le rpertoire scientique et les documents ayant un score infrieur -0.1 dans le rpertoire vulgaris. Les chiers XML au format TEI sont gnrs sous une forme minimale : seul un entte est utilis, dans lequel nous stockons la langue, la date et le chemin du chier original. Disposant de peu dinformation sur les documents, nous ne voulions toutefois pas bloquer lutilisateur et choisissons dans un premier temps de le laisser libre de complter cette documentation. Une fois cette tape termine, les deux corpus scientique et vulgaris se trouvent dans chacun des deux rpertoires. Lutilisateur reste libre dy ajouter / supprimer des chiers mais aussi dy ajouter du contenu.
tel-00474405, version 1 - 20 Apr 2010
6.3.6 Analyse au niveau des documents

Dans cette section nous prsentons lanalyse effectue au niveau du document. Les documents sont transmis de composant en composant grce aux CAS. Ainsi, seuls les CAS sont traits dans les composants. La gure 6.8 prsente les deux phases du traitement des documents : lanalyse morpho-syntaxique puis la classication. Lanalyse morpho-syntaxique est elle-mme ralise en deux tapes : une premire tape appele prsyntaxe puis une tape danalyse morpho-syntaxique. Pour classer les documents, il faut dabord crer les reprsentations vectorielles des documents et ensuite classer le vecteur laide des classieurs SVM. Nous prsentons dans la suite de cette partie ces deux phases.
6.3.6.1
Analyse morpho-syntaxique
Aux textes de la collection sont appliqus un premier traitement prsyntaxique puis une phase dtiquetage morpho-syntaxique. Le traitement prsyntaxique consiste segmenter le texte en phrases puis en mots et dcoller la ponctuation. Ce traitement est ncessaire pour appliquer ensuite les logiciels dtiquetage aux textes. La segmentation ne gnre aucune annotation, elle ne fait que modier le texte que nous stockons dans une variable. Lanalyse morpho-syntaxique consiste attribuer chaque mot sa catgorie grammaticale et son lemme. Nous avons ici utilis les logiciels Brill et Flemm pour le franais, et Chasen pour le japonais. Nous avons utilis les composants Brill et Flemm dvelopps au LINA, dont le fonctionnement est le suivant : le logiciel est excut sur le texte, la sortie correspond un texte tiquet. Cette sortie est ensuite parcourue an que chaque tiquette soit renseigne dans le type system LINA prsent dans la section 6.3.2. Chaque CAS est alors actualis avec des annotations pour chaque mot des textes. Nous conservons toutefois la sortie des logiciels Brill et Flemm an de linclure au corpus nal. Nous navons trouv aucun composant utilisant ChaSen. Nous avons donc cr notre propre composant, se contentant dappeler le programme sur un texte et den rcuprer la sortie tiquete. Une fois que chaque document est stock sous format original, texte et tiquet, nous passons au TAE suivant ralisant la classication des documents.
3
http://www.tei-c.org.uk
121
tel-00474405, version 1 - 20 Apr 2010
Figure 6.8 Diffrentes tapes de lanalyse au niveau des documents
6.3.7 Composant Classier

Ce composant est le dernier annotateur de notre chane. Il est compos de deux tapes : la premire consiste gnrer les reprsentations vectorielles de chaque document et la seconde consiste classer le document. Pour gnrer la reprsentation vectorielle, nous utilisons notre algorithme danalyse prsent dans le chapitre 4. Cet algorithme utilise les versions originales, textuelles et annotes des documents an de les reprsenter sous forme de vecteurs. Chaque lment du vecteur correspond la valeur dun critre sur le document. Le vecteur ainsi constitu est utilis sous forme de chane de caractres aux classieurs SVM an quils leur attribue un score. Nous avons choisi dutiliser le classieur SVM utilisant la typologie compose des critres structurels, modaux (thorie de Charaudeau) et lexicaux pour deux raisons : ses rsultats sont parmi les meilleurs en moyenne sur la prcision et le rappel et il obtient les meilleurs rsultats en prcision. Nous privilgions la prcision sur le rappel ici puisque notre objectif est de ne conserver quun seul type de discours dans le corpus, donc davoir une classication la plus exacte possible. Le rsultats de la classication est ensuite stock dans le CAS. Nous utilisons pour linstant de faon directe les classieurs SVM gnrs, mais nous envisageons dutiliser des librairies dapprentissage et de classication Weka4 . Ces librairies permettent dapprendre des modles de classication en utilisant plusieurs algorithmes et de classer des documents. Cela permettrait dapprendre de nouveaux
4
http://informatics.mayo.edu/text/index.php?page=weka
122
CHAPITRE 6 Conclusion
classieurs sur dautres langues par exemple.
6.4
Conclusion
Nous avons prsent dans ce chapitre larchitecture UIMA et le dveloppement dun systme daide la construction de corpus comparables spcialiss sur UIMA. Nous avons propos une premire trame dun systme que nous envisageons bien plus complet prochainement. Notre outil permet deffectuer automatiquement les parties de nettoyage, dannotation et de documentation dun corpus partir de textes slectionns et collects par lutilisateur. Nous avons souhait que cette chane de traitement soit stable, portable, facilement modiable et utilisable. En ce sens, bien quelle ajoute certaines contraintes dans la programmation, lutilisation de la plateforme UIMA prsente de nombreux avantages : la facilit dexcution grce aux applications fournies avec UIMA, lutilisation des nombreuses librairies JAVA. . . Le temps demand par la prise en main de UIMA et de lenvironnement de programmation est compens par un vritable gain de temps, grce la structure CAS, permettant de ne pas grer le transfert des donnes entre composants, mais aussi grce aux composants disponibles sur le site de dpt dUIMA. . . Enn, ce choix nous permet de nous inscrire dans le projet ambitieux de lquipe visant fournir une plateforme et des outils de mise en commun de nos travaux. Il est difcile de chiffrer le temps que peut prendre la constitution manuelle dun corpus comparable spcialis, mais les tches de nettoyage, dannotation et de documentation peuvent tre relativement longues, surtout sur de grosses collections de documents. Si lutilisateur ne dispose daucun outil informatique, ces tches peuvent reprsenter plusieurs jours de travail. Ici, le traitement est ralis en quelques minutes. Cette chane na pas vocation tre totalement automatique : le matriau sur lequel nous travaillons, les textes et plus gnralement la langue, sont trop complexes pour se passer de lintervention humaine. Ainsi, nous considrons quun corpus de grande qualit ne peut tre construit de faon totalement automatique. Notre outil permet toutefois de proposer aux constructeurs de corpus une aide et une plateforme permettant dappliquer simplement des outils de traitement de texte et danalyse linguistique sur un corpus. Enn, il sera ais dajouter de nouveaux composants cette chane : il suft de partir de la composition des CAS pour rednir et intgrer un composant. Nous prvoyons par exemple dajouter cette chane : un composant permettant de faciliter les tches de slection et de collecte des documents. Ce composant proposerait, pour un thme et un type de discours particuliers, une pr-slection de documents. Lutilisateur pourrait alors choisir dans cette liste les documents inclure dans le corpus et ceux-ci seraient alors collects ; le choix dans les outils dannotation des documents, par exemple Brill ou Tree Tagger pour le franais ; un type system correspondant notre typologie. Les valeurs de chacun des critres tant alors considrs comme des annotations, nous pourrions proposer un outil de visualisation de ces critres dans les textes (permettant une analyse des types de discours par exemple). Lajout de nouvelles langues la chane parat plus compliqu. En effet, sil est simple de trouver des tiqueteurs morpho-syntaxiques, toute la phase danalyse des types de discours prsente dans le chapitre 3 reste faire an de crer un classieur.
tel-00474405, version 1 - 20 Apr 2010
Conclusion
Les corpus comparables sont des ensembles de textes dans diffrentes langues qui ne sont pas des traductions mais partagent un certain nombre de caractristiques (Bowker et Pearson, 2002). Ces corpus sont trs utiliss dans le cadre dtudes sur les langues de spcialit an dextraire et dactualiser terminologies et lexiques multilingues. Nous nous sommes intresss dans cette thse la construction des corpus comparables spcialiss en franais et en japonais. Ce travail de thse sest droul en trois grandes tapes. Tout dabord, nous nous sommes penchs sur la dnition des corpus comparables. Nous avons analys la notion de comparabilit, les mthodes de calcul et limpact du choix des critres de comparabilit sur celle-ci. Pour crer un systme de construction automatique de corpus comparables, il a t ncessaire dautomatiser la reconnaissance des critres de comparabilit. Nous avons donc cherch caractriser le type de discours de documents spcialiss an de crer un systme de reconnaissance automatique. Enn, nous mis en commun les rsultats des deux premires tapes an de crer un systme daide la construction de corpus comparables. Nous prsentons dans les parties suivantes un bilan de chacune des trois parties de cette thse.
tel-00474405, version 1 - 20 Apr 2010
Comparabilit des corpus

Dans un premier temps, nous avons tudi la dnition des corpus comparables. Le choix des caractristiques communes et le degr de comparabilit dun corpus dpendent de ses objectifs applicatifs. Ainsi, un corpus jug trs comparable pour une tche particulire ne le sera pas forcment pour une autre. Nous nous sommes alors demand sil tait possible de donner une dnition gnrale de la comparabilit. Nous avons de plus cherch quel pouvait tre le lien entre le choix des caractristiques communes et la comparabilit. Nous avons collect lensemble des caractristiques communes aux textes et le contexte de leur utilisation. Ceci nous a permis de dgager deux sries de caractristiques rcurrentes : les corpus comparables portant sur des domaines de la langue gnrale font plus souvent appel des textes ayant en commun un thme, une priode et un genre ou un mdium, tandis que les textes des corpus issus de domaines spcialiss ont en commun un thme ou un domaine, un genre et/ou un type de discours. Nous avons de plus propos une analyse de la notion de comparabilit et des moyens de la quantier. La comparabilit mesure les similarits entre documents dun corpus. En pratique, la comparabilit sinstancie diffremment selon le contexte dutilisation du corpus : dans le cadre de lextraction de traductions par exemple, celle-ci correspond alors au vocabulaire commun entre les textes. Cette analyse nous permet de conclure quen dehors de tout contexte dutilisation, seules les caractristiques communes des textes peuvent nous permettre de statuer sur la comparabilit dun corpus. Dans un cadre pratique, une utilisation prcise peut correspondre une mthode de calcul de la comparabilit. Cependant, nous jugeons important que lunit dans ce calcul soit situe au niveau du texte et pas au niveau du mot, an dviter la vision sac de mots des corpus. Dans un second temps nous nous sommes concentrs sur les corpus comparables spcialiss. Nous utilisons pour dnir nos corpus la thorie des langues de spcialit de Bowker et Pearson (2002). Ltude de la comparabilit nous permet de dterminer que les textes constitutifs de ces corpus doivent partager un thme (scientique) et un type de discours (scientique ou vulgaris). Le thme permet de circonscrire un champ scientique et le type de discours permet de ltrer le niveau de 123
124
Conclusion
communication des documents du corpus, garantissant un niveau de langue, un lexique et une syntaxe communs. Ces corpus ont alors un fort degr de comparabilit pour les tudes des langues de spcialit.
Caractrisation du type de discours

Notre objectif tant de crer un systme daide la construction de corpus comparables, la reconnaissance de ces caractristiques communes doit tre automatise. Que les documents soient collects sur une base de donnes textuelles ou sur le Web, leur thme peut tre ltr grce des mots cls. Pour le type de discours, la cration dun systme de classication automatique a t ncessaire. Pour cela, nous avons construit un corpus comparable dapprentissage sur le thme du diabte et de lalimentation dont les documents sont classs selon leur type de discours. Une analyse stylistique contrastive sur ce corpus nous a permis de dgager un ensemble de critres caractrisant le type de discours des documents. An que cette typologie soit motive linguistiquement, nous avons choisi des critres correspondant trois niveaux danalyse : le niveau structurel, correspondant aux caractristiques non linguistiques des documents (format, structure. . . ), le niveau modal, correspondant aux marqueurs de la modalit dans le document (prsence du locuteur et de linterlocuteur), et le niveau lexical (vocabulaire, alphabets. . . ). partir de cette typologie, nous avons cr des modles de classication avec les systmes SVMlight (sparateurs vastes marges) et C4.5 (arbres de dcision). An dvaluer ces classieurs, nous avons constitu un corpus dvaluation portant sur le thme du cancer du sein. Les rsultats obtenus sont satisfaisants, plus de 70 % des documents sont correctement classs, quelle que soit la langue. Nous obtenons une prcision proche de 80 % pour le franais et de 70 % pour la japonais, nous permettant par la suite de minimiser les erreurs de classication dans les corpus gnrs avec notre systme. Une analyse des rsultats et de linuence des critres sur la classication nous a permis de constater que certains critres taient trs discriminants (des critres structuraux tels que les balises paragraphe et lexicaux tels que le vocabulaire spcialis) tandis que dautres, en thorie pertinents, se rvlaient tre trs peu efcaces en pratique (les critres de la modalit Irrealis par exemple). Bien que certains dentre eux soient trs discriminants, cest bien leur combinaison relevant de trois niveaux danalyse qui rend nos classieurs efcaces. De lefcacit de ces classieurs nous pouvons conclure que notre typologie bilingue caractrise bien les types de discours scientiques et vulgariss. Celle-ci est de plus linguistiquement motive et adaptable dautres langues.
tel-00474405, version 1 - 20 Apr 2010
Construction automatique de corpus comparables spcialiss

La troisime partie de cette thse tait consacre la ralisation dun outil daide la construction de corpus comparables. La tche de construction dun corpus est lourde et coteuse en temps. Lobjectif de ce systme est doptimiser certaines tapes de la construction. Nous avons propos une mthode de construction de ces corpus, en adaptant les mthodes classiques notre cas : des corpus multilingues au degr de comparabilit lev et reprsentatifs dun domaine de spcialit. Cette mthode est compose de 4 tapes : 1. Dnition du cahier des charges : dnition de la population (domaine et thme) et des caractristiques du corpus (ressources, taille, chantillonnage) ; 2. Slection et collecte des documents ; 3. Normalisation et annotation des documents ; 4. Documentation du corpus.
Conclusion
125
Lutilisateur ralise les deux premires tches : celles-ci sont trs subjectives et dpendent des objectifs applicatifs que sest x lutilisateur. La qualit du corpus est de plus directement lie ces deux tches. Ce systme permet donc, partir dun ensemble de documents portant sur un thme particulier pralablement collects de construire un corpus comparable compos de documents scientiques ou vulgariss. Il effectue donc les deux dernires tches, qui se droulent concrtement de la faon suivante : conversion et nettoyage, annotation et classication des documents, puis documentation du corpus. Ce systme a t dvelopp sur la plateforme UIMA (Unstructured Information Management Architecture).
Bilan et perspectives
Nous avons prsent dans cette thse un premier travail de synthse sur la dnition des corpus comparables et de la comparabilit. De cette synthse dcoule une mthode de constitution de corpus comparables spcialiss adapte des mthodes classiques. Plusieurs communauts utilisent et exploitent ces corpus avec des objectifs diffrents : des linguistiques, des traducteurs et des chercheurs en TALN. Nous avons cherch dans cette thse rassembler ces communauts et mettre en commun leurs besoins. Nous proposons ici un compromis entre la vision trs oue des corpus comparables (les considrant comme des sacs de mots) de certains informaticiens et une vision trs prcise et contrainte des linguistes. Ainsi, loutil de construction que nous proposons permet toutes ces communauts de constituer de faon plus rapide des corpus comparables de qualit, au degr de comparabilit lev et pleinement reprsentatifs dun domaine. Nous avons dans cette conclusion prsent les principaux apports et enseignements de cette thse. Nous souhaitons aborder, dans ce qui suit, les pistes de recherche nous paraissant les plus intressantes et prometteuses. Dun point de vue technique, notre systme daide la construction de corpus comparable pourrait tre toff et amlior. Nous lavons voulu volutif, cest pourquoi nous avons utilis la plateforme UIMA. Cette plateforme permet de mettre de ct les considrations techniques telles que la manipulation des donnes et son transit entre composants an de ne sintresser quau traitement des documents. Des apports quant la slection des documents sont envisageables, par exemple une collecte automatique de documents depuis le Web en fonction de mots-cls. Des outils de visualisation des documents et de leur reprsentation vectorielle peuvent galement tre mis disposition de lutilisateur. Un systme de mise en commun des corpus ainsi crs pourrait permettre de mutualiser les ressources et favoriser les liens entre quipes. Dun point de vue linguistique, ladaptation des diffrentes thories de la modalit mriterait dtre approfondie. En thorie, chaque langue et chaque culture semblent correspondre une caractrisation particulire de la modalit. Nous pensions ici que la thorie Locutive tait adapte au franais et la thorie Irrealis au japonais. En pratique, cela ne semble pas tre le cas. La mise en uvre de la modalit Irrealis par les marqueurs donne de trs mauvais rsultats sur le japonais. Il serait intressant danalyser ce phnomne an de dterminer si ce sont les marqueurs choisis qui posent problme ou si cette modalit nest pas adapte un traitement automatique, mais aussi pourquoi une thorie est plus efcace quune autre dans le cadre de la dtermination du type de discours. Nous avons mis des doutes dans le chapitre 5 sur la lgitimit de notre classication binaire scientique/vulgaris. Proposant de considrer un degr de spcialisation plutt que cette distinction binaire, nous nous sommes appuys sur les scores attribus par notre classieur aux documents an de montrer que celui-ci volue graduellement. Des documents que nous avons jug entre les deux classes obtiennent effectivement des scores moyens. Cependant, une tude approfondie mriterait dtre mene an dobser-
tel-00474405, version 1 - 20 Apr 2010
126
Conclusion
tel-00474405, version 1 - 20 Apr 2010
ver ce phnomne sur dautres documents et danalyser cette notion de score ou degr de spcialisation. Nous avons ici tudi la construction de corpus comparables spcialiss en franais et japonais. Une extension de ce travail dautres langues serait souhaitable pour notre outil. Pour cela, une adaptation de la typologie aux nouvelles langues est ncessaire, impliquant linvestissement dun expert linguiste. chaque critre de la typologie doit correspondre un ensemble de marqueurs, rsultant souvent dune analyse sur corpus. Un corpus comparable (ou sous-corpus monolingue si le corpus comparable existe) doit donc tre cr, et sur celui-ci sera appris le modle de classication de la langue. Nous pensons enn que le travail de dnition et formalisation des corpus comparables doit tre poursuivi et tendu. En effet, mme si ces corpus sont souvent utiliss, peu de travaux dtaillent leur vision des corpus comparables, ce qui entrane des ambiguits. La synthse proposs dans cette thse pourrait servir de base une dnition commune de ces corpus rassemblant la communaut (naissante). Cette mise en commun permettrait de la mme faon duniformiser la construction de ces corpus et dencourager la cration de corpus comparables de rfrence. Le workshop Building and Using Comparable Corpora LREC 2008 a pour la premire fois rassembl cette communaut dans une confrence. La qualit des discussions et prsentations, ainsi que lintrt port cette uniformisation vont dans cette direction et son plus quencourageants.
Bibliographie
Adam, J.-M. (1992). Les textes : types et prototypes. Paris: Nathan. Argamon, S., Whitelaw, C., Chase, P., Dhawle, S., Hota, S. R., Garg, N., et Levitan, S. (2007). Stylistic text classication using functional lexical features. Information Science and Technology, 58(6), 802 822. Aston, G. et Burnard, L. (1998). The BNC Handbook: exploring the british national corpus with Sara. Edinburgh University Press.
tel-00474405, version 1 - 20 Apr 2010
Bally, C. (1952). Le langage et la vie. Droz et Giard, Zurich, M. Niehans, Genve, 3e ed. augm. edition. Romanica Helvetica. Sries linguistica Vol. I. Baroni, M., Chantree, F., Kilgarriff, A., et Sharoff, S. (2008). Cleaneval: a competition for cleaning webpages. In N. Calzolari, editor, Actes de la 6me dition de Language ressources and Evaluation Conference (LREC 2008). Beauvisage, T. (2001). Morphosyntaxe et genres textuels. Traitement Automatique des Langues (TAL), 42(2), 579608. Benveniste, E. (1966). Problmes de linguistique gnrale . I, volume vol 1. Gallimard 1976. Benveniste, E. (1970). Lappareil formel de lnonciation. Langages, 17. Biber, D. (1989). A typology of english texts. Linguistics, 27, 343. Biber, D. (1993). Representativeness in corpus design. Literary and Linguistic Computing. Journal of the Association for Litterary and Linguistic Computing, 8/4, 243257. Biber, D. (1994). Representativeness in corpus design. In A. Zampolli, N. Calzolari, et M. Palmer, editors, Current Issues in Computational Linguistics: Essays in Honour of Don Walker, pages 377 407. Giardini Editori e Stampatori and Kluwer Academic Publishers, Pisa and Dordrecht. Bontcheva, K., Cunningham, H., Maynard, D., Tablan, V., et Saggion, H. (2002). Developing reusable and robust language processing components for information systems using gate. In Proceedings of the 13th International Workshop on Database and Expert Systems Applications (DEXA 2002), pages 223227. IEEE Computer Society. Bowker, L. (1998). Using specialised native-language corpora as a translation resource: a pilot study. Meta, 43(4), 631651. Bowker, L. et Pearson, J. (2002). Working with Specialized Language: A Practical Guide to Using Corpora. London/New York, Routeledge. Breiman, L., Friedman, J., Stone, C., et Olshen, R. (1984). Classication and Regression Tree. California: Wadsworth International. Bretan, I., Dewe, J., Hallberg, A., Wolkert, N., et Karlgren, J. (1998). Web-specic genre visualization. In H. A. Maurer et R. G. Olson, editors, Proceedings of WebNet 98 - World Conference on the WWW and Internet & Intranet, Orlando, Florida, USA. AACE. Brill, E. (1994). Some advances in transformation-based part of speech tagging. In Proceedings of the 12th National Conference on Articial Intelligence (AAAI94), pages 722727, Seattle, WA, USA. 127
128
BIBLIOGRAPHIE
Bronckart, J. P. (1996). Genres de textes, types de discours et oprations discursives. Enjeux, 37-38, 3147. Namur. Bronckart, J. P., Bain, D., Schneuwly, B., Davaud, C., et Pasquier, A. (1985). Le fonctionnement des discours : un modle psychologique et une mthode danalyse. Lausanne: Delachaux and Niestl. Brown, P., Pietra, S. D., et Mercer, R. (1991). Word sense disambiguation using statistical methods. In D. Appelt, editor, Proceedings of the 29th annual meeting on Association for Computational Linguistics, pages 264270, Berkeley, California. Association for Computational Linguistics. Bchade, H. (1992). Phontique et morphologie du franais moderne et contemporain. Presses Universitaires de France. Calzolari, N. (1993). European efforts towards standardizing language resources. In Proceedings of the European Association for Machine Translation (EAMT) Workshop, pages 121130.
tel-00474405, version 1 - 20 Apr 2010
Catizone, R., Russell, G., et Warwick, S. (1989). Deriving translation data from bilingual texts. In Proceedings of the First International Lexical Acquisition Workshop, pages 17, Detroit. Charaudeau, P. (1992). Grammaire du sens et de lexpression. Hachette. Chiao, Y.-C. (2004). Extraction lexicale bilingue partir de textes mdicaux comparables : application la recherche dinformation translangue. Ph.D. thesis, Universit Pierre et Marie Curie (Paris 6). Chung, S. et Timberlake, A. (1985). Tense, aspect and mood. In T. Shopen, editor, Language typology and syntactic description: Grammatical categories and the lexicon, volume 3, pages 202258. Cambridge University Press. Cornujols, A. et Miclet, L. (2002). Apprentissage articiel - Concepts et algorithmes. Eyrolles. Culo, O., Schirra, S. H., Neumann, S., et Vela, M. (2008). Empirica l studies on language contrast using the english-german comparable and parallel croco corpus. In Proceedings of the LREC workshop on Comparable Corpora, pages 4751. Dagan, I. et Church, K. (1994). Termight : identifying and translating technical terminology. In Proceedings of the 4th Conference on Applied Natural Language Processing (ANLP?94), pages 3440, University of Stuttgart, Germany. Daille, B., Gaussier, E., et Lang, J.-M. (1994). Towards automatic extraction of monolingual and bilingual terminology. In Proceedings of the 15th International Conference on Computational Linguistics(COLING94), pages 712716, Kyoto, Japan. Djean, H. et Gaussier, E. (2002). Une nouvelle approche lextraction de lexiques bilingues partir de corpus comparables. Lexicometrica - Alignement lexical dans les corpus multilingues. Dubreil, E. (2006). La dimension argumentative des collocations textuelles en corpus lectronique spcialis au domaine du TAL(N). Ph.D. thesis, Universit de Nantes. Ducrot, O. (1980). Les Mots du discours. Les Editions de Minuit. Ducrot, O. et Schaeffer, J.-M. (3 septembre 1999). Nouveau dictionnaire encyclopdique des sciences du langage. Seuil. Ferrucci, D. et Lally, A. (2004a). Building an example application with the unstructured information management architecture. IBM Systems Journal, 43(3), 455475. Ferrucci, D. et Lally, A. (2004b). Uima: An architectural approach to unstructured information processing in the corporate research environment. Natural Language Engineering, 10, 327348.
BIBLIOGRAPHIE
129
Finn, A. et Kushmerick, N. (2005). Learning to classify documents according to genre. J. American Society for Information Science and Technology. A paratre. Folch, H., Heiden, S., Habert, B., Fleury, S., Illouz, G., Lafon, P., Nioche, J., et Prvost, S. (2000). TyPTex: Inductive typological text classication analysis for NLP systems tuning/evaluation. In M. Gavrilidou, G. Carayannis, S. Markantonatou, S. Piperidis, et G. Stainhaouer, editors, Second International Conference on Language Resources and Evaluation (LREC), volume 1, pages 141148, Athens, Greece. ELRA European Language Resources Association. Fung, P. (2000). Parallel Text Processing: Alignment and Use of Translation Corpora, chapter A Statistical View on Bilingual Lexicon Extraction-From Parallel Corpora to Non-parallel Corpora, pages 117. Kluwer. Fung, P. et McKeown, K. (1997). Finding terminology translations from non-parallel corpora. In Proceedings of the 5th annual workshop on very large corpora (VLC 97), pages 192202, Hong Kong.
tel-00474405, version 1 - 20 Apr 2010
Fung, P. et Yee, L. Y. (1998). An IR approach for translating new words from nonparallel, comparable texts. In C. Boitet et P. Whitelock, editors, Proceedings of the 17th international conference on Computational linguistics, volume 1, pages 414420, Montreal, Quebec, Canada. Gale, W. et Church, K. (1993). A program for aligning sentences in bilingual corpora. Computational Linguistics, 19, 75102. SPECIAL ISSUE: Special issue on using large corpora. Givn, T. (1994). Irrealis and the subjunctive. Studies in Language, 18(2). Godfrey, J., Holliman, E., et McDaniel, J. (1992). Switchboard: Telephone speech corpus for research and development. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 1, pages 517520, San Francisco. Guriot, L., Grabar, N., et Daille, B. (2007). Caractrisation des discours scientiques et vulgariss en franais, japonais et russe. In N. Hathout et P. Muller, editors, Actes de la 14me confrence sur le Traitement Automatique des Langues Naturelles (TALN 2007) (communications afches et dmonstrations), pages 93102. Guriot, L., Grabar, N., et Daille, B. (2008). Characterization of scientic and popular science discourse in french, japanese and russian. In N. Calzolari, editor, Actes de la 6me dition de Language ressources and Evaluation Conference (LREC 2008). Habert, B. (2000). Des corpus reprsentatifs : de quoi, pour quoi, comment ? In M. Bilger, editor, Linguistique sur corpus. tudes et rexions, number 31 in Cahiers de luniversit de Perpignan, pages 1158. Presses Universitaires de Perpignan, Perpignan. Habert, B., Nazarenko, A., et Salem, A. (1997). Les linguistiques de corpus. Armand Colin. Habert, B., Grabar, N., Jacquemart, P., et Zweigenbaum, P. (2001). Building a text corpus for representing the variety of medical language. In P. Rayson, A. Wilson, T. McEnery, A. Hardie, et S. Khoja, editors, Corpus Linguistics 2001, pages 245254, Lancaster. UCREL (University Centre for Computer Corpus Research on Language). Hahn, U., Buyko, E., Landefeld, R., Mhlhausen, M., Poprat, M., Tomanek, K., et Wermter, J. (2008a). An overview of jcore, the julie lab uima component repository. In Proceedings of the LREC workshop : Towards Enhanced Interoperability for large HLT systems: UIMA for NLP, pages 17. Hahn, U., Gtz, T., Brown, E., Cunningham, H., et Nyberg, E., editors (2008b). Proceedings of the LREC workshop : Towards Enhanced Interoperability for Large HLT Systems: UIMA for NLP, Marrakech, Maroc.
130
BIBLIOGRAPHIE
Harris, Z. S. (1988). Language and information. Columbia University Press, New York. Harris, Z. S. (1991). A theory of language and information. A mathematical approach. Oxford University Press. Joachims, T. (2002). Learning to Classify Text using Support Vector Machines. Kluwer Academic Publishers. Johansson, S., Leech, G., et Goodluck, H. (1978). Manual of Information to accompany the LancasterOslo/Bergen Corpus of British English, for use with digital computers. Department of English, University of Oslo. Karlgren, J. (1999). Stylistic Experiments in Information Retrieval. In D. Kluwer, editor, Natural Language Information Retrieval. the Netherlands. Karlgren, J. et Cutting, D. (1994). Recognizing text genres with simple metrics using discriminant analysis. In Proceedings of the 15th International Conference on Computational Linguistics (COLING), volume 2, pages 10711075, Kyoto, Japan. Kilgarriff, A. (2001). Comparing corpora. International Journal of Corpus Linguistics, 6(1), 97133. Kilgarriff, A. et Grefenstette, G. (2003). Introduction to the special issue on web as corpus. Computational Linguistics, 29(3). Knowles, F. et Roe, P. (1994). Facilitating the corpus-building process and maximising the analytical yield: A lsp-oriented case study. In Papers in Computational Lexicography. Complex94, pages 137 146, Budapest - Hongrie. Koehn, P. (2004). Europarl: A parallel corpus for statistical machine translation. In MT Summit 2005. Kbler, N. (2008). A comparable learner translator corpus: creation and use. In Proceedings of the LREC workshop on Comparable Corpora, pages 7378. Kyto, M., Rissanan, M., et Wright, S., editors (1994). Corpora across the centuries. Proceedings of the First International Colloquium on English Diachronic Corpora, St Catharines College Cambridge. Amsterdam and Atlanta: Rodopi. Laprun, C., Fiscus, J., Garofolo, J., et Pajot, S. (2002). A practical introduction to atlas. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC02). European Language Resources Association (ELRA). Laviosa, S. (1998). The corpus-based approach: a new paradigm in translation studies. Meta, 43(3), 474479. Lerat, P. (1995). Les langues spcialises. Linguistique nouvelle. Lewis, D. (1992). An evaluation of phrasal and clustered representations on a text categorization task. In N. Belkin, P. Ingwersen, et A. M. Pejtersen, editors, Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 3750. Lewis, D. M. (2005). La linguistique de corpus, chapter Corpus comparables et analyse contrastive : lapport dun corpus franais/anglais de discours politiques lanalyse des connecteurs adversatifs, pages 179190. Presses Universitaires de Rennes. LHomme, M.-C. (2004). La terminologie : principes et techniques. Presses universitaires de Montral. Maingueneau, D. (1996). Les termes cls de lanalyse du discours. Memo, 20. Malrieu, D. et Rastier, F. (2002). Genres et variations morphosyntaxiques. Traitement Automatique des Langues (TAL), 42(2), 548577.
tel-00474405, version 1 - 20 Apr 2010
BIBLIOGRAPHIE
131
Matsumoto, Y., Kitauchi, A., Yamashita, T., et Hirano, Y. (1999). Japanese morphological analysis system chasen version 2.0 manual. Rapport technique, Nara Institute of Science and Technology (NAIST). McEnery, A. et Xiao, Z. (2007). Parallel and comparable corpora: What is happening? In G. Anderman et M. Rogers, editors, Incorporating Corpora: The Linguist and the Translator. Clevedon: Multilingual Matters. Morin, E. (2007). Synergie des approches et des ressources dployes pur le traitement de lcrit. Ph.D. thesis, Habilitation Diriger les Recherches, Universit de Nantes. Morin, E. et Daille, B. (2004). Extraction de terminologies bilingues partir de corpus comparables dun domaine spcialis. Traitement Automatique des Langues (TAL), 45(3), 103122. Mortureux, M.-F. (1995). Les vocabulaires scientiques et techniques. In J.-C. Beacco et S. Moirand, editors, Les enjeux des discours spcialiss, pages 1325. Presses universitaires de la Sorbonne.
tel-00474405, version 1 - 20 Apr 2010
Namer, F. (2000). Flemm : Un analyseur exionnel du franais base de rgles. Traitement Automatique des Langues (TAL), 41(2), 523548. Namer, F. et Baud, R. (2007). Dening and relatinf biomedical terms: Towards a cross-language morphosemantics-based system. International Journal of Medical Informatics, 76(2-3), 226233. Oard, D. et Diekema, A. (1998). Cross-Language Information Retrieval, volume 33, pages 223256. Information Today Inc. for the American Society for Information Science. Palmer, F. R. (2001). Mood and Modality. Cambridge University Press. Pry-Woodley, M.-P. (1995). Quels corpus pour quels traitements automatiques? Traitement Automatique des Langues, 36(1-2), 213232. Pry-Woodley, M.-P. (2000). Une pragmatique eur de texte : approche en corpus de lorganisation textuelle. Mmoire dHDR, Carnets de grammaire N 8. Peters, C., Picchi, E., et Biagini, L. (1996). Parallel and comparable bilingual corpora in language teaching and learning. In S. P. Botley, A. M. McEnery, et A. Wilson, editors, Proceedings of Teaching and Language Corpora 1996, pages 6882. UCREL Technical Papers 9 (Special Issue), Lancaster University 1996. Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Francisco, CA, USA. Rapp, R. (1995). Identifying word translations in non-parallel texts. In Proceedings of the 35th annual Meeting of the Association for Computational Linguistics (ACL 95), pages 320322, Boston, Massachusetts, USA. Rapp, R. (1999). Automatic identication of word translations from unrelated english and german corpora. In R. Dale et K. Church, editors, Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, pages 519 526. Association for Computational Linguistics. Rastier, F. (1989). Sens et Textualit. Hachette. Rastier, F. (2002). Enjeux pistmologiques de la linguistique de corpus. In G. Williams, editor, Actes des deuximes journes de Linguistique de Corpus. Presses Universitaires de Rennes. Riboni, D. (2002). Feature selection for web page classication. In H. Shafazand et A. M. Tjoa, editors, Proceedings of the 1st EurAsian Conference on Advances in Information and Communication Technology (EURASIA-ICT), pages 473478, Shiraz, Iran. Springer.
132
BIBLIOGRAPHIE
Riegel, M., Pellat, J.-C., et Rioul, R. (1994). Grammaire mthodique du franais. Presses Universitaires de France. Rossignol, M. (2005). Acquisition sur corpus dinformations lexicales fondes sur la smantique diffrentielle. Ph.D. thesis, Universit de Rennes 1. Sager, N. (1986). Analyzing language in restricted domains. sublanguage description and processing. In R. Grishman et R. Kittredge, editors, Sublanguage: Linguistic phenomenon, computational tool. Lawrence Erlbaum. Santini, M. (2007). Automatic identication of genre in web pages. Ph.D. thesis, University of Brighton. Santini, M., Power, R., et Evans, R. (2006). Implementing a characterization of genre for automatic genre identication of web pages. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (ACL06, pages 699-706, Sydney, Australia. The Association for Computer Linguistics.
tel-00474405, version 1 - 20 Apr 2010
Saralegi, X. et Alegra, I. (2007). Similitud entre documentos multilinges de carcter cientco-tcnico en un entorno web. Procesamiento del lenguaje natural, 39, 7178. Saralegi, X., Vicente, I. S., et Gurrutxaga, I. (2008). Automatic extraction of bilingual terms from comparable corpora in a popular science domain. In P. Fung et P. Zweigenbaum, editors, Proceedings of the LREC workshop on Comparable Corpora, pages 3338. Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Computing Surveys, 34(1), 147. Sebastiani, F. (2005). Text categorization. In A. Zanasi, editor, Text Mining and its Applications to Intelligence, CRM and Knowledge Management, pages 109129. WIT Press, Southampton, UK. Sharoff, S., Babych, B., et Hartley, A. (2006). Using comparable corpora to solve problems difcult for human translators. In Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions, pages 739746, Sydney, Australia. Sinclair, J. (1996a). Preliminary recommendations on corpus typology. Rapport technique, EAGLES (Expert Advisory Group on Language Engineering Standards). Sinclair, J. (1996b). Preliminary recommendations on text typology. Rapport technique, EAGLES (Expert Advisory Group on Language Engineering Standards). Steuckardt, A. et Niklas-Salminen, A. (2005). Les marqueurs de glose. Publications de lUniversit de Provence. Sueur, J. P. (1982). Pour une grammaire du discours. laboration dune mthode; exemples dapplications. Mots, 5, 145185. TEI Consortium (2007). Tei p5: Guidelines for electronic text encoding and interchange. Rapport technique, TEI Consortium. Teubert, W. (1996). Comparable or parallel corpora? International Journal of Lexicography, 3(9), 238264. TLFi (1960). Trsor de la langue franaise informatis. http://atilf.atilf.fr. Tzeras, K. et Hartmann, S. (1993). Automatic indexing based on bayesian inference networks. In R. Korfhage, E. Rasmussen, et P. Willett, editors, Proceedings of the 16th Annual International ACMSIGIR Conference on Research and Development in Information Retrieval, pages 2234. Vapnik, V. (1998). Statistical Leaning Theory. Wiley-Interscience.
BIBLIOGRAPHIE
133
Vronis, J. (2000). Alignement de corpus multilingues. In J.-M. Pierrel, editor, Ingnierie des langues, pages 151171. ditions Herms. Vinot, R., Grabar, N., et Valette, M. (2003). Application dalgorithmes de classication automatique pour la dtection de contenus racistes sur lInternet. In ATALA, editor, Actes de la 10me confrence sur le Traitement Automatique des Langues Naturelles (TALN), pages 275284, Batz sur mer. Williams, G. (1999). Les rseaux collocationnels dans la construction et lexploitation dun corpus dans le cadre dune communaut de discours scientique. Ph.D. thesis, Universit de Nantes. Xiao, Z. et McEnery, A. (2002). A corpus-based approach to tense and aspect in english-chinese translation. Plenary talk given at the International Symposium on Contrastive and Translation Studies between Chinese and English. Zanettin, F. (1998). Bilingual corpora and the training of translators. Meta, 43(4), 616630. Zanettin, F. (2002). Corpora for translation practice. In E. Yuste-Rodrigo, editor, Language Resources for Translation Work and Research, LREC 2002 Workshop Proceedings, pages 1014.
tel-00474405, version 1 - 20 Apr 2010
tel-00474405, version 1 - 20 Apr 2010
Liste des tableaux

1.1 2.1 3.1 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 Architypes discursifs de Bronckart (1996) . . . . . . . . . . . . . . . . . . . . . . . . . Caractristiques du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Genres prsents dans ltude de Biber . . . . . . . . . . . . . . . . . . . . . . . . . . . Table de contingence pour une classe ci (Sebastiani, 2002) . . . . . Table de contingence globale (Sebastiani, 2002) . . . . . . . . . . . Marqueurs des caractristiques structurelles . . . . . . . . . . . . . Marqueurs des caractristiques modales (thorie de Charaudeau) . . Marqueurs des modes dorganisation du discours . . . . . . . . . . Marqueurs des caractristiques modales du franais (thorie Irrealis) Marqueurs des caractristiques modales du japonais (thorie Irrealis) Marqueurs des caractristiques lexicales . . . . . . . . . . . . . . . Exemple de Quinlan (1993) . . . . . . . . . . . . . . . . . . . . . . Formats dindexation pour SVMlight et C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 34 40 68 69 71 73 74 74 75 76 80 81
tel-00474405, version 1 - 20 Apr 2010
Caractristiques du corpus [BC_CP] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Prcision et rappel pour chaque langage et chaque classieur sur les deux corpus . . . . 88 Quatre expriences menes an de tester la pertinence de chaque catgorie de critres . . 89 Rsultats pour chaque catgorie de critres sur le corpus [BC_CP] . . . . . . . . . . . . 90 Huit exprience menes an de tester la pertinence de chaque catgories de critres . . . 91 Rsultats obtenus pour lexprience 5 : critres modaux + critres lexicaux . . . . . . . . 91 Rsultats obtenus pour les expriences 6 et 7 : critres structurels et lexicaux + critres modaux de Charaudeau ou Irrealis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Rsultats obtenus grce notre mthode et celle par vecteurs de terme . . . . . . . . . 104
B.1 Cinquante premiers mots les plus frquents dans le corpus [DIAB_CP], utiliss dans le chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
135
tel-00474405, version 1 - 20 Apr 2010
Table des gures

1.1 1.2 2.1 2.2 3.1 3.2 3.3 3.4 4.1 4.2 4.3 4.4 4.5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 6.1 6.2 Exemple : valuation dexprimentations extrait de (Fung et Yee, 1998) . . . . . . . . . Classication des types de corpus multilingues . . . . . . . . . . . . . . . . . . . . . . Niveaux de classication selon Malrieu et Rastier . . . . . . . . . . . . . . . . . . . . . Processus cyclique dajustement du corpus de Biber . . . . . . . . . . . . . . . . . . . . Dmarche inductive . . . . . . . . . . . . . . . . Dmarche dductive . . . . . . . . . . . . . . . Phnomne dnonciation . . . . . . . . . . . . . Les trois principaux actes locutifs de Charaudeau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 11 24 27 42 43 51 52 64 66 78 79 80 87 93 94 95 96 97 98 98 99 99 100 100 101 101 102 102
tel-00474405, version 1 - 20 Apr 2010
Diffrentes tapes de la mise en uvre de la typologie . . . . . . . . . . . . . . . . . . . tapes de llaboration dun classieur . . . . . . . . . . . . . . . . . . . . . . . . . . . Le cas le plus simple : dans un espace bidimensionnel, une droite spare les deux ensembles dexemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cette mthode cherche trouver lhyperplan sparant lespace des donnes en deux en ayant une marge maximale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple darbre de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples de description de documents sur CISMeF . . . . . . . . . . . . . . . . . . . . Arbre obtenu avec la dernire typologie choisie pour la langue franaise . . . . . . . . . Arbre obtenu avec la dernire typologie choisie pour la langue japonaise . . . . . . . . . Exemples de critres pertinents tiquets sur un extrait de chier scientique du corpus . Exemples de critres pertinents tiquets sur un extrait de chier vulgaris du corpus . . Proportion de balises IMG et P en fonction du score des documents . . . . . . . . . . . . Proportion de pronoms en fonction du score des documents . . . . . . . . . . . . . . . . Proportion de racines grco-latines en fonction du score des documents . . . . . . . . . Proportion de caractres numriques en fonction du score des documents . . . . . . . . . Proportion de marqueurs des modalits dopinion, de dclaration et dobligation en fonction du score des documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Proportion de citations bibliographiques en fonction du score des documents . . . . . . . Proportion de parenthses en fonction du score des documents . . . . . . . . . . . . . . Proportion de ns de phrase polies et neutres en fonction du score des documents . . . . Proportion de phrases narratives, interrogatives et exclamatives en fonction du score des documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Proportion de pronoms en fonction du score des documents . . . . . . . . . . . . . . . . Proportion de balises IMG et P en fonction du score des documents . . . . . . . . . . . .
Principales phases de larchitecture UIMA . . . . . . . . . . . . . . . . . . . . . . . . . 112 Exemple de composant agrg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 137
138
TABLE DES FIGURES
6.3 6.4 6.5 6.6 6.7 6.8
Les CAS (Common Analysis Structure) permettent de transmettre les donnes dun composant lautre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Architecture globale dun CPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schma global de loutil daide la construction de corpus comparables . . . . . . . . . Type System Document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Type System cr par lquipe TALN . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diffrentes tapes de lanalyse au niveau des documents . . . . . . . . . . . . . . . . .
113 115 116 118 118 121
tel-00474405, version 1 - 20 Apr 2010
Table des matires

Introduction 1 Des collections de textes aux corpus comparables spcialiss 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Les corpus . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Dnition . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Reprsentativit des corpus . . . . . . . . . . . . 1.2.3 Typologies de corpus . . . . . . . . . . . . . . . . 1.3 Les corpus spcialiss . . . . . . . . . . . . . . . . . . . . 1.3.1 Dlimiter un domaine . . . . . . . . . . . . . . . 1.3.2 La thorie face la pratique . . . . . . . . . . . . 1.4 Du corpus monolingue au corpus multilingue . . . . . . . 1.4.1 Les corpus parallles . . . . . . . . . . . . . . . . 1.4.2 Les corpus comparables . . . . . . . . . . . . . . 1.4.3 Synthse . . . . . . . . . . . . . . . . . . . . . . 1.5 Exploitation des corpus multilingues . . . . . . . . . . . . 1.5.1 Aide la traduction et enseignement . . . . . . . . 1.5.2 Lexicographie et terminologie . . . . . . . . . . . 1.5.3 Autres travaux . . . . . . . . . . . . . . . . . . . 1.6 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . v 1 1 1 1 3 5 7 8 10 11 12 12 13 14 14 15 16 16 19 19 19 20 21 21 22 24 24 24 25 26 26 26 29 30 32 32 33
tel-00474405, version 1 - 20 Apr 2010
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
2 Corpus comparables 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 La comparabilit des corpus . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Comparabilit et similarit . . . . . . . . . . . . . . . . . . . . 2.2.2 Comparabilit et reprsentativit . . . . . . . . . . . . . . . . . 2.2.3 Calcul de la comparabilit . . . . . . . . . . . . . . . . . . . . 2.2.4 Bilan et dnition . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Critres de comparabilit . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Domaine et Thmatique . . . . . . . . . . . . . . . . . . . . . 2.3.2 Discours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Genres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.4 Autres critres . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Construction des corpus comparables . . . . . . . . . . . . . . . . . . 2.4.1 Dlimitation du cadre . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Slection et collecte des donnes textuelles . . . . . . . . . . . 2.4.3 Normalisation, annotation des textes et documentation du corpus 2.5 Corpus dtude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Dlimitation du cadre . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Slection et collecte des donnes . . . . . . . . . . . . . . . . . 139
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
140
TABLE DES MATIRES
2.6
2.5.3 Normalisation et annotations 2.5.4 Documentation . . . . . . . 2.5.5 Caractristiques du corpus . Conclusion . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
33 34 34 34 37 37 37 37 39 40 41 43 45 46 46 47 47 48 49 50 51 60 61 63 63 64 64 65 67 68 69 69 70 78 81 83 85 85 85 86 86 86
tel-00474405, version 1 - 20 Apr 2010
3 Analyse stylistique et typologies multilingues 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Analyse Stylistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Objectif et dmarche de cette analyse . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Les travaux de Biber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4 La dmarche inductive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.5 La dmarche dductive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.6 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Application de lanalyse stylistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Structure de la typologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Structure dimensionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Structure externe/interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Structure de notre typologie des types de discours scientiques et vulgariss . . . 3.5 Typologie des discours scientiques et vulgariss dans les langues franaise et japonaise 3.5.1 Caractristiques structurelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Caractristiques modales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.3 Caractristiques lexicales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Classication automatique des documents franais et japonais selon leur type de discours 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Mthodes de classication automatique de textes . . . . . . . . . . . . . . . . . . . . . 4.2.1 Prsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Indexation des documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Apprentissage du modle de classication . . . . . . . . . . . . . . . . . . . . . 4.2.4 valuation du systme de classication . . . . . . . . . . . . . . . . . . . . . . 4.2.5 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 laboration dun systme de classication des types de discours scientique et vulgaris sur des documents franais et japonais . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Indexation des documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Choix des mthodes dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Cration des classieurs et protocole dvaluation . . . . . . . . . . . . . . . . . 4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Rsultats et valuation de la classication 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . 5.2 Corpus dvaluation . . . . . . . . . . . . . . . . . 5.2.1 Dlimitation du cadre . . . . . . . . . . . . 5.2.2 Slection et collecte des donnes . . . . . . 5.2.3 Normalisation, annotation et documentation
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
TABLE DES MATIRES
141
5.3 5.4
5.5
tel-00474405, version 1 - 20 Apr 2010
5.6 5.7 5.8
5.2.4 Caractristiques du corpus . . . . . . . . . . . . . . . . . . . . . . . . . Rsultats de la classication . . . . . . . . . . . . . . . . . . . . . . . . . . . . tude des catgories de critres de la typologie . . . . . . . . . . . . . . . . . . 5.4.1 Pertinence de chaque catgorie de critres . . . . . . . . . . . . . . . . . 5.4.2 valuation de combinaisons de critres . . . . . . . . . . . . . . . . . . tude des classieurs, pertinence des critres . . . . . . . . . . . . . . . . . . . 5.5.1 Arbres de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2 Illustration sur quelques documents du corpus . . . . . . . . . . . . . . . 5.5.3 Analyse de lvolution de quelques critres . . . . . . . . . . . . . . . . 5.5.4 tude du bruit et du silence gnrs par les critres sur quelques exemples 5.5.5 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comparaison de notre mthode avec la mthode classique des vecteurs de termes Discussion sur la catgorisation en type de discours scientique et vulgaris . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
87 88 89 89 90 92 92 94 96 101 103 103 104 106 109 109 109 110 111 111 112 115 116 116 117 118 118 119 120 121 122 123
6 Cration dun systme daide la construction de corpus comparables 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Construction de corpus comparables . . . . . . . . . . . . . . 6.1.2 Mise en place et choix techniques . . . . . . . . . . . . . . . 6.2 Prsentation de UIMA . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Principe et objectifs de UIMA . . . . . . . . . . . . . . . . . 6.2.2 Architecture de UIMA . . . . . . . . . . . . . . . . . . . . . 6.2.3 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Mise en uvre de loutil daide la cration de corpus comparables . 6.3.1 Architecture globale . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Type System dnis . . . . . . . . . . . . . . . . . . . . . . . 6.3.3 Analyse au niveau de la collection . . . . . . . . . . . . . . . 6.3.4 Collection Reader . . . . . . . . . . . . . . . . . . . . . . . 6.3.5 CAS Consumer . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.6 Analyse au niveau des documents . . . . . . . . . . . . . . . 6.3.7 Composant Classier . . . . . . . . . . . . . . . . . . . . . . 6.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
Bibliographie Liste des tableaux Table des gures Table des matires A La typologie de Biber B Liste des mots utiliss pour la mthode par vecteurs de termes
127 135 137 139 145 149
tel-00474405, version 1 - 20 Apr 2010
tel-00474405, version 1 - 20 Apr 2010
Annexes
tel-00474405, version 1 - 20 Apr 2010
A NNEXE
La typologie de Biber
A. Tense and aspect markers 1. Past tense 2. Perfect aspect 3. Present tense B. Place and time adverbials 1. Place adverbials 2. Time adverbials C. Pronouns and pro-verbs C1. Personal pronouns 1. First person pronouns 2. Second person pronouns 3. Third person pronouns C2. Impersonal pronouns 1. Pronoun it 2. Demonstrative pronouns 3. Indenite pronouns C3. Pro-verbs 1. Pro-verb do D. Questions 1. Direct WH-questions E. Nominal forms 1. Nominalizations 2. Gerunds 3. Total other nouns F. Passives 1. Agentless passives 2. By-passives G. Stative forms 1. Be as main verb 145
tel-00474405, version 1 - 20 Apr 2010
146
ANNEXE A
2. Existential there H. Subordination H1. Complementation 1. That verb complements 2. That adjective complements 3. WH-clauses 4. Innitives H2. Participial forms 1. Present participial clauses 2. Past participial clauses 3. Past participial WHIZ deletion relatives
tel-00474405, version 1 - 20 Apr 2010
4. Present participial WHIZ deletion relatives H3. Relatives 1. That relative clauses on subject position 2. That relative clauses on object position 3. WH relative clauses on subject position 4. WH relative clauses on object position 5. Pied-piping relative clauses 6. Sentence relatives H4. Adverbial clauses 1. Causative adverbial subordinators: because 2. Concessive aderbial subordinators: although, though 3. Concessive aderbial subordinators: if, unless 4. Other adverbial subordinators (having multiple functions) I. Adjectives, adverbs and prepositional phrases I1. Prepositional phrases 1. Total prepositional phrases I2. Adjectives and adverbs 1. Attribute adjectives 2. Predicative adjectives 3. Total adverbs J. Lexical specicity 1. Type/token ration 2. Word length K. Lexical classes 1. Conjuncts
ANNEXE A
147
2. Downtoners 3. Hedges 4. Ampliers 5. Emphatics 6. Discourse particles 7. Demonstratives L. Modals 1. Possibility modals 2. Necessity modals 3. Predictive modals M. Specialized verb classes
tel-00474405, version 1 - 20 Apr 2010
1. Public verbs 2. Private verbs 3. Suasive verbs 4. Seem / appear N. Reduced forms and dispreferred structures 1. Contractions 2. Subordinator-that deletion 3. Stranted prepositions 4. Split innitives 4. Split auxiliaries O. Coordination 1. Phrasal coordination 2. Independant clause coordination P. Negation 1. Synthetic negation 2. Analytic negation: not
tel-00474405, version 1 - 20 Apr 2010
A NNEXE
Liste des mots utiliss pour la mthode par vecteurs de termes

tel-00474405, version 1 - 20 Apr 2010
diabte insuline aliments poids glycmique risque alimentation boissons diabtiques adaptation index produits physique glucose patients sang cholestrol obsit effet pratique hyperglycmie alimentaires activit dulcorants alcoolises sant type diabtique glycmie repas cas glucides sucre traitement insulinodpendant doses graisses rgime prsentation injection maladie pain prise ans complications utilisation fast food vie apport jour insulino
Table B.1 Cinquante premiers mots les plus frquents dans le corpus [DIAB_CP], utiliss dans le chapitre 5
149
tel-00474405, version 1 - 20 Apr 2010
tel-00474405, version 1 - 20 Apr 2010
Dcouverte et caractrisation des corpus comparables spcialiss

Lorraine G OEURIOT
Rsum
Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractristiques. Ces corpus prsentent lavantage dtre reprsentatifs des particularits culturelles et linguistiques de chaque langue. Le Web peut thoriquement tre considr comme un rservoir corpus comparables mais la qualit des corpus et des ressources qui en sont extraites rside dans la dnition pralable des objectifs du corpus et du soin mis sa composition (les caractristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spcialiss en franais et japonais dont les documents sont extraits du Web. Nous en proposons une dnition et des caractristiques communes : un domaine de spcialit, un thme et un type de discours (scientique ou vulgaris). Notre objectif est de crer un systme daide la construction de corpus comparables. Nous prsentons dabord la reconnaissance automatique des caractristiques communes du corpus. Le thme peut tre dtect grce aux mots-cls utiliss lors de la recherche. Pour le type de discours nous utilisons les mthodes dapprentissage automatique. Une analyse stylistique sur un corpus dapprentissage nous permet de crer une typologie bilingue compose de trois niveaux danalyse : structurel, modal et lexical. Nous lutilisons ensuite an dapprendre un modle de classication avec les systmes SVMlight et C4.5. Ces modles sont ensuite valus sur un corpus dvaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intgrons ensuite le classieur au sein dune chane logicielle daide la construction de corpus comparables implmente sur la plateforme UIMA. Mots-cls : corpus comparables, langues de spcialit, analyse stylistique, typologie multilingue, types de discours, apprentissage automatique
tel-00474405, version 1 - 20 Apr 2010
Abstract
Comparable corpora are sets of texts written in different languages that are not translations of each other but that share common characteristics. Their main advantage is to be fully representative of linguistics and cultural specicities of their respective language. The Web could theoretically be considered as a comparable corpora source. However, the quality of corpora and of their extracted resources depends on the preliminary denition of corpora and on the carefulness of their compilation (i.e. the denition of common features in comparable corpora). In this thesis, we focus on the compilation of specialized comparable corpora in French and Japanese which documents are extracted from the Web. We propose a denition of these corpora and a set of common features: a specialized domain, a topic and a type of discourse (science or popular science). Our goal is to create a tool to assist comparable corpora compilation. First, we present automatic recognition of common features. Topics can be easily identied with keywords used in Web searches. On the contrary, the detection of the type of discourse needs a wide stylistic analysis. This task is performed over a learning corpus, which leads to the creation of a bilingual typology based on three levels of analysis: structural, modal and lexical. Second, we use this typology to learn a classication model with SVMlight and C4.5. This classication model is tested over an evaluation corpus. Our test results indicate that more than 70 % of the documents are well classied. Finally, the classier is integrated into a comparable corpora compilation assistant tool developed on UIMA system. Keywords: comparable corpora, specialized languages, stylistic analysis, multilingual typology, type of discourse, machine learning

These Lorraine Goeuriot

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

These Lorraine Goeuriot

Uploaded by

Copyright:

Available Formats

cole Centrale de Nantes

cole des Mines de Nantes

COLE DOCTORALE STIM SCIENCES ET TECHNOLOGIES DE LINFORMATION ET DE MATHMATIQUES Anne 2009

Dcouverte et caractrisation des corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010

tel-00474405, version 1 - 20 Apr 2010

DCOUVERTE ET CARACTRISATION DES CORPUS COMPARABLES SPCIALISS

Specialized Comparable Corpora Discovery and Characterization

tel-00474405, version 1 - 20 Apr 2010

favet neptunus eunti

Lorraine G OEURIOT Dcouverte et caractrisation des corpus comparables spcialiss xi+152 p.

tel-00474405, version 1 - 20 Apr 2010

tel-00474405, version 1 - 20 Apr 2010

tel-00474405, version 1 - 20 Apr 2010

tel-00474405, version 1 - 20 Apr 2010

tel-00474405, version 1 - 20 Apr 2010

tel-00474405, version 1 - 20 Apr 2010

tel-00474405, version 1 - 20 Apr 2010

Des collections de textes aux corpus comparables spcialiss

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010

1.2.2 Reprsentativit des corpus

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010

Ce corpus sert aussi dexemple dans Biber (1993).

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

1.2.3 Typologies de corpus

Les classications a priori

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010

Les classications a posteriori

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

Rapport interactif la situation

tel-00474405, version 1 - 20 Apr 2010

Les corpus spcialiss

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

1.3.1 Dlimiter un domaine

tel-00474405, version 1 - 20 Apr 2010

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010

1.3.2 La thorie face la pratique

Cits dans Williams (1999, p. 51).

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

Du corpus monolingue au corpus multilingue

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

1.4.1 Les corpus parallles

tel-00474405, version 1 - 20 Apr 2010

1.4.2 Les corpus comparables

LHomme (2004) parle de corpus aligns. Composition dans larticle anglais.

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

Exploitation des corpus multilingues

1.5.1 Aide la traduction et enseignement

Cite dans McEnery et Xiao (2007, p. 5).

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010

1.5.2 Lexicographie et terminologie

CHAPITRE 1 Des collections de textes aux corpus comparables spcialiss

tel-00474405, version 1 - 20 Apr 2010