You are on page 1of 18

1

L'extraction d'entits nommes: une


opportunit pour le secteur culturel?
Simon Hengchen1, Seth van Hooland1, Max de Wilde1, Ruben
Verborgh2
1. ReSIC, Universit libre de Bruxelles
CP 123, Avenue F.D. Roosevelt, 50, B-1050 Bruxelles, Belgique
{shengche,svhoolan,madewild}@ulb.ac.be
2. Multimedia Lab Ghent University iMinds
Gaston Crommenlaan 8 bus 201, B-9050 Ledeberg-Ghent, Belgium
ruben.verborgh@ugent.be

RSUM. Les champs de mtadonnes non structurs tels que description offrent une
plus-value considrable la comprhension pour les utilisateurs finaux. Nanmoins, leur
caractre non structur les rend peu exploitables dans un contexte lectronique et
dautomatisation. Cet article explore les possibilits et les limitations de la reconnaissance
dentits nommes ( Named-Entity Recognition , NER) et de lextraction terminologique (
Term Extraction , TE) dans la prospection de donnes non-structures afin den extraire des
concepts significatifs. Ces concepts permettent de tirer parti dune recherche et dune
navigation amliores, mais peuvent galement jouer un rle trs important dans la
recherche en humanits numriques. travers une tude de cas base sur les champs de
description des archives historiques de la ville de Qubec, cet article propose une valuation
de quatre services tiers dextraction dentits afin de promouvoir lexprimentation de la
reconnaissance dentits nommes et lextraction terminologique. Dans le but de couvrir
autant le NER que la TE, nous utilisons une approche quantitative pour lvaluation des
entits nommes base sur la prcision, le rappel, et le F-score calculs sur la base dun
rfrent manuel ( gold standard corpus ). Une seconde approche, plus qualitative, permet
ensuite de prendre en compte la pertinence des termes extraits et aborde la question du
multilinguisme.
ABSTRACT. Unstructured metadata fields such as "description" present a huge informational
value to the end users. Nonetheless, their unstructured nature makes them close to useless
within a machine-readable context. This paper explores the possibilities of using NamedEntity Recognition (NER) to mine such unstructured metadata for meaningful concepts. These
concepts allow, on the one hand, easier navigating and search inside datasets, but might be
more than relevant in the fostering of Digital Humanities research. Through a comprehensive
study of the historical archives of the city of Qubec, this paper proposes an evaluation of
four third-party extraction services. This allows the experimenting with NER and term
extraction. In order to cover NER and TE, we put forward a quantitative analysis of named
entities based on precision, recall and F-score calculated with the use of a gold-standard

DOC-SI

corpus. This approach is then complemented by a qualitative analysis of the terms extracted
and tackles the question of multilingualism.
MOTS-CLES : NER, RECONNAISSANCE D'ENTITES NOMMEES, ARCHIVES, WEB
SEMANTIQUE, LINKED DATA
KEYWORDS: NER, NAMED-ENTITY RECOGNITION, ARCHIVES, SEMANTIC WEB,
LINKED DATA

1.

Introduction
1.1. Enjeux et contexte

Avec lavnement de lopen data, la croissance toujours plus forte des


collections lectroniques via la numrisation en masse et la diminution des budgets
des tablissements culturels, ces derniers doivent repenser dune part la gestion de
leur fonds et, dautre part, la mise en valeur de leurs donnes. Ces deux impratifs
sont en partie rsolus par lutilisation de la reconnaissance dentits nommes
(Named-Entity Recognition, NER). En effet, le modle traditionnel de catalogage et
dindexation manuels est mis rude preuve depuis un certain nombre dannes.
Avec des budgets toujours plus restreints, les conservateurs doivent faire plus avec
moins. La tendance vers un catalogage informatis semi-automatique est forte et
appuye par les organismes de financement, qui encouragent galement une mise en
valeur des donnes travers lenrichissement des donnes en les liant des sources
de connaissances externes. Ce contexte a donn de lampleur, dans le monde
culturel1, aux concepts de Web des donnes et de donnes ouvertes. Des initiatives
rcentes telles quOpenGLAM2 et LODLAM3 illustrent lvolution des pratiques et
dmontrent la manire dont ces volutions percent dans le domaine du patrimoine
culturel. Autant aux tats-Unis que dans lUnion europenne, les bibliothques
numriques vitrines que sont la Digital Public Library of America4 et Europeana5
adoptent les principes du Web des donnes (Berners-Lee, 2002). En France, la
Bibliothque nationale de France a galement un projet similaire, data.bnf.fr6.
Lenrichissement et lintgration smantiques de collections htrognes peut
tre facilite via lutilisation de vocabulaires et thsaurus (LCSH, AAT, DDC,

1 Remarquons que peu dentreprises, qui utilisent des systmes dinformation se devant dtre
prcis et corrects tout moment dans un milieu en constante volution et dont le domaine est
continuellement en redfinition, ont fait le choix du modle du Web smantique.
2 http://openglam.org, consult le 21 janvier 2014
3 http://lodlam.net, consult le 21 janvier 2014
4 http://dp.la, consult le 21 janvier 2014
5 http://europeanea.eu, consult le 21 janvier 2014
6 http://data.bnf.fr, consult le 21 janvier 2014

DOC-SI

RAMEAU), ces derniers ayant t rendus disponibles selon les principes du Web
des donnes. Bachimont et al. (2011) proposent un dossier de vulgarisation sur le
Web des donnes et le Web smantique, permettant aux professionnels de
linformation classique de se mettre jour sur les enjeux et difficults dun domaine
en pleine volution. Dans la mme logique, Berms (2013) tablit une prsentation
des diffrentes briques technologiques du Web smantique, avec comme angle
dapproche les possibilits quoffre cette nouvelle approche aux bibliothques.
1.2. Questions de recherche
Aprs avoir dress un tat de lart du NER, cet article tentera de rpondre un
nombre de questions. Premirement, nous aborderons les possibilits et limites du
NER et dautres mthodes dextraction dentits pour lenrichissement de corpus de
donnes non-structures. Un Gold Standard Corpus (GSC, corpus standard de
rfrence annot manuellement) sera utilis pour calculer la prcision, le rappel et le
F-Score sur des rsultats obtenus par les services de NER. Des questions plus
systmiques telles que le bien-fond de lutilisation dun GSC et comment
surmonter ses lacunes seront galement abordes. En effet, des termes tels que
palontologie ou exploration spatiale sont indniablement une source
dinformation intressante lors de lenrichissement dun corpus mais ne sont pas
considrs par un GSC car ne sont pas des entits nommes. De plus, le GSC ne
permet pas de distinguer, premire vue, limportance dun terme par rapport sa
granularit et sa frquence lextraction et la dsambigusation correcte du terme
Qubec dans un corpus traitant presquexclusivement cette ville apportent peu
de valeur ajoute mais contribuent un haut score de rappel. Nous aborderons
ensuite le NER avec une vue densemble sur sa cration et ses volutions actuelles
avec un intrt tout particulier pour son utilisation dans le domaine du Web des
donnes et la sphre du patrimoine culturel. Ensuite, nous traiterons ltude de cas et
la mthodologie de cet article sur lutilisation du NER, suivies de la mise en
contexte des rsultats de notre tude. La question du multilinguisme, tant au niveau
de lextraction que de la dsambigusation, sera galement aborde dans cet article :
quelle est linfluence de la langue dun corpus sur un algorithme dextraction et,
paralllement, comment procder pour que les entits extraites trouvent une
dfinition dans la bonne langue ? Enfin, nous aborderons les risques globaux de
lutilisation du NER en masse, notamment au niveau de la langue utilise et
concluons larticle sur les prochains dfis relever.

2.

tat de l'art
2.1. Contexte et histoire du NER

La reconnaissance et la dsambigusation dentits nommes trouvent leurs


origines dans le domaine de la linguistique computationnelle. Alors considres

DOC-SI

comme sous-tches de lextraction dinformation, ces disciplines ont rapidement


attir lattention de diffrents domaines scientifiques tels que la biologie et
biomdecine (Ananiadou & McNaught, 2006) ou de domaines dapplications
comme le Web smantique (Tamilin et al., 2010) et les sciences de linformation
(Moens, 2006). lorigine, le concept d entit nomme propos par Grishman
et Sundheim (1996) couvre les noms de personnes, dorganisations et
demplacements gographiques, ainsi que les concepts de temps, monnaie et
pourcentage. La CoNLL 2002 7 dfinit le principe dentit nomme de manire
similaire : phrases that contain the names of persons, organizations, locations,
times and quantities 8 (Sang, 2002).
Nanmoins, cette double dfinition reste assez vague et sest vue modifie avec
lutilisation du NER par diffrents domaines. Ainsi, on inclut de nos jours les
produits, maladies ou vnements dans la liste dentits nommes. Ce manque de
consensus dans lintgration de nouvelles catgories dentits nommes va
lencontre de Nadeau et Sekine (2007) qui remarquent que nomme dans entit
nomme circonscrit la dfinition dentit nomme une entit dsigne par un
dsignateur rigide, comme dfini par Kripke (1972) : a rigid designator designates
the same object in all possible worlds in which that object exists and never
designates anything else 9. Il y a une absence vidente de consensus rel sur la
dfinition dentit nomme, puisquelle reste bien souvent dpendante du domaine
trait. La complexit spcifique chaque domaine dapplication rend la cration
dune dfinition stricte difficile et llaboration dun systme dextraction universel
impossible. Cest dans ce sens que Chiticariu et al. (2010) proposent une approche
base sur une liste de critres dfinis, dans le but de personnaliser la dfinition dune
entit nomme en fonction du domaine.
Cette liste prend en compte la limitation, la porte et la granularit dune entit :
en effet, ils remarquent que certains outils de NER utilisent les marqueurs de
gnration (par exemple, XVI dans Louis XVI ) alors que dautres ne les
prennent pas en compte. Ils prsentent une nouvelle approche, de laquelle il ressort
que la notion dentit nomme nest jamais absolue elle dpend aussi bien du
corpus trait que de lapplication. En francophonie, des efforts ont t raliss dans
la classification dentits nommes dans le cadre du projet ESTER 2 10 .
Similairement, aprs avoir soutenu sa thse en 2008, Ehrmann (2008) est devenue
une des rfrences dans le domaine. Pour plus de clart, nous avons fait le choix
dans cet article dutiliser le terme entit pour dsigner nimporte quel type

7 Conference on Computational Natural Language Learning, la confrence sur lapprentissage


informatique du langage naturel
8 propositions contenant les noms de personnes, organisations, lieux, temps et quantits
9 Un dsignateur rigide dsigne le mme objet [unique] dans tous les paradigmes possibles
dans lesquels cet objet existe, et ne dsigne jamais quelque chose dautre
10 http://www.afcpparole.org/camp_eval_systemes_transcription/docs/Conventions_EN_ESTER2_v01.pdf,
consult le 14 fvrier 2014

DOC-SI

dentit, quelle satisfasse la dfinition de Kripke ou non. Nous utilisons


galement lacronyme NER pour nommer aussi bien la reconnaissance dentits
nommes au sens strict (Named-Entity Recognition) que lextraction terminologique
(Term Extraction).
2.2. NER et Web smantique
La technique du NER est fortement dpendante des bases de connaissances
utilises pour entraner lalgorithme dextraction dentits nommes. En mobilisant
des ressources telles que DBpedia, Freebase et YAGO, des projets rcents11 ont
permis de faire correspondre des entits et des faits en utilisant ces ontologies.
Des efforts ont t faits pour aller plus loin que la simple dtection dune entit
nomme et de son type : la dsambigusation entre en ligne de compte,
principalement via un URI (Uniform Resource Identifier, identifiant (unique)
uniforme de ressource). La dsambigusation smantique lexicale est un des plus
grands dfis du traitement automatique du langage naturel. En effet, le langage
naturel tant fondamentalement ambigu (Bagga et Baldwin (1998) ainsi que Navigli
(2009)) et ce loppos de langages formels ou de programmation, le principe de
Word-Sense Disambiguation (WSD, la dsambigusation smantique lexicale) prend
tout son sens et reste un problme solutionner. Un exemple de son utilit est le
terme Cartier qui peut dsigner, en fonction du contexte : Jacques Cartier,
lexplorateur franais (ainsi que nombre de ses homonymes), une station de mtro,
une marque de vin ptillant, une le et une municipalit australiennes, un parc
national, une entreprise de joaillerie, un album de chansons, etc. De plus, une
personne ou une organisation peuvent avoir plusieurs noms ou appellations. Les
mthodes de WSD tentent, via le texte environnant les entits extraites, de
contextualiser les termes ambigus pour en dcouvrir le sens exact. Par consquent,
un service dextraction dentits nommes a pour but danalyser les donnes en
entre pour dtecter les entits nommes et ensuite leur assigner un type, assignation
base sur un score dit de confiance . Le service dextraction propose en troisime
lieu une liste dURI pour la dsambigusation.
Nous rfrons aux quatre principes dun URI dfinis de manire informelle par
Tim Berners-Lee pour valuer la qualit du Web des donnes :
1.
2.
3.

11

utiliser des adresses URI uniques pour identifier les choses;


utiliser des adresses URI de type HTTP afin que l'on puisse consulter
ces noms;
quand quelqu'un consulte un URI, fournir des informations utiles, en
utilisant les standards (RDF, SPARQL);

Pour nen citer que quelques-uns : le robot Watson dIBM et le moteur de recherche
Broccoli, par exemple, utilisent respectivement YAGO et Freebase.

DOC-SI

4.

inclure des liens vers d'autres URI, afin que l'on puisse dcouvrir plus
de choses.

Les services utiliss dans cet article ont t choisis sur la base de conformit
ces principes, avec une interprtation minimale de utile dans le troisime
principe. Pour cette raison, le service OpenCalais12 na pas t pris en compte lors de
notre valuation : en effet, les URI de type HTTP que ce service propose napportent
pas dinformations supplmentaires, ce qui viole les principes 3 et 4 susmentionns.
Les premiers travaux dans la fouille du Web (Web mining) consistaient
exploiter Wikipdia en tant que centre nvralgique : cest via les URI de Wikipdia
que la correspondance entre entits et documentation se faisait (Hoffart et al. (2011)
et Kulkarni et al. (2009)). La tendance sest ensuite tendue la dsambigusation
travers le cloud du Linked Open Data ( LOD, donnes ouvertes lies ). Ainsi, un
nombre dAPI13 proposent de lextraction terminologique et de la dsambigusation
par le biais du cloud LOD. Pour nen citer que quelques-uns : AlchemyAPI, DBpedia
Spotlight, Evri, Wikimeta, Yahoo! Term Extraction ou Zemanta. Ces services
prennent un fragment de texte en entre, appliquent leur algorithme de NER et
essaient ensuite de leur donner un URI existant dans le cloud LOD. Rizzo et Troncy
(2011) ont dvelopp NERD14, un outil permettant dexaminer et de comparer les
rsultats de plusieurs services simultanment, ce qui facilite lvaluation et la
comparaison des diffrents services.
2.3. Utilisation de NER avec les Humanits numriques
Un certain nombre dinstitutions culturelles et de chercheurs ont expriment la
reconnaissance dentits nommes. Similairement, la notion de distant reading
(lecture distante), dfinie par Moretti (2005) et encourageant adopter des
techniques informatiques automatises de traitement du langage naturel pour
intgrer et utiliser de trs gros corpus afin de faciliter la tche traditionnelle du close
reading (la mthode visant lire et interprter de manire soutenue un court passage
dun texte), rencontre beaucoup dintrt. Dans le monde anglophone, le
Powerhouse Museum de Sydney a intgr OpenCalais dans sa base de donnes de
gestion de catalogage (Chan, 2008). Bien que cette initiative ait t salue par la
profession et par les utilisateurs finaux, lefficacit du produit na jamais t
value. Dautres projets ont fait part dune valuation, mais pchent par leur
chantillon trop faible ou la nature de leur corpus. En effet, Lin et al. (2010) ont
interview un nombre de personnes pour valuer la pertinence dune entit extraite,
mais sur un chantillon insignifiant. Segers et al. (2011), quant eux, ont tent de
quantifier la qualit de lextraction dentits de types vnement, acteur,
emplacement gographique et date provenant de la base de donnes du Rijksmuseum

12

http://opencalais.com, consult le 12 janvier 2014


Application programming interface, interface de programmation.
14 http://nerd.eurecom.fr, consult le 18 novembre 2013
13

DOC-SI

dAmsterdam. Nanmoins, lextraction a t faite sur un corpus darticles Wikipdia


dont le contenu et la forme, plus narratifs, sont intrinsquement plus adapts au
NER que des champs descriptifs dune base de donnes musale ou dun jeu de
donnes archivistique et a requis un considrable effort de programmation, rendant
la reproduction de la mthodologie difficile. Lors du colloque Humanits
numriques et diplomatie bourguignonne (Stutzmann, 2012), Guerreau fait
remarquer lutilit de la reconnaissance dentits nommes dans lonomastique,
facilitant ainsi le travail du chercheur en histoire. En France toujours, cest
luniversit de Tours qui, en collaboration avec la Rgion Centre, a lanc le projet
ReNom15 visant mettre en valeur le tourisme rgional travers une cartographie
des textes littraires de Rabelais et Ronsard, pralablement traits par des
algorithmes de NER. Leur base de donnes prend en compte lvolution de
lorthographe des mots et le changement formel de noms (ainsi, les troys Arabies
deviennent Arabie ) mais le systme dsambiguse avec des URI spcifiques16 et
ne faisant pas partie du Web des donnes. Un autre effort dvaluation, fourni par
Rodriquez et al. (2012), aborde lefficacit de plusieurs services de NER sur un
corpus dactylographi du milieu du vingtime sicle. Afin de pouvoir comparer les
diffrents services, un chantillon de donnes OCR17 brutes et corriges a t annot
manuellement pour les catgories dentits suivantes : personne, emplacement
gographique, organisation. Cette manire de procder, proche de ce qui est fait
dans cet article, permet le calcul de la prcision, du rappel et du F-score des
diffrents services mais galement de comparer les rsultats de cette tude aux
ntres. Nanmoins, les services et le corpus utiliss dans cet article sont
suffisamment diffrents que pour offrir une valeur ajoute la problmatique de la
valeur de la reconnaissance dentits nommes pour les institutions de patrimoine
culturel.
2.4. Limpact du NER sur le multilinguisme
Les spcificits propres chaque langue requirent du traitement automatique des
langues (TAL) dtre une discipline relativement compartimente : en effet, une
rgle dfinie pour la langue russe ne sappliquera pas spcialement au franais ni au
japonais. Nanmoins, dautres thories existent, notamment lapproche chomskienne
(Chomsky, 1968) qui prne lexistence dune grammaire universelle un ensemble
de structures communes toute langue. Le NER nchappe pas cette tendance de

15

http://renom.univ-tours.fr/fr/le-projet, consult le 4 juin 2014


Cette tendance idiosyncratique ne pas rutiliser la documentation dj existante est une
faiblesse de ce systme et est mettre en relation avec la raison pour laquelle le service
OpenCalais na pas t retenu pour la ralisation du nos travaux comme expliqu au point
2.2.
17 Optical Character Recognition, en franais reconnaissance optique de caractres est la
technologie permettant la traduction dimages de textes imprims ou dactylographis en
fichiers de texte.
16

DOC-SI

cloisonnement, puisque lextraction est fortement dpendante de la langue traite.


En simplifiant, en franais, tout ce qui comporte une majuscule et nest pas en dbut
de phrase peut tre considr comme entit nomme, alors quen allemand, les noms
communs (par dfinition, non-candidats) portent galement la majuscule, par
exemple. Ainsi, utiliser un systme dextraction entran pour la langue franaise sur
un corpus allemand crerait beaucoup de bruit. Nanmoins, des initiatives telles que
la shared task18 de la CoNLL 2002 ont pour but la mise sur pied de systmes de
NER non dpendants de la langue traite (Sang, 2002) mais restent, si pas discrtes,
confines au monde acadmique, sans relle implmentation. De plus, elles restent
peu nombreuses par rapport aux recherches en TAL dans dautres langues
(espagnol, nerlandais, allemand, etc.) et surtout par rapport langlais, langue
scientifique par excellence et centre de la majorit des recherches. Rcemment,
Hatmi (2012) a abord la possibilit dadapter un systme de NER francophone vers
langlais19, mais uniquement au niveau de lextraction. Cest dans ce contexte que se
pose la question de la prdominance de langlais et de son impact sur le TAL et en
particulier sur lextraction dentits nommes et la dsambigusation sur des corpus
non anglophones, notamment francophones. En effet, lutilisation actuelle des bases
de connaissances pour la dsambigusation travers les services de NER illustre
cette question : ces bases de connaissances sont majoritairement anglophones ou,
lorsquelles sont multilingues, sont beaucoup plus fournies en anglais. La littrature
ce sujet est toutefois limite et manque de visibilit. Dans le contexte de nos
recherches bibliographiques, plusieurs listes de diffusion20 ont t contactes. Le
manque dengouement tmoigne de la disparit de ce domaine de recherche. Nous
en concluons que le problme de limpact du NER dans un contexte multilingue est
une opportunit de recherche, qui fera lobjet dune tude plus approfondie lors de
nos prochains travaux.
3.

Mthodologie

Nous tentons travers cet article de favoriser lutilisation de NER dans le


domaine culturel, et plus particulirement dans le contexte des humanits
numriques. Le Web des donnes reste un sujet primordial pour les humanistes
numriques, mais lutilisation de NER sest souvent limite des projets de grande
envergure, laissant peu de place lexprimentation par des gestionnaires de
collection ou professionnels du monde culturel. Ce point de vue a t exprim
rcemment par Ramsay et Rockwell (2012) lorsquils soulignent limportance dune
exprimentation sur le terrain, permettant la cration dune pistmologie et doutils
et infrastructures spcifiques. Cette pistmologie, ncessaire aux humanits

18 Littralement tche partage , cest un dfi lanc aux chercheurs lors de cette
confrence.
19 Lauteur envisage nanmoins dappliquer sa mthodologie dautres langues.
20 Les deux listes de diffusion interroges sont http://dhhumanist.org, en anglais, et
https://groupes.renater.fr/sympa/info/dh en franais.

DOC-SI

numriques, doit passer par la cration doutils plus accessibles aux chercheurs en
sciences humaines mais galement par ltablissement de nouvelles mthodes
dtalonnage et dvaluation de ces outils.
Cette ide nest pas nouvelle et a t aborde par van Hooland et al. (2013) sur le
sujet de la rconciliation de vocabulaire, rendant possible linterconnexion de
collections musales par le Web, travers lutilisation dune interface graphique
simple. Dans larticle susmentionn, le travail de rconciliation a t effectu sur un
champ de description contenant un langage contrl. Cet article sappuie sur le
travail prcdent tout en allant plus loin : en utilisant les techniques de NER, il
devient possible dextraire des concepts smantiquement significatifs dans des
champs descriptifs non structurs. Il suffit ensuite dutiliser la mthodologie de van
Hooland et al. (2013) pour rconcilier ces concepts avec un vocabulaire contrl.
Afin de remplir cet objectif, une tude de cas complte base sur un corpus et des
outils disponibles en ligne a t ralise dans le cadre de cet article. En utilisant des
outils et corpus gratuits et en ligne, cet article permet et encourage la rptition et
lenrichissement de la mthodologie et des analyses par les chercheurs en humanits
numriques. Les lments constitutifs de ltude de cas, savoir le cadre opensource des services de NER, le corpus et lchantillon utilis sont prsents cidessous. Une description dtaille du corpus utilis ainsi que de son pr-traitement
est mise disposition sur le Web21.
3.1. Cadre open-source des services de NER
3.1.1.

Contexte des outils interactifs de transformation de donnes

En apparence, les IDT (Interactive Data Transformation tools, outils interactifs


de transformation de donnes) ressemblent sy mprendre un tableur.
Nanmoins, alors quun tableur est conu pour travailler individuellement sur des
colonnes, lignes ou cellules, les IDT peuvent effectuer des traitements spcifiques
sur dnormes quantits de donnes textuelles en une fois. Cette capacit traiter de
larges quantits de donnes la fois permet aux utilisateurs non-experts daccomplir
des tches telles que le nettoyage et la rconciliation de donnes. Les IDT les plus
connus sont Potters Wheel ABC22, Wrangler23 et OpenRefine24 . Cest ce dernier
que nous utilisons dans cet article.

21

La
mthodologie
est
dcrite
et
disponible

ladresse
suivante :
http://homepages.ulb.ac.be/~shengche/biblio/ner/casestudy
22 http://control.cs.berkeley.edu/abc, consult le 21 dcembre 2013
23 http://vis.stanford.edu/papers/wrangler, consult le 21 dcembre 2013
24 http://openrefine.org, consult le 15 octobre 2013. OpenRefine a port le nom Freebase
Gridworks puis Google Refine avant de devenir OpenRefine.

DOC-SI

10

OpenRefine est rcemment devenu trs populaire pour traiter et nettoyer de


grandes quantits de donnes, et ce dans une interface graphique claire au sein de
son navigateur internet. De plus, OpenRefine permet de rconcilier des donnes avec
des bases de connaissances existantes rendant possible le principe du Linked Data.
3.1.2.

Dveloppement de l'extension NER

Bien quOpenRefine permette la mise en correspondance dun ou plusieurs


termes avec un identifiant unique, le programme noffre pas, de base, des fonctions
de reconnaissance dentits nommes sur des textes entiers. Il existe en revanche un
nombre de services Web, libres ou non, gratuits ou non, permettant le NER. Ces
services tant disponibles via des API, il est difficile pour les non-spcialistes de les
utiliser. De plus, devoir invoquer ces services manuellement sur chaque texte est
non seulement peu pratique, mais galement une perte de temps. Troisimement,
chaque service tant diffrent, leur API fonctionne diffremment et demande une
manipulation diffrente.
Ces problmes nous ont mens au dveloppement dune extension 25 pour
OpenRefine prenant en charge certains services26, et permettant facilement aux nonexperts dintgrer le NER dans leur workflow. Cette extension est gratuite et opensource, sous licence MIT27, permettant nimporte qui de lutiliser et de lamliorer.
4.

Analyse des rsultats: prcision, rappel et F-score

Le GSC compte 744 entits, dont 421 sont des lieux, 159 des personnes et 164
des organisations. Sur les 744 entits, lchantillon en compte 143 simples (sur une
ligne) et 601 composes (sur plusieurs lignes). Une distribution des entits par genre
est prsente dans la table 1. La table 2 indique les performances des diffrents
services en matire de rappel, prcision28 et F-score. De manire gnrale, ce sont
les lieux qui sont le plus correctement extraits et dsambiguss par dataTXT,
Wikimeta et Zemanta, alors quAlchemyAPI pche dans ce domaine mais prsente le
meilleur rsultat en terme de F-score, pour la catgorie personnes . Les rsultats
de rappel calculs sont relativement faibles, sauf pour Wikimeta. Nanmoins,
dataTXT prsente des rsultats prometteurs pour lextraction de lieux, avec une
prcision de .69 et un peu plus dune entit sur deux extraite. Il ressort de ltude

25

Lextension est disponible ladresse http://freeyourmetadata.org/named-entity-extraction


Une description des services retenus pour cet article est disponible l'adresse:
http://homepages.ulb.ac.be/~shengche/biblio/ner/
27 http://opensource.org/licenses/MIT, consult le 4 novembre 2013.
28 La prcision totale par service nest pas la combinaison pondre des trois catgories
dentits traites : en effet, les services ont extrait du bruit, qui ne rentre dans aucune
catgorie ce bruit rduit donc la prcision totale du service, mais pas celle dune catgorie
dentit en particulier.
26

DOC-SI

11

quantitative que sur les 4 services, ce sont dataTXT et Wikimeta qui prsentent les
meilleurs scores gnraux. Zemanta semble tre spcialis dans la prcision des
lieux malgr un taux de rappel indiquant quun quart des entits seulement a t
extrait, alors quAlchemyAPI se spcialise dans lextraction de personnes.

Catgorie

Nombre

Pourcentage

PER
ORG
LOC

159
164
421

21,4
22
56,7

Total

744

100

Table 1: Distribution des catgories d'entits nommes

Sur le total des 744 entits prsentes dans notre chantillon, AlchemyAPI en a
correctement identifies 165, dataTXT 309, Wikimeta 378 et Zemanta 138. Dautres
termes ont t extraits, incorrectement : 246 par AlchemyAPI, 694 par dataTXT,
1090 par Wikimeta et 178 par Zemanta.

Service

Type

Prcision

Rappel

F-score

AlchemyAPI

PER
ORG
LOC

.57
.22
.45

.52
.11
.15

.54
.14
.22

Total

.40

.22

.29

PER
ORG
LOC

.38
.43
.69

.23
.26
.54

.29
.32
.60

Total

.37

.41

.39

PER
ORG
LOC

.39
.10
.64

.60
.26
.57

.47
.14
.60

Total

.33

.51

.40

PER
ORG
LOC

.33
.34
.79

.10
.11
.25

.15
.17
.38

Total

.53

.18

.27

dataTXT

Wikimeta

Zemanta

Table 2: Rsultats des services, par catgorie

DOC-SI

12

5.

Discussion

Une analyse plus qualitative des rsultats montre que lextraction fonctionne
relativement bien sur les textes suivis ( linverse des listes, ou procs-verbaux,
galement prsents dans le fonds darchives). Les entits extraites sont, si pas
toujours correctes, souvent pertinentes au champ de description qui a subi le
processus dextraction. Par exemple, dataTXT parvient extraire rue Dalhousie
dans une phrase contenant cette entit et la dsambiguser en tant que Route 136
(R-136), le nom rel de cette route dont la rue Dalhousie est un tronon. Un nombre
considrable de rues et boulevards (notamment : rue Saint-Paul , boulevard
Charest , rue Saint-Roch ) sont ainsi non-seulement extraits mais galement
correctement dsambiguss par dataTXT, ce qui est une valeur ajoute indniable
pour un fonds darchives dautant plus que cette dsambigusation se faisant
travers le Web des donnes, des informations supplmentaires comme les lieux
patrimoniaux et monuments historiques sur ces endroits sont disponibles.
Ces observations nous font revoir notre perception des rsultats quantitatifs, que
nous dveloppons plus bas.
5.1. Spcificits du corpus
Lors de la cration dun GSC, de nombreuses questions viennent lesprit
concernant la classification des entits. Bien que les catgories soient bien dfinies
(en effet, de prime abord, un lieu nest pas une organisation, et vice versa), leur
rigidit oblige le chercheur faire des choix subjectifs. Le terme Qubec est une
ville et une province, et rentre donc en toute logique dans la catgorie LOC .
Mais que faire du terme Qubec lorsquil est pris dans un contexte faisant
rfrence la ville de Qubec en tant quentit ayant un gouvernement (et tombant
par la mme occasion dans la catgorie organisation, ORG ) ? Un htel, qui a un
emplacement gographique fixe par nature mais est une entreprise commerciale, estil un lieu ou une organisation ? Ces questions sont en partie rsolues par linitiative
ESTER 2 qui, en plus des catgories traditionnelles dentits, propose des souscatgories : la ville de Qubec serait par exemple LOC.admi , une entit de type
LOC lie une autorit administrative. Nanmoins, seul Wikimeta grant ce schma
de classification, il est difficile de le prendre en compte lorsque lon compare
diffrents services dextraction.
Dautres questions se posent, notamment les lieux sous-entendus. Dans notre
corpus, qui traite uniquement de la ville de Qubec, le contexte joue normment :
ainsi, l Htel de Ville , bien quentit nomme sous-entendue, ne peut tre
considr pour le GSC tant donn que les diffrents services ne sont
intrinsquement pas capables de dterminer que nous traitons les archives de la ville
de Qubec et non pas nimporte quel autre jeu de donnes, de nimporte quelle autre
source. Nanmoins, ces concepts sont extraits et proposs par certains services
crant ainsi du bruit.

DOC-SI

13

Finalement, le corpus lui-mme ne prsente pas que du contenu narratif.


Certaines phrases sont de simples nonciations de termes, rappelant le procd
inventoriel : Villeneuve, industries, moulin corcer, Montmills, Montmorency
Lumber Co, drave, flottage du bois, () en est un exemple. Ce contenu non
narratif porte prjudice aux services dextraction, qui semblent avoir t plus
entrans pour des textes suivis que des inventaires.
5.2. Spcificits des services
Une analyse plus profonde des rsultats montre que Wikimeta prsente de
meilleurs rsultats que les autres services. Ceci est expliqu par son fonctionnement
intrinsque, et ce de deux manires : l o les diffrents services extraient et lient les
entits de la documentation en ligne, Wikimeta ne considre pas la mise en relation
(hyperlinking) comme obligatoire. Ainsi, Wikimeta peut extraire des entits peu
connues29 sans tre pnalis par le manque de documentation. Cette fonctionnalit
est trs avantageuse dans le cadre de notre corpus car les archives de la ville de
Qubec comptent un grand nombre de procs-verbaux de conseils municipaux
dressant la liste des prsents et absents. Lautre avantage que fournit cette
particularit est que le service obtient le bnfice du doute lors du calcul de la
prcision : en effet, l o par exemple dataTXT devra la fois extraire correctement
lentit Saint-Charles et la lier la bonne ressource (en loccurrence, la rivire),
Wikimeta ne doit se contenter que de lextraction : le service ne considrant pas la
dsambigusation comme obligatoire, il ny a aucune manire de dterminer si cette
dernire aurait t correcte ou pas. Notre corpus contenant un nombre important de
quartiers portant le nom de personnes ( Quartier Jacques Cartier , Quartier
Montcalm , Quartier (petit) Champlain ) cet avantage semble tre dterminant.
Cette particularit de Wikimeta est partage par AlchemyAPI, qui obtient un bon
score de rappel pour la catgorie personnes . Nanmoins, le fait quAlchemyAPI
ne soit pas entran pour des corpus francophones explique sa relative faiblesse pour
les autres catgories.
5.3. Entits nommes et concepts gnraux: que prendre en compte?
En rgle gnrale, la prcision est assez faible. Cette mauvaise note est explique
par le fonctionnement intrinsque des services tiers : bien que promus comme
solutions de NER, ils extraient bien plus que les seules entits nommes et font plus
de lextraction terminologique que de la reconnaissance dentits nommes. Ds
lors, les concepts correctement extraits mais non pris en compte dans le GSC
contribuent au bruit calcul, alors que la limitation se trouve ici du ct de la
mtrique utilise. Des exemples frappants de cette tendance sont secrtariat ,

29

Et par extension, ne bnficiant pas de documentation en ligne leur sujet. Par exemple:
Arthur Verreault, J-Wilfrid Bolduc, P.-A. Boutin, etc.

DOC-SI

14

fonds de pension ou encore publicit et logement . Bien que ces concepts


plus gnraux apportent de la valeur ajoute au jeu de donnes, ils sont considrs
comme incorrects par le GSC. La question de la pertinence des termes extraits se
pose galement. Une analyse pousse dune partie30 de lchantillon montre que sur
les 635 entits proposes par lensemble des services, 24831 sont pertinentes et
apportent une valeur ajoute : en effet, certaines entits extraites, comme
Canada , napportent que trs peu dinformations supplmentaires sur le fonds
darchives. Nanmoins, cette analyse plus prcise des termes extraits montre que
lutilisation des services dextraction apporte indniablement une plus-value au jeu
de donnes.
5.4. Dsambigusation smantique lexicale
Il ressort dune analyse pousse du fonds darchives quun certain nombre des
noms de lieux prsents dans lchantillon sont des polysmes : en effet, un certain
nombre de quartiers et de rues portent les noms de Jacques Cartier ou Samuel de
Champlain, etc. Ds lors, la polysmie pose souvent problme lors de la
dsambigusation, mme si les concepts sont extraits correctement. Nanmoins,
dataTXT semble mieux sen sortir et arrive dsambiguser un certain nombre
dentits convenablement.
Difficult proche de la polysmie, lhomonymie pose galement problme au
niveau de la dsambigusation. En effet, des termes comme Villeneuve , ou Rue
de la Chapelle , par exemple, font rfrence plusieurs entits32, et sont souvent
mal dsambiguss.
Finalement, une dernire pierre dachoppement de la dsambigusation dun
corpus francophone se trouve au niveau des bases de connaissances utilises pour le
WSD. Si dataTXT, service promu comme indpendant dune langue, dduit que le
corpus est en franais et lie les entits extraites avec leur documentation
francophone, Wikimeta, qui gre nativement le franais, tablit systmatiquement
des liens vers la documentation anglophone33. Cette tendance de Wikimeta, qui
engrange pourtant le plus de points sur la base du GSC, est assez intressante pour
tre souligne.

30 Cet chantillon d'chantillon est calcul sur la base d'un niveau de confiance de 95% et
d'un intervalle de confiance de 10.
31 Respectivement: 31 (sur 95) pour AlchemyAPI, 103 (sur 185) pour dataTXT, 86 (sur 281)
pour Wikimeta et 28 (sur 74) pour Zemanta.
32 Il y a une rue de la chapelle Qubec mais galement Paris, tout comme plusieurs
Villeneuve existent des personnes, mais galement des lieux.
33 Ainsi, Prince de Galles devient Prince of Wales ou Chambre des Communes
devient House of Commons of Canada , par exemple.

DOC-SI

15

6.

Conclusions et prochains travaux

En conclusion, nous pouvons affirmer que si les services obtiennent des mauvais
scores sur des critres quantitatifs, leur apport reste non ngligeable lors dune
analyse qualitative des rsultats : ltude quantitative se basant sur des critres
mtriques peu souples et difficilement applicables au rel34, sa valeur est remettre
en contexte. Cette remise en contexte (re)lance le dbat sur limportance de la
reproductibilit dune mthodologie et lapport qualitatif des acteurs de terrain, sur
lamlioration de cette mthodologie, menant la cration dune nouvelle approche
pistmologique pour les Humanits numriques. Nanmoins, si les services de
NER existants apportent une plus-value non ngligeable, il ne faut pas perdre de vue
le problme du multilinguisme. Si de prime abord lutilisation de techniques de NER
en combinaison avec le Web des donnes enrichit un fonds darchives, la
prdominance de langlais dans le Linked Data peut, plus long terme,
effectivement appauvrir le rayonnement dune langue sur le plan international. Dans
cet ordre dide, les initiatives francophones denrichissement de collections
culturelles par lutilisation de NER manquent. De plus, si le rcent projet ReNom
utilise bien le NER, il est regretter quil ne propose pas, via les technologies du
Web des donnes, de rutiliser la documentation cre loccasion.
De plus, alors que les sciences exactes auront tendance liminer les aberrations
statistiques et se concentrer sur la rgle gnrale, les sciences humaines et par
extension les Humanits numriques cherchent souvent l exception la rgle
qui fait alors le sujet dune tude plus pousse. Lavnement du big data et des
normes quantits de donnes35 oblige les chercheurs et praticiens faire appel des
outils statistiques, lissant les exceptions et prsentant ds lors une difficult pour les
Humanits numriques.
Une problmatique de lutilisation du Web des donnes pour lenrichissement
semi-automatique dun fonds darchives se trouve au niveau de la qualit de
linformation rcolte et donc propose : un gestionnaire de collection na pas ou
peu dinfluence sur le contenu, souvent dynamique, dune base de connaissances.
Ds lors, au lieu doffrir un enrichissement moindre cot, la proposition de
solution au manque de moyens des institutions culturelles prconise dans cet article
risque dintroduire de la dsinformation si elle est applique sans supervision
humaine. Ce risque li au manque de contrle sur le contenu est renforc par la
concurrence entre les diffrents fournisseurs dinformation : si DBpedia est une base
de connaissances libre mise disposition du public et maintenue par la communaut,
Freebase, lautre bout du spectre, est une entreprise commerciale prsentant des
enjeux conomiques.

34 Il est intressant de mettre en lien cette difficult de la reprsentation dterministe dun


domaine empirique (le rel) avec les travaux de Boydens et van Hooland (2011).
35 Un exemple de cette explosion de donnes est lincapacit dun serveur lister toutes les
donnes et relations prsentes sur DBpedia.

DOC-SI

16

Il faut galement prendre en compte ce quEli Pariser (2011) appelle la filter


bubble 36 ( bulle de filtre ): lorsque lon a plusieurs candidats la
dsambigusation, le choix final est arrt par un algorithme statistique qui jugera
que, par exemple, la chane de caractres Jacques Cartier a plus de chances de
faire rfrence la personne quau quartier ponyme. Ce choix rduira les chances
des entits moins connues tre dcouvertes.
En conclusion, nous rejoignons Drucker (2012): We use tools from disciplines
whose epistemological foundations are at odds with, or even hostile to, the
humanities. Positivistic, quantitative and reductive, these techniques preclude
humanistic methods because of the very assumptions on which they are designed:
that objects of knowledge can be understood as ahistorical and autonomous.
Probability is not the same as ambiguity or multivalent possibility within the field of
humanistic inquiry. The task of calculating norms, medians, means and averages
will never be the same as the task of engaging with anomalies and taking their
details as the basis of an argument. 37. En effet, si les outils utiliss et proposs
prsentent indniablement une valeur ajoute, tout en ne perdant pas de vue le
principe du fitness for use, leur apport ne peut pas remplacer le travail du
professionnel.
Bibliographie
Ananiadou, S., & McNaught, J. (2006). Text mining for biology and biomedicine. Artech
House, Boston.
Bachimont, B., Gandon, F., Poupeau, G., Vatant, B., Troncy, R., Pouyllau, S., ... &
Zacklad, M. (2011). Enjeux et technologies: des donnes au sens. Documentaliste-Sciences de
l'Information, 48(4), 24-41.
Bagga, A., & Baldwin, B. (1998). Entity-based Cross-document Coreferencing Using the
Vector Space Model. In Proceedings of the 17th International Conference on Computational
Linguistics - Volume 1 (pp. 7985). Stroudsburg, PA, USA: Association for Computational

36

La tendance quont certains algorithmes pr-filtrer les rsultats dune requte


informatique en fonction de diffrents paramtres, souvent inconnus de la personne faisant la
requte. Le danger de cette limite est que chaque individu est cantonn une reprsentation
de linformation (et par extension, du rel) diffrente, sur la base dun algorithme quil ne
matrise pas.
37 Nous empruntons des outils des disciplines dont les fondations pistmologiques vont
lencontre des sciences humaines. Ces techniques, qui peuvent tre qualifies comme
positivistes, quantitatives et rductrices, entravent les mthodes traditionnelles des sciences
humaines en raison des hypothses mmes sur lesquelles elles sont conues : que les objets de
la connaissance peuvent tre considres comme anhistoriques et autonomes. La notion de
probabilit nest pas la mme chose que lambigut ou la multivalence dans la recherche
humaniste. Calculer des normes, des mdianes ou des moyennes ne sera jamais quivalent
tacler des anomalies et prendre leurs dtails comme la base dun argument.

DOC-SI

17

Linguistics. doi:10.3115/980451.980859
Berms, E. (2013). Le Web smantique en bibliothque. Editions du Cercle de La
Librairie, Paris.
Berners-Lee, T. (2002). Linked Data - Design Issues.
http://www.w3.org/DesignIssues/LinkedData.html, consult le 3 aot 2013.

Rcupr

sur

Boydens, I., & Van Hooland, S. (2011). Hermeneutics applied to the quality of empirical
databases. Journal of documentation, 67(2), 279-289.
Chan, S. (2008). OPAC2.0 OpenCalais meets our museum collection / auto-tagging and
semantic
parsing
of
collection
data.
Rcupr
sur
http://www.freshandnew.org/2008/03/opac20-opencalais-meets-our-museum-collection-autotagging-and-semantic-parsing-of-collection-data/, consult le 25 janvier 2014.
Chiticariu, L., Krishnamurthy, R., Li, Y., Reiss, F., & Vaithyanathan, S. (2010). Domain
Adaptation of Rule-based Annotators for Named-entity Recognition Tasks. In Proceedings of
the 2010 Conference on Empirical Methods in Natural Language Processing (pp. 1002
1012). Stroudsburg, PA, USA: Association for Computational Linguistics.
Chomsky, N. (1968). Language and Mind. Harcourt, Brace & World, New York.
Drucker, J. (2012). Humanistic Theory and Digital Scholarship. In M. Gold (Ed.),
Debates in the Digital Humanities (pp. 8595). Minnesota Press.
Ehrmann, M. (2008). Les entits nommes, de la linguistique au TAL: statut thorique et
mthodes de dsambigusation. Thse, Universit Paris 7 Denis Diderot, 2008.
Grishman, R., & Sundheim, B. (1996). Message Understanding Conference-6: A Brief
History. In Proceedings of the 16th Conference on Computational Linguistics - Volume 1 (pp.
466471). Stroudsburg, PA, USA: Association for Computational Linguistics.
Hatmi, M. (2012). Adaptation dun systme de reconnaissance dentits nommes pour le
franais langlais moindre cot. In Actes de la confrence conjointe JEP-TALN-RECITAL
2012 (Vol. 3, pp. 151161).
Hoffart, J., Yosef, M. A., Bordino, I., Frstenau, H., Pinkal, M., Spaniol, M., Weikum,
G. (2011). Robust Disambiguation of Named Entities in Text. In Proceedings of the
Conference on Empirical Methods in Natural Language Processing (pp. 782792).
Stroudsburg, PA, USA: Association for Computational Linguistics.
Kripke, S. A. (1972). Naming and Necessity. In D. Davidson & G. Harman (Eds.),
Semantics of Natural Language (pp. 253355). Springer Netherlands.
Kulkarni, S., Singh, A., Ramakrishnan, G., & Chakrabarti, S. (2009). Collective
Annotation of Wikipedia Entities in Web Text. In Proceedings of the 15th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining (pp. 457466). New
York, NY, USA: ACM.
Lin, Y., Ahn, J.-W., Brusilovsky, P., He, D., & Real, W. (2010). Imagesieve: Exploratory
search of museum archives with named entity-based faceted browsing. Proceedings of the

DOC-SI

18

American Society for Information Science and Technology, 47(1), 110.


Moens, M.-F. (2006). Information extraction algorithms and prospects in a retrieval
context. Springer, Dordrecht.
Moretti, F. (2005). Graphs, Maps, Trees: Abstract Models for a Literary History. Verso,
London & New York.
Nadeau, D., & Sekine, S. (2007). A survey of named entity recognition and classification.
Lingvisticae Investigationes, 30(1), 3-26.
Navigli, R. (2009). Word sense disambiguation: A survey. ACM Computing Surveys
(CSUR), 41(2), 10.
Pariser, E. (2011). The Filter Bubble: How the New Personalized Web Is Changing What
We Read and How We Think. Penguin Books, London.
Ramsay, S., & Rockwell, G. (2012). Developing things: notes towards an epistemology of
building in the digital humanities. In Debates in the Digital Humanities University of
Minnesota Press (pp. 7584). University of Minnesota Press.
Rizzo, G., & Troncy, R. (2011). NERD: evaluating named entity recognition tools in the
web of data.
In: Proceedings of the Workshop on Web Scale Knowledge Extraction
WEKEX'11, Bonn, 23-27 Octobre 2011.
Rodriquez, K. J., Bryant, M., Blanke, T., & Luszczynska, M. (2012). Comparison of
named entity recognition tools for raw OCR text. In J. Jancsary (Ed.), Proceedings of
KONVENS 2012 (pp. 410414). GAI.
Sang, E. F. T. K. (2002). Introduction to the CoNLL-2002 Shared Task: LanguageIndependent Named Entity Recognition. arXiv:cs/0209010.
Segers, R., van Erp, M., van de Meij, L., Aroyo, L., & Schreiber, G. (2011). Hacking
history: Automatic historical event extraction for enriching cultural heritage multimedia
collections. In Proceedings of the 6th International Conference on Knowledge Capture (KCAP11).
Stutzmann, D. (2012). Humanits numriques et diplomatique bourguignonne. Rcupr
sur http://ephepaleographie.wordpress.com/2012/01/27/humanites-numeriques-etdiplomatique-bourguignonne/, consult le 28 dcembre 2013.
Tamilin, A., Magnini, B., Serafini, L., Girardi, C., Joseph, M., & Zanoli, R. (2010).
Context-Driven Semantic Enrichment of Italian News Archive. In L. Aroyo, G. Antoniou, E.
Hyvnen, A. ten Teije, H. Stuckenschmidt, L. Cabral, & T. Tudorache (Eds.), The Semantic
Web: Research and Applications (pp. 364378). Springer, Berlin.
Van Hooland, S., Verborgh, R., De Wilde, M., Hercher, J., Mannens, E., & Van de Walle,
R. (2013). Evaluating the success of vocabulary reconciliation for cultural heritage
collections. Journal of the American Society for Information Science and Technology, 64(3),
464479.

DOC-SI

You might also like