Professional Documents
Culture Documents
RSUM. Les champs de mtadonnes non structurs tels que description offrent une
plus-value considrable la comprhension pour les utilisateurs finaux. Nanmoins, leur
caractre non structur les rend peu exploitables dans un contexte lectronique et
dautomatisation. Cet article explore les possibilits et les limitations de la reconnaissance
dentits nommes ( Named-Entity Recognition , NER) et de lextraction terminologique (
Term Extraction , TE) dans la prospection de donnes non-structures afin den extraire des
concepts significatifs. Ces concepts permettent de tirer parti dune recherche et dune
navigation amliores, mais peuvent galement jouer un rle trs important dans la
recherche en humanits numriques. travers une tude de cas base sur les champs de
description des archives historiques de la ville de Qubec, cet article propose une valuation
de quatre services tiers dextraction dentits afin de promouvoir lexprimentation de la
reconnaissance dentits nommes et lextraction terminologique. Dans le but de couvrir
autant le NER que la TE, nous utilisons une approche quantitative pour lvaluation des
entits nommes base sur la prcision, le rappel, et le F-score calculs sur la base dun
rfrent manuel ( gold standard corpus ). Une seconde approche, plus qualitative, permet
ensuite de prendre en compte la pertinence des termes extraits et aborde la question du
multilinguisme.
ABSTRACT. Unstructured metadata fields such as "description" present a huge informational
value to the end users. Nonetheless, their unstructured nature makes them close to useless
within a machine-readable context. This paper explores the possibilities of using NamedEntity Recognition (NER) to mine such unstructured metadata for meaningful concepts. These
concepts allow, on the one hand, easier navigating and search inside datasets, but might be
more than relevant in the fostering of Digital Humanities research. Through a comprehensive
study of the historical archives of the city of Qubec, this paper proposes an evaluation of
four third-party extraction services. This allows the experimenting with NER and term
extraction. In order to cover NER and TE, we put forward a quantitative analysis of named
entities based on precision, recall and F-score calculated with the use of a gold-standard
DOC-SI
corpus. This approach is then complemented by a qualitative analysis of the terms extracted
and tackles the question of multilingualism.
MOTS-CLES : NER, RECONNAISSANCE D'ENTITES NOMMEES, ARCHIVES, WEB
SEMANTIQUE, LINKED DATA
KEYWORDS: NER, NAMED-ENTITY RECOGNITION, ARCHIVES, SEMANTIC WEB,
LINKED DATA
1.
Introduction
1.1. Enjeux et contexte
1 Remarquons que peu dentreprises, qui utilisent des systmes dinformation se devant dtre
prcis et corrects tout moment dans un milieu en constante volution et dont le domaine est
continuellement en redfinition, ont fait le choix du modle du Web smantique.
2 http://openglam.org, consult le 21 janvier 2014
3 http://lodlam.net, consult le 21 janvier 2014
4 http://dp.la, consult le 21 janvier 2014
5 http://europeanea.eu, consult le 21 janvier 2014
6 http://data.bnf.fr, consult le 21 janvier 2014
DOC-SI
RAMEAU), ces derniers ayant t rendus disponibles selon les principes du Web
des donnes. Bachimont et al. (2011) proposent un dossier de vulgarisation sur le
Web des donnes et le Web smantique, permettant aux professionnels de
linformation classique de se mettre jour sur les enjeux et difficults dun domaine
en pleine volution. Dans la mme logique, Berms (2013) tablit une prsentation
des diffrentes briques technologiques du Web smantique, avec comme angle
dapproche les possibilits quoffre cette nouvelle approche aux bibliothques.
1.2. Questions de recherche
Aprs avoir dress un tat de lart du NER, cet article tentera de rpondre un
nombre de questions. Premirement, nous aborderons les possibilits et limites du
NER et dautres mthodes dextraction dentits pour lenrichissement de corpus de
donnes non-structures. Un Gold Standard Corpus (GSC, corpus standard de
rfrence annot manuellement) sera utilis pour calculer la prcision, le rappel et le
F-Score sur des rsultats obtenus par les services de NER. Des questions plus
systmiques telles que le bien-fond de lutilisation dun GSC et comment
surmonter ses lacunes seront galement abordes. En effet, des termes tels que
palontologie ou exploration spatiale sont indniablement une source
dinformation intressante lors de lenrichissement dun corpus mais ne sont pas
considrs par un GSC car ne sont pas des entits nommes. De plus, le GSC ne
permet pas de distinguer, premire vue, limportance dun terme par rapport sa
granularit et sa frquence lextraction et la dsambigusation correcte du terme
Qubec dans un corpus traitant presquexclusivement cette ville apportent peu
de valeur ajoute mais contribuent un haut score de rappel. Nous aborderons
ensuite le NER avec une vue densemble sur sa cration et ses volutions actuelles
avec un intrt tout particulier pour son utilisation dans le domaine du Web des
donnes et la sphre du patrimoine culturel. Ensuite, nous traiterons ltude de cas et
la mthodologie de cet article sur lutilisation du NER, suivies de la mise en
contexte des rsultats de notre tude. La question du multilinguisme, tant au niveau
de lextraction que de la dsambigusation, sera galement aborde dans cet article :
quelle est linfluence de la langue dun corpus sur un algorithme dextraction et,
paralllement, comment procder pour que les entits extraites trouvent une
dfinition dans la bonne langue ? Enfin, nous aborderons les risques globaux de
lutilisation du NER en masse, notamment au niveau de la langue utilise et
concluons larticle sur les prochains dfis relever.
2.
tat de l'art
2.1. Contexte et histoire du NER
DOC-SI
DOC-SI
11
Pour nen citer que quelques-uns : le robot Watson dIBM et le moteur de recherche
Broccoli, par exemple, utilisent respectivement YAGO et Freebase.
DOC-SI
4.
inclure des liens vers d'autres URI, afin que l'on puisse dcouvrir plus
de choses.
Les services utiliss dans cet article ont t choisis sur la base de conformit
ces principes, avec une interprtation minimale de utile dans le troisime
principe. Pour cette raison, le service OpenCalais12 na pas t pris en compte lors de
notre valuation : en effet, les URI de type HTTP que ce service propose napportent
pas dinformations supplmentaires, ce qui viole les principes 3 et 4 susmentionns.
Les premiers travaux dans la fouille du Web (Web mining) consistaient
exploiter Wikipdia en tant que centre nvralgique : cest via les URI de Wikipdia
que la correspondance entre entits et documentation se faisait (Hoffart et al. (2011)
et Kulkarni et al. (2009)). La tendance sest ensuite tendue la dsambigusation
travers le cloud du Linked Open Data ( LOD, donnes ouvertes lies ). Ainsi, un
nombre dAPI13 proposent de lextraction terminologique et de la dsambigusation
par le biais du cloud LOD. Pour nen citer que quelques-uns : AlchemyAPI, DBpedia
Spotlight, Evri, Wikimeta, Yahoo! Term Extraction ou Zemanta. Ces services
prennent un fragment de texte en entre, appliquent leur algorithme de NER et
essaient ensuite de leur donner un URI existant dans le cloud LOD. Rizzo et Troncy
(2011) ont dvelopp NERD14, un outil permettant dexaminer et de comparer les
rsultats de plusieurs services simultanment, ce qui facilite lvaluation et la
comparaison des diffrents services.
2.3. Utilisation de NER avec les Humanits numriques
Un certain nombre dinstitutions culturelles et de chercheurs ont expriment la
reconnaissance dentits nommes. Similairement, la notion de distant reading
(lecture distante), dfinie par Moretti (2005) et encourageant adopter des
techniques informatiques automatises de traitement du langage naturel pour
intgrer et utiliser de trs gros corpus afin de faciliter la tche traditionnelle du close
reading (la mthode visant lire et interprter de manire soutenue un court passage
dun texte), rencontre beaucoup dintrt. Dans le monde anglophone, le
Powerhouse Museum de Sydney a intgr OpenCalais dans sa base de donnes de
gestion de catalogage (Chan, 2008). Bien que cette initiative ait t salue par la
profession et par les utilisateurs finaux, lefficacit du produit na jamais t
value. Dautres projets ont fait part dune valuation, mais pchent par leur
chantillon trop faible ou la nature de leur corpus. En effet, Lin et al. (2010) ont
interview un nombre de personnes pour valuer la pertinence dune entit extraite,
mais sur un chantillon insignifiant. Segers et al. (2011), quant eux, ont tent de
quantifier la qualit de lextraction dentits de types vnement, acteur,
emplacement gographique et date provenant de la base de donnes du Rijksmuseum
12
DOC-SI
15
DOC-SI
Mthodologie
18 Littralement tche partage , cest un dfi lanc aux chercheurs lors de cette
confrence.
19 Lauteur envisage nanmoins dappliquer sa mthodologie dautres langues.
20 Les deux listes de diffusion interroges sont http://dhhumanist.org, en anglais, et
https://groupes.renater.fr/sympa/info/dh en franais.
DOC-SI
numriques, doit passer par la cration doutils plus accessibles aux chercheurs en
sciences humaines mais galement par ltablissement de nouvelles mthodes
dtalonnage et dvaluation de ces outils.
Cette ide nest pas nouvelle et a t aborde par van Hooland et al. (2013) sur le
sujet de la rconciliation de vocabulaire, rendant possible linterconnexion de
collections musales par le Web, travers lutilisation dune interface graphique
simple. Dans larticle susmentionn, le travail de rconciliation a t effectu sur un
champ de description contenant un langage contrl. Cet article sappuie sur le
travail prcdent tout en allant plus loin : en utilisant les techniques de NER, il
devient possible dextraire des concepts smantiquement significatifs dans des
champs descriptifs non structurs. Il suffit ensuite dutiliser la mthodologie de van
Hooland et al. (2013) pour rconcilier ces concepts avec un vocabulaire contrl.
Afin de remplir cet objectif, une tude de cas complte base sur un corpus et des
outils disponibles en ligne a t ralise dans le cadre de cet article. En utilisant des
outils et corpus gratuits et en ligne, cet article permet et encourage la rptition et
lenrichissement de la mthodologie et des analyses par les chercheurs en humanits
numriques. Les lments constitutifs de ltude de cas, savoir le cadre opensource des services de NER, le corpus et lchantillon utilis sont prsents cidessous. Une description dtaille du corpus utilis ainsi que de son pr-traitement
est mise disposition sur le Web21.
3.1. Cadre open-source des services de NER
3.1.1.
21
La
mthodologie
est
dcrite
et
disponible
ladresse
suivante :
http://homepages.ulb.ac.be/~shengche/biblio/ner/casestudy
22 http://control.cs.berkeley.edu/abc, consult le 21 dcembre 2013
23 http://vis.stanford.edu/papers/wrangler, consult le 21 dcembre 2013
24 http://openrefine.org, consult le 15 octobre 2013. OpenRefine a port le nom Freebase
Gridworks puis Google Refine avant de devenir OpenRefine.
DOC-SI
10
Le GSC compte 744 entits, dont 421 sont des lieux, 159 des personnes et 164
des organisations. Sur les 744 entits, lchantillon en compte 143 simples (sur une
ligne) et 601 composes (sur plusieurs lignes). Une distribution des entits par genre
est prsente dans la table 1. La table 2 indique les performances des diffrents
services en matire de rappel, prcision28 et F-score. De manire gnrale, ce sont
les lieux qui sont le plus correctement extraits et dsambiguss par dataTXT,
Wikimeta et Zemanta, alors quAlchemyAPI pche dans ce domaine mais prsente le
meilleur rsultat en terme de F-score, pour la catgorie personnes . Les rsultats
de rappel calculs sont relativement faibles, sauf pour Wikimeta. Nanmoins,
dataTXT prsente des rsultats prometteurs pour lextraction de lieux, avec une
prcision de .69 et un peu plus dune entit sur deux extraite. Il ressort de ltude
25
DOC-SI
11
quantitative que sur les 4 services, ce sont dataTXT et Wikimeta qui prsentent les
meilleurs scores gnraux. Zemanta semble tre spcialis dans la prcision des
lieux malgr un taux de rappel indiquant quun quart des entits seulement a t
extrait, alors quAlchemyAPI se spcialise dans lextraction de personnes.
Catgorie
Nombre
Pourcentage
PER
ORG
LOC
159
164
421
21,4
22
56,7
Total
744
100
Sur le total des 744 entits prsentes dans notre chantillon, AlchemyAPI en a
correctement identifies 165, dataTXT 309, Wikimeta 378 et Zemanta 138. Dautres
termes ont t extraits, incorrectement : 246 par AlchemyAPI, 694 par dataTXT,
1090 par Wikimeta et 178 par Zemanta.
Service
Type
Prcision
Rappel
F-score
AlchemyAPI
PER
ORG
LOC
.57
.22
.45
.52
.11
.15
.54
.14
.22
Total
.40
.22
.29
PER
ORG
LOC
.38
.43
.69
.23
.26
.54
.29
.32
.60
Total
.37
.41
.39
PER
ORG
LOC
.39
.10
.64
.60
.26
.57
.47
.14
.60
Total
.33
.51
.40
PER
ORG
LOC
.33
.34
.79
.10
.11
.25
.15
.17
.38
Total
.53
.18
.27
dataTXT
Wikimeta
Zemanta
DOC-SI
12
5.
Discussion
Une analyse plus qualitative des rsultats montre que lextraction fonctionne
relativement bien sur les textes suivis ( linverse des listes, ou procs-verbaux,
galement prsents dans le fonds darchives). Les entits extraites sont, si pas
toujours correctes, souvent pertinentes au champ de description qui a subi le
processus dextraction. Par exemple, dataTXT parvient extraire rue Dalhousie
dans une phrase contenant cette entit et la dsambiguser en tant que Route 136
(R-136), le nom rel de cette route dont la rue Dalhousie est un tronon. Un nombre
considrable de rues et boulevards (notamment : rue Saint-Paul , boulevard
Charest , rue Saint-Roch ) sont ainsi non-seulement extraits mais galement
correctement dsambiguss par dataTXT, ce qui est une valeur ajoute indniable
pour un fonds darchives dautant plus que cette dsambigusation se faisant
travers le Web des donnes, des informations supplmentaires comme les lieux
patrimoniaux et monuments historiques sur ces endroits sont disponibles.
Ces observations nous font revoir notre perception des rsultats quantitatifs, que
nous dveloppons plus bas.
5.1. Spcificits du corpus
Lors de la cration dun GSC, de nombreuses questions viennent lesprit
concernant la classification des entits. Bien que les catgories soient bien dfinies
(en effet, de prime abord, un lieu nest pas une organisation, et vice versa), leur
rigidit oblige le chercheur faire des choix subjectifs. Le terme Qubec
est une
ville et une province, et rentre donc en toute logique dans la catgorie LOC .
Mais que faire du terme Qubec lorsquil est pris dans un contexte faisant
rfrence la ville de Qubec en tant quentit ayant un gouvernement (et tombant
par la mme occasion dans la catgorie organisation, ORG ) ? Un htel, qui a un
emplacement gographique fixe par nature mais est une entreprise commerciale, estil un lieu ou une organisation ? Ces questions sont en partie rsolues par linitiative
ESTER 2 qui, en plus des catgories traditionnelles dentits, propose des souscatgories : la ville de Qubec serait par exemple LOC.admi , une entit de type
LOC lie une autorit administrative. Nanmoins, seul Wikimeta grant ce schma
de classification, il est difficile de le prendre en compte lorsque lon compare
diffrents services dextraction.
Dautres questions se posent, notamment les lieux sous-entendus. Dans notre
corpus, qui traite uniquement de la ville de Qubec, le contexte joue normment :
ainsi, l Htel de Ville , bien quentit nomme sous-entendue, ne peut tre
considr pour le GSC tant donn que les diffrents services ne sont
intrinsquement pas capables de dterminer que nous traitons les archives de la ville
de Qubec et non pas nimporte quel autre jeu de donnes, de nimporte quelle autre
source. Nanmoins, ces concepts sont extraits et proposs par certains services
crant ainsi du bruit.
DOC-SI
13
29
Et par extension, ne bnficiant pas de documentation en ligne leur sujet. Par exemple:
Arthur Verreault, J-Wilfrid Bolduc, P.-A. Boutin, etc.
DOC-SI
14
30 Cet chantillon d'chantillon est calcul sur la base d'un niveau de confiance de 95% et
d'un intervalle de confiance de 10.
31 Respectivement: 31 (sur 95) pour AlchemyAPI, 103 (sur 185) pour dataTXT, 86 (sur 281)
pour Wikimeta et 28 (sur 74) pour Zemanta.
32 Il y a une rue de la chapelle Qubec mais galement Paris, tout comme plusieurs
Villeneuve existent des personnes, mais galement des lieux.
33 Ainsi, Prince de Galles devient Prince of Wales ou Chambre des Communes
devient House of Commons of Canada , par exemple.
DOC-SI
15
6.
En conclusion, nous pouvons affirmer que si les services obtiennent des mauvais
scores sur des critres quantitatifs, leur apport reste non ngligeable lors dune
analyse qualitative des rsultats : ltude quantitative se basant sur des critres
mtriques peu souples et difficilement applicables au rel34, sa valeur est remettre
en contexte. Cette remise en contexte (re)lance le dbat sur limportance de la
reproductibilit dune mthodologie et lapport qualitatif des acteurs de terrain, sur
lamlioration de cette mthodologie, menant la cration dune nouvelle approche
pistmologique pour les Humanits numriques. Nanmoins, si les services de
NER existants apportent une plus-value non ngligeable, il ne faut pas perdre de vue
le problme du multilinguisme. Si de prime abord lutilisation de techniques de NER
en combinaison avec le Web des donnes enrichit un fonds darchives, la
prdominance de langlais dans le Linked Data peut, plus long terme,
effectivement appauvrir le rayonnement dune langue sur le plan international. Dans
cet ordre dide, les initiatives francophones denrichissement de collections
culturelles par lutilisation de NER manquent. De plus, si le rcent projet ReNom
utilise bien le NER, il est regretter quil ne propose pas, via les technologies du
Web des donnes, de rutiliser la documentation cre loccasion.
De plus, alors que les sciences exactes auront tendance liminer les aberrations
statistiques et se concentrer sur la rgle gnrale, les sciences humaines et par
extension les Humanits numriques cherchent souvent l exception la rgle
qui fait alors le sujet dune tude plus pousse. Lavnement du big data et des
normes quantits de donnes35 oblige les chercheurs et praticiens faire appel des
outils statistiques, lissant les exceptions et prsentant ds lors une difficult pour les
Humanits numriques.
Une problmatique de lutilisation du Web des donnes pour lenrichissement
semi-automatique dun fonds darchives se trouve au niveau de la qualit de
linformation rcolte et donc propose : un gestionnaire de collection na pas ou
peu dinfluence sur le contenu, souvent dynamique, dune base de connaissances.
Ds lors, au lieu doffrir un enrichissement moindre cot, la proposition de
solution au manque de moyens des institutions culturelles prconise dans cet article
risque dintroduire de la dsinformation si elle est applique sans supervision
humaine. Ce risque li au manque de contrle sur le contenu est renforc par la
concurrence entre les diffrents fournisseurs dinformation : si DBpedia est une base
de connaissances libre mise disposition du public et maintenue par la communaut,
Freebase, lautre bout du spectre, est une entreprise commerciale prsentant des
enjeux conomiques.
DOC-SI
16
36
DOC-SI
17
Linguistics. doi:10.3115/980451.980859
Berms, E. (2013). Le Web smantique en bibliothque. Editions du Cercle de La
Librairie, Paris.
Berners-Lee, T. (2002). Linked Data - Design Issues.
http://www.w3.org/DesignIssues/LinkedData.html, consult le 3 aot 2013.
Rcupr
sur
Boydens, I., & Van Hooland, S. (2011). Hermeneutics applied to the quality of empirical
databases. Journal of documentation, 67(2), 279-289.
Chan, S. (2008). OPAC2.0 OpenCalais meets our museum collection / auto-tagging and
semantic
parsing
of
collection
data.
Rcupr
sur
http://www.freshandnew.org/2008/03/opac20-opencalais-meets-our-museum-collection-autotagging-and-semantic-parsing-of-collection-data/, consult le 25 janvier 2014.
Chiticariu, L., Krishnamurthy, R., Li, Y., Reiss, F., & Vaithyanathan, S. (2010). Domain
Adaptation of Rule-based Annotators for Named-entity Recognition Tasks. In Proceedings of
the 2010 Conference on Empirical Methods in Natural Language Processing (pp. 1002
1012). Stroudsburg, PA, USA: Association for Computational Linguistics.
Chomsky, N. (1968). Language and Mind. Harcourt, Brace & World, New York.
Drucker, J. (2012). Humanistic Theory and Digital Scholarship. In M. Gold (Ed.),
Debates in the Digital Humanities (pp. 8595). Minnesota Press.
Ehrmann, M. (2008). Les entits nommes, de la linguistique au TAL: statut thorique et
mthodes de dsambigusation. Thse, Universit Paris 7 Denis Diderot, 2008.
Grishman, R., & Sundheim, B. (1996). Message Understanding Conference-6: A Brief
History. In Proceedings of the 16th Conference on Computational Linguistics - Volume 1 (pp.
466471). Stroudsburg, PA, USA: Association for Computational Linguistics.
Hatmi, M. (2012). Adaptation dun systme de reconnaissance dentits nommes pour le
franais langlais moindre cot. In Actes de la confrence conjointe JEP-TALN-RECITAL
2012 (Vol. 3, pp. 151161).
Hoffart, J., Yosef, M. A., Bordino, I., Frstenau, H., Pinkal, M., Spaniol, M., Weikum,
G. (2011). Robust Disambiguation of Named Entities in Text. In Proceedings of the
Conference on Empirical Methods in Natural Language Processing (pp. 782792).
Stroudsburg, PA, USA: Association for Computational Linguistics.
Kripke, S. A. (1972). Naming and Necessity. In D. Davidson & G. Harman (Eds.),
Semantics of Natural Language (pp. 253355). Springer Netherlands.
Kulkarni, S., Singh, A., Ramakrishnan, G., & Chakrabarti, S. (2009). Collective
Annotation of Wikipedia Entities in Web Text. In Proceedings of the 15th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining (pp. 457466). New
York, NY, USA: ACM.
Lin, Y., Ahn, J.-W., Brusilovsky, P., He, D., & Real, W. (2010). Imagesieve: Exploratory
search of museum archives with named entity-based faceted browsing. Proceedings of the
DOC-SI
18
DOC-SI