Professional Documents
Culture Documents
dinformation
mise en relation des besoins utilisateurs et des informations est effectue grce un
Systme de Recherche dInformation (SRI), dont le but est de retourner lutilisateur
le maximum de documents pertinents par rapport son besoin (et le minimum de
documents non-pertinents). La notion de pertinence est difficile automatiser, car elle
est fortement subjective, cest dire dpendante de lutilisateur. Le processus de
recherche, couramment appel Processus en U de Recherche dInformation est
schmatiquement reprsent sur la figure 1.
Ce processus est compos de trois fonctions principales :
lindexation des documents et des requtes ;
lappariement requte-document, qui permet de comparer la requte et le
document ;
et la fonction de modification, qui intervient en rponse aux rsultats obtenus.
Les modifications ventuelles concernent les documents (ajout ou suppression
ventuels de la base de donnes) ou la requte. Les modifications les plus
courantes concernent la requte seulement : pour cette raison, on parlera dans la
suite de Reformulation de la Requte.
4.1.
Document :
Il est difficile de trouver une dfinition prcise du terme document. Les dictionnaires
donnent souvent une dfinition trs gnrale. Citons par exemple le Petit Robert :
Document : crit, servant de preuve ou de renseignement .
Une dfinition plus controverse est donne par Suzanne Briet qui affirme :
Un document est une preuve lappui dun fait, [ savoir] tout indice concret ou
symbolique, conserv ou enregistr, aux fins de reprsenter, de reconstituer ou de
prouver un phnomne physique ou intellectuel .
Lauteur donne plusieurs exemples (surprenants) de documents suivant cette dfinition.
Par exemple, une antilope sauvage courant dans les plaines dAfrique ne doit pas tre
considre comme un document, alors que si elle est capture, enferme dans un zoo et
devient lobjet dune tude, elle devient un document.
Elle est devenue une vidence physique pour ceux qui letudient. De plus, on peut
considrer que les articles publis sur lantilope sont des documents secondaires, alors
que lantilope elle-mme, tant quelle existe, est le document primaire.
La plupart des auteurs sentendent cependant pour dire quun document est un objet
porteur dinformation. LInstitut International de Coopration Intellectuelle
(International Institute for Intellectual Cooperation), une agence de la ligue des
Nations, en collaboration avec lUnion franaise des Organismes de Documentation,
donne, aprs de nombreuses concertations, la dfinition suivante dun document :
Toute base de connaissance, fixe matriellement, susceptible dtre utilise
pour consultation, tude ou preuve.
Un document peut ainsi tre des hiroglyphes taills sur de la pierre, un texte sur du
papier, un texte dans un document lectronique, un morceau de texte, une page Web,
une image, une bande vido, un objet dune collectionetc.
Un document texte peut tre reprsent selon plusieurs vues, comme le montre la
figure 2 :
La vue prsentation dcrit la reprsentation dun document sur un medium
deux dimensions (alignement des paragraphes, en ttes et pieds de pages, ...) ;
La vue logique prsente la structure logique dun document, qui contient des
informations sur la structure et la partition du document ;
La vue de contenu (aussi appele vue smantique) se concentre sur le contenu
textuelle du document, cest dire sur linformation elle-mme.
4.2.
important, ...). Les mots-cls peuvent aussi tre organiss sous forme dexpressions, et
de nombreux SRI tendent les requtes partir de mots cls avec la possibilit de
chercher des mots dans un contexte donn, cest dire dans le voisinage dautres mots.
Ainsi une requte consiste en plusieurs mots ou phrases, avec la distance permise (en
nombre de mots) entre eux.
Les requtes en texte libre (ou requtes en langage naturel) permettent lutilisateur
dexprimer son besoin de faon plus naturelle quavec une suite de mots-cls. Ces
requtes offrent surtout la possibilit dutiliser un document complet en tant que
requte (ce qui reviendrait dire : trouve-moi tous les documents semblables celui
ci).
4.3.
Processus dindexation :
Analyse lexicale :
Lanalyse lexicale est le processus qui permet de convertir le texte dun document en
un ensemble de termes. Un terme est une unit lexicale ou un radical. Lanalyse
lexicale permet de reconnatre les espaces de sparation des mots, des chiffres, les
ponctuations, etc.
5
4.3.2.
Lemmatisation :
mots outils), et les termes de frquences trs faibles (ce qui permet dliminer les
fautes de frappes). Ce processus est illustr sur la figure 3. En utilisant cette approche,
le nombre de termes faisant partie de lindex dune collection peut tre rduit
considrablement.
terme dans le document (pondration locale). Elle peut tre utilise telle quelle
ou selon plusieurs dclinaisons (log(tf), prsence/absence,. . .).
ce facteur mesure
limportance dun terme dans toute la collection (pondration globale). Un
terme qui apparat souvent dans la base documentaire ne doit pas avoir le mme
impact quun terme moins frquent. Il est gnralement exprim comme suit :
idf=log (N/df ), o :
df est le nombre de documents contenant le terme et
N est le nombre total de documents de la base documentaire.
idf
(Inverse
of
Document
Frequency)
Cration dindex :
correspondant
4.4.
Appariement Document-Requte :
Reformulation de la requte :
Il est souvent difficile, pour lutilisateur, de formuler son besoin exact en information.
Par consquent, les rsultats que lui fournit le SRI ne lui conviennent parfois pas.
Retrouver des informations pertinentes en utilisant la seule requte initiale de
lutilisateur est aujourdhui quasi-impossible, et ce cause du volume croissant des
bases documentaires. Afin de faire correspondre au mieux la pertinence utilisateur et la
pertinence du systme, une tape de reformulation de la requte est souvent utilise.
La requte initiale est traite comme un essai pour retrouver de linformation. Les
documents initialement prsents sont examins et une formulation amliore de la
requte est construite, dans lespoir de retrouver plus de documents pertinents. La
reformulation de la requte se fait en deux tapes principales:
trouver des termes dextension la requte initiale, et
repondrer les termes dans la nouvelle requte.
La reformulation de la requte peut tre automatique ou manuelle. Dans le premier
cas, lutilisateur nintervient pas. Lextension de la requte est faite partir dun
thsaurus qui dfinit les relations entre les diffrents termes de lindex et permet de
slectionner de nouveaux termes ajouter la requte initiale. Le thsaurus regroupe
plusieurs informations de type linguistique (quivalence, association, hirarchie) et
statistique (pondration des termes). La construction du thsaurus peut tre manuelle
ou automatique.
Pour la reformulation manuelle de la requte. Il sagit de la stratgie de reformulation
de la requte la plus populaire. On la nomme communment rinjection de la
pertinence ou relevance feedback. Dans un cycle de rinjection de pertinence, on
9
prsente lutilisateur une liste de documents jugs pertinents par le systme comme
rponse la requte initiale.
Aprs les avoir examins, lutilisateur indique ceux quil considre pertinents.
Lide principale de la rinjection de pertinence est de slectionner les termes
importants appartenant aux documents jugs pertinents par lutilisateur, et de renforcer
limportance de ces termes dans la nouvelle formulation de la requte.
Cette mthode a pour double avantage une simplicit dexcution pour lutilisateur qui
ne soccupe pas des dtails de la reformulation, et un meilleur contrle du processus de
recherche en augmentant le poids des termes importants et en diminuant celui des
termes non pertinents.
10