Chapitre1 PDF

CHAPITRE N1 : Le Processus de recherche
dinformation
1. Objectif de la recherche dinformation :
L'information joue un rle important dans la socit d'information d'aujourd'hui. La

quantit d'information manipule par diverses organisations dans le monde
d'aujourd'hui est leve et sa gestion sans l'ordinateur n'est plus imaginable. En effet,
les statistiques ont montr quun moteur de recherche populaire rapporte plus de huit
(8) milliards de pages dans son index en juillet 2005 alors qu'elles taient seulement
320 millions en 1997 et 3.3 milliards en septembre 2002. Le nombre d'utilisateurs est
quand lui estim aujourd'hui plusieurs centaines de millions. Ces facteurs ont
soulev des dfis majeurs pour les tches de collecte et de gestion de l'information, le
stockage efficace de l'information, la transmission efficace de l'information et la
recherche efficace de l'information.
Depuis les annes 1990, notamment avec l'avnement d'Internet, la recherche
d'information est devenue plus d'actualit et plus exigeante que jamais. Mme si
l'effort continu des chercheurs a dot le domaine d'un ensemble riche d'outils
sophistiqus (protocoles de transmission efficaces, supports rapides, etc.), la
sophistication des outils pour la cration et la transmission de l'information est bien
moindre que celle des outils qui grent l'information.
2. Dfinitions de la RI:
La Recherche dInformation (RI) est une branche de linformatique qui

sintresse lacquisition, lorganisation, le stockage, la recherche et la
slection dinformation. [G. Salton].
La recherche d'information est la science qui tudie la manire de rpondre
pertinemment une requte en retrouvant de l'information dans un corpus.
[Christopher D. Manning].
3. Dfinition dun Systme de Recherche dInformation (SRI) :
Un SRI est un ensemble de programmes informatiques qui a pour but de slectionner

des informations pertinentes rpondant des besoins utilisateurs, exprims sous forme
de requtes.
4. Processus de la RI :
Le processus de Recherche dInformation a pour but la mise en relation des

informations disponibles dune part, et les besoins de lutilisateur dautre part. Ces
besoins sont traduits de faon structure par lutilisateur sous forme de requtes. La
1
mise en relation des besoins utilisateurs et des informations est effectue grce un
Systme de Recherche dInformation (SRI), dont le but est de retourner lutilisateur
le maximum de documents pertinents par rapport son besoin (et le minimum de
documents non-pertinents). La notion de pertinence est difficile automatiser, car elle
est fortement subjective, cest dire dpendante de lutilisateur. Le processus de
recherche, couramment appel Processus en U de Recherche dInformation est
schmatiquement reprsent sur la figure 1.
Ce processus est compos de trois fonctions principales :
lindexation des documents et des requtes ;
lappariement requte-document, qui permet de comparer la requte et le
document ;
et la fonction de modification, qui intervient en rponse aux rsultats obtenus.
Les modifications ventuelles concernent les documents (ajout ou suppression
ventuels de la base de donnes) ou la requte. Les modifications les plus
courantes concernent la requte seulement : pour cette raison, on parlera dans la
suite de Reformulation de la Requte.
Fig1- Processus en U de Recherche

dInformation
4.1.
Document :
Il est difficile de trouver une dfinition prcise du terme document. Les dictionnaires
donnent souvent une dfinition trs gnrale. Citons par exemple le Petit Robert :
Document : crit, servant de preuve ou de renseignement .
Une dfinition plus controverse est donne par Suzanne Briet qui affirme :
Un document est une preuve lappui dun fait, [ savoir] tout indice concret ou
symbolique, conserv ou enregistr, aux fins de reprsenter, de reconstituer ou de
prouver un phnomne physique ou intellectuel .
Lauteur donne plusieurs exemples (surprenants) de documents suivant cette dfinition.
Par exemple, une antilope sauvage courant dans les plaines dAfrique ne doit pas tre
considre comme un document, alors que si elle est capture, enferme dans un zoo et
devient lobjet dune tude, elle devient un document.
Elle est devenue une vidence physique pour ceux qui letudient. De plus, on peut
considrer que les articles publis sur lantilope sont des documents secondaires, alors
que lantilope elle-mme, tant quelle existe, est le document primaire.
La plupart des auteurs sentendent cependant pour dire quun document est un objet
porteur dinformation. LInstitut International de Coopration Intellectuelle
(International Institute for Intellectual Cooperation), une agence de la ligue des
Nations, en collaboration avec lUnion franaise des Organismes de Documentation,
donne, aprs de nombreuses concertations, la dfinition suivante dun document :
Toute base de connaissance, fixe matriellement, susceptible dtre utilise
pour consultation, tude ou preuve.
Un document peut ainsi tre des hiroglyphes taills sur de la pierre, un texte sur du
papier, un texte dans un document lectronique, un morceau de texte, une page Web,
une image, une bande vido, un objet dune collectionetc.
Un document texte peut tre reprsent selon plusieurs vues, comme le montre la
figure 2 :
La vue prsentation dcrit la reprsentation dun document sur un medium
deux dimensions (alignement des paragraphes, en ttes et pieds de pages, ...) ;
La vue logique prsente la structure logique dun document, qui contient des
informations sur la structure et la partition du document ;
La vue de contenu (aussi appele vue smantique) se concentre sur le contenu
textuelle du document, cest dire sur linformation elle-mme.
Fig2- Vues dun document texte
4.2.
Lexpression du besoin dinformation :
Lutilisateur est la fois la source, le dclencheur dune recherche dinformation et le

validateur du rsultat de cette recherche. Lutilisateur dclenche une recherche
documentaire lorsquil est confront un manque dans sa connaissance sur un sujet.
Ce manque est appel tat anormal de connaissances (Anomalous States of
Knowlegde) . Mieux comprendre les mcanismes cognitifs de lutilisateur, en
particulier le mcanisme de satisfaction, permettrait damliorer les performances dun
Systme de Recherche dInformation.
Le besoin de lutilisateur est lexpression mentale de ce quil recherche. Ce besoin est
interprt (reprsent) au travers dune requte, qui sera ensuite traite par le SRI. Il
sagit en gnral dun ensemble de mots-cls, mais elle peut tre exprime en langage
naturel, boolen ou graphique. Il existe trois formes diffrentes de requtes :
Les requtes spcifiques, du type Quelle est la dernire version du JDK?.
Les requtes larges, comme par exemple : trouve des informations concernant
le langage de programmation Java.
Les requtes par similarit, du type trouve les pages similaires
java.sun.com.
Les requtes composes de listes de mots cls sont les plus courantes. Ces mots cls
peuvent ventuellement tre relis entre eux par des oprateurs boolens (ET, OU,
NON), ainsi que par des variables linguistiques (comme (plus) rcent, (plus)
4
important, ...). Les mots-cls peuvent aussi tre organiss sous forme dexpressions, et
de nombreux SRI tendent les requtes partir de mots cls avec la possibilit de
chercher des mots dans un contexte donn, cest dire dans le voisinage dautres mots.
Ainsi une requte consiste en plusieurs mots ou phrases, avec la distance permise (en
nombre de mots) entre eux.
Les requtes en texte libre (ou requtes en langage naturel) permettent lutilisateur
dexprimer son besoin de faon plus naturelle quavec une suite de mots-cls. Ces
requtes offrent surtout la possibilit dutiliser un document complet en tant que
requte (ce qui reviendrait dire : trouve-moi tous les documents semblables celui
ci).
4.3.
Processus dindexation :
Lindexation consiste analyser chaque document de la collection afin de crer un

ensemble de mots-cls. Ces mots-cls seront plus facilement exploitables par le
systme lors du processus ultrieur de recherche. Lindexation permet ainsi de crer
une reprsentation des documents dans le systme. Son objectif est de trouver les
concepts les plus importants du document (ou de la requte), qui formeront le
descripteur du document.
Lindexation peut tre :
Manuelle : chaque document est analys par un spcialiste du domaine ou par
un documentaliste, elle permet dassurer une meilleure pertinence dans les
rponses apportes par le SRI, mais le temps ncessaire sa ralisation est trs
important.
Automatique : le processus dindexation est entirement informatis, elle
regroupe un ensemble de traitements automatiss sur un document. On
distingue : lextraction automatique des mots des documents, llimination des
mots vides, la lemmatisation (radicalisation ou normalisation), le reprage de
groupes de mots, la pondration des mots et enfin la cration de lindex.
Semi-automatique : le choix final revient au spcialiste ou au documentaliste,
qui intervient souvent pour choisir dautres termes significatifs. Les indexeurs
utilisent un thsaurus ou une base terminologique, qui est une liste organise de
descripteurs (mots cls) obissant des rgles terminologiques propres et relis
entre eux par des relations smantiques.
Le choix et lintrt dune mthode par rapport aux autres dpend dun certain nombre
de paramtres, dont le plus dterminant est le volume des collections.
4.3.1.
Analyse lexicale :
Lanalyse lexicale est le processus qui permet de convertir le texte dun document en
un ensemble de termes. Un terme est une unit lexicale ou un radical. Lanalyse
lexicale permet de reconnatre les espaces de sparation des mots, des chiffres, les
ponctuations, etc.
5
4.3.2.
Elimination des mots vides :
Un des problmes majeurs de lindexation consiste extraire les termes significatifs et

viter les mots vides (pronoms personnels, prpositions,...).
Les mots vides peuvent aussi tre des mots athmatiques (les mots qui peuvent se
retrouver dans nimporte quel document parce quils exposent le sujet mais ne le
traitent pas, comme par exemple contenir, appartenir, etc).
On distingue deux techniques pour liminer les mots vides :
Lutilisation dune liste de mots vides (aussi appele anti-dictionnaire),
Llimination des mots dpassant un certain nombre doccurrences dans la
collection.
4.3.3.
Lemmatisation :
La lemmatisation consiste rduire le mot sa forme canonique. En effet, Un mot

donn peut avoir diffrentes formes dans un texte, mais leur sens reste le mme ou trs
similaire. On peut par exemple citer conomie, conomiquement, conomtrie,
conomtrique, etc. Il nest pas forcment ncessaire dindexer tous ces mots alors
quun seul suffirait reprsenter le concept vhicul. Pour rsoudre le problme, une
substitution des termes par leur racine, ou lemme, est utilise.
Cette phase de passage la forme canonique nest pas obligatoire. Elle prsente le
principal avantage dindexer par exemple le mot camions et le mot camion de la
mme faon camion, ce qui vite lutilisateur de devoir entrer les formes de pluriel
des noms ou les formes conjugues des verbes lors de sa recherche. Cependant, dans
certains cas, le passage la forme canonique supprime la smantique originale du mot.
Par exemple, la forme conjugue portera du verbe porter sera indexe sous
porte, de la mme faon que le mot portes. Ainsi, lorsque lutilisateur formulera
une requte avec le verbe porter, il aura trs certainement, parmi la liste des
documents rsultats, des documents non pertinents relatifs au nom porte.
4.3.4.
Pondration des termes :
La pondration des termes permet de mesurer limportance dun terme dans un

document. Cette importance est souvent calcule partir de considrations et
interprtations statistiques (ou parfois linguistiques). Lobjectif est de trouver les
termes qui reprsentent le mieux le contenu dun document.
Si on dresse une liste de lensemble des mots diffrents dun texte quelconque classs
par ordre de frquences dcroissantes, on constate que la frquence dun mot est
inversement proportionnelle son rang de classement dans la liste. Cette constatation
est nonce formellement par la loi de Zipf:
rang*frquence = constante.
La relation entre la frquence et le rang des termes permet de slectionner les termes
reprsentatifs dun document : on limine respectivement les termes de frquences trs
leves car ils ne sont pas reprsentatifs du document (on peut par exemple citer les
6
mots outils), et les termes de frquences trs faibles (ce qui permet dliminer les
fautes de frappes). Ce processus est illustr sur la figure 3. En utilisant cette approche,
le nombre de termes faisant partie de lindex dune collection peut tre rduit
considrablement.
Fig3- Importance dun terme en fonction de sa

frquence dapparition dans un document
A partir de ces constatations, des techniques de pondration ont vu le jour.

La plupart de ces techniques sont bases sur les facteurs tf et idf, qui permettent de
combiner les pondrations locale et globale dun terme :
tf (Term Frequency) : cette mesure est proportionnelle la frquence du
terme dans le document (pondration locale). Elle peut tre utilise telle quelle
ou selon plusieurs dclinaisons (log(tf), prsence/absence,. . .).
ce facteur mesure
limportance dun terme dans toute la collection (pondration globale). Un
terme qui apparat souvent dans la base documentaire ne doit pas avoir le mme
impact quun terme moins frquent. Il est gnralement exprim comme suit :
idf=log (N/df ), o :
df est le nombre de documents contenant le terme et
N est le nombre total de documents de la base documentaire.
idf
(Inverse
of
Document
Frequency)
La mesure tf idf : En combinant les deux techniques prcdentes, elle
donne une bonne approximation de limportance du terme dans le document,

particulirement dans les corpus de documents de taille homogne. Cependant,
elle ne tient pas compte dun aspect important du document: sa longueur. En
gnral, les documents les plus longs ont tendance utiliser les mmes termes
7
de faon rpte, ou utiliser plus de termes pour dcrire un sujet. Par

consquent, les frquences des termes dans les documents seront plus leves,
et les similarits la requte seront galement plus grandes. Pour pallier cet
inconvnient, il est possible dintgrer la taille des documents la formule de
pondration : on parle de facteur de normalisation.
4.3.5.
Cration dindex :
Afin de rpondre plus rapidement une requte, des structures de stockage

particulires sont ncessaires pour mmoriser les informations slectionnes lors du
processus dindexation. Les moyens de stockage les plus rpandus sont les suivants :
les fichiers inverses (inverted files), les tableaux de suffixes (suffix arrays) et les
fichiers de signatures (signature files).
Les fichiers inverses sont actuellement le meilleur choix possible pour la plupart des
applications. Les fichiers inverses sont composs de deux lments principaux:
Le vocabulaire, qui est lensemble de tous les mots diffrents du texte ;
Les occurrences (posting) : pour chaque mot, il sagit de la liste de toutes les
positions dans le texte pour lesquelles le mot apparat.
La figure 4 montre un exemple de vocabulaire et doccurrences.
Fig4- Un texte simple et le fichier inverse
correspondant
Lespace ncessaire pour le vocabulaire est relativement petit, contrairement celui

ncessaire pour les occurrences. Les tableaux de suffixes sont plus rapides pour des
recherches de phrases et des requtes un peu moins communes. Ils sont cependant plus
difficiles construire et maintenir. Enfin, les fichiers de signatures sont bass sur le
concept de hashing. Ils taient trs populaires dans les annes 1980 et sont aujourdhui
beaucoup moins utiliss.
8
4.4.
Appariement Document-Requte :
La comparaison entre le document et la requte revient calculer un score, suppos

reprsenter la pertinence du document vis--vis de la requte. Cette valeur est calcule
partir dune fonction ou dune probabilit de similarit note RSV(Q,d) (Retrieval
Status Value), o Q est une requte et d un document.
Cette mesure tient compte du poids des termes dans les documents, dtermin en
fonction danalyses statistiques et probabilistes.
La fonction dappariement est trs troitement lie aux oprations dindexation et de
pondration des termes de la requte et des documents du corpus. Dune faon
gnrale, lappariement document-requte et le modle dindexation permettent de
caractriser et didentifier un modle de recherche dinformation.
La fonction de similarit permet ensuite dordonner les documents renvoys
lutilisateur. La qualit de cet ordonnancement est primordiale. En effet, lutilisateur se
contente gnralement dexaminer les premiers documents renvoys (les 10 ou 20
premiers). Si les documents recherchs ne sont pas prsents dans cette tranche,
lutilisateur considrera le SRI comme mauvais vis--vis de sa requte.
Le but de tout SRI est donc videmment de rapprocher la pertinence systme de la
pertinence utilisateur (qui comme nous lavons vu prcdemment, est fortement
subjective).
4.5.
Reformulation de la requte :
Il est souvent difficile, pour lutilisateur, de formuler son besoin exact en information.
Par consquent, les rsultats que lui fournit le SRI ne lui conviennent parfois pas.
Retrouver des informations pertinentes en utilisant la seule requte initiale de
lutilisateur est aujourdhui quasi-impossible, et ce cause du volume croissant des
bases documentaires. Afin de faire correspondre au mieux la pertinence utilisateur et la
pertinence du systme, une tape de reformulation de la requte est souvent utilise.
La requte initiale est traite comme un essai pour retrouver de linformation. Les
documents initialement prsents sont examins et une formulation amliore de la
requte est construite, dans lespoir de retrouver plus de documents pertinents. La
reformulation de la requte se fait en deux tapes principales:
trouver des termes dextension la requte initiale, et
repondrer les termes dans la nouvelle requte.
La reformulation de la requte peut tre automatique ou manuelle. Dans le premier
cas, lutilisateur nintervient pas. Lextension de la requte est faite partir dun
thsaurus qui dfinit les relations entre les diffrents termes de lindex et permet de
slectionner de nouveaux termes ajouter la requte initiale. Le thsaurus regroupe
plusieurs informations de type linguistique (quivalence, association, hirarchie) et
statistique (pondration des termes). La construction du thsaurus peut tre manuelle
ou automatique.
Pour la reformulation manuelle de la requte. Il sagit de la stratgie de reformulation
de la requte la plus populaire. On la nomme communment rinjection de la
pertinence ou relevance feedback. Dans un cycle de rinjection de pertinence, on
9
prsente lutilisateur une liste de documents jugs pertinents par le systme comme
rponse la requte initiale.
Aprs les avoir examins, lutilisateur indique ceux quil considre pertinents.
Lide principale de la rinjection de pertinence est de slectionner les termes
importants appartenant aux documents jugs pertinents par lutilisateur, et de renforcer
limportance de ces termes dans la nouvelle formulation de la requte.
Cette mthode a pour double avantage une simplicit dexcution pour lutilisateur qui
ne soccupe pas des dtails de la reformulation, et un meilleur contrle du processus de
recherche en augmentant le poids des termes importants et en diminuant celui des
termes non pertinents.
10

Chapitre1 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chapitre1 PDF

Uploaded by

Copyright:

Available Formats

CHAPITRE N1 : Le Processus de recherche

1. Objectif de la recherche dinformation :

L'information joue un rle important dans la socit d'information d'aujourd'hui. La

La Recherche dInformation (RI) est une branche de linformatique qui

Un SRI est un ensemble de programmes informatiques qui a pour but de slectionner

Le processus de Recherche dInformation a pour but la mise en relation des

Fig1- Processus en U de Recherche

Fig2- Vues dun document texte

Lexpression du besoin dinformation :

Lutilisateur est la fois la source, le dclencheur dune recherche dinformation et le

Lindexation consiste analyser chaque document de la collection afin de crer un

Elimination des mots vides :

Un des problmes majeurs de lindexation consiste extraire les termes significatifs et

La lemmatisation consiste rduire le mot sa forme canonique. En effet, Un mot

Pondration des termes :

La pondration des termes permet de mesurer limportance dun terme dans un

Fig3- Importance dun terme en fonction de sa

A partir de ces constatations, des techniques de pondration ont vu le jour.

tf (Term Frequency) : cette mesure est proportionnelle la frquence du

La mesure tf idf : En combinant les deux techniques prcdentes, elle

donne une bonne approximation de limportance du terme dans le document,

de faon rpte, ou utiliser plus de termes pour dcrire un sujet. Par

Afin de rpondre plus rapidement une requte, des structures de stockage

Fig4- Un texte simple et le fichier inverse

Lespace ncessaire pour le vocabulaire est relativement petit, contrairement celui

La comparaison entre le document et la requte revient calculer un score, suppos

You might also like