Méthodologie de recherche

Transcription

Méthodologie de recherche
1
METHODOLOGIE DE RECHERCHE
Mise en situation n°1
1. Les instruments de recherche
• Les moteurs de recherche (google, altavista…)
Les moteurs sont des robots entièrement automatiques qui recherchent les mots clés dans
- le titre des documents
- l ’adresse des sites
- le texte du site
(ex. : Google, Altavista, Exalead
Les moteurs de recherche sont composés de trois éléments entièrement automatisés : un robot qui
collecte les données, un moteur d'indexation qui classe les données, et un moteur d'interrogation
qui permet de lancer les requêtes
Un moteur de recherche fonctionne sur le principe de l'indexation. Il visite périodiquement une partie
des fichiers accessibles sur Internet et met à jour une base de données comprenant l'indexation de tout
ou partie des mots de fichiers visités. Le résultat fourni par le moteur consiste en une liste de pages
Web contenant le ou les mots saisies soit dans l'adresse du site, dans le titre ou dans les pages
Lors d’une recherche avec un moteur, lorsque l’on clique sur le lien proposé, on arrive directement à
la page concernée
Ces résultats sont classés selon un ordre de pertinence. Il existe deux types de critères :
- In the page : la place des mots formulés dans la requête (adresse, titre, texte, police, fréquence des
mots dans les pages…)
- Off the page : nombre de consultations pour une requête donnée, nombre d'autres pages ou sites
Internet y renvoyant.
Les moteurs proposent également des sites commerciaux, clairement identifiés (partie droite dans
Google : liens commerciaux), ces entreprises ont payé pour avoir « une place de choix » (à condition
bien évidemment qu’il y ait une concordance entre la réponse commerciale proposée et la requête)
•
Les annuaires (yahoo, annuaires professionnels..)
Ils sont constitués avec la collaboration d ’indexeurs (humains) et offrent des formulaires de requêtes
et des rubriques organisées en :
- thèmes
- sous thèmes
(ex. : Yahoo!, Voilà, Lycos…)
Un annuaire, ou répertoire de sites, est une base de données décrivant une sélection de sites et les
indexant à l'aide d'une liste de sujets. Il s'agit d'un catalogue de sites, structuré en catégories, et
organisé en arborescence. Pour la création d'un annuaire il faut l'intervention d'indexeurs humains qui
créent notamment des résumés des sites explorés et les rendent accessibles au moyen de liens
hypertextes.. La plupart des annuaires offrent des services payants .
Lors de la recherche lorsque l’on clique sur le lien proposé, on arrive directement sur la page
d’accueil du site
L’annuaire de Google propose aux internautes de devenir « indexeurs » c’est à dire de proposer des
sites
2
En théorie, les adresses des sites sont classés par ordre alphabétique. En pratique la majorité des
annuaires associe les fonctionnalités des moteurs de recherche, le classement se fait donc également en
fonction de la pertinence. Certains sites délivrent des oscars pour les sites non commerciaux afin de
leur attribuer en quelque sorte une note en fonction de l’avis des indexeurs.
•
Les méta-moteurs (Copernic, Kartoo..)
Ce sont des robots automatiques qui cherchent les mots clés sur plusieurs moteurs à la fois
(ex. : Metacrawler, Akooe, Kartoo, Copernic…)
Un métamoteur lance la recherche sur plusieurs moteurs et/ou annuaires de sites et affiche les résultats
fournis par les instruments de recherche qu'il a utilisés. Cependant, leur efficacité est limitée dans le
cas d'une recherche complexe. En effet, la syntaxe n'étant pas la même pour tous les outils, la
pertinence des résultats peut être réduite.
Corpernic est un outil à part, puisqu’il s’agit en réalité d’un logiciel qui doit être installé sur
l’ordinateur (téléchargeable gratuitement dans sa version de base) . Il lance simultanément la recherche
sur plusieurs moteurs (comme les métamoteurs classiques)
•
Les portails
Ce sont des sites le plus souvent thématiques qui se veulent une « porte d’entrée » sur le web. Ils se
composent généralement :
- d’un moteur de recherche et/ou
- d’un annuaire de sites
Le portail est souvent le site par lequel un internaute entame son « surf »
Un portail est un site web se présentant comme UN INVENTAIRE, spécialisé dans un domaine ou
non, dans lequel les sites référencés sont classés par catégorie et accessibles au moyen de liens
hypertextes. On parle de portail notamment pour les pages d’accueil des fournisseurs d’accès. Ainsi
sur la page d’accueil de AOL ou YAHOO… on trouve des informations diverses, la possibilité de faire
une recherche à l’aide d’un annuaire (arborescence), ou bien à l’aide d’un moteur associé
•
Le Web invisible
Le web invisible est l'ensemble des documents (textes, vidéos, images…) du web qui n'est pas indexé
par les outils de recherche traditionnels
Les documents constituant le web invisible peuvent être dynamiques (non localisables), non référencés
(volontairement ou non), ou de nature non indexable (ex. : les animations Flash).
•
Divers obstacles s'opposent aux robots :
•Sites protégés par mots de passe, (les moteurs ne sont pas capables de saisir des informations au
clavier)
•Formats de fichiers : HTML est le format natif du web reconnu par tous les robots mais beaucoup se
sont ajoutés. Tous les robots n’indexent pas certains autres formats (pdf et PostScript ; xls ; ppt ; doc ;
rtf…)
•Pages HTML statiques/pages HTML dynamiques : les robots ont besoin de suivre des liens à
l'intérieur du site afin de pouvoir indexer les pages correspondantes. Si les pages dynamiques ne
3
peuvent être accédées que par le biais de l'interrogation d'un formulaire, celles-ci ne pourront pas être
indexées par les moteurs.
•Les robots stoppent : quand ils rencontrent une URL contenant un point d'interrogation.
•Absence de liens hypertextes :
•L'information de presse : de plus en plus de sites de presse (quotidiens, radio, télévision…) diffusent
en temps réel de l'information. Les robots classiques sont incapables de suivre. (le délai moyen de
rafraîchissement de l'index est de 4 semaines).
•Pages tronquées : les robots n'indexent pas entièrement les pages, ainsi Google se limite à 101
Koctets.
Mise en situation n °2
2. Méthodologie de recherche d’informations
Cette méthodologie suit 5 étapes :
•La détermination précise des questions auxquelles on veut apporter une réponse (exemples :
informations générales sur un marché, sur une entreprise, sur un secteur d'activité…)
•la traduction en mots clés de ces questions en rapport avec la recherche, il est nécessaire de trouver
des mots associés, des synonymes et ne pas se contenter de réécrire les mots de la question
•l'association des mots clés à des opérateurs booléens de façon à restreindre ou à étendre le champ de
la recherche.
•le choix des outils de recherche adaptés : cette étape passe par la sélection de moteurs ou de
métamoteurs de recherche, puis le lancement de la recherche sur les différents outils et la comparaison
des résultats. Les sources obtenues doivent ensuite être validées.
•l'approbation de l'expression de la recherche : en fonction de la pertinence des résultats de la
requête, la recherche sera adaptée ou reformulée, en utilisant éventuellement des termes issus des
documents validés et sélectionnés.
3. La formulation des requêtes
cancer
cancer -horoscope -tropique
cancer peau
+cancer +peau
chat* / chat
« rhume des foins »La formulation des requêtes n’est utile que lorsque l’on utilise un moteur de
recherche, (en cas d’utilisation d’annuaires, il suffit de suivre l’arborescence proposée).
•Lorsque l’on lance la recherche « cancer » on trouve tout ce qui se rapporte à la maladie, mais aussi
tous les sites qui traitent d’astrologie (signe du zodiaque) et également les sites à caractère
géographique ou touristique qui parlent du Tropique du Cancer
4
•Afin de limiter la recherche à la maladie par exemple, il est nécessaire d’exclure de la requête les
thèmes « parasites ». Pour cela on utilise le signe « - » accolé au mot qu’il doit exclure. Ainsi la
recherche « cancer –horoscope –tropique » donnera comme résultats les sites ayant dans leur texte
(ou titre) le mot « cancer » mais pas le mot « horoscope » ni le mot « tropique ». Bien sûr il aurait
également été nécessaire d’exclure les mots synonymes comme zodiaque…
•Si l’on lance une recherche avec les mots clés « cancer peau », le moteur (ou le métamoteur)
proposera en réponse d’abord les sites dans lesquels les deux mots sont proches, puis de plus en plus
éloignés. Enfin il proposera les sites contenant uniquement le mot « cancer » puis uniquement le mot «
peau » : L’ESPACE VEUT DIRE OU
•Si l’on souhaite trouver les deux mots il sera nécessaire d’ajouter le signe « + » accolé au mot.
Attention cela garantit la présence des mots dans le texte mais pas le contexte, ainsi il pourra s’agir du
tropique du Cancer et de la peau… de banane. Il est possible d’associer autant d’opérateurs différents
que nécessaire.
•En fonction des instruments de recherche utilisés il est nécessaire d’utiliser un symbole de
troncature « * ». Ainsi lors d’une recherche sur Altavista si l’on souhaite obtenir des résultats
concernant « le chat » (animal ou technique de communication) il suffit de taper le mot clé, mais si
l’on souhaite élargir aux mots : chats (pluriel), chatte (féminin), chattes (féminin pluriel), chaton,
chatons, il sera nécessaire d’ajouter le symbole de troncature « * ». Cette recherche donnera également
pour résultat : chatoyer, chatoyant… D’autres instruments de recherche comme Google proposent une
« troncature automatique » ainsi « capi » donnera : capitaine, capitale, capitole, capitainerie….
•Si l’on souhaite absolument trouver une locution dans son intégralité, il faudra utiliser les guillemets.
ATTENTION toutefois car lors d’une recherche de ce type la locution « rhumeS des foins » ne sera
pas trouvée
•REMARQUES : il ne faut pas « alourdir la requête » avec des mots inutiles voire parasites, par
exemple les articles, les mots de liaison… Evitez les verbes, car il faudrait envisager toutes les
conjugaisons.
4. Les opérateurs logiques
Le libellé des requêtes sur un instrument de recherche est primordial. L'utilisation d'opérateurs
logiques affine utilement une recherche, dont les résultats sont classés en trois catégories :
•Pertinence : les résultats correspondent à ce que l’on recherche (la requête était bien formulée)
•Bruit : trop de résultats qui ne correspondent pas à ce que l’on souhaite trouver (il faut reformuler la
requête)
•Silence : pas suffisamment de résultats, il faut reformuler la requête et éventuellement utiliser des
synonymes
En résumé, les opérateurs logiques (ou opérateurs booléens) sont en partie communs aux différents
moteurs de recherche.
OU / OR / Espace : Si les mots clés d'une requête sont séparés par un espace, l'instrument de
recherche trouvera :les sites contenant tous les mots clés (même éparpillés)les sites contenant un mot
clé OU un autre OU …
ET / AND / + : Si l'on souhaite que tous les mots clés soient contenus dans le site :il faut les faire
précéder du signe + (ex. : +cancer +peau). Attention ils peuvent être présents mais dans des contextes
totalement différents
5
SAUF / NOT / - : Si l'on souhaite exclure de la recherche un mot clé :indiquer ce mot clé interdit
précédé du signe – (exemple : +cancer –horoscope)
Expression complète « …. » : Si l'on souhaite que la recherche porte sur une expression complète,
exacte : indiquer ces mots clés entre guillemets (ex. : "rhume des foins"). Attention : ne trouvera pas
"rhumes des foins«
Troncature / * : Si l'on souhaite trouver tous les sites contenant un mot clé commençant par ….:
écrire la racine suivie d'un astérisque (ex. : chien*) pour certains moteurs la troncature est automatique
(google.fr)
Mise en situation n °3
Afin d’obtenir une plus grande pertinence des réponses, et en fonction du contexte, il est
indispensable d’affiner la recherche en fonction de certains critères
-Géographiques ou linguistiques (il est inutile de lancer une recherche sur le web mondial, si on ne
parle que le français, une telle recherche génère trop de « bruit »)
-Thématiques : si l’on recherche une image ou une vidéo, il sera utile de rechercher directement ce
type de document (bien que des résultats intéressants puissent se trouver ailleurs)
-Si l’on souhaite obtenir des informations très récentes et compte tenu du délai de rafraîchissement
des index des moteurs, il peut être judicieux d’utiliser les fonctionnalités avancées de certains de ces
moteurs
-Certains outils permettent également d’obtenir sur sa boite mail directement des informations
correspondant à une requête donnée
5. Validation des sources : Lecture de l’adresse
l'adresse d'un site donne des informations qui peuvent permettre de valider les sources
-Première
partie de l'adresse
http://www.auchan.fr : c’est l'adresse du site ou U.R.L. Un URL : Universal Resource Locator. Les
adresses doivent être lues de droite à gauche, donc de la fin de l'adresse vers son origine
–
Domaine de premier niveau (.fr, .it, .gouv, .com…)
.fr : "Top Level domaine name" (Domaine de Premier Niveau)Le domaine identifie l'origine de
l'hébergeur du site. Pour qu'un ordinateur sache où joindre un autre ordinateur sur Internet, il a besoin
de connaître son adresse IP (Internet Protocol : son numéro d'identification). Un nom de domaine
permet d'associer des mots (plus faciles à retenir) à ce numéro. Les domaines identifient des sousparties ou des régions du réseau Internet.
Un Top Level Domain peut être générique ou géographique :
Les noms de domaines génériques sont attribués en fonction du type d'individus ou d'entreprise qui est
propriétaire du site :
.com : site commercial ou site généraliste (par défaut)
.gouv : institution gouvernementale française
.cci : chambre de commerce et d'industrie
.org : structure à but non lucratif
Les noms de domaines géographiques sont fonction du lieu où réside le propriétaire :
6
.fr, .de, .it…. abréviation du nom du pays (France, Allemagne, Italie…)
–
Domaine de deuxième niveau (nom du site)
auchan. : est le domaine de second niveau. Il identifie la société ("Auchan") à laquelle appartient le
site
–
http et www permettent de localiser le site sur la toile (protocole)
www. (World Wide Web) : qualifie la "toile d'araignée" des sites web hébergés autour de la planète
http:// : Hyper Text Transfer Protocol : c'est un protocole technique utilisé sur le Web pour transférer
des fichiers entre le serveur et l'utilisateur.
–
deuxième partie de l'adresse
http://www.auchan.fr/services/index.asp donne en plus l'adresse et le format de la page dans le site :
services : répertoire / puis sous-répertoires
index.asp : le nom de fichier de la page Web se termine par .htm, .html ou par d'autres extensions
désignant différents langages de programmation (.asp, .xml, .php…)
6. Validation des sources : Origine du site
- la page d'accueil est-elle datée ?
- quelle est la date de la dernière mise à jour du site ?
- s'agit-il d'une source stable, produite et mise à jour par une source institutionnelle ?
- les auteurs du site sont-ils des spécialistes dans le domaine ?
- si la page est trouvée à l'aide d'un moteur, remonter jusqu'à la page d'accueil du site permet-il de
vérifier l'appartenance de la page à un site fiable ?
7. Validation des sources : Contenu
- le site est-il mis à jour régulièrement ?
- le site a-t-il un objectif commercial ?
- l'information est-elle gratuite ou payante ?
- dispose-t-on d'un moteur de recherche interne au site, d'un plan du site ou d'un sommaire ?
Mise en situation n °4
Application