Méthodologie de recherche
Transcription
Méthodologie de recherche
1 METHODOLOGIE DE RECHERCHE Mise en situation n°1 1. Les instruments de recherche • Les moteurs de recherche (google, altavista…) Les moteurs sont des robots entièrement automatiques qui recherchent les mots clés dans - le titre des documents - l ’adresse des sites - le texte du site (ex. : Google, Altavista, Exalead Les moteurs de recherche sont composés de trois éléments entièrement automatisés : un robot qui collecte les données, un moteur d'indexation qui classe les données, et un moteur d'interrogation qui permet de lancer les requêtes Un moteur de recherche fonctionne sur le principe de l'indexation. Il visite périodiquement une partie des fichiers accessibles sur Internet et met à jour une base de données comprenant l'indexation de tout ou partie des mots de fichiers visités. Le résultat fourni par le moteur consiste en une liste de pages Web contenant le ou les mots saisies soit dans l'adresse du site, dans le titre ou dans les pages Lors d’une recherche avec un moteur, lorsque l’on clique sur le lien proposé, on arrive directement à la page concernée Ces résultats sont classés selon un ordre de pertinence. Il existe deux types de critères : - In the page : la place des mots formulés dans la requête (adresse, titre, texte, police, fréquence des mots dans les pages…) - Off the page : nombre de consultations pour une requête donnée, nombre d'autres pages ou sites Internet y renvoyant. Les moteurs proposent également des sites commerciaux, clairement identifiés (partie droite dans Google : liens commerciaux), ces entreprises ont payé pour avoir « une place de choix » (à condition bien évidemment qu’il y ait une concordance entre la réponse commerciale proposée et la requête) • Les annuaires (yahoo, annuaires professionnels..) Ils sont constitués avec la collaboration d ’indexeurs (humains) et offrent des formulaires de requêtes et des rubriques organisées en : - thèmes - sous thèmes (ex. : Yahoo!, Voilà, Lycos…) Un annuaire, ou répertoire de sites, est une base de données décrivant une sélection de sites et les indexant à l'aide d'une liste de sujets. Il s'agit d'un catalogue de sites, structuré en catégories, et organisé en arborescence. Pour la création d'un annuaire il faut l'intervention d'indexeurs humains qui créent notamment des résumés des sites explorés et les rendent accessibles au moyen de liens hypertextes.. La plupart des annuaires offrent des services payants . Lors de la recherche lorsque l’on clique sur le lien proposé, on arrive directement sur la page d’accueil du site L’annuaire de Google propose aux internautes de devenir « indexeurs » c’est à dire de proposer des sites 2 En théorie, les adresses des sites sont classés par ordre alphabétique. En pratique la majorité des annuaires associe les fonctionnalités des moteurs de recherche, le classement se fait donc également en fonction de la pertinence. Certains sites délivrent des oscars pour les sites non commerciaux afin de leur attribuer en quelque sorte une note en fonction de l’avis des indexeurs. • Les méta-moteurs (Copernic, Kartoo..) Ce sont des robots automatiques qui cherchent les mots clés sur plusieurs moteurs à la fois (ex. : Metacrawler, Akooe, Kartoo, Copernic…) Un métamoteur lance la recherche sur plusieurs moteurs et/ou annuaires de sites et affiche les résultats fournis par les instruments de recherche qu'il a utilisés. Cependant, leur efficacité est limitée dans le cas d'une recherche complexe. En effet, la syntaxe n'étant pas la même pour tous les outils, la pertinence des résultats peut être réduite. Corpernic est un outil à part, puisqu’il s’agit en réalité d’un logiciel qui doit être installé sur l’ordinateur (téléchargeable gratuitement dans sa version de base) . Il lance simultanément la recherche sur plusieurs moteurs (comme les métamoteurs classiques) • Les portails Ce sont des sites le plus souvent thématiques qui se veulent une « porte d’entrée » sur le web. Ils se composent généralement : - d’un moteur de recherche et/ou - d’un annuaire de sites Le portail est souvent le site par lequel un internaute entame son « surf » Un portail est un site web se présentant comme UN INVENTAIRE, spécialisé dans un domaine ou non, dans lequel les sites référencés sont classés par catégorie et accessibles au moyen de liens hypertextes. On parle de portail notamment pour les pages d’accueil des fournisseurs d’accès. Ainsi sur la page d’accueil de AOL ou YAHOO… on trouve des informations diverses, la possibilité de faire une recherche à l’aide d’un annuaire (arborescence), ou bien à l’aide d’un moteur associé • Le Web invisible Le web invisible est l'ensemble des documents (textes, vidéos, images…) du web qui n'est pas indexé par les outils de recherche traditionnels Les documents constituant le web invisible peuvent être dynamiques (non localisables), non référencés (volontairement ou non), ou de nature non indexable (ex. : les animations Flash). • Divers obstacles s'opposent aux robots : •Sites protégés par mots de passe, (les moteurs ne sont pas capables de saisir des informations au clavier) •Formats de fichiers : HTML est le format natif du web reconnu par tous les robots mais beaucoup se sont ajoutés. Tous les robots n’indexent pas certains autres formats (pdf et PostScript ; xls ; ppt ; doc ; rtf…) •Pages HTML statiques/pages HTML dynamiques : les robots ont besoin de suivre des liens à l'intérieur du site afin de pouvoir indexer les pages correspondantes. Si les pages dynamiques ne 3 peuvent être accédées que par le biais de l'interrogation d'un formulaire, celles-ci ne pourront pas être indexées par les moteurs. •Les robots stoppent : quand ils rencontrent une URL contenant un point d'interrogation. •Absence de liens hypertextes : •L'information de presse : de plus en plus de sites de presse (quotidiens, radio, télévision…) diffusent en temps réel de l'information. Les robots classiques sont incapables de suivre. (le délai moyen de rafraîchissement de l'index est de 4 semaines). •Pages tronquées : les robots n'indexent pas entièrement les pages, ainsi Google se limite à 101 Koctets. Mise en situation n °2 2. Méthodologie de recherche d’informations Cette méthodologie suit 5 étapes : •La détermination précise des questions auxquelles on veut apporter une réponse (exemples : informations générales sur un marché, sur une entreprise, sur un secteur d'activité…) •la traduction en mots clés de ces questions en rapport avec la recherche, il est nécessaire de trouver des mots associés, des synonymes et ne pas se contenter de réécrire les mots de la question •l'association des mots clés à des opérateurs booléens de façon à restreindre ou à étendre le champ de la recherche. •le choix des outils de recherche adaptés : cette étape passe par la sélection de moteurs ou de métamoteurs de recherche, puis le lancement de la recherche sur les différents outils et la comparaison des résultats. Les sources obtenues doivent ensuite être validées. •l'approbation de l'expression de la recherche : en fonction de la pertinence des résultats de la requête, la recherche sera adaptée ou reformulée, en utilisant éventuellement des termes issus des documents validés et sélectionnés. 3. La formulation des requêtes cancer cancer -horoscope -tropique cancer peau +cancer +peau chat* / chat « rhume des foins »La formulation des requêtes n’est utile que lorsque l’on utilise un moteur de recherche, (en cas d’utilisation d’annuaires, il suffit de suivre l’arborescence proposée). •Lorsque l’on lance la recherche « cancer » on trouve tout ce qui se rapporte à la maladie, mais aussi tous les sites qui traitent d’astrologie (signe du zodiaque) et également les sites à caractère géographique ou touristique qui parlent du Tropique du Cancer 4 •Afin de limiter la recherche à la maladie par exemple, il est nécessaire d’exclure de la requête les thèmes « parasites ». Pour cela on utilise le signe « - » accolé au mot qu’il doit exclure. Ainsi la recherche « cancer –horoscope –tropique » donnera comme résultats les sites ayant dans leur texte (ou titre) le mot « cancer » mais pas le mot « horoscope » ni le mot « tropique ». Bien sûr il aurait également été nécessaire d’exclure les mots synonymes comme zodiaque… •Si l’on lance une recherche avec les mots clés « cancer peau », le moteur (ou le métamoteur) proposera en réponse d’abord les sites dans lesquels les deux mots sont proches, puis de plus en plus éloignés. Enfin il proposera les sites contenant uniquement le mot « cancer » puis uniquement le mot « peau » : L’ESPACE VEUT DIRE OU •Si l’on souhaite trouver les deux mots il sera nécessaire d’ajouter le signe « + » accolé au mot. Attention cela garantit la présence des mots dans le texte mais pas le contexte, ainsi il pourra s’agir du tropique du Cancer et de la peau… de banane. Il est possible d’associer autant d’opérateurs différents que nécessaire. •En fonction des instruments de recherche utilisés il est nécessaire d’utiliser un symbole de troncature « * ». Ainsi lors d’une recherche sur Altavista si l’on souhaite obtenir des résultats concernant « le chat » (animal ou technique de communication) il suffit de taper le mot clé, mais si l’on souhaite élargir aux mots : chats (pluriel), chatte (féminin), chattes (féminin pluriel), chaton, chatons, il sera nécessaire d’ajouter le symbole de troncature « * ». Cette recherche donnera également pour résultat : chatoyer, chatoyant… D’autres instruments de recherche comme Google proposent une « troncature automatique » ainsi « capi » donnera : capitaine, capitale, capitole, capitainerie…. •Si l’on souhaite absolument trouver une locution dans son intégralité, il faudra utiliser les guillemets. ATTENTION toutefois car lors d’une recherche de ce type la locution « rhumeS des foins » ne sera pas trouvée •REMARQUES : il ne faut pas « alourdir la requête » avec des mots inutiles voire parasites, par exemple les articles, les mots de liaison… Evitez les verbes, car il faudrait envisager toutes les conjugaisons. 4. Les opérateurs logiques Le libellé des requêtes sur un instrument de recherche est primordial. L'utilisation d'opérateurs logiques affine utilement une recherche, dont les résultats sont classés en trois catégories : •Pertinence : les résultats correspondent à ce que l’on recherche (la requête était bien formulée) •Bruit : trop de résultats qui ne correspondent pas à ce que l’on souhaite trouver (il faut reformuler la requête) •Silence : pas suffisamment de résultats, il faut reformuler la requête et éventuellement utiliser des synonymes En résumé, les opérateurs logiques (ou opérateurs booléens) sont en partie communs aux différents moteurs de recherche. OU / OR / Espace : Si les mots clés d'une requête sont séparés par un espace, l'instrument de recherche trouvera :les sites contenant tous les mots clés (même éparpillés)les sites contenant un mot clé OU un autre OU … ET / AND / + : Si l'on souhaite que tous les mots clés soient contenus dans le site :il faut les faire précéder du signe + (ex. : +cancer +peau). Attention ils peuvent être présents mais dans des contextes totalement différents 5 SAUF / NOT / - : Si l'on souhaite exclure de la recherche un mot clé :indiquer ce mot clé interdit précédé du signe – (exemple : +cancer –horoscope) Expression complète « …. » : Si l'on souhaite que la recherche porte sur une expression complète, exacte : indiquer ces mots clés entre guillemets (ex. : "rhume des foins"). Attention : ne trouvera pas "rhumes des foins« Troncature / * : Si l'on souhaite trouver tous les sites contenant un mot clé commençant par ….: écrire la racine suivie d'un astérisque (ex. : chien*) pour certains moteurs la troncature est automatique (google.fr) Mise en situation n °3 Afin d’obtenir une plus grande pertinence des réponses, et en fonction du contexte, il est indispensable d’affiner la recherche en fonction de certains critères -Géographiques ou linguistiques (il est inutile de lancer une recherche sur le web mondial, si on ne parle que le français, une telle recherche génère trop de « bruit ») -Thématiques : si l’on recherche une image ou une vidéo, il sera utile de rechercher directement ce type de document (bien que des résultats intéressants puissent se trouver ailleurs) -Si l’on souhaite obtenir des informations très récentes et compte tenu du délai de rafraîchissement des index des moteurs, il peut être judicieux d’utiliser les fonctionnalités avancées de certains de ces moteurs -Certains outils permettent également d’obtenir sur sa boite mail directement des informations correspondant à une requête donnée 5. Validation des sources : Lecture de l’adresse l'adresse d'un site donne des informations qui peuvent permettre de valider les sources -Première partie de l'adresse http://www.auchan.fr : c’est l'adresse du site ou U.R.L. Un URL : Universal Resource Locator. Les adresses doivent être lues de droite à gauche, donc de la fin de l'adresse vers son origine – Domaine de premier niveau (.fr, .it, .gouv, .com…) .fr : "Top Level domaine name" (Domaine de Premier Niveau)Le domaine identifie l'origine de l'hébergeur du site. Pour qu'un ordinateur sache où joindre un autre ordinateur sur Internet, il a besoin de connaître son adresse IP (Internet Protocol : son numéro d'identification). Un nom de domaine permet d'associer des mots (plus faciles à retenir) à ce numéro. Les domaines identifient des sousparties ou des régions du réseau Internet. Un Top Level Domain peut être générique ou géographique : Les noms de domaines génériques sont attribués en fonction du type d'individus ou d'entreprise qui est propriétaire du site : .com : site commercial ou site généraliste (par défaut) .gouv : institution gouvernementale française .cci : chambre de commerce et d'industrie .org : structure à but non lucratif Les noms de domaines géographiques sont fonction du lieu où réside le propriétaire : 6 .fr, .de, .it…. abréviation du nom du pays (France, Allemagne, Italie…) – Domaine de deuxième niveau (nom du site) auchan. : est le domaine de second niveau. Il identifie la société ("Auchan") à laquelle appartient le site – http et www permettent de localiser le site sur la toile (protocole) www. (World Wide Web) : qualifie la "toile d'araignée" des sites web hébergés autour de la planète http:// : Hyper Text Transfer Protocol : c'est un protocole technique utilisé sur le Web pour transférer des fichiers entre le serveur et l'utilisateur. – deuxième partie de l'adresse http://www.auchan.fr/services/index.asp donne en plus l'adresse et le format de la page dans le site : services : répertoire / puis sous-répertoires index.asp : le nom de fichier de la page Web se termine par .htm, .html ou par d'autres extensions désignant différents langages de programmation (.asp, .xml, .php…) 6. Validation des sources : Origine du site - la page d'accueil est-elle datée ? - quelle est la date de la dernière mise à jour du site ? - s'agit-il d'une source stable, produite et mise à jour par une source institutionnelle ? - les auteurs du site sont-ils des spécialistes dans le domaine ? - si la page est trouvée à l'aide d'un moteur, remonter jusqu'à la page d'accueil du site permet-il de vérifier l'appartenance de la page à un site fiable ? 7. Validation des sources : Contenu - le site est-il mis à jour régulièrement ? - le site a-t-il un objectif commercial ? - l'information est-elle gratuite ou payante ? - dispose-t-on d'un moteur de recherche interne au site, d'un plan du site ou d'un sommaire ? Mise en situation n °4 Application
Documents pareils
PANORAMA DES OUTILS DE RECHERCHE SUR INTERNET
Liste de sites indexés par des humains (spécialistes, documentalistes). Certains annuaires sont généralistes, d'autres sont spécialisés dans un domaine. Aujourd'hui plusieurs moteurs (Ex : Google) ...
Plus en détail