LE MOTEUR DE RECHERCHE ou la problématique du faux-ami

Transcription

LE MOTEUR DE RECHERCHE ou la problématique du faux-ami
Pôle de compétences en Documentation – Journée des correspondants TICE - 2009
LE MOTEUR DE RECHERCHE
ou la problématique du faux-ami
Quels enjeux pédagogiques ?
Christèle Courteville & Séverine Quéro
Pôle de compétences des professeurs documentalistes de l'académie de Rouen
Les moteurs de recherche :
Définitions, fonctionnement et
comparaison
images :http://www.iconlook.com/
http://www.dievochka.com/seo/seo-camp-seo/lavenir-des-moteurs-de-recherche/
Définitions
Petit dictionnaire des concepts info-documentaires P. Duplessis – I. Ballarini-Santonocito
Article “Moteur de recherche” Wikipedia
Moteur de recherche : Serveur spécialisé permettant l'accès sur le Web à des
ressources, à partir de requêtes constituées de mots-clés ou de texte libre et selon
différents paramètres.
Ce type d'outil de recherche en ligne explore automatiquement et périodiquement les pages web (et non les
sites) et les copie sur des serveurs dédiés. A partir de ceux-ci, des logiciels, appelés spiders ou crawlers,
procèdent à une indexation sur tous les mots de la page. Ils constituent ainsi un index qui contient des liens
vers les pages web répertoriées.
Métamoteur : Outil de recherche en ligne permettant de lancer simultanément une
requête dans plusieurs moteurs de recherche ou répertoires de sites (et même
dans des agences de presse).
Interrogeant ainsi plusieurs bases de données, ils prétendent à une plus grande exhaustivité. Cependant,
l'utilisation conjointe de différents moteurs interdit l'usage d'opérateurs spécifiques, ce qui écarte la
possibilité d'élaborer des requêtes complexes.
Multimoteur : (ou plus rarement, "super moteur") Page web proposant un ou
plusieurs formulaires permettant d'interroger plusieurs moteurs.
Le choix d'un des moteurs peut se faire par bouton, bouton radio, onglet, liste déroulante ou autre.
(exemples : lecdi.net, seeky.net, zuula.com...)
Schéma de fonctionnement d'un moteur
Dessins : P.B. - Droits réservés
Schéma de fonctionnement d'un moteur
Source : http://interstices.info/jcms/c_21839/un-moteur-de-recherche-pour-le-meilleur-et-pour-le-pire
Pour approfondir les connaissances sur les moteurs de recherche, voir le
diaporama du stage de l'URFIST de Rennes proposé par Alexandre Serres et
Marie-Laure Malingre : « Moteurs de recherche : sortir de Google »
http://www.uhb.fr/urfist/sortir_de_google
Avec les élèves, il est possible d'utiliser les modules animés du site NetExpress
http://a.bouque.eurotech.free.fr/4/4_2_CTI/documents/netexpress/netexpress/index.html
http://pedagogie.ac-toulouse.fr/col-sourezes-requista/animations/netexpress/index.html
http://lcs.lebrun.lyc50.ac-caen.fr/~wetab/cours/netexpress/services.wanadoo.fr/wanadoo_et_moi/comprendre/netexpress/index-2.html
Comment comparer les moteurs ?
Exemples de grilles de comparaison :
●
URFIST Rennes. Typologie des moteurs + Moteurs de recherche : 10 fiches techniques
http://www.uhb.fr/urfist/sortir_de_google
●
URFIST Rennes. http://www.uhb.fr/urfist/files/Bilan-ComparaisonMoteurs2007.pdf
●
URFIST Rennes. www.uhb.fr/urfist/Supports/ApprofMoteurs/BilanComparaisonMoteurs2005.doc
(comparaison de Google.fr, Google.com, AltaVista France, MSN, Yahoo, Exalead, Mirago)
●
Jean Véronis. Etude comparative de six moteurs de recherche.
http://www.up.univ-mrs.fr/veronis/pdf/2006-etude-comparative.pdf
●
Journal du Net. Le comparatif des moteurs de recherche de juin 2008 (performances)
http://www.journaldunet.com/solutions/moteur-referencement/dossier/le-comparatif-des-moteurs-de-rec
Des fiches techniques :
●
URFIST Lyon. Jean-Pierre Lardy. (des fiches pour connaître les moteurs généralistes “en profondeur”)
http://urfist.univ-lyon1.fr/28553042/0/fiche___pagelibre/&RH=1216648314079&RF=1216648314079
●
Service de recherche documentaire DSI, le site canadien de Marc Duval, propose des fiches techniques
et un classement des sites de recherches : http://www.dsi-info.ca/
●
Le site Abondance.com : tableaux de description des technologies des principaux outils de recherche
http://outils.abondance.com/
Comment comparer les moteurs ?
Critères de comparaison :
Ressources proposées
●
taille de l'index
➔
modules spécialisés selon la langue et l'origine, selon la nature de l'info, selon le type de ressources, selon la
nature du contenu, selon le type de support, selon les services proposés
➔
formats de fichiers proposés
➔
nombre de langues proposées
➔
Fonctions de recherche
●
options de recherche avancées
➔
options linguistiques
➔
options de recherche booléennes et de proximité
➔
options de filtrage (en mode simple et en mode avancé)
➔
affinement de la recherche
➔
Présentation des résultats
●
représentation linéaire
➔
ajout de termes associés, regroupement thématique, nuages de “tags”
➔
clustering (agrégation conceptuelle)
➔
représentation carrée ou circulaire
➔
représentation centrée (cartes heuristiques)
➔
représentation topographique ou en réseau complexe, cartographie
➔
représentation en 3D
➔
Services et fonctionnalités supplémentaires proposés
●
barre d'outil, filtre parental, partage de signets, lecteur RSS, outil de traduction, répertoire, sauvegarde de la
recherche, personnalisation...
➔
Fonctionnement du moteur
●
délai moyen de rafraîchissement et conditions de mises à jour
➔
mode d'indexation et de traitement des ressources (linguistique, statistique...)
➔
méthodes de tri des résultats (tri par pertinence, par popularité, par catégorisation)
➔
Comment comparer les moteurs ?
Des outils pour comparer les résultats des recherches :
●
Des outils “bicéphales” : ils permettent de visualiser les pages de résultats de Google et
Yahoo en séparant la fenêtre en 2 (“split-screen”) : TwinGine, GoogleGuy (all) et DoubleTrust
●
L'outil ranking.thumbshots.com : permet de comparer visuellement les 100 premiers
résultats de 2 moteurs, ou bien les résultats de 2 requêtes proches sur un même moteur
Cet outil montre qu'il n'y a qu'un très faible recoupement des résultats des moteurs de recherche
Le recours systématique à Google ne remet-il pas
en question l'utilité de notre logiciel de gestion et
de nos fonds documentaires ?
Concurrence ou complémentarité ?
BCDI ou/et moteur de recherche
Piste pédagogique = comparatif :
http://www2.ac-lyon.fr/etab/lycees/lyc-42/carnot/IMG/pdf/RechercheDocBase-2.pdf
BCDI/GOOGLE :
concurrence ou complémentarité ?
Les avantages en bref
BCDI
MOTEUR DE RECHERCHE
- Information triée préalablement - Information plus importante
(choix)
- Information indexée
= interrogation efficace... qui
- Recherche en texte intégral
suppose l'utilisation d'un vocabulaire particulier
- Information classée
- Mise à jour rapide de l'index
(support, titre, date...)
- Sources identifiées
Promotion du fonds
Évaluation de l'information
opérée par professionnels
Diversification des services
Financement par la publicité,
vente de technologie
Les inconvénients en bref
BCDI
MOTEUR DE RECHERCHE
- Nombre de ressources
limité
- Hétérogénéité des sources
et des formats
- Principes d'interrogation
rigides
- Problèmes de fiabilité de
l'information
- Critères de sélection flous
- Bruit documentaire
- Traces enregistrées
Moins attractif car
plus contraignant
Dépendance de l'internaute
Pour aller plus loin :
http://www.uhb.fr/urfist/Supports/RechInfoInit/RechInfo3Problematique.html#3.2.1%20
Indexation%20humaine%20/%20indexation%20automatisée
Extrait !
Peut-on encore se passer de Google ?
Faux débat ?
Alternatives possibles
État du marché en 2008 en France :
parts de visites générées par les principaux moteurs de recherche
Source : http://www.slideshare.net/jdeyaref/panorama-des-moteurs-de-recherche
Les raisons du succès de Google
http://www.demainlaveille.fr/2008/12/08/les-facteurs-cles-de-succes-de-google/
Google étend toujours plus ses champs d'intervention : photos/vidéos en ligne, internet
mobile, données sociales, logiciels on-line, applications open source, infrastructures
réseau, publicité... Google cherche à se rendre incontournable, et à créer un “réflexe
Google” chez l'internaute.
A travers l'exemple de la réussite de Google sont posées de nombreuses questions
concernant l'avenir d'Internet.
cf. aussi Frédéric Rabat. Google et son modèle économique. Documentation Rouen. http://documentaliste.ac-rouen.fr/spip/spip.php?article164
Un succès qui inquiète ...
“Faut-il avoir peur de Google ?” Emission diffusée le 22 avril 2007 sur Arte :
http://video.google.com/videoplay?docid=7294604022161146201
... Et qui soulève de nombreuses questions
Cœur du travail de Google : collecter un maximum de données liées à des utilisateurs par
le biais des applications qu'il propose.
La recherche et les publicités associées constituent le principal revenu. Tout est optimisé
pour afficher davantage de publicité contextuelles et donc générer davantage de revenus.
Kevin Bankston, avocat de l’EFF aux E.U. confirme : « Son modèle commercial est fondé
sur l’observation des internautes. C’est dangereux. »
http://www.scribd.com/doc/2514840/Internet
Selon Marie-Laure Malingre et Alexandre Serres * et Olivier Ertzscheid,
parmi les pièges de “l'idéologie Google”, il y aurait trois confusions
épistémologiques du discours sur l’information :
●
Sur l’organisation de « toute l’information du monde » :
Confusion entre info-data, données informationnelles et information
●
Sur l’accès à la connaissance :
Confusion entre information et connaissance
●
Sur la « démocratie culturelle » :
Confusion entre information et culture
*http://www.uhb.fr/urfist/explorer_google
Sur les confusions sémantiques, voir aussi Alexandre Serres et Olivier Le Deuff. Outils de recherche : la question de la formation.
hal.archives-ouvertes.fr/docs/00/17/73/23/PDF/Article_serres-ledeuff_outils_de_recherche.pdf
La “nébuleuse Google” :
« On connecte son ordinateur au Google cloud, la nébuleuse Google pour
accéder à ses données, sans savoir où elles sont conservées.
C'est le cloud computing. »
Stéphane Foucart. Peut-on tout confier à Google ? Le Monde2 n° 248 du 15
/11/2008
Google n'est plus depuis longtemps un simple moteur mais est
devenu un géant dans le monde de l'Internet.
On peut donc s'interroger sur :
- la question de l'hégémonie en regard de celle de la
conservation des données personnelles et de leur délocalisation,
- la dépendance vis-à-vis des services et applications proposés
par une entreprise commerciales, qui peut décider du jour au
lendemain d'en interrompre certains plus assez rentables.
Il est intéressant de se demander où et comment sont conservés
les données et les logiciels, d'autant plus que Google a toujours
pris soin de s'entourer de secret.
Enseigner Google ?
Oui : pour déconstruire les représentations et expliquer son fonctionnement
Exemple :
Une année avec Google par Frédéric Rabat mis à jour le 16/06/2008
http://documentaliste.ac-rouen.fr/spip/spip.php?article191
http://documentaliste.ac-rouen.fr/spip/spip.php?article192
●
L'objectif de cette séquence de formation est de « faire constater un usage généralisé non-questionné
et de démontrer que le choix de l’outil n’est pas déterminé par un jugement portant sur la qualité
réelle du moteur mais plutôt sur sa visibilité dans le monde informatique mais également dans le petit
monde de l’école. »
Oui : car Google n'est pas infaillible !
Exemple :
http://tech.blogs.challenges.fr/archive/2009/02/02
/la-lecon-du-bug-de-google.html?xtor=RSS-29 :
« Le 31/01/09, durant environ 40 minutes, en début d'après-midi,
heure française, la totalité des sites s'affichant dans ses résultats de
recherche étaient subitement considérés comme dangereux. »
voir aussi : http://www.ecrans.fr/A-qui-a-profite-le-bug-de-Google-A,6348.html
Mais pas seulement !
Il y a des notions à enseigner...
Conceptogramme de la notion d'« outil de recherche »
Source = esmeree.fr/lestroiscouronnes/download/RmljaGllcnwtfC18NHwtfC18ZmljaGllcg%3D%3D
Carte conceptuelle de la notion d'« outil de recherche »
Source = http://www.pedagogie.ac-nantes.fr/1177924054937/0/fiche___ressourcepedagogique/&RH=DOC
MONTAIGNE Agnès. Concepts info-documentaires [en ligne]. Formdoc, IUFM de l’académie
de Rouen, 2006 http://formdoc.rouen.iufm.fr/spip.php?article302
Concept défini : Moteur de recherche
Des pistes pédagogiques...
Utiliser le portail Zefab pour comparer des outils de recherche et de leurs résultats (grilles) lors d'un
rallye internet par exemple
●
Portail qui propose sur une même page l'essentiel des outils nécessaires à une recherche d'informations sur le net (en français et en
anglais), via une quinzaine de menus déroulants. Le site propose également une méthodologie de recherche ainsi que des astuces.
Des pistes pédagogiques...
●
utiliser des moteurs effectuant du clustering (liste de termes associés) type Exalead ou Clusty pour
aider à affiner ou approfondir les recherches, avec un travail sur les termes de la requête, les possibles
ambiguïtés linguistiques, et sur les termes associés proposés par le moteur.
Des pistes pédagogiques...
●
établir un environnement sémantique des mots du sujet de recherche avec WikiMindMap : à
utiliser en point de départ d'une mobilisation d'idées sous forme de brainstorming.
Voir en complément l'article de Sylvain Litou. Séquence sur le Mind Mapping. Documentation Rouen, 2008.
http://documentaliste.ac-rouen.fr/spip/spip.php?article154
Des pistes pédagogiques...
●
rechercher des documents sous licence Creative Commons (librement utilisables dans le respect
des droits décidés par l'auteur) grâce au multi-moteur Creative Commons Search (ou avec le
moteur Compfight pour les images hébergées par Flickr, ou le moteur Freetunes pour la musique.)
Des pistes pédagogiques...
« Moteur de recherche d’images en version beta privée développé par Idées Inc., société canadienne spécialisée dans les
technologies d’identification d’images et de recherche visuelle. On s’appuiera ici à titre d’exemple sur une demande réelle
formulée sur la liste de diffusion Profs-fr. La requête portait sur la source (auteur, titre) d’un tableau dont la reproduction proposée
était non légendée. Une fois l’image téléversée, une trentaine de résultats furent fournis par TinEye. L’œuvre retrouvée par ce biais
est Le bouffon au luth de Franz Hals dont on trouvera une reproduction sur le site de la RMN : http://doiop.com/luthier. Un nouveau
test effectué à partir de cette version donne 50 résultats sur TinEye parmi lesquels on aperçoit un certain nombre de "copies"
détournées, ce qui peut s’avérer intéressant
dans le cadre d’une recherche d’œuvres
parodiées, pastichées ou encore plagiées. »
(Pierre Nobis. Chercher des images par l'image)
Des pistes pédagogiques...
●
effectuer des dossiers ou des revues de presse dans la presse internationale, avec les indications
graphiques concernant la langue, le pays, la source de l'article, et une visualisation de l'importance
du traitement de l'information en fonction de la date.
Des pistes pédagogiques...
●
créer des nuages de tags sur un site, en fonction des occurrences de termes, avec des outils
comme Mozclouds (du moteur Mozbot) ou Clusty Cloud Creator et travailler sur les notions de
mot-clé, d'indexation et de folksonomie.
Le nuage de tags peut par
ailleurs être utilisé comme
outil de navigation, et
comme outil d'analyse
textuelle (pour faire
émerger les concepts
saillants par la taille des
caractères des mots).
article Pierre Nobis
Des pistes pédagogiques...
●
faire rechercher aux élèves des informations sur les moteurs éco-citoyens-solidaires, sur leurs
principes, leurs buts, leur efficacité. Cette recherche pourrait s'effectuer en éducation civique, en
SVT ou dans un projet inter-disciplinaire autour du développement durable.
(Cela peut être l'occasion aussi pour les élèves de découvrir par eux-mêmes le site Hoaxbuster).
Un outil innovant
Toolenet / Ujiko
Moteur utilisant la technologie de Kartoo, proposé en 3 langues (fr, en, de), personnalisable (Favoriser, Editer, Ranger, Filtrer). La
catégorisation automatique propose des mots-clés associés affichés au centre, avec une couleur liée à sa thématique ; le survol
surligne les résultats de recherche qui s’y associent. En cliquant sur l’un de ces mots clefs, la recherche s’enrichit et des résultats
plus précis s’affichent.
Il mémorise le parcours de navigation, et permet aussi d'attribuer un indice de pertinence aux pages trouvées.
A chaque nouveau site visité, on gagne des points d'expérience, et tous les 10 points, on passe un niveau. Chaque niveau passé fait
apparaître de nouveaux boutons qui donnent accès à des fonctions avancées (recherche d'images et de vidéos, trafic du site,
versions précédentes, encyclopédie, nouveaux looks, filtres supplémentaires, etc.).
Des interfaces nouvelles
Une tendance actuelle pour les moteurs de recherche est de miser sur un visuel plus attrayant et
une interface dynamique.
Dans ce domaine, on peut citer :
●
le moteur SearchCube, qui présente les aperçus des pages de résultats en 3
dimensions, sous la forme d'un cube qui peut pivoter sur lui-même
●
le moteur SearchMe, qui fait défiler vers l'écran les aperçus des pages
de résultats à la manière de l'interface CoverFlow de MacOSX Leopard
(même principe pour SpaceTime, sur le modèle de Windows Vista)
●
la version beta du moteur Tianomo nous promet une présentation graphique
des résultats sous formes de “montagnes“ plus ou moins élevées
●
le moteur Oamos, quant à lui, propose une visualisation ludique et artistique
d'images et de bulles liées plus ou moins directement à la requête ; on peut au
départ déplacer un curseur entre “objective” et “entertaining”...
d'autres moteurs 3D http://www.journaldunet.com/solutions/moteur-referencement/selection/cinqmoteurs-de-recherche-3d-a-la-loupe/cinq-moteurs-de-recherche-3d-searchcube.shtml
●
Les tendances à venir
des outils de recherche
☞ catégorisation automatique (clusters)
☞ personnalisation (MyGoogle, MyYahoo...)
☞ outils communautaires et coopératifs (Mooteur, Fooxx...)
☞ outils sémantiques ?
Des quiz
●
Savez-vous faire une recherche efficace sur le Web ?
http://www.journaldunet.com/management/questionnaire/fiche/1087/d/f/1/
●
Seo-Masters : Quel expert êtes-vous ?
http://www.trackbusters.fr/seo-masters/ (identification obligatoire)
●
Les secrets de la recherche sur Internet (sur la syntaxe d'interrogation)
http://www.rechercheinternet.ca/quiz.htm
image : http://www.iconlook.com/
Biblio-sitographie
Véronique MESGUICH. Armelle THOMAS. Net Recherche : Le guide pratique pour mieux trouver l'information utile. Editions ADBS, 2007.
Pierre NOBIS. Visualisation graphique de l'information [en ligne]. Documentation Rouen, 2008.
http://documentaliste.ac-rouen.fr/spip/spip.php?article179
Frédéric RABAT. Un année avec Google [en ligne]. Documentation Rouen, 2008.
http://documentaliste.ac-rouen.fr/spip/spip.php?article191
http://documentaliste.ac-rouen.fr/spip/spip.php?article192
Ghislain CHASME. Rechercher sur Internet [en ligne]. Documentation Rouen, 2008.
http://documentaliste.ac-rouen.fr/spip/spip.php?article75&lang=fr
Alexandre SERRES. Introduction et repères historiques sur les outils de recherche de l'information. URFIST de Bretagne et des Pays de
Loire. www.uhb.fr/urfist/Supports/EvolRechinfo/RechInfo2ReperHistor.htm
Alexandre SERRES. Marie-Laure MALINGRE. Moteurs de recherche : principes de fonctionnement. URFIST de Bretagne et des Pays de Loire.
www.uhb.fr/urfist/moteurs_de_recherche_fonctionnement
Alexandre SERRES. Marie-Laure MALINGRE. Recherche d'information sur Internet : approfondissement des moteurs de recherche. URFIST
de Bretagne et des Pays de Loire. www.uhb.fr/urfist/Supports/ApprofMoteurs/ApprofMoteurs_Interfaces.htm
Alexandre SERRES. Marie-Laure MALINGRE. Explorer Google. URFIST de Bretagne et des Pays de Loire, 2008.
www.uhb.fr/urfist/explorer_google
Alexandre SERRES. Marie-Laure MALINGRE. Sortir de Google. URFIST de Bretagne et des Pays de Loire, 2008.
www.uhb.fr/urfist/sortir_de_google
Agnès MONTAIGNE. Concepts info-documentaires [en ligne]. Formdoc, IUFM de l’académie de Rouen, 2006.
http://formdoc.rouen.iufm.fr/spip.php?article302
Jean-Pierre LARDY. Vite tous les outils. URFIST de Lyon. http://urfist.univ-lyon1.fr/28536467/0/fiche___pagelibre/&RH=1215024972516
Abondance : référencement et moteurs de recherche. www.abondance.com