outils de recherche

Transcription

outils de recherche
Rechercher l‛Information sur
Internet
Sommaire :
1. Annuaires et moteurs de recherche
1.1. Les annuaires
1.2 Les moteurs
1.3 Les métamoteurs
2. Les outils de recherche spécialisés
2.1. Les archives des forums
2.2. Les listes de diffusion
2.3. Un service d’alerte : Net2One
2.4. Rechercher des logiciels
3. Les logiciels de recherche
3.1 Les métamoteurs Off Line
3..2 Les agents de recherche avancés
3.3. Les aspirateurs de sites
4. En Savoir plus
4.1.Internet : généralités
4.2. L’actualité de la veille, de outils de recherche et des
TICE
4.3. Méthodologie de la recherche
1. Annuaires et moteurs de recherche
1.1. Les annuaires
1.1.1. Principe
Comme le nom l’indique, ce sont les pages jaunes d’Internet. Les sites y sont
classés par catégories. Le réferencement dans l’annuaire est le résultat d’une
politique éditoriale. Des personnes sont chargés d’analyser les sites qu’on leur
propose et décident, suivant leur intérêt de les inscrire ou non. Ils rédigent alors
une notice de quelques lignes décrivant le contenu du site et l’inscrivent dans
une ou plusieurs catégories. A noter que ces catégories sont hiérarchisées.
1.1.2. Quelques annuaires :
- Yahoo :
- Magellan :
- Snap :
- Open Directory :
- Lycos :
http://www.yahoo.com
http://magellan.excite.com/
http://www.snap.com/
http://dmoz.org/
http://www.lycos.com
Annuaires francophones :
1
- Yahoo France :
http://www.yahoo.fr
- Nomade :
http://www.nomade.fr
- Ecila :
http://www.ecila.fr
- La Vague.net :
http://www.lavague.net
(spécialisé dans les sites francophones de l’Océan Indien)
- Lycos version française :
http://www.lycos.fr
Evolution actuelle des
annuaires. Notion de
portails. Dans le but
d’avoir l’audience la
plus importante possible, ces sites se sont
mis à offrir de nombreux services complémentaires à côté de la
fonction traditionnelle
d’annuaire. Ceci afin
d’avoir une audience
maximum dans le but
de séduire les annonceurs publicitaires
1.1.3. Rechercher dans un annuaire : Yahoo France
Que peut-on trouver sur Yahoo ?
- Des sites classés par catégories
- Des Informations (dépêches AFP, AP, Reuters...), le site le plus compléts pour
les dépêches.
- Avoir un compte de courrier gratuit
- Télécharger des logiciels
- Personnaliser sa page d’accueil pour avoir accès à des informations sélectionnées suivant un profil défini
- Un serveur de Chat
- Du commerce électronique
- Un service de ventes aux enchères (la nouvelle mode du Web)
- Une messagerie instantanée
Rechercher dans Yahoo :
Trois méthodes de recherche possible :
- Par catégories en naviguant de catégories en sous-catégories
- Par mot-clé en utlisant des opérateurs booléens
- En utilisant un mode recherche avancé
Recherche par mot-clé :
Dans Yahoo, contrairement à un moteur de recherche comme Altavista qui
indexe l’intégralité d’une page, la recherche ne s’effectue que sur les éléments
suivants :
- Le titre de la page
- L’adresse
- Les deux lignes de commentaires
- Les noms des catégories
- Le texte des dépêches d’actualité
Caractères accentués et Majuscules/Minuscules
Dans Yahoo, vous pouvez saisir les mots en majuscule ou minuscule, le moteur
de recherche ne fait pas la distinction de même pour les caractères accentués.
Les opérateurs :
- ET symbolisé par le signe +
- OU symbolisé par l’espace
- SAUF symbolisé par les signe - Troncature à droite : *
Syntaxe d’une équation :
Ex :La peinture italienne sous la Renaissance
2
Equation : +peinture +renaissance +italie
Dans le cas de l’opérateur ET, le signe + doit être placé devant chaque mot
requis dans la recherche.
Ex. La mythologie grecque ou romaine
Equation : +mythologie grec* rom*
Il est aussi possible de restreindre la recherche grâce à deux opérateurs spéciviques :
- t: rechercher uniquement sur les titres des sites
- u: rechercher uniquement sur les adresses des sites
Exemple : En reprenant l’équation précédente, mais en la limitant uniquement
au sites hébergée sur les serveurs académiques. Ces serveurs ont des adresses normalisées:
La méthode de recherche
- serveurs académiques, www.ac-nom de l’académie.fr
- Laisser le moteur décider : saisissez plusieurs
mots à la suite, le moteur
donnera les résultatsqu’il
juge les plus pertinents
Syntaxe : +mythologie +url:www.ac grec* rom*
- Rechercher avec l’expression telle quelle :
équivalent de l’utilisation
des guillemets
Les sites trouvés sont classés de la manière suivante :
- Les documents dont le nombre d’occurences des mots-clés sera le plus
élevé
- Présence des mots-clés dans le titre
-Rechercher avec tous
les mots : équivalent de
l’opérateur ET
Le résultat est présenté de la manière suivante :
- Rechercher avec au
moins l’un des mots :
équivalent de l’opérateur
OU
Le domaine de recherche
- Les catégories uniquement : Le résultats n’affichera que les intitulés des
catégories et pas les sites
- Les sites uniquement :
nous n’aurez que les sites
répondant à l’équation de
recherche, pas les catégories, ni les dépêches
- Les dépêches d’actualités : Recherche dans l’information
- Tout Yahoo : Recherche
intégrale sur toute la base
(catégories, sites, dépêches)
3
Classement des résultats :
1. Les catégories
2. Les sites
3. Les dépêches d’information
Quand Yahoo ne trouve rien dans sa base, il passe alors la relève à un moteur
de recherche : Inktomi.
Le mode de recherche avancé :
Comme tous les outils de recherche sur Internet, Yahoo offre un mode avancé
qui permet de spécifier des critères supplémentaires :
Choix de la date, permet de ne visualiser que les sites récents. 7 possibilités
offertes. Attention, il ne s’agit pas de la
date de la dernière mise à jour du site,
mais de celle du référencement dans
Yahoo.
1.2. Les moteurs de recherche
1.2.1. Principe général
Les moteurs de recherche sont des bases de données constituées automatiquement grâce à des logiciels robots qui parcourent en permanence internet
et indexent toutes les pages qu’ils rencontrent. Selon le moteur de recherche
utilisé, l’indexation porte sur :
- le titre, l’entête des documents ou quelques lignes,
- les documents complets.
Ce sont les outils de recherche les plus complets à l’heure actuelle. Les moteurs
les plus performants indexent, à l’heure actuelle plus d’une centaine de millions
de pages (Ex. Altavista en référence à l’heure actuelle 250 millions). Cela peut
paraître important, mais Internet a dépassé en 1999 le milliard de pages.
1.2.2. Les principaux moteurs de recherche
Voici quelques adresses de moteurs :
- Altavista :
version française :
http://www.altavista.com
http://www.altavista.fr
- Infoseek :
http://www.infoseek.com
- Northen Light :
http://www.northernlight.com
- HotBot :
http://www.hotbot.com
- Google :
http://www.google.com
- Excite :
Version française :
http://www.excite.com
http://www.excite.fr
- Voila :
- Version française :
http://www.voila.com
http://www.voila.fr
1.2.3. Rechercher dans les moteurs
La recherche dans les moteurs s’effectue toujours par saisie de mots-clés en
utilisant les opérateurs booléens ET/OU/SAUF.
Tous les moteurs offrent deux modes de recherche :
4
- Un mode simple réduit en général à sa plus simple expression : un formulaire
de saisie et le choix de la langue ou du domaine.
- Un mode avancé qui offre des paramêtres supplémentaires ( tri par date ,
recherche sur un serveur particulier, sur les adresses, gestion des parenthèses,
possibilité avancées de tri, possibiltés de raffiner une recherche...)
De plus, de moteurs offrent maintenant les fonctions d’un annuaire avec une
sélection de sites classés en catégories
1.2.4. La recherche dans Altavista
En mode simple :
Minuscules/majuscules
- Requête saisie en minuscules : toutes les occurrences sont recherchées.
Exemple : ibm trouve ibm, IBM ou Ibm.
- Requête saisie en majuscules : l’occurrence exacte est recherchée.
Exemple : Ibm trouve Ibm mais pas ibm ou IBM.
Lettres accentuées
- Requête saisie sans lettres accentuées : toutes les occurrences sont recherchées.
Exemple : electricite trouve electricite, électricité ou electricité.
- Requête saisie avec des lettres accentuées : l’occurrence exacte est recherchée.
Exemple : électricité trouve électricité mais pas electricite ou electricité.
Ordre des mots Important : paris dakar donne un résultat différent de dakar
paris
Les opérateurs booléens :
On utilise la même syntaxe que dans Yahoo
ET
+
OU
un espace
SAUF
-
Expressions
Guillemets.
Exemple : «moteur de recherche» recherche cette expression, les trois mots les
uns à côté des autres et dans cet ordre.
Troncature
*
Exemple : mot* recherchera moteur, moteurs, motard, motards, etc.
Par défaut, mot ne trouve pas mots, moteur, motard, etc.
Recherche linguistique
Choix dans le menu déroulant.
25 langues sont disponibles, depuis le chinois jusqu’au suédois.
Recherche sur le titre des documents
title :
Exemple : title:grece recherchera les documents qui contiennent le mot grèce
dans leur titre.
5
Recherche sur le domaine
domain:
Exemple : +mythologie +domain:edu recherchera les documents qui contiennent le mot mythologie et qui sont disponibles sur un serveur du domaine edu
(éducation). Attention avec cet opérateur, si vous cherchez par exemple uniquement des sites français et utilisez l’expression domain:fr, vous passez à côté
des sites français ayant une adresse sur les autres domaines (com, edu... ).
Pour rechercher sur la langue, il vaut mieux la choisir dans la liste déroulante.
Recherche sur le nom du serveur
host:
Exemple : + rome +host:www.ac-versailles.fr recherchera sur le site de l’académie de Versailles les pages contenant le mot rome
Recherche sur l’intitulé d’une URL
url:
Recherche sur les adresses des liens link:
Exemple : link:abondance.com trouvera les documents qui contiennent un lien
vers une page du site dont l’adresse contient l’expression abondance.com (dans
ce cas www.abondance.com). Cet opérateur est un des plus intéressants d’Altavista, car si vous trouvez un site important sur un sujet, il est fort probable que
d’autes sites sur ce même thème propose un lien vers celui-ci.
Le mode de recherche avancé :
Les opérateurs booléen changent, il faut désormais les saisir en toutes lettres. De
plus le mode avancé permet d’utiliser des parenthèses
ET
AND (ou &)
OU
OR (ou |)
SAUF AND NOT (ou !)
Exemple : La mythologie grecque ou romaine
Equation : mythologie AND (grec* OR rom*)
PROCHE DE NEAR (ou ~)
Cet opérateur n’est disponible que dans le mode avancé. Il permet de chercher
des sites dont le mots-clés sont séparés de 10 autres mots au maximum
On peut aussi rechercher sur la date de la dernière entrée dans la base de données. Les champs From: et To: permettent d’indiquer une fourchette de dates
pour la recherche.
Possibilité de tri sur un des mots-clés de l’équation avec la ligne : Sort by
1.3. Les métamoteurs
Les métamoteurs interrogent en une fois différents outils de recherche pour fournir la réponse la plus exhaustive à une question. Le principal intérêt de ces toutils est un gain de temps. Au lieu d’interroger plusieurs moteurs les uns après
les autres, ici vous ne lancez votre requête qu’une fois. le metamoteur interroge
une liste de moteurs puis vous donne le résultat en éliminant, en général les doublons. Mais ces outils ne peuvent interroger les moteurs et les annuaires qu’avec
les fonctions basiques. Vous ne pouvez donc pas utiliser tous les possibilités de
chaque moteur, comme les recherches sur les liens, les serveurs...
Les principaux métamoteurs :
6
Metacrawler :
http://www.metacrawler.com
Savvy Search :
http://www.savvysearch.com
DogPile :
http://www.dogpile.com
2. Les outils de recherche spécialisés
2.1. Rechercher dans les archives des forums
Les forums sont une véritable mine d’or pour trouver des réponses à des problèmes. Les archives de ces forums sont disponibles sur de nombreux serveurs. De
nombreux moteurs de recherche permettent de rechercher dans ces archives.
Exemple : Altavista dans sa version internationale. En dessous du formulaire de
saisie il faut cocher la case Discussion Groups pour rechercher dans les archives des forums
Il existe aussi un moteur spécialisé dans les forums :
Deja :
http://www.deja.com
2.2. Les listes de diffusion
Où trouver les listes de diffusion ?
- Francopholistes
http://www.francopholistes.com
pour les listes de diffusion francophones
- Listz :
http://www.listz.com
Répertorie plusieurs milliers de listes de diffusion
2.3. Recevoir une revue de presse par Email avec Net2One
Adresses :
- Serveur français :
- Serveur américain :
http://www.net2one.fr
http://www.net2one.com
C’est un nouveau service gratuit qui permet de recevoir par email un revue de
presse quotidienne sur des thèmes que vous avez sélectionnés.
Il existe plusieurs services sur ce site :
- Recevoir une revue de presse sur des médias classés par domaines, vous
sélectionnez les domaines et les revues dans une liste
- Définir des mots-clés, le serveur surveille toute un série de médias et vous
informe quand des articles contenant le(s) mot(s)-clé paraissent sur le site
Une fois par jour, vous recevez dans votre courrier, la liste de tous les articles
avec le lien pour les consulter ou directement une page web avec tous les articles.
2.3. Rechercher des logiciels
Quelques sites qui proposent des logiciels en téléchargement :
- Tucows :
- Download.com :
- Shareware.com :
- ZDnet :
7
http://www.tucows.com
http://www.download.com
http://www.shareware.com
http://www.zdnet.fr
Les logiciels sont généralement classés par catégories. On trouve principalement
des freeware (logiciels gratuits), des shareware (logiciels qui ne sont pas dis-
tribués dans le circuit commercial, mais vous avez le devoir moral de rétribuer
l’auteur - généralement la version shareware est bridée et en achetant la licence
vous recevez un code permettant d’accéder à toutes les fonctions) ou de démos
de logiciels commerciaux.
3. Les logiciels de recherche
3.1 Les métamoteurs Off-line
- WebFerret :
- Copernic :
http://www.ferretsoft.com
http://www.copernic.com
Ils fonctionnent sur le même principe que les métamoteurs On-Line. Ces logiciels
interrogent plusieurs moteurs simultanément (Copernic, dans sa version commerciale donne accès à plus de 100 moteurs), souvent classés par catégories (le web
français, le web mondial, les archives des groupes des discussions...).
Les principaux avantages de ces logiciels :
- Préparation de la recherche sans être connecté
- Sauvegarde de cette recherche sur le disque dur
- Possibilité d’exporter le résultat sous forme d’une liste au format HTML
- Possibilité de télécharger les pages trouvées pour les consulter en local
3.2. Les agents de recherche avancés ou agents intelligents
Ces logiciels offrent des fonctions beaucoup plus évoluées que les métamoteurs
Off-Line. Ils permettent de pousser beaucoup plus loin la recherche et offrent des
fonctions d’analyse évoluées.
Au niveau de la recherche :
- Questionnement en langage naturel (DigOu4U)
- Recherche bilingue avec traduction automatique Anglais/Français (DigOu4U)
- Analyse de votre question en s’appuyant sur un dictionnaire de synonymes
(DigOut4U)
- Rapatriement automatique des pages trouvées (DigOut4U, Umap Web)
- Recherche en profondeur dans les sites (DigOut4U)
- Possibilité d’aspirer les sites (DigOu4U - Umap Web)
Au niveau de l’analyse :
- Création d’extraits pertinents (DigOut4U)
- Elaboration automatique de résumé (DigOu4U)
- Représentation cartographique (Umap Web)
- Création automatique d’un thésaurus modifiable par l’utilisateur (Umap Web)
- UmapWeb
- Kenjin :
- DigOut4U :
http://www.umap.com (version gratuite 1.9)
http://www.kenjin.com (version gratuite)
http://www.arisem.com (version d’évaluation)
3.3. Les aspirateurs de sites
8
- Memoweb :
- Webdownloader :
- Ecatch :
- Teleport Pro :
http://www.goto.fr
http://www.saransk.sitek.net/pages/arny
http://www.ecatch.com/accueil.htm
http://www.tenmax.com
3.4. Les Inclassables
- Keeboo :
http://www.keeboo.com
Logiciel gratuit qui permet de créer une bibliothèque de livres virtuels ; chaque
livre contenant divers documents : des pages web, des fichiers word...
Outil pratique pour diffuser au sein d’un réseau local un dossier.
- SyncUrl :
Rechercher sur les sites comme Tucows
Freeware permettant de gérer ses favoris, de les convertir entre Internet Explorer
et Netscape. Il permet aussi de créer une liste de favoris au format HTML
4. Pour en savoir plus
4.1. Internet : généralités
- Apprendre l’Internet : http://www.learnthenet.com/french/index.html
- Un Nouveau Guide Internet : http://www.ungi.fr
4.2. L’actualité de la veille, des outils de recherche et
des TICE
- Abondance : http://www.abondance.com
- NTIC.org : http://www.ntic.org
4.3. Méthodologie de la Recherche sur Internet
- Chercher pour trouver: http://tornade.ere.umontreal.ca/~bernh/secondai/
- Formation à la maîtrise d’information : http://tornade.ere.umontreal.ca/
~bernh/AAFD.97/AAFD.index
- La recherche documentaire sur internet : http://www.multimania.com/
patderam/docu.htm
9