INTERNET

Transcription

INTERNET
INTERNET
L’Internet est constitué de milliers de réseaux interconnectés à travers le monde. Un
réseau est constitué d’un ensemble d’ordinateurs connectés entre eux pour échanger des données.
Généralement, sur l’Internet les informations sont gratuites.
Les ordinateurs dont nous faisons actuellement l’acquisition sont à priori tous capables
d’être connectés au réseau des réseaux. En effet ils ont tous, au moins en option, une carte MODEM leur
permettant d’être reliés au réseau commuté (téléphone) donc à un fournisseur d’accès à Internet.
De toute façon, si nous considérons que nous devrons au moins nous connecter au RSS
(télétransmission oblige), nous aurons le nécessaire pour communiquer avec n’importe quel réseau.
• L’International net ou INTERNET :
C’est par la création de l’ARPAnet (Advanced Research Projects Agency) que tout à
commencé en 1968. Projet militaire Américain qui utilise la technologie des commutations de paquets. Le
but était que, en cas d’attaque nucléaire, le système de réseau d’information soit capable de s’auto
configurer au cas où un des maillons soit défaillant.
Le génie de ce réseau est qu’il n’y a pas de structure centralisée de gestion, chaque
nœud à sa propre autonomie.
Arrivé dans le domaine public, le système fut repris par les universitaires puis dans les
années 1970, le nom d’Internet (qui élargissait l’ARPANET à l’inter networking) fut adopté et développé
par les différentes universités Américaines.
Dans les années 1980, l’expansion se fit à travers des universités mondiales, des
laboratoires de recherche et des grosses entreprises.
Puis des entreprises de taille moyenne ou des particuliers passionnés ont décidé de
s’unir pour créer des services privés, de là sont nés les fournisseurs d’accès à Internet (les provider).
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
1
En 1991, un ingénieur du CERN crée le Web (World Wide Web) nouveau système de
consultation intégrant des données multimédias rendant plus commode la consultation.
En 1992, création du groupement d’intérêt public RENATER qui organise le maillage
de la France.
En 1993, explosion du web qui connaît depuis un développement exponentiel et début
des premières activités commerciales.
1994, premières ouvertures commerciales européennes.
2000 : Le « e-commerce » se développe, la sécurisation des données et des paiements
aussi.
2003 : La France tente de légiférer dans les domaines du Net, du courrier électronique,
de l’e-commerce.
Le nombre d’internautes dans le monde (utilisateurs d’Internet) : environ 200 000 000,
dont 100 000 000 à 130 000 000 pour les USA.
Les prévisions pour 2005 sont : environ 500 000 000 d’utilisateurs.
Il y aurait environ 10 000 000 de sites Web dans le monde pour environ 2 milliards de
pages dont 1 milliard seraient « visibles ». L’enrichissement serait de 1 million de nouvelles pages par
jour. La durée de vie moyenne d’une page Web est de 46 jours.
La langue du Web : Répartition des pages par langue (juillet 2000).
Anglais
Japonais
Allemand
Chinois
Français
68,39%
5,85%
5,77%
3,87%
2,96% (dont 1% au Québec)
En 1999, les informations de type scientifique ou éducatif ne représentaient que 6% du
Web.
85% des pages Web sont issues des USA.
La France :
En ce qui concerne la France, qui est à la traîne, il y aurait 10 500 000 à 11 000 000
d’utilisateurs en mai 2001 dont 60% sur leur lieu de travail.
17,5% des foyers seraient connectés en France.
Fin 2000, 30% des foyer Français sont équipés en micro-informatique mais seulement
17% sont connectés à Internet.
L’utilisation principale est le courrier électronique (52%) devant la consultation des
pages Web (30%).
Wanadoo et AOL représentent 60% des 4,6 millions d’abonnements à domicile.
Les 10 sites les plus visités en France (en milliers de visites) : source Cybermétrie
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
2
SITES LES PLUS VISITES
WANADOO
CARAMAIL
BOURSORAMA
VOILÀ
FRANCITE
CLUB INTERNET
PAGES JAUNES
France.SPORT.COM
NOMADE.FR
TF1
1
0
5000
10000
15000
20000
25000
30000
Les 10 réseaux de sites les plus visités en France (en milliers de visites) : source MMXI
LES RESEAUX DE SITES
WANADOO
YAHOO
MICROSOFT
LIBERTYSURF
FREE
MULTIMANIA
AOL
MSN
1
VOILÀ
CLUB INTERNET
0
500
1000
1500
2000
2500
Le « Net invisible » ou « Web invisible » ou « Web profond » (deep Web) :
L’information « invisible » serait 300 fois plus importante en volume que le Web
visible. Le « deep web » représenterait 550 milliards de documents dont 500 échapperaient totalement au
travail d’indexation des moteurs de recherche.
Le « net invisible » est constitué de :
- Les intranet des entreprises et des organismes.
- Les documents n’utilisant pas l’alphabet latin (Russe, japonais, chinois, arabe,…)
- Les pages contrôlées par des mots de passe.
- Les réseaux privés.
- Les bases de données dynamiques
- Les éléments multimédias.
- Les documents non HTML.
- L’information en temps réel (chat, vidéoconférences,…)
- Le courrier électronique.
- Les forums de discussion.
- Les listes de diffusion.
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
3
• Le réaiguillage dynamique :
C’est lui qui permet d’envoyer des paquets d’informations même si par endroits la route
la plus directe est interrompue.
Voir schéma ci-dessous.
• Mode de fonctionnement :
Microordinateurs
clients
Réseau
local
Cable
OU
Routeurs
Ligne
Modem téléphonique
Microordinateurs
clients
Les micro-ordinateurs clients (vous et moi) peuvent être connectés au réseau commuté
(téléphone) via leur MODEM ou encore via des réseaux locaux (entreprises, administrations,...) et un
réseau institutionnel (RENATER,...) qui possède son propre système de connexion (câble, satellite,...). Ce
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
4
sont ensuite les fournisseurs d’accès (institutionnels ou privés) qui font le lien avec la toile d’araignée
planétaire (web).
On sait par exemple que CEGETEL, le prestataire de service qui met en place le Réseau
Social de Santé (RSS) loue le réseau de fibres optiques SNCF qui court le long des voies ferrées
Françaises.
D’autre part, CEGETEL (filiale de la Générale des Eaux) vient de s’associer avec AOL
(American On Line, provider), Bertelsmann et Canal+ pour constituer une société de services Internet. Au
delà du regroupement de clientèle que cela représente, on voit poindre la technologie de transmission par
satellite (canal+ numérique).
• Le World Wide Web ou Web ou W3 :
Il constitue une gigantesque toile d’araignée planétaire à laquelle on accède grâce aux
fournisseurs d’accès privés ou institutionnels.
Il comporte trois éléments importants :
- Les documents et les pages web : qui constituent les « sites ». Un site en fait n’est
qu’un empilement de pages web. Le déplacement (navigation) se fait d’une page à l’autre, d’un site à
l’autre grâce à des liens hypertextes.
- Des serveurs web : ordinateurs multi plateformes qui stockent et gèrent les documents
web.
- Des navigateurs (browser) : logiciels qui permettent la navigation sur le web
(Netscape™, internet exporer™,...)
Les sites sont répertoriés par leurs adresses ou URL (Uniform Resource Locator) qui
s’écrivent comme suit :
http://webodonto.u-clermont1.fr
ou encore :
http://www.annuairedentaire.com
ou http est le nom du protocole utilisé (Hyper Text Transfert Protocol), www pour
World Wide Web, webodonto.u-clermont1 pour le nom de domaine (hôte dans Internet), fr pour France
(com pour commercial,...)
Internet est aussi utilisé pour correspondre par le biais du courrier électronique (e-mail).
Dans ce cas, un autre type d’adresse sera utilisé, celle du correspondant.
Par exemple :
[email protected]
ou Maurice.Morenas est le nom ou le pseudo du correspondant,@ un séparateur, uclermont1.fr le nom du domaine.
Il est possible de joindre un fichier électronique au courrier. On parle alors de
« document attaché » qui peut être : un texte, une image, un son,…
Les courriers électroniques sont des vecteurs de transmission de virus, en général par
l’intermédiaire des documents attachés. Donc, il est nécessaire d’avoir un antivirus à jour et il est
souhaitable de ne pas ouvrir les courriers adressés par des correspondants inconnus.
• Recherche sur le web :
Dans cette gigantesque toile, trois façons de naviguer sont possibles :
- L’adresse du site recherché est connue : dans ce cas une fois saisi, le navigateur nous y
emmène directement.
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
5
- Nous ne recherchons rien de particulier et nous nous laissons porter de lien en lien sur
la grande toile : c’est le « surf ». Attention il peut nous emmener loin et surtout nous coûter cher si la
connexion se fait par le téléphone.
- Nous cherchons quelque chose de précis, mais nous n’avons pas d’adresse précise.
C’est là qu’interviennent des environnements logiciels nommés moteurs de recherche. Ceux-ci vont nous
permettre de trouver les informations recherchées à partir de mots clés, de thèmes,... (voir article en
annexe)
Les moteurs de recherche ou moteurs d’indexation et de recherche :
Trois grandes catégories
- Les index
- Les annuaires
- Les hybrides
- Les index :
Ils sont basés sur la collecte automatisée des informations contenues dans les pages web
existantes et l’indexation systématique de tous les mots qui les composent. Ils utilisent pour cela des
« robots logiciels » qui scrutent en permanence la totalité du web. Le plus connu de ces moteurs est :
AltaVista de Digital.
Le problème est que les informations collectées sont difficiles à exploiter par
l’internaute au premier abord, car trop nombreuses. Il faut faire appel aux fonctionnalités avancées du
moteur pour être efficace.
- Les annuaires :
Ils classent les informations par grandes catégories (actualité, culture, informatique,
voyages,...) et sous catégories. La recherche se fait alors par étape de catégories en sous catégories.
Contrairement aux index, ces moteurs sont constitués de bases de données construites
de toutes pièces. Donc pour qu’un site web y soit référencé, il faudra que son administrateur en fasse la
demande. Ces moteurs comportent aussi des systèmes de recherche en texte intégral mais uniquement sur
la base de données qui les constitue.
Un des plus connus est : Yahoo.
- Les hybrides :
Ils comportent à la fois un moteur d’indexation et de recherche et un annuaire, ils sont
généralement moins fouillés que les moteurs a une seule vocation.
Les plus connus : Lycos, Infoseek, Excite,...
QUELQUES MOTEURS DE RECHERCHE (liste non exhaustive)
Nom (ADRESSE DU SITE)
TYPE DE SITE
AltaVista (http://altavista.digital.com)
Moteur de recherche
Lycos (http://www.lycos.com)
Hybride
PARTICULARITÉS
L’un des plus puissants sinon le plus
puissant.
Disponible en Français à l’adresse
http://altavista.telia.com
Site Français avec de plus la recherche des
adresses de courrier.
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
6
Excite (http://www.excite.com)
Hybride
Très efficace mais assez sommaire dans
sa présentation. Français :
http://fr.excite.com
Yahoo (http://www.yahoo.com)
Annuaire
Certainement l'un des annuaires les plus
complets du Web. Permet des recherches
sur AltaVista sans quitter sa propre
interface.
Disponible en français à l'adresse:
http://www.yahoo.fr
Ecila (http://ecila.celt.com)
Moteur de recherche Difficile de trouver plus sobre, mais ce
site a le mérite d'être un des seuls français
à disposer de son propre moteur.
Nomade (http://www.nomade.fr)
Annuaire
Efficacité justifiée. Recherche
d’adresses de courrier.
Savvy Search
(http://guaraldi.cs.colostate.edu:2000)
Multimoteur
Propose son interface et des
recherches en plusieurs langues
dont le Français.
Lokace (http://www.lokace.com)
Hybride
Même s'il dispose d'un classement
par, ce site français est davantage
un moteur qu'un annuaire.
Comporte une recherche d'e-mail
assez efficace.
QuiQuoiOù(http://www.wanadoo.fr)
Annuaire
Annuaire du site de France
Télécom (Wanadoo).
Liens vers les principaux sites de
recherche.
Francité(http://www.i3d.qc.ca)
Annuaire
Très ciblé Québécois.
• Autres sources d’informations :
Outre les sites web, il existe d’autres sources d’informations sur Internet telles que par
exemple :
- Les forums ou newsgroup :
Regroupent des discussions classées par grands thèmes à l’échelle du monde entier. Les
navigateurs permettent de participer à tous les forums relayés par les fournisseurs d’accès.
Il est aussi possible de rejoindre des groupes de conversation ou chaînes ou chat par
l’intermédiaire d’un système appelé IRC (Internet Relay Chat).
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
7
Exemple de forum (SVM Mac 94 - avril 1998)
- Les listes de diffusion ou mailing lists :
Elles sont aussi organisées par thèmes précis mais acheminées cette fois par courrier
électronique (e-mail). Une fois abonné à une liste thématique, toute contribution est automatiquement
adressée à tous les autres abonnés de la liste.
• Le courrier électronique :
Fin 2000, le nombre total de comptes e-mails créés dans le monde était de 891 millions,
soit une augmentation de 67% par rapport à 1999.
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
8
Cheminement d’un « mail » (courrier électronique) (SVM Mac 94 - avril 1998)
• Le commerce électronique :
Un certain nombre de sites web de commerce (Ex : la FNAC) nous proposent leurs
catalogues de produits en ligne et nous offrent de commander et régler les achats par la voie du courrier
électronique à l’aide du numéro de notre carte bancaire. C’est la nouvelle forme de la vente par
correspondance (VPC) ou e-commerce. Comme le virtuel a tout de même une limite, les achats nous
sont ensuite expédiés par la poste.
Les avantages sont : la possibilité d’acheter à tout moment le magasin ne ferme jamais, la
plupart des catalogues virtuels ont des systèmes de recherche permettant de trouver rapidement les
produits désirés, la rapidité.
Les inconvénients : Le défaut de tête-à-tête avec le vendeur, la nécessité de communiquer
un numéro de carte bancaire qui peut être éventuellement intercepté.
Pour essayer de contourner ce problème, le GIE carte bleue est en train de déployer une
« e-carte bleue » qui permettra par communication avec la banque d’obtenir un numéro à seize chiffres
qui servira à régler les achats électroniques. Celui-ci ne servira qu’une fois et un nouveau numéro sera
communiqué à chaque nouvel achat.
Ceci nous intéresse au premier chef, car les sites de commerce odontologique se
développent très vite (GACD, Promodentaire,…) et gageons que cette forme d’achat sera très
prochainement très utilisée dans nos cabinets.
• Conclusion (provisoire) :
Le « net » est une formidable source d’informations et un phénoménal moyen de
communication.
Ne perdons pourtant pas de vue que :
- Nous y trouvons tout et n’importe quoi.
- Que la sécurité des données n’est pas vraiment assurée bien que le cryptage soit en plein
essor.
- Que les informations récupérées sur Internet doivent toujours être vérifiées avant d’être
utilisées.
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
9
COMMENT CA MARCHE
• L’ORDINATEUR : Appareil nécessaire pour se connecter et utiliser Internet. De nouveaux appareils
permettent ou permettrons la connexion : les agendas électroniques (Palm pilot™, Psion™,…), des
boitiers branchés sur les téléviseurs, les téléphones mobiles (WAP) .
• LE NAVIGATEUR OU BROWSER : C’est le logiciel qui permet de se connecter et de naviguer sur
le net. Grace à lui, on circule d’un site à un autre, on envoie et reçoit des courriers électroniques, on
discute en direct,…
• LES MOTEURS DE RECHERCHE : Il s’agit de sites qui permettent de trouver les informations
recherchées. Ils ont souvent vocation de portail.
• LE MODEM : Permet la connexion entre l’ordinateur et le réseau téléphonique, il se présente
désormais quasi systématiquement comme une carte qui est intégrée à l’ordinateur.
10
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
• LES RESEAUX : Ce sont des « tuyaux informatiques » faits de câbles, de fibres optiques, de faisceaux
hertziens tous reliés entre eux. Ils permettent aux informations du net de circuler dans le monde entier.
• LE FOURNISSEUR D’ACCES INTERNET : Intermédiaire technique entre l’internaute et le réseau
informatique mondial. (AOL , Club Internet, Wanadoo, Liberty Surf, World Online,…)
• LES SERVEURS : Ce sont des ordinateurs reliés entre eux qui constituent le maillage de l’Internet.
Les informations circulent automatiquement d’un serveur à un autre en fonction de l’encombrement du
réseau. Ils appartiennent aussi bien a des université qu’à des opérateurs télécom ou des fournisseurs
d’accès.
• LES PORTAILS : Il s’agit de sites qui ont pour vocation d’être des passages obligés pour les
internautes. La plupart des moteurs de recherche sont devenu des portails.
• LE SITE : Ensemble de pages mis à disposition des internautes par un particulier, une entreprise, une
institution.
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
11
ANNEXE I
INITIATION A LA RECHERCHE D'INFORMATION SUR LE WEB
(BASSET Hervé)
1. Introduction :
1.1 Présentation du cours
Initiation à la recherche et non pas une présentation d’Internet ni un cours très développé de recherche
avancée multicritère.
• Objectif du cours :
Découvrir comment commencer une recherche thématique simple sur le web (sans FTP, ni news, ni
métamoteurs, etc.)
• Pré-requis :
Savoir utiliser un navigateur (Netscape) et le courrier électronique.
• Problématique :
Internet contient des quantités incroyables d'information :
d'après les estimations il y aurait 1 milliard de pages consultables dans le monde.
(on peut consulter les principaux chiffres du Web sous :
http://www.uco.fr/services/biblio/cdps/web_chiffres.html)
Malheureusement, il n'est pas toujours facile de trouver rapidement celle dont on a besoin : les logiciels
de navigation (ou navigateurs ou browsers) de type Netscape ou Internet Explorer ne sont que des
interfaces pour consulter des sites connus : vous devez connaître à l'avance l'adresse (URL) du site ou la
deviner (exemple : http://www.uco.fr) ; ils ne permettent pas de faire véritablement une recherche par
mots-clés.
1.2 Le moyen : apprendre à utiliser les outils de recherche
Pour faire ce type de recherche il y a les annuaires et les moteurs de recherche qui sont un peu les
équivalents du catalogue informatisé pour la recherche de documents dans une bibliothèque.
Pour trouver une information, il n'est pas nécessaire d'être un informaticien chevronné : il faut juste
apprendre à utiliser les outils de recherche qui existent.
Ces outils (il y en aurait 4000 dans le monde) sont devenus indispensables pour "trouver" sur le net. Trois
connections sur quatre dans le monde se font après avoir utilisé un outil de recherche (annuaire ou
moteur) ; dans les dix sites les plus visités en France, quatre sont des outils de recherche (yahoo.fr ;
voilà.fr ; yahoo.com ; altavista.fr).
INITIATION A LA RECHERCHE D'INFORMATION SUR LE WEB
2. Recherche simple avec un annuaire
2.1 Définition
Un annuaire est un répertoire de sites web sélectionnés par des documentalistes .
Les sites sont visités, analysés et sélectionnés pour leur intérêt par rapport à un domaine : un annuaire ne
propose qu'un nombre limité de sites (ex :100 000 sites pour Nomade), mais ceux-ci sont censés être
tous pertinents et intéressants.
Un annuaire se présente sous la forme d'une page d'accueil proposant un certain nombre de rubriques (ou
chaînes ou Thèmes) d'intérêt : loisirs, informatique, sciences, etc.
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
12
Chaque rubrique est décomposée en sous-rubriques plus pointues (ex. : dans Sciences : biologie, maths,
physique, etc.), elles-mêmes décomposées en sous-rubriques plus pointues, etc.
Les annuaires les plus connus sont :
Yahoo au niveau mondial et Nomade pour la France
2.2 La recherche
La recherche est assez intuitive et se fait donc en principe en cliquant de rubriques en sous-rubriques
L'utilisation d'un annuaire est intéressante pour des sujets relativement simples, populaires (c'est-à-dire
connus du grand public et pas seulement de quelques experts) et bien connus (car il faut savoir dans
quelles rubriques rechercher)
Par intuition vous comprendrez qu'il est relativement facile de trouver des sites sur des sujets d'actualité
comme les biotechnologies, les OGM ou la pollution de l'Erika !
OBSERVONS un annuaire : Nomade (http://www.nomade.fr/)
Sujet 1 :
les OGM
Sujet 2 :
algèbre
Sujet 3 :
qualité de l'eau
Sujet 4 :
langage C++
• sujet 1 : Cherchons des sites sur les OGM
Il suffit de cliquer sur les thèmes proposés :
Sciences exactes / Biologie / génétique / OGM
En quelques secondes, nous avons trouvé une liste de sites.
Avant de cliquer sur chaque réponse, il faut lire la description proposée par l'annuaire :
Il y a un petit résumé (2 lignes), quelques éléments importants (type de public, nature du site, l'URL, etc.)
et parfois une "récompense" attribuée par l'annuaire aux sites les plus intéressants (une palme pour
Nomade)
• sujet 2 : Cherchons un cours d'algèbre pour le DEUG
=> Il suffit de cliquer sur les chaînes proposées :
Sciences / mathématiques / Algèbre
En quelques secondes, nous avons trouvés une liste de sites .
Avant de cliquer sur chaque réponse, il faut lire la description proposée par l'annuaire :
il y a un petit résumé (2 lignes), quelques éléments importants (type de public, nature du site, l'URL, etc.)
et parfois une "récompense" attribuée par l'annuaire aux sites les plus intéressants (une palme pour
Nomade)
Remarque : dans la liste, il y a le site d'un enseignant Gérard Hirsch : celui-ci est classé en algèbre alors
que seul un chapitre (calcul matriciel) peut être considéré comme de l'algèbre (le reste étant de l'analyse)
- sujet 3 : Cherchons des sites sur la qualité de l'eau
Il suffit de choisir la bonne catégorie dans les thèmes proposés.
Dans le cas de Nomade, ce qui concerne l'environnement se trouve sous (ce n'est pas évident a priori !) :
Politique et social / Environnement, urbanisme / Ecologie, environnement / qualité de l'eau
En quelques secondes, nous avons trouvé une liste de sites
Avant de cliquer sur chaque réponse, il faut lire la description proposée par l'annuaire :
il y a un petit résumé (2 lignes), quelques éléments importants (type de public, nature du site, l'URL, etc.)
et parfois une "récompense" attribuée par l'annuaire aux sites les plus intéressants (une palme pour
Nomade).
- sujet 4 : Cherchons des sites sur le langage de programmation C++ :
Il suffit de cliquer sur les thèmes proposés :
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
13
Informatique et Télécom / Développement et langage / C++
En quelques secondes, nous avons trouvé une liste de sites.
Avant de cliquer sur chaque réponse, il faut lire la description proposée par l'annuaire :
il y a un petit résumé (2 lignes), quelques éléments importants (type de public, nature du site, l'URL, etc.)
et parfois une "récompense" attribuée par l'annuaire aux sites les plus intéressants (une palme pour
Nomade).
2.3 Le moteur de recherche interne
• Les rubriques ne sont pas nécessairement les mêmes d'un annuaire à un autre.
Désormais, la plupart des annuaires proposent des moteurs de recherche internes pour retrouver plus
rapidement l'information : cela peut s'avérer utile si un sujet peut être traité dans plusieurs thèmes ou si
vous ne savez pas dans quelles rubriques chercher.
ATTENTION :
ces moteurs ne travaillent pas sur l'ensemble des sites web mondiaux mais uniquement sur les sites
sélectionnés par l'annuaire.
De plus, si les réponses dans l'annuaire ne sont pas satisfaisantes, certains annuaires se sont associés à des
moteurs de recherche pour élargir les réponses à votre interrogation.
La limite entre annuaires et moteurs est d'ailleurs de plus en plus ambiguë :
Exemple : Voilà est à la fois un annuaire et un moteur.
2.4 Exploiter les résultats
• Une fois la liste des résultats affichés (ATTENTION : il y a souvent plusieurs pages de réponses, il ne
faut pas se contenter de la première liste), vous n'avez plus qu'à cliquer sur les adresses (lien hypertexte)
après avoir lu les commentaires ou la description quand ils existent.
Le site s'ouvre dans la page de votre navigateur : il faudra cliquer sur flèche de droite (= précédent) pour
revenir à la liste des résultats de l'annuaire.
• CONSEIL : restez critique !
Avant de cliquer sur un site, lisez les informations proposées par l'annuaire.
Elles sont souvent importantes pour déterminer l'intérêt et l'objectivité d'un site :
- sujet 1 : dans le cas des OGM, http://www.ogm.org peut être considéré comme "suspect" au point de
vue de l'objectivité car il émane des industriels : c'est le même cas pour les informations produites par les
associations politiques écologistes. Comme pour n'importe quel autre média, il faut rester critique vis-àvis de l'information consultée.
- sujet 2 : Pour un site de maths, préférez toujours un site proposé par un enseignant d'université plutôt
que celui d'un étudiant qui a peut-être mal recopié son cours !
- sujet 3 : de manière générale, pour les sites consacrés aux problèmes environnementaux, on constate
deux types de site : les sites "officiels" (type Agence de l'eau, centre de recherche scientifique) qui
communiquent les actions et les chiffres publics et, à l'opposé, les sites d'associations ou de partis
écologiques qui sont souvent plus polémiques : il faut donc se méfier des chiffres exprimés ici ou là...
QUELQUES TRUCS !
* Consulter les sites les uns après les autres :
Quand on consulte les résultats directement dans la page de notre navigateur, on a tendance à faire défiler
les pages et, finalement, à perdre la page de départ, c’est à dire celle où se trouvaient les résultats de
l'annuaire.
Pour éviter ce problème, vous pouvez ouvrir une nouvelle session pour chaque site consulté :
=> au moment de lancer le site choisi pointer sur l'adresse et cliquer sur le clic droit de la souris (PC) ou
un clic long (Mac)
=> choisissez Ouvrir dans une nouvelle fenêtre
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
14
 une fois la consultation du site finie, fermez la session, vous retrouvez la page de consultation de
l'annuaire.

• Retrouver l'information cherchée :
Le lien ouvre généralement sur la page d'accueil du site : vous n'arrivez pas forcément directement sur
l'information recherchée : il faut parfois fouiller un peu dans le site.
Vous pouvez utiliser la fonction Rechercher dans le site (Edition / recherche dans la page).
ATTENTION : avant de lancer la recherche, vérifiez que le pointeur se trouve bien en haut de la page.
2.5 Exercices d'application :
1. Choisissez un annuaire Francophone et faîtes une recherche sur l'un des sujets suivants :
http://www.nomade.fr
http://fr.yahoo.com/ http://www.lycos.fr/
sujet 1 : généthon, génome, téléthon
sujet 2 : ressources pédagogiques pour l'enseignement scientifique (SVT)
sujet 3 : les fractales
sujet 4 : la cryptologie
sujet 5 : l'écotoxicologie
sujet 6 : les déchets hospitaliers
2. faîtes la même recherche en utilisant le moteur de recherche interne puis un annuaire international.
Initiation à la recherche d'information sur le Web
3. Recherche avançée avec un moteur
• Pour des recherches pointues, pluridisciplinaires, dont vous avez une connaissance limitée (vous ne
savez pas dans quelle rubrique d'annuaire rechercher) ou dont vous savez (dès le départ) que l'information
est rare, le recours à un moteur de recherche est indispensable.
3.1Définition 3.2 La Recherche
3.1 Définition :
• Un moteur est un outil qui permet de faire une recherche très large sur le web mondial ou
Francophone.
Après que vous ayez tapé un ou plusieurs mots-clés dans un formulaire, il lance un logiciel d'exploration
qui va travailler sur une base de données déjà élaborée à l'aide de robots informatiques (Crawler ou
Spider).
Cette base de donnée est constituée par l'ensemble des mots-clés contenus dans chaque site web.
Les mots-clés retenus sont ceux qui sont proposés par les concepteurs de sites et/ou ceux qui sont
contenus dans le texte visité.
• Les moteurs les plus connus sont :
Altavista au niveau mondial et Voilà au niveau français.
Il existe des centaines de moteurs de recherche (environ 1500), mais les internautes utilisent généralement
les mêmes, les plus connus (entre 7 et 10), qui concentrent 95 % des connections mondiales pour la
recherche.
3.2 La Recherche
3.2.1 Généralités
• La base de donnée des plus grands moteurs contiennent plusieurs dizaines de millions, voire plusieurs
centaines de millions de pages indexées et vérifiées très régulièrement.
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
15
La recherche est donc extrêmement vaste : par contre, les mots-clés ne sont absolument pas analysés ou
critiqués et les résultats peuvent être complètement déroutants.
En plus, chaque moteur explore le web à sa façon, avec des règles d'indexation différentes et donne donc
des résultats différents : une même recherche donne généralement des résultats différents entre deux
moteurs.
De plus, les moteurs modifient assez régulièrement leurs techniques d'indexation : une recherche
strictement identique peut donner des résultats différents d'une semaine sur l'autre !
• La recherche demande une certaine rigueur dans la formulation car, souvent, les réponses à votre
première requête se comptent par milliers ou même millions de pages (exemple : "microsoft" dans
Alatvista).
Il faut donc élaborer une syntaxe de recherche précise en utilisant les opérateurs spécifiques (attention : ce
ne sont pas toujours les mêmes selon les moteurs).
La pratique des moteurs demande aussi un peu d'habitude, d'observation et de patience.
D'autre part, une même recherche doit être renouvelée sur plusieurs moteurs différents et de façon
régulière.
Un site peut être trouvé dans un moteur et pas dans un autre (problème du référencement).
De la même manière, l'ordre d'apparition des résultats dans la liste n'est absolument pas un gage de
qualité : le premier site n'est pas nécessairement le "meilleur" (c'est souvent simplement car le webmaster
du site en question maîtrise mieux le référencement dans le moteur !).
3.2.2 Observons un moteur
http://www.altavista.fr
- La partie la plus importante de la page est la fenêtre de requête dans laquelle vous allez taper les motsclés.
Juste à côté du formulaire, vous avez un lien vers le fichier d'aide qu'il faudra lire si vous ne réussissez
pas une requête pertinente.
Vous pouvez noter que ce moteur propose aussi une sélection de sites (les guides d'Ecila).
Sujet 1 :
les OGM
Sujet 2 :
algèbre
Sujet 3 :
qualité de l'eau
Sujet 4 :
Linux
Sujet 5 :
déchets
sujet 1 : Tapons "OGM" dans le formulaire : nous obtenons 16975 pages trouvées !
Attention : cela ne veut pas dire 16975 sites (1 site = plusieurs pages), d'autant plus qu'on peut constater
quantité de "bruits" documentaires (réponses non-pertinentes, plusieurs réponses pour un même site, etc.)
En comparaison avec les réponses de l'annuaire, il est plus difficile de déterminer rapidement quels sont
les sites intéressants. Dans ce cas, il va falloir reformuler plus précisément la question.
sujet 2 : Tapons "algèbre" dans le formulaire : nous obtenons 15740 pages trouvées !
Attention : cela ne veut pas dire 15740 sites (1 site = plusieurs pages), d'autant plus qu'on peut constater
quantité de "bruits " documentaires (réponses non-pertinentes, plusieurs réponses pour un même site, etc.)
En comparaison avec les réponses de l'annuaire, il est plus difficile de déterminer rapidement quels sont
les sites intéressants. Dans ce cas, il va falloir reformuler plus précisément la question.
sujet 3 : Tapons "eau" dans le formulaire : nous obtenons 584830 pages trouvées !
Attention : cela ne veut pas dire 584830 sites (1 site = plusieurs pages), d'autant plus qu'on peut constater
quantité de "bruits " documentaires (réponses non-pertinentes, plusieurs réponses pour un même site, etc.)
En comparaison avec les réponses de l'annuaire, il est plus difficile de déterminer rapidement quels sont
les sites intéressants. Dans ce cas, il va falloir reformuler plus précisément la question.
sujet 4 : Tapons "Linux" dans le formulaire : nous obtenons 1 849 990 pages trouvées !
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
16
Attention : cela ne veut pas dire 1 849 990 sites (1 site = plusieurs pages), d'autant plus qu'on peut
constater quantité de "bruits " documentaires (réponses non-pertinentes, plusieurs réponses pour un même
site, etc.)
En comparaison avec les réponses de l'annuaire, il est plus difficile de déterminer rapidement quels sont
les sites intéressants. Dans ce cas, il va falloir reformuler plus précisément la question.
sujet 5 : Tapons "dechets" dans le formulaire : nous obtenons 63485 pages trouvées !
Attention : cela ne veut pas dire 63485 sites (1 site = plusieurs pages). En comparaison avec les réponses
de l'annuaire, il est plus difficile de déterminer rapidement quels sont les sites intéressants. Dans ce cas, il
va falloir reformuler plus précisément la question.
3.2.3 Un peu de méthode !
Sujet 1 :
les OGM
Sujet 2 :
algèbre
Sujet 3 :
qualité de l'eau
Sujet 4 :
linux
Sujet 5 :
déchets
sujet 1 : OGM :
1. Éteindre l'écran et prendre une feuille de papier (!) :
Sur celle-ci, identifions les synonymes d'OGM et mots-clés qui nous viennent à l'esprit : organismes
génétiquement modifiés, plantes transgéniques, animaux transgéniques, biotechnologies, maïs, soja,
réglementation, santé, etc.
Ces mots-clés serviront, au moment de la recherche, à préciser ou élargir les réponses.
2. Reformuler très précisément l'interrogation :
- Que cherche-t-on, pour quoi faire, pour qui, etc. ?
- Cherchons-nous des publications scientifiques ou grand-public ?
- S'agit-il de discours politiques du gouvernement sur les risques sanitaires ? etc.
sujet 2 : algèbre :
- Il va être nécessaire de reformuler la question plus précisément
- Dans ce cas, il n'y a pas de problèmes de vocabulaire mais plutôt un problème d'approche :
- De quel algèbre avons-nous besoin ? (exemple : algèbre linéaire)
- Pour quel niveau de public ? (DEUG)
- Avons-nous besoin d'un cours ou d'exercices corrigés ? etc.
Ces quelques minutes de réflexion vont vous permettre de gagner, par la suite beaucoup de temps, car
elles vont vous permettre de déterminer la requête la plus efficace : celle-ci va être définie en croisant les
mots-clés grâce aux opérateurs de recherche.
sujet 3 : eau :
- Que cherche-t-on, pour quoi faire, pour qui, etc. ?
- Cherchons-nous des publications scientifiques ou grand-public ?
- Avons-nous besoin de cartes, dossiers ou de chiffres ?
- Avons-nous la possibilité de restreindre à une zone géographique ?
- Cherchons-nous une entreprise spécialiste dans le traitement de l'eau ? etc.
sujet 4 : linux
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
17
- Que cherche-t-on, pour quoi faire, pour qui, etc. ?
- Cherchons-nous des publications scientifiques ou grand-public ?
- Cherchons nous une notice technique ?
sujet 5 : déchets
- Que cherchons-nous exactement ?
- Un état des gisements de déchets ménagers ou non en France ?
- Une entreprise spécialisée dans l'incinération des déchets hospitaliers ?
3.2.4 Opérateurs de base :
ATTENTION :
Les opérateurs décrits ci-dessous ne sont pas toujours valables...
Disons que ce sont ceux que l'on retrouve le plus souvent.
Les moteurs utilisent en principe la logique booléenne (et, ou, sauf) : pour être plus sûr, vous devez lire la
rubrique "Aide" près du formulaire de recherche quand vous testez un moteur.
Croisement de mots-clés : "+documentation +scientifique"
Si le "+" ne marche pas tapez "documentation AND scientifique" (ou ET pour un moteur francophone)
Ne pas laisser d'espace entre le "+" et le premier caractère du mot.
Elargissement : permet de rechercher sur des termes proches.
Exemple : "(bibliothèque OU documentation) et sciences"
Exclusion d'un mot : "+documentation +scientifique -commerciale"
N'affichera pas, en principe, un site proposant une documentation technique d'un logiciel scientifique (on
suppose que le mot "commercial" apparaît sur le site d'une entreprise).
Le "-" doit éventuellement être remplacé par "NOT" ou "AND NOT" ou "SAUF" ou "NON" pour les
moteurs francophones.
Troncature sur une partie de mot : "scien*"
Fait la recherche sur Science, Sciences, Scientifique, etc.
A utiliser en particulier pour chercher sur les singulier-pluriel :
Exemple "bibliothèque*" (pour bibliothèque et bibliothèques)
Expression, phrase : mettre des doubles-quotes ou guillemets américains
Exemple : "centre de documentation du pôle scientifique" travaille uniquement sur la section entière
Les résultats peuvent être différents de "+centre +documentation +pôle +scientifique" qui pourrait
proposer une page où les 4 termes apparaissent mais ne se suivent pas.
Proximité de termes : recherche sur des termes proches mais qui ne se suivent pas forcément .
utilisez l'opérateur "NEAR" ou "PROCHE".
Exemple : "centre PROCHE documentation" pour "Centre de documentation".
Sujet 1 :
les OGM
Sujet 2 :
algèbre
Sujet 3 :
qualité de l'eau
Sujet 4 :
Linux
Sujet 5 :
déchets
sujet 1 : OGM
Dans le cas de notre recherche,
en tapant "OGM + risque* + sanitaire* + alimentation", on réduit le nombre de réponses à 3911 .
Pour être exhaustif, il faudrait multiplier les requêtes : "OGM ET santé" "organismes ET transgéniques
ET alimentation", etc.
Il y a rarement une seule bonne requête.
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
18
sujet 2 : algèbre
Dans le cas de notre recherche,
en tapant "algèbre + linéaire + DEUG", on réduit le nombre de réponses à 570.
En rajoutant "+ exercices", on réduirait davantage, etc.
sujet 3 : eau
Dans le cas de notre recherche,
en tapant "eau +qualité +bretagne +cartes", on réduit le nombre de réponses à 2531.
sujet 4 : Linux
Dans le cas de notre recherche,
en tapant "linux +initiation +debutants", on réduit le nombre de réponses à 2367 pages.
sujet 5 : déchets
Dans le cas de cette recherche,
On peut chercher le site d'une entreprise susceptible de répondre à un appel d'offre concernant
l'incinération des déchets d'un hôpital.
Tapons : "déchets +hospitaliers +incinération", on trouve 150 pages dont certains rapports et études.
voir : exercices d’application ci-dessous.
3.2.5 Quelques conseils :
* Tapez toujours les opérateurs (ET, AND, etc.) en MAJUSCULE :
Les mots-clés par contre doivent être tapés de préférence en minuscule (sauf pour un nom propre : ex. :
Microsoft), sans accents et au singulier (certains moteurs ajoutent une troncature automatique en fin de
mot)
* si vous utilisez un opérateur de type "+" ou "-" ne pas mettre d'espace entre l'opérateur et le mot
suivant.
* Il y a beaucoup d'autres possibilités de recherche (par date, par pays, etc.) : généralement on retrouve
ces possibilités dans les options "recherche avancée" des moteurs.
* De plus en plus de moteurs proposent une interface de recherche avancée plus conviviale qui permet
d'éviter d'avoir recours aux équations booléennes de recherche.
* Les moteurs affichent les résultats en fonction d'un ordre de pertinence propre à chacun (souvent =
nombre de fois que le mot recherché a été trouvé dans la page sélectionnée, position des mots-clés dans la
page, présence du mot-clé dans l'URL du site, etc.) :
3.2.6 Exploiter les résultats :
ATTENTION : il y a souvent plusieurs pages de réponses, il ne faut pas se contenter de la première liste
(les 10 premières).
Les sites les plus utiles pour vous sont peut-être à la 4ème ou 5ème page.
En principe, les réponses les plus pertinentes se trouvent dans les premières pages.
* Une fois la liste des résultats affichés, vous n'avez plus qu'à cliquer sur les adresses (lien hypertexte)
=> le site s'ouvre dans la page du navigateur.
=> il faudra cliquer sur flèche de droite (=précédent) pour revenir à la liste des résultats du moteur.
ATTENTION :
A partir de la liste de réponses du moteur, le lien ouvre généralement sur la page d'accueil (c'est elle qui
contient les mots-clés que le moteur a repérés) du site...
=> vous n'arrivez pas forcément directement sur l'information recherchée
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
19
Il faut parfois fouiller un peu dans le site (les mots-clés n'apparaissent pas en bleu comme pour une
recherche hypertexte dans un cédérom par exemple).
RAPPEL : utilisez le fonction Edition/Recherche dans la page (CTRL + F).
3.3 Pour information
* Il est possible de "travailler" sur plusieurs moteurs en même temps grâce aux métamoteurs.
* Une idée reçue : le web mondial ! :
En faisant une requête simultanée sur les 11 meilleurs moteurs de recherche, vous ne travaillerez jamais
plus que sur 42 % des pages existantes dans le monde (estimées aujourd'hui à un milliard par une étude
d'Inktomi)
Le moteur de recherche le plus complet (Northern light) ne recenserait qu'à peine 200 millions de pages
soit moins d'1/5e de l'existant (16 % pour être précis et le plus connu, Altavista, "que" 15 % : étude
publiée par la revue Nature).
Consultez la page complète consacrée aux chiffres du Web sous :
http://www.uco.fr/services/biblio/cdps/web_chiffres.html
3.4 Exercices d'application :
1. Faîtes une recherche sur l'un des sujets suivants :
http://www.altavista.fr
http://www.ecila.fr/
http://www.voila.fr
sujet 1 : les éléments traces dans les sols
sujet 2 : des TP de dissections de grenouilles pour le collège
sujet 3 : les algorithmes génétiques appliqués à l'optimisation
sujet 4 : la date de naissance d'Evariste Galois
sujet 5 : les sociétés qui fabriquent des incinérateurs pour les déchets hospitaliers en France
2. recommencez l'opération avec un moteur international (certains sites francophones sont répertoriés
dans les "grands" moteurs type Altavista et pas dans les moteurs nationaux !)
Liste des principaux moteurs mondiaux : http://www.uco.fr/services/biblio/cdps/web_moteurs.html#big
Uniquement après avoir tout essayé :
4. Tableau récapitulatif
-----------------------------------------------------------------------Avantages Inconvénients
à utiliser pour Annuaires
*sites validés donc intéressants * accès classificatoire donc organisé
* nombre limité de réponses * "peu" de réponses
* mise à jour aléatoire
un sujet simple et connu
Moteurs
* mise à jour règulière
* nombre de sites très importants * pas de vérification des sites
* réponses souvent incohérentes
une recherche complexe
Conclusion :
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
20
-----------------------------------------------------------------------Pour une recherche sur un sujet simple relativement connu, utilisez un annuaire (Nomade par exemple).
Pour une recherche plus complexe, internationale ou dont vous ne maîtrisez pas les concepts, utilisez un
moteur (Ecila ou Altavista par exemple).
Avant de réussir une recherche satisfaisante, il ne faut pas hésiter à tester plusieurs moteurs de recherche
ou annuaires avec éventuellement plusieurs équations de recherche et plusieurs mots-clés (pas plus de 3
mots-clés par combinaison mais vous pouvez multiplier les combinaisons) et en relançant la recherche
périodiquement (par exemple une fois par mois).
Il faut aussi exercer son esprit critique pour éliminer l'information "douteuse" (tout ce qui est publié n'est
pas ou plus forcément vrai) ou inutile, les sites personnels des "spécialistes" et les sites commerciaux :
privilégiez les auteurs qui citent leurs sources d'information ...
A chaque fois que vous consultez un site, demandez-vous qui l'a fait, dans quel objectif, quand, etc ?
Avant de lancer une requête, il est profitable de réfléchir à ce que l'on cherche :
- Veut-on des documents récents uniquement (il faudra sélectionner une année dans l'interface de
recherche avancée),
- Veut-on uniquement des documents en langue Française (il faudra utiliser un outil francophone ou
choisir language=french dans les moteurs internationaux), etc. ?
Quelques minutes à écrire sur une feuille de papier peuvent vous éviter de passer des heures à surfer
inutilement !
PLUS LA FORMULATION SERA PRECISE, PLUS LES RESULTATS SERONT PRECIS
• La meilleure méthode :
= > Une bonne habitude est de noter sur une feuille les 4 ou 5 mots-clés relatifs au sujet (en pensant aux
synonymes) et de se fixer des objectifs de résultat.
Exemple : je ne veux que des résultats en français et concernant des entreprises.
=> Pendant la recherche, il est facile de "se perdre" en surfant d'un site à un autre.
N'hésitez pas à marquer sur votre feuille de papier les équations de recherche testées, les combinaisons
choisies, les outils utilisés, le nombre de réponses, les adresses des sites, etc.
=> Quand vous trouvez des sites intéressants, n'oubliez pas d'ajouter leur adresse dans vos signets (clic
droit de la souris ou clic long/ Ajouter un signet) ou d'imprimer la page d'accueil (l'adresse sera en haut de
la feuille) ou de les noter dans un répertoire.
=> Pour réaliser vos dossiers, vous pouvez "récupérer" l'information textuelle grâce au copier-coller, ainsi
que les images (clic droit ou clic long / enregistrer l'image sous)...
Attention aux droits d'auteur et n'oubliez pas de citer les sources exactes dans vos documents.
Auteur : Hervé Basset
Adresse : http://www.uco.fr/services/biblio/cdps/web_recherche_info_4.html
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
21
MOTEURS DE RECHERCHE
MOTEURS
FRANCAIS
Altavista France
Voilà
Ecila
Excite France
Infoseek France
MONDIAUX
Altavista
Excite
Google
Hotbot
Northern Light
Infoseek
Lycos
Webcrawler
ANNUAIRES
FRANCAIS
MONDIAUX
Yahoo France
Lycos
Nomade
Yahoo
Francité
Tout sur Tout
Lycos fr
Qui Quoi Où
Voilà
UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL
http://webodonto.u-clermont1.fr
22