INTERNET
Transcription
INTERNET
INTERNET L’Internet est constitué de milliers de réseaux interconnectés à travers le monde. Un réseau est constitué d’un ensemble d’ordinateurs connectés entre eux pour échanger des données. Généralement, sur l’Internet les informations sont gratuites. Les ordinateurs dont nous faisons actuellement l’acquisition sont à priori tous capables d’être connectés au réseau des réseaux. En effet ils ont tous, au moins en option, une carte MODEM leur permettant d’être reliés au réseau commuté (téléphone) donc à un fournisseur d’accès à Internet. De toute façon, si nous considérons que nous devrons au moins nous connecter au RSS (télétransmission oblige), nous aurons le nécessaire pour communiquer avec n’importe quel réseau. • L’International net ou INTERNET : C’est par la création de l’ARPAnet (Advanced Research Projects Agency) que tout à commencé en 1968. Projet militaire Américain qui utilise la technologie des commutations de paquets. Le but était que, en cas d’attaque nucléaire, le système de réseau d’information soit capable de s’auto configurer au cas où un des maillons soit défaillant. Le génie de ce réseau est qu’il n’y a pas de structure centralisée de gestion, chaque nœud à sa propre autonomie. Arrivé dans le domaine public, le système fut repris par les universitaires puis dans les années 1970, le nom d’Internet (qui élargissait l’ARPANET à l’inter networking) fut adopté et développé par les différentes universités Américaines. Dans les années 1980, l’expansion se fit à travers des universités mondiales, des laboratoires de recherche et des grosses entreprises. Puis des entreprises de taille moyenne ou des particuliers passionnés ont décidé de s’unir pour créer des services privés, de là sont nés les fournisseurs d’accès à Internet (les provider). UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 1 En 1991, un ingénieur du CERN crée le Web (World Wide Web) nouveau système de consultation intégrant des données multimédias rendant plus commode la consultation. En 1992, création du groupement d’intérêt public RENATER qui organise le maillage de la France. En 1993, explosion du web qui connaît depuis un développement exponentiel et début des premières activités commerciales. 1994, premières ouvertures commerciales européennes. 2000 : Le « e-commerce » se développe, la sécurisation des données et des paiements aussi. 2003 : La France tente de légiférer dans les domaines du Net, du courrier électronique, de l’e-commerce. Le nombre d’internautes dans le monde (utilisateurs d’Internet) : environ 200 000 000, dont 100 000 000 à 130 000 000 pour les USA. Les prévisions pour 2005 sont : environ 500 000 000 d’utilisateurs. Il y aurait environ 10 000 000 de sites Web dans le monde pour environ 2 milliards de pages dont 1 milliard seraient « visibles ». L’enrichissement serait de 1 million de nouvelles pages par jour. La durée de vie moyenne d’une page Web est de 46 jours. La langue du Web : Répartition des pages par langue (juillet 2000). Anglais Japonais Allemand Chinois Français 68,39% 5,85% 5,77% 3,87% 2,96% (dont 1% au Québec) En 1999, les informations de type scientifique ou éducatif ne représentaient que 6% du Web. 85% des pages Web sont issues des USA. La France : En ce qui concerne la France, qui est à la traîne, il y aurait 10 500 000 à 11 000 000 d’utilisateurs en mai 2001 dont 60% sur leur lieu de travail. 17,5% des foyers seraient connectés en France. Fin 2000, 30% des foyer Français sont équipés en micro-informatique mais seulement 17% sont connectés à Internet. L’utilisation principale est le courrier électronique (52%) devant la consultation des pages Web (30%). Wanadoo et AOL représentent 60% des 4,6 millions d’abonnements à domicile. Les 10 sites les plus visités en France (en milliers de visites) : source Cybermétrie UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 2 SITES LES PLUS VISITES WANADOO CARAMAIL BOURSORAMA VOILÀ FRANCITE CLUB INTERNET PAGES JAUNES France.SPORT.COM NOMADE.FR TF1 1 0 5000 10000 15000 20000 25000 30000 Les 10 réseaux de sites les plus visités en France (en milliers de visites) : source MMXI LES RESEAUX DE SITES WANADOO YAHOO MICROSOFT LIBERTYSURF FREE MULTIMANIA AOL MSN 1 VOILÀ CLUB INTERNET 0 500 1000 1500 2000 2500 Le « Net invisible » ou « Web invisible » ou « Web profond » (deep Web) : L’information « invisible » serait 300 fois plus importante en volume que le Web visible. Le « deep web » représenterait 550 milliards de documents dont 500 échapperaient totalement au travail d’indexation des moteurs de recherche. Le « net invisible » est constitué de : - Les intranet des entreprises et des organismes. - Les documents n’utilisant pas l’alphabet latin (Russe, japonais, chinois, arabe,…) - Les pages contrôlées par des mots de passe. - Les réseaux privés. - Les bases de données dynamiques - Les éléments multimédias. - Les documents non HTML. - L’information en temps réel (chat, vidéoconférences,…) - Le courrier électronique. - Les forums de discussion. - Les listes de diffusion. UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 3 • Le réaiguillage dynamique : C’est lui qui permet d’envoyer des paquets d’informations même si par endroits la route la plus directe est interrompue. Voir schéma ci-dessous. • Mode de fonctionnement : Microordinateurs clients Réseau local Cable OU Routeurs Ligne Modem téléphonique Microordinateurs clients Les micro-ordinateurs clients (vous et moi) peuvent être connectés au réseau commuté (téléphone) via leur MODEM ou encore via des réseaux locaux (entreprises, administrations,...) et un réseau institutionnel (RENATER,...) qui possède son propre système de connexion (câble, satellite,...). Ce UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 4 sont ensuite les fournisseurs d’accès (institutionnels ou privés) qui font le lien avec la toile d’araignée planétaire (web). On sait par exemple que CEGETEL, le prestataire de service qui met en place le Réseau Social de Santé (RSS) loue le réseau de fibres optiques SNCF qui court le long des voies ferrées Françaises. D’autre part, CEGETEL (filiale de la Générale des Eaux) vient de s’associer avec AOL (American On Line, provider), Bertelsmann et Canal+ pour constituer une société de services Internet. Au delà du regroupement de clientèle que cela représente, on voit poindre la technologie de transmission par satellite (canal+ numérique). • Le World Wide Web ou Web ou W3 : Il constitue une gigantesque toile d’araignée planétaire à laquelle on accède grâce aux fournisseurs d’accès privés ou institutionnels. Il comporte trois éléments importants : - Les documents et les pages web : qui constituent les « sites ». Un site en fait n’est qu’un empilement de pages web. Le déplacement (navigation) se fait d’une page à l’autre, d’un site à l’autre grâce à des liens hypertextes. - Des serveurs web : ordinateurs multi plateformes qui stockent et gèrent les documents web. - Des navigateurs (browser) : logiciels qui permettent la navigation sur le web (Netscape™, internet exporer™,...) Les sites sont répertoriés par leurs adresses ou URL (Uniform Resource Locator) qui s’écrivent comme suit : http://webodonto.u-clermont1.fr ou encore : http://www.annuairedentaire.com ou http est le nom du protocole utilisé (Hyper Text Transfert Protocol), www pour World Wide Web, webodonto.u-clermont1 pour le nom de domaine (hôte dans Internet), fr pour France (com pour commercial,...) Internet est aussi utilisé pour correspondre par le biais du courrier électronique (e-mail). Dans ce cas, un autre type d’adresse sera utilisé, celle du correspondant. Par exemple : [email protected] ou Maurice.Morenas est le nom ou le pseudo du correspondant,@ un séparateur, uclermont1.fr le nom du domaine. Il est possible de joindre un fichier électronique au courrier. On parle alors de « document attaché » qui peut être : un texte, une image, un son,… Les courriers électroniques sont des vecteurs de transmission de virus, en général par l’intermédiaire des documents attachés. Donc, il est nécessaire d’avoir un antivirus à jour et il est souhaitable de ne pas ouvrir les courriers adressés par des correspondants inconnus. • Recherche sur le web : Dans cette gigantesque toile, trois façons de naviguer sont possibles : - L’adresse du site recherché est connue : dans ce cas une fois saisi, le navigateur nous y emmène directement. UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 5 - Nous ne recherchons rien de particulier et nous nous laissons porter de lien en lien sur la grande toile : c’est le « surf ». Attention il peut nous emmener loin et surtout nous coûter cher si la connexion se fait par le téléphone. - Nous cherchons quelque chose de précis, mais nous n’avons pas d’adresse précise. C’est là qu’interviennent des environnements logiciels nommés moteurs de recherche. Ceux-ci vont nous permettre de trouver les informations recherchées à partir de mots clés, de thèmes,... (voir article en annexe) Les moteurs de recherche ou moteurs d’indexation et de recherche : Trois grandes catégories - Les index - Les annuaires - Les hybrides - Les index : Ils sont basés sur la collecte automatisée des informations contenues dans les pages web existantes et l’indexation systématique de tous les mots qui les composent. Ils utilisent pour cela des « robots logiciels » qui scrutent en permanence la totalité du web. Le plus connu de ces moteurs est : AltaVista de Digital. Le problème est que les informations collectées sont difficiles à exploiter par l’internaute au premier abord, car trop nombreuses. Il faut faire appel aux fonctionnalités avancées du moteur pour être efficace. - Les annuaires : Ils classent les informations par grandes catégories (actualité, culture, informatique, voyages,...) et sous catégories. La recherche se fait alors par étape de catégories en sous catégories. Contrairement aux index, ces moteurs sont constitués de bases de données construites de toutes pièces. Donc pour qu’un site web y soit référencé, il faudra que son administrateur en fasse la demande. Ces moteurs comportent aussi des systèmes de recherche en texte intégral mais uniquement sur la base de données qui les constitue. Un des plus connus est : Yahoo. - Les hybrides : Ils comportent à la fois un moteur d’indexation et de recherche et un annuaire, ils sont généralement moins fouillés que les moteurs a une seule vocation. Les plus connus : Lycos, Infoseek, Excite,... QUELQUES MOTEURS DE RECHERCHE (liste non exhaustive) Nom (ADRESSE DU SITE) TYPE DE SITE AltaVista (http://altavista.digital.com) Moteur de recherche Lycos (http://www.lycos.com) Hybride PARTICULARITÉS L’un des plus puissants sinon le plus puissant. Disponible en Français à l’adresse http://altavista.telia.com Site Français avec de plus la recherche des adresses de courrier. UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 6 Excite (http://www.excite.com) Hybride Très efficace mais assez sommaire dans sa présentation. Français : http://fr.excite.com Yahoo (http://www.yahoo.com) Annuaire Certainement l'un des annuaires les plus complets du Web. Permet des recherches sur AltaVista sans quitter sa propre interface. Disponible en français à l'adresse: http://www.yahoo.fr Ecila (http://ecila.celt.com) Moteur de recherche Difficile de trouver plus sobre, mais ce site a le mérite d'être un des seuls français à disposer de son propre moteur. Nomade (http://www.nomade.fr) Annuaire Efficacité justifiée. Recherche d’adresses de courrier. Savvy Search (http://guaraldi.cs.colostate.edu:2000) Multimoteur Propose son interface et des recherches en plusieurs langues dont le Français. Lokace (http://www.lokace.com) Hybride Même s'il dispose d'un classement par, ce site français est davantage un moteur qu'un annuaire. Comporte une recherche d'e-mail assez efficace. QuiQuoiOù(http://www.wanadoo.fr) Annuaire Annuaire du site de France Télécom (Wanadoo). Liens vers les principaux sites de recherche. Francité(http://www.i3d.qc.ca) Annuaire Très ciblé Québécois. • Autres sources d’informations : Outre les sites web, il existe d’autres sources d’informations sur Internet telles que par exemple : - Les forums ou newsgroup : Regroupent des discussions classées par grands thèmes à l’échelle du monde entier. Les navigateurs permettent de participer à tous les forums relayés par les fournisseurs d’accès. Il est aussi possible de rejoindre des groupes de conversation ou chaînes ou chat par l’intermédiaire d’un système appelé IRC (Internet Relay Chat). UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 7 Exemple de forum (SVM Mac 94 - avril 1998) - Les listes de diffusion ou mailing lists : Elles sont aussi organisées par thèmes précis mais acheminées cette fois par courrier électronique (e-mail). Une fois abonné à une liste thématique, toute contribution est automatiquement adressée à tous les autres abonnés de la liste. • Le courrier électronique : Fin 2000, le nombre total de comptes e-mails créés dans le monde était de 891 millions, soit une augmentation de 67% par rapport à 1999. UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 8 Cheminement d’un « mail » (courrier électronique) (SVM Mac 94 - avril 1998) • Le commerce électronique : Un certain nombre de sites web de commerce (Ex : la FNAC) nous proposent leurs catalogues de produits en ligne et nous offrent de commander et régler les achats par la voie du courrier électronique à l’aide du numéro de notre carte bancaire. C’est la nouvelle forme de la vente par correspondance (VPC) ou e-commerce. Comme le virtuel a tout de même une limite, les achats nous sont ensuite expédiés par la poste. Les avantages sont : la possibilité d’acheter à tout moment le magasin ne ferme jamais, la plupart des catalogues virtuels ont des systèmes de recherche permettant de trouver rapidement les produits désirés, la rapidité. Les inconvénients : Le défaut de tête-à-tête avec le vendeur, la nécessité de communiquer un numéro de carte bancaire qui peut être éventuellement intercepté. Pour essayer de contourner ce problème, le GIE carte bleue est en train de déployer une « e-carte bleue » qui permettra par communication avec la banque d’obtenir un numéro à seize chiffres qui servira à régler les achats électroniques. Celui-ci ne servira qu’une fois et un nouveau numéro sera communiqué à chaque nouvel achat. Ceci nous intéresse au premier chef, car les sites de commerce odontologique se développent très vite (GACD, Promodentaire,…) et gageons que cette forme d’achat sera très prochainement très utilisée dans nos cabinets. • Conclusion (provisoire) : Le « net » est une formidable source d’informations et un phénoménal moyen de communication. Ne perdons pourtant pas de vue que : - Nous y trouvons tout et n’importe quoi. - Que la sécurité des données n’est pas vraiment assurée bien que le cryptage soit en plein essor. - Que les informations récupérées sur Internet doivent toujours être vérifiées avant d’être utilisées. UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 9 COMMENT CA MARCHE • L’ORDINATEUR : Appareil nécessaire pour se connecter et utiliser Internet. De nouveaux appareils permettent ou permettrons la connexion : les agendas électroniques (Palm pilot™, Psion™,…), des boitiers branchés sur les téléviseurs, les téléphones mobiles (WAP) . • LE NAVIGATEUR OU BROWSER : C’est le logiciel qui permet de se connecter et de naviguer sur le net. Grace à lui, on circule d’un site à un autre, on envoie et reçoit des courriers électroniques, on discute en direct,… • LES MOTEURS DE RECHERCHE : Il s’agit de sites qui permettent de trouver les informations recherchées. Ils ont souvent vocation de portail. • LE MODEM : Permet la connexion entre l’ordinateur et le réseau téléphonique, il se présente désormais quasi systématiquement comme une carte qui est intégrée à l’ordinateur. 10 UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr • LES RESEAUX : Ce sont des « tuyaux informatiques » faits de câbles, de fibres optiques, de faisceaux hertziens tous reliés entre eux. Ils permettent aux informations du net de circuler dans le monde entier. • LE FOURNISSEUR D’ACCES INTERNET : Intermédiaire technique entre l’internaute et le réseau informatique mondial. (AOL , Club Internet, Wanadoo, Liberty Surf, World Online,…) • LES SERVEURS : Ce sont des ordinateurs reliés entre eux qui constituent le maillage de l’Internet. Les informations circulent automatiquement d’un serveur à un autre en fonction de l’encombrement du réseau. Ils appartiennent aussi bien a des université qu’à des opérateurs télécom ou des fournisseurs d’accès. • LES PORTAILS : Il s’agit de sites qui ont pour vocation d’être des passages obligés pour les internautes. La plupart des moteurs de recherche sont devenu des portails. • LE SITE : Ensemble de pages mis à disposition des internautes par un particulier, une entreprise, une institution. UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 11 ANNEXE I INITIATION A LA RECHERCHE D'INFORMATION SUR LE WEB (BASSET Hervé) 1. Introduction : 1.1 Présentation du cours Initiation à la recherche et non pas une présentation d’Internet ni un cours très développé de recherche avancée multicritère. • Objectif du cours : Découvrir comment commencer une recherche thématique simple sur le web (sans FTP, ni news, ni métamoteurs, etc.) • Pré-requis : Savoir utiliser un navigateur (Netscape) et le courrier électronique. • Problématique : Internet contient des quantités incroyables d'information : d'après les estimations il y aurait 1 milliard de pages consultables dans le monde. (on peut consulter les principaux chiffres du Web sous : http://www.uco.fr/services/biblio/cdps/web_chiffres.html) Malheureusement, il n'est pas toujours facile de trouver rapidement celle dont on a besoin : les logiciels de navigation (ou navigateurs ou browsers) de type Netscape ou Internet Explorer ne sont que des interfaces pour consulter des sites connus : vous devez connaître à l'avance l'adresse (URL) du site ou la deviner (exemple : http://www.uco.fr) ; ils ne permettent pas de faire véritablement une recherche par mots-clés. 1.2 Le moyen : apprendre à utiliser les outils de recherche Pour faire ce type de recherche il y a les annuaires et les moteurs de recherche qui sont un peu les équivalents du catalogue informatisé pour la recherche de documents dans une bibliothèque. Pour trouver une information, il n'est pas nécessaire d'être un informaticien chevronné : il faut juste apprendre à utiliser les outils de recherche qui existent. Ces outils (il y en aurait 4000 dans le monde) sont devenus indispensables pour "trouver" sur le net. Trois connections sur quatre dans le monde se font après avoir utilisé un outil de recherche (annuaire ou moteur) ; dans les dix sites les plus visités en France, quatre sont des outils de recherche (yahoo.fr ; voilà.fr ; yahoo.com ; altavista.fr). INITIATION A LA RECHERCHE D'INFORMATION SUR LE WEB 2. Recherche simple avec un annuaire 2.1 Définition Un annuaire est un répertoire de sites web sélectionnés par des documentalistes . Les sites sont visités, analysés et sélectionnés pour leur intérêt par rapport à un domaine : un annuaire ne propose qu'un nombre limité de sites (ex :100 000 sites pour Nomade), mais ceux-ci sont censés être tous pertinents et intéressants. Un annuaire se présente sous la forme d'une page d'accueil proposant un certain nombre de rubriques (ou chaînes ou Thèmes) d'intérêt : loisirs, informatique, sciences, etc. UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 12 Chaque rubrique est décomposée en sous-rubriques plus pointues (ex. : dans Sciences : biologie, maths, physique, etc.), elles-mêmes décomposées en sous-rubriques plus pointues, etc. Les annuaires les plus connus sont : Yahoo au niveau mondial et Nomade pour la France 2.2 La recherche La recherche est assez intuitive et se fait donc en principe en cliquant de rubriques en sous-rubriques L'utilisation d'un annuaire est intéressante pour des sujets relativement simples, populaires (c'est-à-dire connus du grand public et pas seulement de quelques experts) et bien connus (car il faut savoir dans quelles rubriques rechercher) Par intuition vous comprendrez qu'il est relativement facile de trouver des sites sur des sujets d'actualité comme les biotechnologies, les OGM ou la pollution de l'Erika ! OBSERVONS un annuaire : Nomade (http://www.nomade.fr/) Sujet 1 : les OGM Sujet 2 : algèbre Sujet 3 : qualité de l'eau Sujet 4 : langage C++ • sujet 1 : Cherchons des sites sur les OGM Il suffit de cliquer sur les thèmes proposés : Sciences exactes / Biologie / génétique / OGM En quelques secondes, nous avons trouvé une liste de sites. Avant de cliquer sur chaque réponse, il faut lire la description proposée par l'annuaire : Il y a un petit résumé (2 lignes), quelques éléments importants (type de public, nature du site, l'URL, etc.) et parfois une "récompense" attribuée par l'annuaire aux sites les plus intéressants (une palme pour Nomade) • sujet 2 : Cherchons un cours d'algèbre pour le DEUG => Il suffit de cliquer sur les chaînes proposées : Sciences / mathématiques / Algèbre En quelques secondes, nous avons trouvés une liste de sites . Avant de cliquer sur chaque réponse, il faut lire la description proposée par l'annuaire : il y a un petit résumé (2 lignes), quelques éléments importants (type de public, nature du site, l'URL, etc.) et parfois une "récompense" attribuée par l'annuaire aux sites les plus intéressants (une palme pour Nomade) Remarque : dans la liste, il y a le site d'un enseignant Gérard Hirsch : celui-ci est classé en algèbre alors que seul un chapitre (calcul matriciel) peut être considéré comme de l'algèbre (le reste étant de l'analyse) - sujet 3 : Cherchons des sites sur la qualité de l'eau Il suffit de choisir la bonne catégorie dans les thèmes proposés. Dans le cas de Nomade, ce qui concerne l'environnement se trouve sous (ce n'est pas évident a priori !) : Politique et social / Environnement, urbanisme / Ecologie, environnement / qualité de l'eau En quelques secondes, nous avons trouvé une liste de sites Avant de cliquer sur chaque réponse, il faut lire la description proposée par l'annuaire : il y a un petit résumé (2 lignes), quelques éléments importants (type de public, nature du site, l'URL, etc.) et parfois une "récompense" attribuée par l'annuaire aux sites les plus intéressants (une palme pour Nomade). - sujet 4 : Cherchons des sites sur le langage de programmation C++ : Il suffit de cliquer sur les thèmes proposés : UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 13 Informatique et Télécom / Développement et langage / C++ En quelques secondes, nous avons trouvé une liste de sites. Avant de cliquer sur chaque réponse, il faut lire la description proposée par l'annuaire : il y a un petit résumé (2 lignes), quelques éléments importants (type de public, nature du site, l'URL, etc.) et parfois une "récompense" attribuée par l'annuaire aux sites les plus intéressants (une palme pour Nomade). 2.3 Le moteur de recherche interne • Les rubriques ne sont pas nécessairement les mêmes d'un annuaire à un autre. Désormais, la plupart des annuaires proposent des moteurs de recherche internes pour retrouver plus rapidement l'information : cela peut s'avérer utile si un sujet peut être traité dans plusieurs thèmes ou si vous ne savez pas dans quelles rubriques chercher. ATTENTION : ces moteurs ne travaillent pas sur l'ensemble des sites web mondiaux mais uniquement sur les sites sélectionnés par l'annuaire. De plus, si les réponses dans l'annuaire ne sont pas satisfaisantes, certains annuaires se sont associés à des moteurs de recherche pour élargir les réponses à votre interrogation. La limite entre annuaires et moteurs est d'ailleurs de plus en plus ambiguë : Exemple : Voilà est à la fois un annuaire et un moteur. 2.4 Exploiter les résultats • Une fois la liste des résultats affichés (ATTENTION : il y a souvent plusieurs pages de réponses, il ne faut pas se contenter de la première liste), vous n'avez plus qu'à cliquer sur les adresses (lien hypertexte) après avoir lu les commentaires ou la description quand ils existent. Le site s'ouvre dans la page de votre navigateur : il faudra cliquer sur flèche de droite (= précédent) pour revenir à la liste des résultats de l'annuaire. • CONSEIL : restez critique ! Avant de cliquer sur un site, lisez les informations proposées par l'annuaire. Elles sont souvent importantes pour déterminer l'intérêt et l'objectivité d'un site : - sujet 1 : dans le cas des OGM, http://www.ogm.org peut être considéré comme "suspect" au point de vue de l'objectivité car il émane des industriels : c'est le même cas pour les informations produites par les associations politiques écologistes. Comme pour n'importe quel autre média, il faut rester critique vis-àvis de l'information consultée. - sujet 2 : Pour un site de maths, préférez toujours un site proposé par un enseignant d'université plutôt que celui d'un étudiant qui a peut-être mal recopié son cours ! - sujet 3 : de manière générale, pour les sites consacrés aux problèmes environnementaux, on constate deux types de site : les sites "officiels" (type Agence de l'eau, centre de recherche scientifique) qui communiquent les actions et les chiffres publics et, à l'opposé, les sites d'associations ou de partis écologiques qui sont souvent plus polémiques : il faut donc se méfier des chiffres exprimés ici ou là... QUELQUES TRUCS ! * Consulter les sites les uns après les autres : Quand on consulte les résultats directement dans la page de notre navigateur, on a tendance à faire défiler les pages et, finalement, à perdre la page de départ, c’est à dire celle où se trouvaient les résultats de l'annuaire. Pour éviter ce problème, vous pouvez ouvrir une nouvelle session pour chaque site consulté : => au moment de lancer le site choisi pointer sur l'adresse et cliquer sur le clic droit de la souris (PC) ou un clic long (Mac) => choisissez Ouvrir dans une nouvelle fenêtre UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 14 une fois la consultation du site finie, fermez la session, vous retrouvez la page de consultation de l'annuaire. • Retrouver l'information cherchée : Le lien ouvre généralement sur la page d'accueil du site : vous n'arrivez pas forcément directement sur l'information recherchée : il faut parfois fouiller un peu dans le site. Vous pouvez utiliser la fonction Rechercher dans le site (Edition / recherche dans la page). ATTENTION : avant de lancer la recherche, vérifiez que le pointeur se trouve bien en haut de la page. 2.5 Exercices d'application : 1. Choisissez un annuaire Francophone et faîtes une recherche sur l'un des sujets suivants : http://www.nomade.fr http://fr.yahoo.com/ http://www.lycos.fr/ sujet 1 : généthon, génome, téléthon sujet 2 : ressources pédagogiques pour l'enseignement scientifique (SVT) sujet 3 : les fractales sujet 4 : la cryptologie sujet 5 : l'écotoxicologie sujet 6 : les déchets hospitaliers 2. faîtes la même recherche en utilisant le moteur de recherche interne puis un annuaire international. Initiation à la recherche d'information sur le Web 3. Recherche avançée avec un moteur • Pour des recherches pointues, pluridisciplinaires, dont vous avez une connaissance limitée (vous ne savez pas dans quelle rubrique d'annuaire rechercher) ou dont vous savez (dès le départ) que l'information est rare, le recours à un moteur de recherche est indispensable. 3.1Définition 3.2 La Recherche 3.1 Définition : • Un moteur est un outil qui permet de faire une recherche très large sur le web mondial ou Francophone. Après que vous ayez tapé un ou plusieurs mots-clés dans un formulaire, il lance un logiciel d'exploration qui va travailler sur une base de données déjà élaborée à l'aide de robots informatiques (Crawler ou Spider). Cette base de donnée est constituée par l'ensemble des mots-clés contenus dans chaque site web. Les mots-clés retenus sont ceux qui sont proposés par les concepteurs de sites et/ou ceux qui sont contenus dans le texte visité. • Les moteurs les plus connus sont : Altavista au niveau mondial et Voilà au niveau français. Il existe des centaines de moteurs de recherche (environ 1500), mais les internautes utilisent généralement les mêmes, les plus connus (entre 7 et 10), qui concentrent 95 % des connections mondiales pour la recherche. 3.2 La Recherche 3.2.1 Généralités • La base de donnée des plus grands moteurs contiennent plusieurs dizaines de millions, voire plusieurs centaines de millions de pages indexées et vérifiées très régulièrement. UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 15 La recherche est donc extrêmement vaste : par contre, les mots-clés ne sont absolument pas analysés ou critiqués et les résultats peuvent être complètement déroutants. En plus, chaque moteur explore le web à sa façon, avec des règles d'indexation différentes et donne donc des résultats différents : une même recherche donne généralement des résultats différents entre deux moteurs. De plus, les moteurs modifient assez régulièrement leurs techniques d'indexation : une recherche strictement identique peut donner des résultats différents d'une semaine sur l'autre ! • La recherche demande une certaine rigueur dans la formulation car, souvent, les réponses à votre première requête se comptent par milliers ou même millions de pages (exemple : "microsoft" dans Alatvista). Il faut donc élaborer une syntaxe de recherche précise en utilisant les opérateurs spécifiques (attention : ce ne sont pas toujours les mêmes selon les moteurs). La pratique des moteurs demande aussi un peu d'habitude, d'observation et de patience. D'autre part, une même recherche doit être renouvelée sur plusieurs moteurs différents et de façon régulière. Un site peut être trouvé dans un moteur et pas dans un autre (problème du référencement). De la même manière, l'ordre d'apparition des résultats dans la liste n'est absolument pas un gage de qualité : le premier site n'est pas nécessairement le "meilleur" (c'est souvent simplement car le webmaster du site en question maîtrise mieux le référencement dans le moteur !). 3.2.2 Observons un moteur http://www.altavista.fr - La partie la plus importante de la page est la fenêtre de requête dans laquelle vous allez taper les motsclés. Juste à côté du formulaire, vous avez un lien vers le fichier d'aide qu'il faudra lire si vous ne réussissez pas une requête pertinente. Vous pouvez noter que ce moteur propose aussi une sélection de sites (les guides d'Ecila). Sujet 1 : les OGM Sujet 2 : algèbre Sujet 3 : qualité de l'eau Sujet 4 : Linux Sujet 5 : déchets sujet 1 : Tapons "OGM" dans le formulaire : nous obtenons 16975 pages trouvées ! Attention : cela ne veut pas dire 16975 sites (1 site = plusieurs pages), d'autant plus qu'on peut constater quantité de "bruits" documentaires (réponses non-pertinentes, plusieurs réponses pour un même site, etc.) En comparaison avec les réponses de l'annuaire, il est plus difficile de déterminer rapidement quels sont les sites intéressants. Dans ce cas, il va falloir reformuler plus précisément la question. sujet 2 : Tapons "algèbre" dans le formulaire : nous obtenons 15740 pages trouvées ! Attention : cela ne veut pas dire 15740 sites (1 site = plusieurs pages), d'autant plus qu'on peut constater quantité de "bruits " documentaires (réponses non-pertinentes, plusieurs réponses pour un même site, etc.) En comparaison avec les réponses de l'annuaire, il est plus difficile de déterminer rapidement quels sont les sites intéressants. Dans ce cas, il va falloir reformuler plus précisément la question. sujet 3 : Tapons "eau" dans le formulaire : nous obtenons 584830 pages trouvées ! Attention : cela ne veut pas dire 584830 sites (1 site = plusieurs pages), d'autant plus qu'on peut constater quantité de "bruits " documentaires (réponses non-pertinentes, plusieurs réponses pour un même site, etc.) En comparaison avec les réponses de l'annuaire, il est plus difficile de déterminer rapidement quels sont les sites intéressants. Dans ce cas, il va falloir reformuler plus précisément la question. sujet 4 : Tapons "Linux" dans le formulaire : nous obtenons 1 849 990 pages trouvées ! UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 16 Attention : cela ne veut pas dire 1 849 990 sites (1 site = plusieurs pages), d'autant plus qu'on peut constater quantité de "bruits " documentaires (réponses non-pertinentes, plusieurs réponses pour un même site, etc.) En comparaison avec les réponses de l'annuaire, il est plus difficile de déterminer rapidement quels sont les sites intéressants. Dans ce cas, il va falloir reformuler plus précisément la question. sujet 5 : Tapons "dechets" dans le formulaire : nous obtenons 63485 pages trouvées ! Attention : cela ne veut pas dire 63485 sites (1 site = plusieurs pages). En comparaison avec les réponses de l'annuaire, il est plus difficile de déterminer rapidement quels sont les sites intéressants. Dans ce cas, il va falloir reformuler plus précisément la question. 3.2.3 Un peu de méthode ! Sujet 1 : les OGM Sujet 2 : algèbre Sujet 3 : qualité de l'eau Sujet 4 : linux Sujet 5 : déchets sujet 1 : OGM : 1. Éteindre l'écran et prendre une feuille de papier (!) : Sur celle-ci, identifions les synonymes d'OGM et mots-clés qui nous viennent à l'esprit : organismes génétiquement modifiés, plantes transgéniques, animaux transgéniques, biotechnologies, maïs, soja, réglementation, santé, etc. Ces mots-clés serviront, au moment de la recherche, à préciser ou élargir les réponses. 2. Reformuler très précisément l'interrogation : - Que cherche-t-on, pour quoi faire, pour qui, etc. ? - Cherchons-nous des publications scientifiques ou grand-public ? - S'agit-il de discours politiques du gouvernement sur les risques sanitaires ? etc. sujet 2 : algèbre : - Il va être nécessaire de reformuler la question plus précisément - Dans ce cas, il n'y a pas de problèmes de vocabulaire mais plutôt un problème d'approche : - De quel algèbre avons-nous besoin ? (exemple : algèbre linéaire) - Pour quel niveau de public ? (DEUG) - Avons-nous besoin d'un cours ou d'exercices corrigés ? etc. Ces quelques minutes de réflexion vont vous permettre de gagner, par la suite beaucoup de temps, car elles vont vous permettre de déterminer la requête la plus efficace : celle-ci va être définie en croisant les mots-clés grâce aux opérateurs de recherche. sujet 3 : eau : - Que cherche-t-on, pour quoi faire, pour qui, etc. ? - Cherchons-nous des publications scientifiques ou grand-public ? - Avons-nous besoin de cartes, dossiers ou de chiffres ? - Avons-nous la possibilité de restreindre à une zone géographique ? - Cherchons-nous une entreprise spécialiste dans le traitement de l'eau ? etc. sujet 4 : linux UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 17 - Que cherche-t-on, pour quoi faire, pour qui, etc. ? - Cherchons-nous des publications scientifiques ou grand-public ? - Cherchons nous une notice technique ? sujet 5 : déchets - Que cherchons-nous exactement ? - Un état des gisements de déchets ménagers ou non en France ? - Une entreprise spécialisée dans l'incinération des déchets hospitaliers ? 3.2.4 Opérateurs de base : ATTENTION : Les opérateurs décrits ci-dessous ne sont pas toujours valables... Disons que ce sont ceux que l'on retrouve le plus souvent. Les moteurs utilisent en principe la logique booléenne (et, ou, sauf) : pour être plus sûr, vous devez lire la rubrique "Aide" près du formulaire de recherche quand vous testez un moteur. Croisement de mots-clés : "+documentation +scientifique" Si le "+" ne marche pas tapez "documentation AND scientifique" (ou ET pour un moteur francophone) Ne pas laisser d'espace entre le "+" et le premier caractère du mot. Elargissement : permet de rechercher sur des termes proches. Exemple : "(bibliothèque OU documentation) et sciences" Exclusion d'un mot : "+documentation +scientifique -commerciale" N'affichera pas, en principe, un site proposant une documentation technique d'un logiciel scientifique (on suppose que le mot "commercial" apparaît sur le site d'une entreprise). Le "-" doit éventuellement être remplacé par "NOT" ou "AND NOT" ou "SAUF" ou "NON" pour les moteurs francophones. Troncature sur une partie de mot : "scien*" Fait la recherche sur Science, Sciences, Scientifique, etc. A utiliser en particulier pour chercher sur les singulier-pluriel : Exemple "bibliothèque*" (pour bibliothèque et bibliothèques) Expression, phrase : mettre des doubles-quotes ou guillemets américains Exemple : "centre de documentation du pôle scientifique" travaille uniquement sur la section entière Les résultats peuvent être différents de "+centre +documentation +pôle +scientifique" qui pourrait proposer une page où les 4 termes apparaissent mais ne se suivent pas. Proximité de termes : recherche sur des termes proches mais qui ne se suivent pas forcément . utilisez l'opérateur "NEAR" ou "PROCHE". Exemple : "centre PROCHE documentation" pour "Centre de documentation". Sujet 1 : les OGM Sujet 2 : algèbre Sujet 3 : qualité de l'eau Sujet 4 : Linux Sujet 5 : déchets sujet 1 : OGM Dans le cas de notre recherche, en tapant "OGM + risque* + sanitaire* + alimentation", on réduit le nombre de réponses à 3911 . Pour être exhaustif, il faudrait multiplier les requêtes : "OGM ET santé" "organismes ET transgéniques ET alimentation", etc. Il y a rarement une seule bonne requête. UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 18 sujet 2 : algèbre Dans le cas de notre recherche, en tapant "algèbre + linéaire + DEUG", on réduit le nombre de réponses à 570. En rajoutant "+ exercices", on réduirait davantage, etc. sujet 3 : eau Dans le cas de notre recherche, en tapant "eau +qualité +bretagne +cartes", on réduit le nombre de réponses à 2531. sujet 4 : Linux Dans le cas de notre recherche, en tapant "linux +initiation +debutants", on réduit le nombre de réponses à 2367 pages. sujet 5 : déchets Dans le cas de cette recherche, On peut chercher le site d'une entreprise susceptible de répondre à un appel d'offre concernant l'incinération des déchets d'un hôpital. Tapons : "déchets +hospitaliers +incinération", on trouve 150 pages dont certains rapports et études. voir : exercices d’application ci-dessous. 3.2.5 Quelques conseils : * Tapez toujours les opérateurs (ET, AND, etc.) en MAJUSCULE : Les mots-clés par contre doivent être tapés de préférence en minuscule (sauf pour un nom propre : ex. : Microsoft), sans accents et au singulier (certains moteurs ajoutent une troncature automatique en fin de mot) * si vous utilisez un opérateur de type "+" ou "-" ne pas mettre d'espace entre l'opérateur et le mot suivant. * Il y a beaucoup d'autres possibilités de recherche (par date, par pays, etc.) : généralement on retrouve ces possibilités dans les options "recherche avancée" des moteurs. * De plus en plus de moteurs proposent une interface de recherche avancée plus conviviale qui permet d'éviter d'avoir recours aux équations booléennes de recherche. * Les moteurs affichent les résultats en fonction d'un ordre de pertinence propre à chacun (souvent = nombre de fois que le mot recherché a été trouvé dans la page sélectionnée, position des mots-clés dans la page, présence du mot-clé dans l'URL du site, etc.) : 3.2.6 Exploiter les résultats : ATTENTION : il y a souvent plusieurs pages de réponses, il ne faut pas se contenter de la première liste (les 10 premières). Les sites les plus utiles pour vous sont peut-être à la 4ème ou 5ème page. En principe, les réponses les plus pertinentes se trouvent dans les premières pages. * Une fois la liste des résultats affichés, vous n'avez plus qu'à cliquer sur les adresses (lien hypertexte) => le site s'ouvre dans la page du navigateur. => il faudra cliquer sur flèche de droite (=précédent) pour revenir à la liste des résultats du moteur. ATTENTION : A partir de la liste de réponses du moteur, le lien ouvre généralement sur la page d'accueil (c'est elle qui contient les mots-clés que le moteur a repérés) du site... => vous n'arrivez pas forcément directement sur l'information recherchée UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 19 Il faut parfois fouiller un peu dans le site (les mots-clés n'apparaissent pas en bleu comme pour une recherche hypertexte dans un cédérom par exemple). RAPPEL : utilisez le fonction Edition/Recherche dans la page (CTRL + F). 3.3 Pour information * Il est possible de "travailler" sur plusieurs moteurs en même temps grâce aux métamoteurs. * Une idée reçue : le web mondial ! : En faisant une requête simultanée sur les 11 meilleurs moteurs de recherche, vous ne travaillerez jamais plus que sur 42 % des pages existantes dans le monde (estimées aujourd'hui à un milliard par une étude d'Inktomi) Le moteur de recherche le plus complet (Northern light) ne recenserait qu'à peine 200 millions de pages soit moins d'1/5e de l'existant (16 % pour être précis et le plus connu, Altavista, "que" 15 % : étude publiée par la revue Nature). Consultez la page complète consacrée aux chiffres du Web sous : http://www.uco.fr/services/biblio/cdps/web_chiffres.html 3.4 Exercices d'application : 1. Faîtes une recherche sur l'un des sujets suivants : http://www.altavista.fr http://www.ecila.fr/ http://www.voila.fr sujet 1 : les éléments traces dans les sols sujet 2 : des TP de dissections de grenouilles pour le collège sujet 3 : les algorithmes génétiques appliqués à l'optimisation sujet 4 : la date de naissance d'Evariste Galois sujet 5 : les sociétés qui fabriquent des incinérateurs pour les déchets hospitaliers en France 2. recommencez l'opération avec un moteur international (certains sites francophones sont répertoriés dans les "grands" moteurs type Altavista et pas dans les moteurs nationaux !) Liste des principaux moteurs mondiaux : http://www.uco.fr/services/biblio/cdps/web_moteurs.html#big Uniquement après avoir tout essayé : 4. Tableau récapitulatif -----------------------------------------------------------------------Avantages Inconvénients à utiliser pour Annuaires *sites validés donc intéressants * accès classificatoire donc organisé * nombre limité de réponses * "peu" de réponses * mise à jour aléatoire un sujet simple et connu Moteurs * mise à jour règulière * nombre de sites très importants * pas de vérification des sites * réponses souvent incohérentes une recherche complexe Conclusion : UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 20 -----------------------------------------------------------------------Pour une recherche sur un sujet simple relativement connu, utilisez un annuaire (Nomade par exemple). Pour une recherche plus complexe, internationale ou dont vous ne maîtrisez pas les concepts, utilisez un moteur (Ecila ou Altavista par exemple). Avant de réussir une recherche satisfaisante, il ne faut pas hésiter à tester plusieurs moteurs de recherche ou annuaires avec éventuellement plusieurs équations de recherche et plusieurs mots-clés (pas plus de 3 mots-clés par combinaison mais vous pouvez multiplier les combinaisons) et en relançant la recherche périodiquement (par exemple une fois par mois). Il faut aussi exercer son esprit critique pour éliminer l'information "douteuse" (tout ce qui est publié n'est pas ou plus forcément vrai) ou inutile, les sites personnels des "spécialistes" et les sites commerciaux : privilégiez les auteurs qui citent leurs sources d'information ... A chaque fois que vous consultez un site, demandez-vous qui l'a fait, dans quel objectif, quand, etc ? Avant de lancer une requête, il est profitable de réfléchir à ce que l'on cherche : - Veut-on des documents récents uniquement (il faudra sélectionner une année dans l'interface de recherche avancée), - Veut-on uniquement des documents en langue Française (il faudra utiliser un outil francophone ou choisir language=french dans les moteurs internationaux), etc. ? Quelques minutes à écrire sur une feuille de papier peuvent vous éviter de passer des heures à surfer inutilement ! PLUS LA FORMULATION SERA PRECISE, PLUS LES RESULTATS SERONT PRECIS • La meilleure méthode : = > Une bonne habitude est de noter sur une feuille les 4 ou 5 mots-clés relatifs au sujet (en pensant aux synonymes) et de se fixer des objectifs de résultat. Exemple : je ne veux que des résultats en français et concernant des entreprises. => Pendant la recherche, il est facile de "se perdre" en surfant d'un site à un autre. N'hésitez pas à marquer sur votre feuille de papier les équations de recherche testées, les combinaisons choisies, les outils utilisés, le nombre de réponses, les adresses des sites, etc. => Quand vous trouvez des sites intéressants, n'oubliez pas d'ajouter leur adresse dans vos signets (clic droit de la souris ou clic long/ Ajouter un signet) ou d'imprimer la page d'accueil (l'adresse sera en haut de la feuille) ou de les noter dans un répertoire. => Pour réaliser vos dossiers, vous pouvez "récupérer" l'information textuelle grâce au copier-coller, ainsi que les images (clic droit ou clic long / enregistrer l'image sous)... Attention aux droits d'auteur et n'oubliez pas de citer les sources exactes dans vos documents. Auteur : Hervé Basset Adresse : http://www.uco.fr/services/biblio/cdps/web_recherche_info_4.html UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 21 MOTEURS DE RECHERCHE MOTEURS FRANCAIS Altavista France Voilà Ecila Excite France Infoseek France MONDIAUX Altavista Excite Google Hotbot Northern Light Infoseek Lycos Webcrawler ANNUAIRES FRANCAIS MONDIAUX Yahoo France Lycos Nomade Yahoo Francité Tout sur Tout Lycos fr Qui Quoi Où Voilà UFR d’odontologie de Clermont-Ferrand – 2003 - B.CHAUMEIL http://webodonto.u-clermont1.fr 22