B2 : Rechercher l`information - Julien Tesson

Transcription

B2 : Rechercher l`information - Julien Tesson
Domaine B2
B2 : Rechercher
l'information
KARINE SILINI
UNIVERSITÉ DU LITTORAL CÔTE D'OPALE
SUPPORT DE COURS EN LIBRE DIFFUSION
Version du 11 octobre 2009
Table des matières
B2 : Rechercher l'information
5
B2.1 : Distinguer les différents types d'outils de recherche..........................5
1. Le fonctionnement du Web....................................................................5
2. La mise en place d'un site.....................................................................8
3. Les outils de recherche.......................................................................11
B2.2 : Formaliser les requêtes de recherche............................................14
1. Le web invisible.................................................................................14
2. La recherche avancée.........................................................................14
3. Qu'avez-vous retenu ?........................................................................15
B2.3 : Récupérer et savoir utiliser les informations...................................15
1.
2.
3.
4.
La fiabilité.........................................................................................15
La récupération sur le Web..................................................................16
L'utilisation.......................................................................................16
Qu'avez-vous retenu ?........................................................................17
3
B2 : Rechercher
l'information
-
. B2.1 : Distinguer les différents types d'outils de
recherche
1. Le fonctionnement du Web
L'hypertexte
Définition : Un système hypertexte
Un système hypertexte est un système contenant des documents liés entre eux
par des liens hypertextes (ou hyperliens).
Lorsque ces documents sont audiovisuels, on parle de documents hypermédias.
Une page web comme celle-ci1 est un document
hypermédia contenant du texte, des images et des
hyperliens vers d'autres pages.
Définition : Le langage HTML
Le langage HTML (HyperText Markup Language) est un langage de balisage
permettant d'écrire de l'hypertexte.
Les pages web sont écrites en HTML.
Image 1 : Code HTML d'une page web
1 - http://c2i.univ-littoral.fr/site/
5
B2 : Rechercher l'information
Le site Web
Définition : Une page Web
Une page Web est un document hypertexte écrit en langage HTML.
Elle s'affiche à l'aide d'un navigateur web et peut contenir du texte, des images, du
son, ... et des liens hypertextes vers d'autres documents.
Définition : Un site Web
Un site Web est un ensemble de pages web reliées entre elles par des hyperliens.
Voici un exemple de site Web composé de 4 pages
reliées entre elles.
Pour voir le site, suivre ce lien2
Le serveur Web
Définition : Un serveur web
Un serveur web est un ordinateur hôte qui contient des pages web et les met à la
disposition du net.
Image 2 : Serveur web
Message "Impossible d'afficher la page"
Si lors de votre navigation, vous obtenez le message «impossible d'afficher la
page», réactualiser le chargement de la page.
Si ce message persiste, c'est que la page web n'est plus accessible :


soit la page n'existe plus
soit le serveur web est éteint ou déconnecté d'Internet
2 - http://c2i.univ-littoral.fr/site
6
B2 : Rechercher l'information
Le World Wide Web
Définition : Le World Wide Web
Les liens hypertextes des pages web peuvent référencer des pages du même
ordinateur ou des pages de serveurs web distants.
On peut ainsi parcourir le monde en quelques clics. C'est ce que l'on appelle surfer
sur la toile.
Cet ensemble de liens qui parcourent la planète peut être comparé à une toile
d'araignée mondiale : c'est le World Wide Web ou www.
Image 3 : La toile
Temps de téléchargement d'une page web
Quand vous téléchargez une page pour la première fois, le temps de
téléchargement dépend de la taille des objets présents sur la page (images,
sons, ...).
Lors de votre prochaine visite sur cette page, l'affichage sera beaucoup plus rapide
car un certain nombre de fichiers sont temporairement conservés sur votre disque.
La mise à jour des sites
Définition
Il existe 2 types de site web :


Les sites statiques sont constitués de pages web dont le contenu est
constant sauf si le concepteur du site fait une modification
Les sites dynamiques sont constitués de pages dont le contenu dépend
d'une base de données qui peut se mettre à jour automatiquement
Exemple d'un site statique
Ce site3 est un site statique.
Les informations qu'il contient ont été placé dans les
pages par le webmaster.
Attention, un site statique peut avoir des
animations !
7
B2 : Rechercher l'information
Exemple d'un site dynamique
Un
site
de
réservation
en
ligne
comme
http://www.voyages-sncf.com4
est
un
site
dynamique.
Dès que vous avez validé votre réservation, cette
place n'est plus disponible à la vente !
Qu'avez-vous retenu ?
Que signifie www ?
Habituellement appelée la
qui relient les
en français, c'est l'ensemble des liens
web entre elles.
Ces pages sont hébergées sur des
qui doivent être en permanence
allumés et connectés à Internet pour être accessibles.
Certains sites affichent des informations provenant de bases de données : ce sont
des sites
.
2. La mise en place d'un site
Le principe
Pour créer un site web, il faut procéder en deux étapes :


il faut d'abord créer et tester le site sur votre ordinateur c'est à dire
concevoir les pages web, les relier entre elles et tester la navigation
Puis, il faut le publier chez un hébergeur c'est à dire recopier le site sur
un ordinateur hôte à l'aide d'un logiciel client de transfert ftp.
Image 4 : La publication
3 - http://c2i.univ-littoral.fr/site
4 - http://www.voyages-sncf.com
8
B2 : Rechercher l'information
La conception du site
En général, un site web est composé de :




plusieurs pages web reliées entre elles
d'images
de documents (pdf, ...)
de feuilles de style, ...
Les fichiers sont organisés ainsi :



En général, le fichier de la première page du
site s'appelle «index»
Les images sont des fichiers indépendants qui
sont affichées en même temps que la page
Web
Une même image peut être présente sur plusieurs pages Web
La publication
Vous devez disposer d'un espace de publication chez un hébergeur :
Votre entreprise dispose peut-être de serveurs Web
 Votre FAI peut vous proposer ce service (Orange, Free, ...)
 Vous pouvez prendre un abonnement chez un hébergeur spécialisé (Amen,
OVH, ...) dont le coût est minime (à partir de 10 € par an)
 Vous pouvez vous inscrire chez un hébergeur gratuit mais attention à la
publicité ...
Dès que vous possédez un compte chez un hébergeur, celui-ci vous communique
des identifiants de connexion : nom du serveur, nom d'utilisateur et mot de
passe ...

Vous devez transférer votre site :
Il s'agit de recopier votre site complet (tous les
fichiers : pages web, images, ...) vers votre espace
de publication à l'aide d'un logiciel client de transfert
FTP
Dès que la connexion est établie, il suffit de faire glisser les fichiers vers le site
distant.
Exemple : FileZilla est un logiciel client FTP libre
Le nom de domaine
Une solution pour accéder à un site web, est d'indiquer l'adresse IP du serveur.
Par exemple : http://213.41.30.169/5 est l'adresse du serveur Web de la CNIL.
Mais ce n'est pas très facile à retenir !
5 - http://213.41.30.169/
9
B2 : Rechercher l'information
Image 5 : Nom de domaine
Définition : Un nom de domaine
Pour faciliter l'accès aux sites Web, on peut «louer» un nom de domaine.
Il s'agit d'un nom composé de deux parties : un nom d'usage et un suffixe
caractérisant la nature du domaine.
Lorsqu'un internaute saisit un nom de domaine, le navigateur envoie d'abord une
requête à un serveur DNS (Domain Name System) qui contient la liste des noms
de domaines associés à leur adresse IP avant de pouvoir demander le
téléchargement de la page.
Exemples de noms de domaines :




«wikipedia.org» : le suffixe org pour des projets communautaires
«commentcamarche.net» : le suffixe net pour des sites relatifs à l'internet
«microsoft.com» : le suffixe com pour des sites à vocation commerciale
«univ-littoral.fr» : le suffixe fr pour les sites français
L'adresse Web
Les sous-domaines
Il est possible de déclarer des sous-domaines pour une branche spécifique du
domaine.
Le domaine principal est caractérisé par le préfixe «www».


www.wikipedia.org6 est le domaine principal de wikipedia
fr.wikipedia.org7 est le sous-domaine pour la version française.
www.univ-littoral.fr8 est le domaine principal de l'ULCO
c2i.univ-littoral.fr9 est le sous-domaine pour le C2i à l'ULCO.
portail.univ-littoral10 est le sous-domaine pour le portail de l'ULCO
Définition : Une adresse Web
Une adresse Web identifie de façon unique une page du Web. Elle est composée :



du protocole (http, https) suivi de «://»
du nom de domaine (précédé éventuellement d'un nom de sous-domaine)
et éventuellement de la désignation d'une page web particulière (chemin
d'accès + nom de la page). Par défaut, c'est la page «index» qui sera
chargée ...
6 - http://www.wikipedia.org
7 - http://fr.wikipedia.org/
8 - http://www.univ-littoral.fr/
9 - http://c2i.univ-littoral.fr/
10 - http://portail.univ-littoral.fr/
10
B2 : Rechercher l'information
Exemples d'adresses Web :




http://www.univ-littoral.fr
http://www.univ-littoral.fr/form/formation.htm
http://c2i.univ-littoral.fr/site
https://opale.univ-littoral.fr
L'URL
Définition : URL
D'une façon plus générale, une information du web est identifiée de façon unique
pour son URL (Uniform Resource Locator) composée :



du protocole (http, ftp, file, mailto, ...) suivi de «://»
de la localisation de la ressource (nom de domaine, adresse IP, ...)
du nom de la ressource (chemin d'accès et nom du fichier, ...)
Exemples d'URL :



http://c2i.univlittoral.fr/documents/modalites2009.pdf
ftp://ftp.microsoft.com/
mailto://[email protected]
Qu'avez-vous retenu ?
Un site web est composé de
hypertextes. Elles sont écrites en langage
web reliées entre elles par des liens
.
Une fois le site testé sur votre ordinateur, vous devrez le transférer chez un
à l'aide d'un logiciel client de transfert
.
Vous ne devrez pas seulement transférer les pages web de votre site, mais
également les
des images référencées.
Pour consulter un site web, il faut saisir son
Web dans le navigateur.
Si celle-ci contient un nom de
, un serveur
sera consulté
pour récupérer l'adresse
du serveur Web correspondant.
D'une façon générale, toute ressource du Web est identifiée par son
.
3. Les outils de recherche
Les deux méthodes
11
B2 : Rechercher l'information
La toile est l'ensemble de toutes les pages web mises
à disposition du net par des personnes du monde
entier.
Ces pages peuvent être mises à jour régulièrement.
C'est une immense source d'informations à quelques
clics de chez vous.
Mais comment trouver la bonne page dans cette
gigantesque toile d'araignée mondiale ?
Définition : La recherche sur le web
Il existe deux méthodes différentes pour rechercher de l'information sur le web :


en interrogeant un moteur de recherche
en consultant un annuaire de recherche
Les moteurs de recherche
Définition : Moteur de recherche
Un moteur de recherche est un site web dont la principale fonctionnalité est la
recherche de ressources par mots clés.
Il fonctionne ainsi :
1. Il explore régulièrement la toile à l'aide de robots qui parcourent les sites
de façon automatique (sans intervention humaine) et suivent tous les liens
rencontrés
2. Il indexe les pages visitées en rangeant les mots significatifs de la page
dans une base de données
3. Il répond à la requête d'un internaute en affichant par ordre de
pertinence les pages indexées dans sa base de données qui correspondent
le mieux à la requête
Concernant les requêtes
Chaque moteur a ses propres règles pour établir la
pertinence d'une page par rapport à une requête.
Mais on peut quand même citer ces quelques règles :
Les mots clés doivent être voisins sur la page
 Les mots clés non significatifs (le, la une,
à, ...) sont exclus de la recherche
Pour optimiser l'indexation des pages web, les
concepteurs de sites placent des mots clés dans l'entête de leur code HTML. Ces informations ne sont pas visibles mais guident les
moteurs de recherche dans leur indexation.

Les annuaires de recherche
Définition : Annuaire de recherche
Un annuaire de recherche est un site web proposant un référencement de pages
web classées par thème de façon arborescente.
La mise à jour de cet annuaire est faite manuellement par des ressources
humaines.
12
B2 : Rechercher l'information
Un annuaire recense moins de pages qu'un moteur de recherche automatisé mais
elles sont théoriquement plus pertinentes.
Image 6 : Annuaire de recherche
Les autres outils
On peut également utiliser :



Un métamoteur : site web qui interroge
plusieurs moteurs de recherche et présente
une liste fusionnée des résultats.
Un moteur de recherche qui présente ses
résultats sous forme de carte heuristique
...
Image 7 : Wikimindmap
13
B2 : Rechercher l'information
Qu'avez-vous retenu ?
Pour trouver une information sur le web, on peut par exemple utiliser Google qui
est un
de recherche connu. Vous indiquez une liste de mots
et il recherche dans ses bases de données les pages
qui ont été visitées automatiquement par ses
.
Si vous ne savez pas sur quels mots faire une recherche, vous pouvez parcourir
l'arborescence d'un
de recherche qui classe ses pages par thèmes.
Pour avoir le maximum de résultats, vous pourrez avoir recours à un
qui consulte simultanément plusieurs moteurs de recherche.
. B2.2 : Formaliser les requêtes de recherche
1. Le web invisible
Tout est-il indexé et accessible via les moteurs de recherche classique ?
Non.
Les moteurs de recherche classiques indexent des pages en parcourant les
hyperliens. Certaines ressources ne peuvent pas être atteintes de cette façon. C'est
le cas des :


Pages dynamiques qui sont générées en réponse à un formulaire.
Pages non pointées par des hyperliens
 Pages à accès limité, ...
On estime que moins de 10% des ressources du web sont accessibles par
les moteurs de recherche classique !
Définition : Le Web invisible ou Web profond
Le Web invisible est la partie du web accessible en ligne mais non indexée par les
moteurs de recherche classiques.
Le Web invisible comprend entre autres les bases de données, les bibliothèques en
ligne, ...
On peut y accéder en interrogeant des catalogues spécifiques ...
Exemple
SUDOC (Système Universitaire de Documentation) est le catalogue collectif des
Universités françaises.
2. La recherche avancée
Concernant la partie du Web indexée par les moteurs de recherche classiques, il est
possible de formuler des requêtes spécifiques pour affiner la recherche.
14
B2 : Rechercher l'information
La recherche par mots clés
En général, quand vous indiquez plusieurs mots clés
pour votre recherche :


il exclut les mots non significatifs (le, la, une,
à, ...)
il recherche les pages contenant tous les mots clés relativement proches sur
la page.
La recherche avancée
Il est possible d'affiner la recherche :


Soit en passant par la recherche avancée ...
Soit en personnalisant votre requête :
-> en mettant un - devant les mots à exclure
-> en mettant les expressions exactes entre
guillemets
-> en proposant une liste de mots au choix
séparés par OR
3. Qu'avez-vous retenu ?
Une petite recherche sur le Web ? Pas de problème ...
On tape quelques mots
dans Google, et c'est parti ...
Pour affiner sa recherche, on peut même passer par la recherche
.
Mais tout le Web est-il accessible ainsi ?
, près de 90% des ressources accessibles en ligne font partie du Web
ou profond. Elles ne sont pas référencées par les moteurs de
classiques.
Certaines ressources comme celles des bibliothèques sont répertoriées dans des
.
. B2.3 : Récupérer et savoir utiliser les informations
1. La fiabilité
Vous venez de trouver une information sur le Web. Est-elle fiable ?
Il est difficile de répondre avec certitude mais on peut se poser quelques questions
qui peuvent aider à se faire une opinion ...
Concernant la ressource et son auteur


L'auteur est-il identifié ?
Connaît-on sa fonction ou ses compétences ?
L'article est-il daté ?
Est-il rédigé correctement ?
15
B2 : Rechercher l'information
Concernant le site

S'agit-il d'un site officiel ?
Une organisation identifiée, une université, un site du gouvernement, un
blog, des pages perso, ...

Peut-on identifier à qui appartient le nom de domaine ?
En consultant le Whois ...

Le site semble-t-il de qualité et à jour ?
Y- a-t-il des liens inactifs, des publicités, ...
Remarque : Wikipédia
Wikipédia est une encyclopédie libre. Tout le monde peut y contribuer. Est-ce une
source d'information fiable ?
En règle générale, on peut dire que l'information y est fiable. Ayant de nombreux
lecteurs pouvant intervenir, une information fausse ne devrait pas rester longtemps
en ligne ...
2. La récupération sur le Web
Pour récupérer simplement du texte :
Faire un copier/coller
Pour récupérer une image :

Faire un clic droit sur l'image et choisir "Enregistrer l'image sous ..."
Pour récupérer un fichier pointé :


Faire un clic droit sur le lien et choisir "Enregistrer la cible du lien sous ..."
Pour récupérer une page web :
Choisir la commande "Enregistrer sous" dans le
navigateur
Si vous précisez "Page Web complète", il
enregistrera la page web sur votre disque et
créera un dossier contenant les images ( et
autres ressources éventuelles de la page)
 Si
vous
précisez
"Page
Web,
HTML
uniquement", il enregistrera la page web mais
vous n'aurez pas les images ...
Dans tous les cas, vous n'aurez pas les autres pages du site ...

3. L'utilisation
Attention
Ce n'est pas parce que vous avez réussi à récupérer une ressource sur la toile que
vous pouvez l'exploiter !
Vous avez trouvé un site web très intéressant !
Vous avez réussi à en récupérer un texte, un schéma, une image, une notice, ...
16
B2 : Rechercher l'information
Que pouvez-vous en faire ?


S'il s'agit d'une ressource libre, vous pouvez l'utiliser en citant l'auteur.
Sinon, vous devez demander l'autorisation à l'auteur pour l'utiliser.
Remarque : Comment citer un document ?
Il y a des règles à respecter pour citer un document. Elles vous seront présentées
dans le module de méthodologie documentaire ...
4. Qu'avez-vous retenu ?
Vous avez trouvé une page Web intéressante et vous voulez l'enregistrer sur votre
disque.
Si vous voulez récupérer les images avec, il faut l'enregistrer en tant que page web
.
Si vous voulez simplement récupérer une image ou un pdf en téléchargement, il
suffit de faire apparaître le menu
et de choisir l'action adéquate.
Mais attention ! Tout ce que vous récupérez sur la toile ne peut pas forcément être
exploiter librement.
Dans tous les cas, vous devez au minimum citer l'
.
17