Schéma général d`une URI

Transcription

Schéma général d`une URI
Quelques « adresses
internet »
Référencement et recherche
sur le web
http://www.univ-brest.fr
http://bossa.univ-st-etienne.fr:8080
http://geai.univ-brest.fr/~carpenti/
N.B. Plan du document et exemples tirés de :
http://geai.univ-brest.fr/recherche/index.html#publis
Defosse M.-F. . et al., La recherche d’information,
Formation au C2i,
http://w2.c2imes.org/PDF/B2.pdf
https://www.secure.bnpparibas.net/
ftp://ftp.nai.com
http://w2.c2imes.org/page_B2.html
M2-RT - F.-G. Carpentier - 2013
1
M2-RT - F.-G. Carpentier - 2013
Schéma général d’une URI
2
Syntaxe d’un URI - Partie I
Scheme : protocole utilisé.
URI : Uniform Resource Identifier
Exemples :
URL : Uniform Resource Locator
http : hypertext transfer protocol
Schéma général :
https : http sécurisé
Scheme://nom:mot de passe@
machine.domaine.suffixe:port/
chemin/fichier?parametre=valeur
ftp : file transfert protocole
telnet : telnet
Liste non exhaustive. Essayer par exemple, dans Mozilla
Firefox :
about:plugins ou about:config
M2-RT - F.-G. Carpentier - 2013
3
M2-RT - F.-G. Carpentier - 2013
Syntaxe d’un URI - Partie 2
Syntaxe d’un URI - Partie 3
www.univ-brest.fr
Top level domains
www : nom (ou alias) de la machine serveur
- sur deux lettres : pays (ccTLD)
Ex : .be, .uk, .fr
N.B. De nombreux sites Web ont un nom commençant par
www. Mais ce n’est qu’une convention…
-autres : domaines thématiques (gTLD)
Ex. : .com, .edu, .gov, .info, etc
univ-brest.fr : domaine
- voir :
.fr : suffixe du domaine (top level domain)
http://www.iana.org/domains/root/db/
Exemples : .be, .uk, .eu, .net, .org, .com, .edu
M2-RT - F.-G. Carpentier - 2013
4
5
M2-RT - F.-G. Carpentier - 2013
6
Syntaxe d’un URI - Partie 4
Syntaxe d’un URI - Partie 5
Chemin et fichier :
Hiérarchie de répertoires et nom du fichier demandé
Ex: comparer :
Cas particuliers et remarques :
geai.univ-brest.fr/~carpenti : site personnel de
l’utilisateur carpenti
Technologie utilisée :
geai.univ-brest.fr/secretariats.html : page html
geai.univ-brest.fr/~carpenti/statistiques/table1.php :
page en php
www.rpfrance.eu/spip.php?rubrique=2 : site utilisant le
CMS SPIP
http://ged-ubo.univ-brest.fr
http://ged-ubo.univ-brest.fr:8080
Un serveur Web utilise en général le port 80. Autrement
dit, on pourrait insérer :80 dans la plupart des URI.
Mais, en utilisant d’autres ports, on peut disposer de
plusieurs serveurs sur une même machine.
M2-RT - F.-G. Carpentier - 2013
7
Moteurs et annuaires
M2-RT - F.-G. Carpentier - 2013
Annuaires
Objectif commun : permettre la recherche d’informations
Ce sont des bases de données renseignées manuellement.
• Annuaires
bases de données gérées manuellement par des
documentalistes
• Moteurs de recherche
bases de données alimentées par des robots logiciels
• Méta-moteurs
interrogent en parallèle différents moteurs et compilent les
résultats
Les auteurs proposent leur site au référencement
M2-RT - F.-G. Carpentier - 2013
8
9
Exemples d’annuaires
Un documentaliste apprécie l’intérêt du site, rédige un
descriptif, classe le site dans une catégorie...
• Avantages : bonne qualité générale des informations
fournies
• Inconvénients : en général taille assez réduite
M2-RT - F.-G. Carpentier - 2013
10
Exemple: recherche sur ODP (1)
La Recherche par Navigation
Les “vrais” annuaires deviennent de plus en plus
rares. On peut citer :
Appeler la page http://www.dmoz.org
En descendant dans l'arborescence, trouver dans la rubrique
impressionnisme :
- la rubrique des peintres impressionnistes,
-une liste de sites consacrés à l'impressionnisme.
Sol.: Art - Art History - Periods and movements Impressionism
• Open Directory Project : www.dmoz.org
Il est clair que cette recherche par navigation conduit à des
résultats généraux apportant des informations sur le contexte
du thème cherché.
M2-RT - F.-G. Carpentier - 2013
11
M2-RT - F.-G. Carpentier - 2013
12
Moteurs de recherche
Exemple: recherche sur Yahoo! (2)
La Recherche par mots-clés
Les mots-clés sont entrés dans la boîte de recherche et la recherche sera
faite dans la rubrique concernée ( et non sur l'ensemble du Web ).
Recherche simple
Entrer dans la boîte de recherche le nom d'un peintre impressionniste
connu (par ex. Renoir).
Observer les résultats.
Recherche avancée
Cliquer sur le lien : Advanced Search
Lancer une recherche sur la requête : Renoir OR Monet
Observer les résultats.
M2-RT - F.-G. Carpentier - 2013
• Un robot logiciel (spider, crawler) parcourt le Web à la
recherche de nouvelles pages à indexer
• Le contenu des pages trouvées est indexé dans une base de
données
• Avantages : nombreuses pages indexées
• Inconvénients : fonctionnement peu intelligent.
13
M2-RT - F.-G. Carpentier - 2013
14
Suprématie Google, mais pas
partout…
Exemples de moteurs
Ask.com France : fr.ask.com
Google est très peu implanté dans certaines zones
linguistiques :
Excite : www.excite.com, www.excite.fr
Exalead : www.exalead.fr
- Dans la zone russophone (Russie, Ukraine, etc.) :
Francité : www.francite.com
-Yandex : www.yandex.ru, http://.,
http://www.yandex.com
Google : www.google.com, www.google.fr
Hotbot : www.hotbot.lycos.com, www.hotbot.fr
- En Chine (et au Japon), moteur de recherche en chinois:
Bing : www.bing.com
- Baidu : www.baidu.com
Yahoo! Search : fr.search.yahoo.com
M2-RT - F.-G. Carpentier - 2013
15
M2-RT - F.-G. Carpentier - 2013
16
Nouveaux outils de
recherche
Meta-moteurs
• Interrogent en parallèle plusieurs moteurs de recherche
• Renouveler le concept de moteur de recherche
• Suppriment (en principe) les doublons dans les réponses
obtenues
• Traitement plus «conceptuel» des requêtes
• Renvoient à l’utilisateur une compilation des résultats
Exemple
Exemples de meta-moteurs
• Metacrawler : www.metacrawler.com
• Wolfram Alpha : www.wolframalpha.com
• Dogpile : www.dogpile.com
M2-RT - F.-G. Carpentier - 2013
17
M2-RT - F.-G. Carpentier - 2013
18
Meta-moteur particulier
Limites de la démarche
Moteurs de recherche et annuaires
permettent-ils l’accès à l’ensemble du Web ?
Ixquick : http://www.ixquick.com/fra/
Réponse : pas du tout. Certains auteurs estiment même
que 90 % de l’information présente sur le Web leur échappe
Préserve l’anonymat de la recherche (et éventuellement
permet une consultation anonyme des pages
sélectionnées)
Parmi les obstacles à l’indexation :
- les images, les vidéos
- les documents de formats autres que HTML
- les bases de données et le Web dynamique
Ce n’est pas un cas unique : voir
http://fr.wikipedia.org/wiki/Liste_de_moteurs_de_reche
rche
M2-RT - F.-G. Carpentier - 2013
19
Référencement d’un site
Tous les moteurs et les annuaires proposent des formulaires
permettant de demander l’inscription du site.
Avons-nous une chance de voir le site apparaître dans
les réponses d’un moteur de recherche ?
Pour les annuaires, les indications à fournir sont simples :
- adresse (url) du site
- résumé du contenu
- «catégorie» souhaitée
Exemple : référencement sur ODP : afficher la page
www.dmoz.org, puis cliquer sur «Suggest URL».
Réponse : non, pratiquement aucune, si nous ne
demandons pas le référencement du site, mais il existe
une abondante littérature et des entreprises spécialisées
dans le référencement.
21
Référencement sur un moteur de
recherche
M2-RT - F.-G. Carpentier - 2013
22
Problèmes liés au référencement
Actuellement, l’accès aux outils de référencement impose
l’ouverture d’un compte sur Google.
Encore récemment, pour l’indexation sur un moteur de
recherche, il suffisait d’indiquer la page d’accueil du site.
Le spider explore ensuite les différentes pages en suivant,
de façon récursive, tous les liens rencontrés.
Le référencement «de base» est gratuit, mais il est aussi
possible de payer : SEO : search engine optimization et
SEM: search engine marketing.
Google incite à placer sur le site une page de «validation
HTML». Pour des sites très souvent mis à jour : sitemap,
flux RSS…
Cependant, pour diverses raisons, les moteurs de recherche
ont rendu la procédure plus compliquée.Ex. sur Google :
cherchez «Outils pour les webmasters».
M2-RT - F.-G. Carpentier - 2013
20
Référencement sur un annuaire
Position du problème : nous avons réalisé un site,
qui est mis en ligne chez un hébergeur.
M2-RT - F.-G. Carpentier - 2013
M2-RT - F.-G. Carpentier - 2013
23
Buts de ces procédures : éliminer les sites politiquement
ou éthiquement incorrects, mais aussi collecter des
données personnelles….
M2-RT - F.-G. Carpentier - 2013
24
Problèmes liés au référencement
Un métier : référenceur
Il ne suffit pas de demander le référencement….
Référencement correct : tout à fait crucial pour les
sites commerciaux, et nécessaire pour les autres.
Problèmes de délais : parfois plusieurs mois pour que
notre demande soit prise en compte
D’où un métier (pas vraiment nouveau): référenceur.
De même, pour les moteurs de recherche, délai
important entre deux visites
Voir par exemple :
«blacklisting» volontaire. Voir à ce sujet :
http://cyber.law.harvard.edu/filtering/google/results1.html
M2-RT - F.-G. Carpentier - 2013
http://www.referenceur-independant.fr/
25
Rester référencé…
M2-RT - F.-G. Carpentier - 2013
26
La stratégie Google
J’ai proposé mon site au référencement…
Google évalue la «popularité» d’un site d’après
le nombre de liens pointant vers ce site : page rank
- suis-je sûr de le voir accepté ?
Le calcul du page rank s’est affiné au cours du temps :
prise en compte également du page rank des pages
pointant vers le site.
- restera-t-il référencé ?
- où apparaîtra-t-il dans les réponses des moteurs ?
Voir : http://fr.wikipedia.org/wiki/Page_rank
Pour éviter les stratégies visant à gonfler
artificiellement le page rank d’un site : trust rank.
M2-RT - F.-G. Carpentier - 2013
27
Scoring
M2-RT - F.-G. Carpentier - 2013
Guider les robots indexeurs
En principe, indexation en «texte intégral»
Balises meta :
En fait :
- exploration tronquant les pages trop longues
- poids différents donnés aux différentes parties du document
(titres, parties marquées par des balises <H1>, etc)
- problème des images : renseigner correctement les
attributs ALT=….
<META name=«keywords» content=«…..»>
<META name=«description» content=«…»>
M2-RT - F.-G. Carpentier - 2013
28
29
Normalisation Dublin Core
<META name=«DC.Creator» content….
M2-RT - F.-G. Carpentier - 2013
30
Piloter le robot indexeur
Recherche d’informations
Utiliser les moteurs et les annuaires pour rechercher
de l’information
Le fichier robots.txt. Exemple :
User-agent: *
Disallow: /manual
- les outils ont des capacités variées, mais sont
complémentaires
- ne pas se limiter à un seul moteur
- utiliser les possibilités de recherche «étendue»
User-agent: susedig
Disallow:
Les balises meta robots
<META name=«robots» content=«index,follow»>
M2-RT - F.-G. Carpentier - 2013
31
Syntaxe de recherche sur Google
32
Syntaxe utilisée par Yahoo! Search
http://fr.search.yahoo.com/web/advanced?ei=UTF-8&p=
- par défaut, un ET entre les différents termes spécifiés
- non-prise en compte des mots «vides», sauf s’ils sont
précédés de «+»
- guillemets permettant de spécifier une expression
- caractères accentués ignorés
- ciblage de la recherche : opérateurs link: et site:
- pas de jokers
M2-RT - F.-G. Carpentier - 2013
M2-RT - F.-G. Carpentier - 2013
- Opérateurs booléens : AND (implicite), OR, NOT (ou -)
- Pas de prise en compte des diacritiques, des majuscules
- Singulier / pluriel, etc pris en compte
- Expressions : guillemets
- Indicateurs de «niveau de recherche» :
intitle:
inurl:
site:
Voir aussi : http://siteexplorer.search.yahoo.com/
- inlinks:
33
M2-RT - F.-G. Carpentier - 2013
34
Exemple: recherche simple sur Google
(1)
Recherche simple sur Google
En appliquant ce modèle, eectuer avec Google les recherches
suivantes:
Penser à configurer les options : menu «Paramètres
de recherche» :
- Rechercher des écrivains ou des poètes.
- Pour chacun des poètes ci-dessous, retrouver une page portant
les informations suivantes :
- Arthur Rimbaud : son portrait ( ou sa caricature ), sa
biographie.
- Guillaume Apollinaire : son portrait, sa biographie.
- Georges Brassens : son portrait, sa biographie.
En particulier : langue, saisie semi-automatique, etc
M2-RT - F.-G. Carpentier - 2013
35
M2-RT - F.-G. Carpentier - 2013
36
Exemple: recherche simple sur Google
(2)
Exemple: recherche simple sur Google
(3)
- Rechercher la chanson comportant le morceau de phrase
suivant :
«Les gens qui voient de travers»
- Recherche sur des artistes ou des oeuvres d'art.
- Rechercher des pages significatives sur le peintre français
Antoine Watteau, sa biographie.
- Retrouver le poème portant le bout de phrase :
" Voie lactée ô soeur lumineuse "
- Rechercher directement l'oeuvre suivante :
" Pèlerinage à l'île de Cythère "
M2-RT - F.-G. Carpentier - 2013
37
M2-RT - F.-G. Carpentier - 2013
38
Recherche avancée avec Google: l’ancienne
interface
Exemple: recherche simple sur Google
(4)
Recherche rapide de media, institutions, entreprises, etc...
(Plutôt que d'essayer des URLs approximatives, on lancera une
recherche simple sur le nom cherché : on obtiendra toujours la
page cherchée dans les 2 ou 3 premiers résultats).
Trouver les pages d'accueil suivantes :
En France : l'Université de Toulouse Le Mirail, la mairie de
Toulouse, la mairie de Paris, la mairie de Biarritz, le gouvernement,
l'académie française, le constructeur Peugeot, le musée du Louvre
etc...
Le Monde, Le Figaro, Libération, Le Point, L'Express etc...
A l'étranger : le MIT, la CIA, le FBI, la NASA, la Maison Blanche, le
musée du Prado de Madrid, le musée des Oces de Florence en
Italie, le New York Times, die Welt, the Times, the Guardian, El
Pais, Il Corriere della Sera etc...
M2-RT - F.-G. Carpentier - 2013
39
Recherche avancée avec Google: la nouvelle
interface
M2-RT - F.-G. Carpentier - 2013
40
Préciser sa recherche avec Google
Exemple : vous cherchez des informations sur l’île de Java
- Que renvoie le mot-clé «Java» ?
- Comment préciser la recherche ?
Et si on cherche des information sur la danse du même
nom, sur le langage de programmation Java ?
M2-RT - F.-G. Carpentier - 2013
41
M2-RT - F.-G. Carpentier - 2013
42
Exemple: recherche avancée sur
Google (5)
La recherche d’images
Faire varier les champs de recherche :
Chercher :
Même principe que la recherche de documents textuels,
mais problèmes liés à l’indexation.
- "cours internet" dans les pages,
Google utilise en général :
- soit le nom du fichier
- "cours internet" dans les titres,
- soit le contenu de la balise «alt» dans le code
HTML de la page : <IMG SRC=«toto.jpg»
ALT=«photo de toto»>
- cours internet dans les titres.
Comparer les résultats.
M2-RT - F.-G. Carpentier - 2013
43
M2-RT - F.-G. Carpentier - 2013
Recherche comparée sur Yahoo! et
Google
La recherche d’images (2)
Exercice :
Recherche sur une donnée institutionnelle
Cherchez les portraits d’un personnage connu en utilisant
l’option «images» de Google
Rechercher avec Yahoo! les informations sur les présidents de la
république française ( on s'intéressera aux sites qui sont
strictement dans l'annuaire ).
Affichez le site affichant l’un d’eux
Rechercher avec Google ces mêmes informations ( on s'intéressera
aux pages trouvées directement avec Google ).
Recherchez l’indice à partir duquel Google a pu référencer
cette image. Pour cela, vous devrez sans doute afficher le
code source de la page.
M2-RT - F.-G. Carpentier - 2013
44
45
Recherche comparée sur Yahoo! et
Google
M2-RT - F.-G. Carpentier - 2013
46
Moteur de recherche Exalead
Adresse : http://www.exalead.fr
- Se veut une alternative à Google
- Des possibilités étendues pour affiner la recherche. Par
exemple :
Recherche d'une donnée historique
Rechercher avec Yahoo! des informations brèves sur 4 Châteaux
de la Loire.
Rechercher avec Google ces mêmes informations.
* Types de sites
Recherche d'une donnée de type culture populaire
* Recherche phonétique
Rechercher avec Yahoo! les chansons sur Paris, paroles, auteurs,
compositeurs ( on s'intéressera aux pages qui sont sélectionnées
directement par les requêtes ).
* Orthographe approchée
Rechercher avec Google ces mêmes informations.
M2-RT - F.-G. Carpentier - 2013
47
M2-RT - F.-G. Carpentier - 2013
48
Recherche de publications
scientifiques
Exemple de recherche sur SUDOC (1)
Comparez le nombre de résultats retournés après les
recherches :
Le SUDOC (Système Universitaire de documentation)
est le catalogue collectif des universités françaises.
- vie rurale
Adresse : http://corail.sudoc.abes.fr
- "vie rurale "
Le catalogue de la BU de l’UBO :
Adresse : http://portail-scd.univ-brest.fr/
Solution : les termes sans guillemets retournent plus de 6200
réponses (le système prendra les termes " vie " et " rurale "
indépendamment), alors que l'expression entre guillemets en
retourne 1700 (le système ne prenant que les deux termes
réunis) .
Google Scholar :
Adresse : http://scholar.google.com
M2-RT - F.-G. Carpentier - 2013
49
Exemple de recherche sur SUDOC (2)
M2-RT - F.-G. Carpentier - 2013
Exemple de recherche sur SUDOC (3)
Rechercher les ouvrages de la collection " Que sais-je " sur
la vie rurale
Vous recherchez un article de 1892 paru dans " The
Sewanee Review". Où le trouverez-vous ?
Vous devriez obtenir 6 résultats
Solution : à la BIU Centrale de la Sorbonne et dans les
collections patrimoniales de la BNF. De nombreuses
bibliothèques françaises possèdent cette revue, mais pas
depuis l'origine.
C'est dans l'écran de recherche avancée qu'on peut limiter la
recherche à certains types de documents : thèses, titres de
revues ; vous devez décocher tous les types de documents, en
cliquant sur le lien " aucun ", et cocher la case du type de
document sur lequel vous souhaitez faire votre recherche.
M2-RT - F.-G. Carpentier - 2013
50
51
M2-RT - F.-G. Carpentier - 2013
52
Navigateur Web : Enregistrement
Exemple de recherche sur SUDOC (4)
• Enregistrer une page
Avec Mozilla Firefox : «Web Page - Complete» : avec
les images et la page de style éventuelles, rassemblées
dans un répertoire
M2-RT - F.-G. Carpentier - 2013
53
M2-RT - F.-G. Carpentier - 2013
54
Navigateur Web : Impression
Navigateur Web : Enregistrement (2)
• Récupérer une image, télécharger un fichier .doc, .pdf,
etc
• Imprimer une page
• Page HTML simple : en général sans problème
(sauf caractères blancs sur fond foncé)
Cliquez avec le bouton droit de la souris sur l’image, ou
le lien vers le fichier
• Page comportant des cadres (frames) : de
préférence, affichez le cadre désiré dans une fenêtre,
puis imprimez-la.
Exemple à partir de : http://geai.univbrest.fr/~carpenti/tdm-index.html, puis de l’affichage
des «Tables électroniques»
Dans le menu contextuel qui apparaît, sélectionnez la
commande «Enregistrer l’image sous...», «Enregistrez
le lien sous...»
M2-RT - F.-G. Carpentier - 2013
55
Navigateur Web : Impression (2)
M2-RT - F.-G. Carpentier - 2013
56
Navigateur Web : Gérer les fenêtres
• Imprimer une page (suite)
• Utiliser plusieurs fenêtres, ou plusieurs onglets au
cours de la navigation
Page comportant des tableaux : le comportement dépend
de la manière dont le code de la page a été écrit. Pensez
au format «paysage» ...
Cliquez avec le bouton droit de la souris sur le lien vers
la page cible.
Dans le menu contextuel qui apparaît, sélectionnez la
commande «Ouvrir le lien dans une nouvelle fenêtre»,
«Ouvrir le lien dans un nouvel onglet»
Page d’un site «dynamique» utilisant Javascript, etc :
l’auteur n’a-t-il pas prévu un bouton «imprimer» ou
«version imprimable»
Remarque : Certains liens sont configurés pour ouvrir la
page cible dans une nouvelle fenêtre.
M2-RT - F.-G. Carpentier - 2013
57
Navigateur Web : Favoris ou
bookmarks, cookies
M2-RT - F.-G. Carpentier - 2013
58
Bibliographie
• SAMIER H., SANDOVAL V., la recherche intelligente sur
l’Internet, Hermès
• Conserver l’adresse des sites intéressants
Les navigateurs possèdent un menu «Ajouter aux
signets», «Add to bookmarks», «Ajouter aux favoris»
Menus permettant de gérer ces signets : renommer,
supprimer, structurer de façon hiérarchique...
• DEFOSSE M.-F. et al., La recherche d’information,
Formation au C2i, http://www.c2imes.org/PDF/B2.pdf
• Les cookies : utiles mais peuvent se montrer
envahissants. La plupart peuvent être effacés sans
inconvénient. Cf. menu Préférences > Vie privée dans
Firefox.
M2-RT - F.-G. Carpentier - 2013
59
M2-RT - F.-G. Carpentier - 2013
60