Schéma général d`une URI
Transcription
Schéma général d`une URI
Quelques « adresses internet » Référencement et recherche sur le web http://www.univ-brest.fr http://bossa.univ-st-etienne.fr:8080 http://geai.univ-brest.fr/~carpenti/ N.B. Plan du document et exemples tirés de : http://geai.univ-brest.fr/recherche/index.html#publis Defosse M.-F. . et al., La recherche d’information, Formation au C2i, http://w2.c2imes.org/PDF/B2.pdf https://www.secure.bnpparibas.net/ ftp://ftp.nai.com http://w2.c2imes.org/page_B2.html M2-RT - F.-G. Carpentier - 2013 1 M2-RT - F.-G. Carpentier - 2013 Schéma général d’une URI 2 Syntaxe d’un URI - Partie I Scheme : protocole utilisé. URI : Uniform Resource Identifier Exemples : URL : Uniform Resource Locator http : hypertext transfer protocol Schéma général : https : http sécurisé Scheme://nom:mot de passe@ machine.domaine.suffixe:port/ chemin/fichier?parametre=valeur ftp : file transfert protocole telnet : telnet Liste non exhaustive. Essayer par exemple, dans Mozilla Firefox : about:plugins ou about:config M2-RT - F.-G. Carpentier - 2013 3 M2-RT - F.-G. Carpentier - 2013 Syntaxe d’un URI - Partie 2 Syntaxe d’un URI - Partie 3 www.univ-brest.fr Top level domains www : nom (ou alias) de la machine serveur - sur deux lettres : pays (ccTLD) Ex : .be, .uk, .fr N.B. De nombreux sites Web ont un nom commençant par www. Mais ce n’est qu’une convention… -autres : domaines thématiques (gTLD) Ex. : .com, .edu, .gov, .info, etc univ-brest.fr : domaine - voir : .fr : suffixe du domaine (top level domain) http://www.iana.org/domains/root/db/ Exemples : .be, .uk, .eu, .net, .org, .com, .edu M2-RT - F.-G. Carpentier - 2013 4 5 M2-RT - F.-G. Carpentier - 2013 6 Syntaxe d’un URI - Partie 4 Syntaxe d’un URI - Partie 5 Chemin et fichier : Hiérarchie de répertoires et nom du fichier demandé Ex: comparer : Cas particuliers et remarques : geai.univ-brest.fr/~carpenti : site personnel de l’utilisateur carpenti Technologie utilisée : geai.univ-brest.fr/secretariats.html : page html geai.univ-brest.fr/~carpenti/statistiques/table1.php : page en php www.rpfrance.eu/spip.php?rubrique=2 : site utilisant le CMS SPIP http://ged-ubo.univ-brest.fr http://ged-ubo.univ-brest.fr:8080 Un serveur Web utilise en général le port 80. Autrement dit, on pourrait insérer :80 dans la plupart des URI. Mais, en utilisant d’autres ports, on peut disposer de plusieurs serveurs sur une même machine. M2-RT - F.-G. Carpentier - 2013 7 Moteurs et annuaires M2-RT - F.-G. Carpentier - 2013 Annuaires Objectif commun : permettre la recherche d’informations Ce sont des bases de données renseignées manuellement. • Annuaires bases de données gérées manuellement par des documentalistes • Moteurs de recherche bases de données alimentées par des robots logiciels • Méta-moteurs interrogent en parallèle différents moteurs et compilent les résultats Les auteurs proposent leur site au référencement M2-RT - F.-G. Carpentier - 2013 8 9 Exemples d’annuaires Un documentaliste apprécie l’intérêt du site, rédige un descriptif, classe le site dans une catégorie... • Avantages : bonne qualité générale des informations fournies • Inconvénients : en général taille assez réduite M2-RT - F.-G. Carpentier - 2013 10 Exemple: recherche sur ODP (1) La Recherche par Navigation Les “vrais” annuaires deviennent de plus en plus rares. On peut citer : Appeler la page http://www.dmoz.org En descendant dans l'arborescence, trouver dans la rubrique impressionnisme : - la rubrique des peintres impressionnistes, -une liste de sites consacrés à l'impressionnisme. Sol.: Art - Art History - Periods and movements Impressionism • Open Directory Project : www.dmoz.org Il est clair que cette recherche par navigation conduit à des résultats généraux apportant des informations sur le contexte du thème cherché. M2-RT - F.-G. Carpentier - 2013 11 M2-RT - F.-G. Carpentier - 2013 12 Moteurs de recherche Exemple: recherche sur Yahoo! (2) La Recherche par mots-clés Les mots-clés sont entrés dans la boîte de recherche et la recherche sera faite dans la rubrique concernée ( et non sur l'ensemble du Web ). Recherche simple Entrer dans la boîte de recherche le nom d'un peintre impressionniste connu (par ex. Renoir). Observer les résultats. Recherche avancée Cliquer sur le lien : Advanced Search Lancer une recherche sur la requête : Renoir OR Monet Observer les résultats. M2-RT - F.-G. Carpentier - 2013 • Un robot logiciel (spider, crawler) parcourt le Web à la recherche de nouvelles pages à indexer • Le contenu des pages trouvées est indexé dans une base de données • Avantages : nombreuses pages indexées • Inconvénients : fonctionnement peu intelligent. 13 M2-RT - F.-G. Carpentier - 2013 14 Suprématie Google, mais pas partout… Exemples de moteurs Ask.com France : fr.ask.com Google est très peu implanté dans certaines zones linguistiques : Excite : www.excite.com, www.excite.fr Exalead : www.exalead.fr - Dans la zone russophone (Russie, Ukraine, etc.) : Francité : www.francite.com -Yandex : www.yandex.ru, http://., http://www.yandex.com Google : www.google.com, www.google.fr Hotbot : www.hotbot.lycos.com, www.hotbot.fr - En Chine (et au Japon), moteur de recherche en chinois: Bing : www.bing.com - Baidu : www.baidu.com Yahoo! Search : fr.search.yahoo.com M2-RT - F.-G. Carpentier - 2013 15 M2-RT - F.-G. Carpentier - 2013 16 Nouveaux outils de recherche Meta-moteurs • Interrogent en parallèle plusieurs moteurs de recherche • Renouveler le concept de moteur de recherche • Suppriment (en principe) les doublons dans les réponses obtenues • Traitement plus «conceptuel» des requêtes • Renvoient à l’utilisateur une compilation des résultats Exemple Exemples de meta-moteurs • Metacrawler : www.metacrawler.com • Wolfram Alpha : www.wolframalpha.com • Dogpile : www.dogpile.com M2-RT - F.-G. Carpentier - 2013 17 M2-RT - F.-G. Carpentier - 2013 18 Meta-moteur particulier Limites de la démarche Moteurs de recherche et annuaires permettent-ils l’accès à l’ensemble du Web ? Ixquick : http://www.ixquick.com/fra/ Réponse : pas du tout. Certains auteurs estiment même que 90 % de l’information présente sur le Web leur échappe Préserve l’anonymat de la recherche (et éventuellement permet une consultation anonyme des pages sélectionnées) Parmi les obstacles à l’indexation : - les images, les vidéos - les documents de formats autres que HTML - les bases de données et le Web dynamique Ce n’est pas un cas unique : voir http://fr.wikipedia.org/wiki/Liste_de_moteurs_de_reche rche M2-RT - F.-G. Carpentier - 2013 19 Référencement d’un site Tous les moteurs et les annuaires proposent des formulaires permettant de demander l’inscription du site. Avons-nous une chance de voir le site apparaître dans les réponses d’un moteur de recherche ? Pour les annuaires, les indications à fournir sont simples : - adresse (url) du site - résumé du contenu - «catégorie» souhaitée Exemple : référencement sur ODP : afficher la page www.dmoz.org, puis cliquer sur «Suggest URL». Réponse : non, pratiquement aucune, si nous ne demandons pas le référencement du site, mais il existe une abondante littérature et des entreprises spécialisées dans le référencement. 21 Référencement sur un moteur de recherche M2-RT - F.-G. Carpentier - 2013 22 Problèmes liés au référencement Actuellement, l’accès aux outils de référencement impose l’ouverture d’un compte sur Google. Encore récemment, pour l’indexation sur un moteur de recherche, il suffisait d’indiquer la page d’accueil du site. Le spider explore ensuite les différentes pages en suivant, de façon récursive, tous les liens rencontrés. Le référencement «de base» est gratuit, mais il est aussi possible de payer : SEO : search engine optimization et SEM: search engine marketing. Google incite à placer sur le site une page de «validation HTML». Pour des sites très souvent mis à jour : sitemap, flux RSS… Cependant, pour diverses raisons, les moteurs de recherche ont rendu la procédure plus compliquée.Ex. sur Google : cherchez «Outils pour les webmasters». M2-RT - F.-G. Carpentier - 2013 20 Référencement sur un annuaire Position du problème : nous avons réalisé un site, qui est mis en ligne chez un hébergeur. M2-RT - F.-G. Carpentier - 2013 M2-RT - F.-G. Carpentier - 2013 23 Buts de ces procédures : éliminer les sites politiquement ou éthiquement incorrects, mais aussi collecter des données personnelles…. M2-RT - F.-G. Carpentier - 2013 24 Problèmes liés au référencement Un métier : référenceur Il ne suffit pas de demander le référencement…. Référencement correct : tout à fait crucial pour les sites commerciaux, et nécessaire pour les autres. Problèmes de délais : parfois plusieurs mois pour que notre demande soit prise en compte D’où un métier (pas vraiment nouveau): référenceur. De même, pour les moteurs de recherche, délai important entre deux visites Voir par exemple : «blacklisting» volontaire. Voir à ce sujet : http://cyber.law.harvard.edu/filtering/google/results1.html M2-RT - F.-G. Carpentier - 2013 http://www.referenceur-independant.fr/ 25 Rester référencé… M2-RT - F.-G. Carpentier - 2013 26 La stratégie Google J’ai proposé mon site au référencement… Google évalue la «popularité» d’un site d’après le nombre de liens pointant vers ce site : page rank - suis-je sûr de le voir accepté ? Le calcul du page rank s’est affiné au cours du temps : prise en compte également du page rank des pages pointant vers le site. - restera-t-il référencé ? - où apparaîtra-t-il dans les réponses des moteurs ? Voir : http://fr.wikipedia.org/wiki/Page_rank Pour éviter les stratégies visant à gonfler artificiellement le page rank d’un site : trust rank. M2-RT - F.-G. Carpentier - 2013 27 Scoring M2-RT - F.-G. Carpentier - 2013 Guider les robots indexeurs En principe, indexation en «texte intégral» Balises meta : En fait : - exploration tronquant les pages trop longues - poids différents donnés aux différentes parties du document (titres, parties marquées par des balises <H1>, etc) - problème des images : renseigner correctement les attributs ALT=…. <META name=«keywords» content=«…..»> <META name=«description» content=«…»> M2-RT - F.-G. Carpentier - 2013 28 29 Normalisation Dublin Core <META name=«DC.Creator» content…. M2-RT - F.-G. Carpentier - 2013 30 Piloter le robot indexeur Recherche d’informations Utiliser les moteurs et les annuaires pour rechercher de l’information Le fichier robots.txt. Exemple : User-agent: * Disallow: /manual - les outils ont des capacités variées, mais sont complémentaires - ne pas se limiter à un seul moteur - utiliser les possibilités de recherche «étendue» User-agent: susedig Disallow: Les balises meta robots <META name=«robots» content=«index,follow»> M2-RT - F.-G. Carpentier - 2013 31 Syntaxe de recherche sur Google 32 Syntaxe utilisée par Yahoo! Search http://fr.search.yahoo.com/web/advanced?ei=UTF-8&p= - par défaut, un ET entre les différents termes spécifiés - non-prise en compte des mots «vides», sauf s’ils sont précédés de «+» - guillemets permettant de spécifier une expression - caractères accentués ignorés - ciblage de la recherche : opérateurs link: et site: - pas de jokers M2-RT - F.-G. Carpentier - 2013 M2-RT - F.-G. Carpentier - 2013 - Opérateurs booléens : AND (implicite), OR, NOT (ou -) - Pas de prise en compte des diacritiques, des majuscules - Singulier / pluriel, etc pris en compte - Expressions : guillemets - Indicateurs de «niveau de recherche» : intitle: inurl: site: Voir aussi : http://siteexplorer.search.yahoo.com/ - inlinks: 33 M2-RT - F.-G. Carpentier - 2013 34 Exemple: recherche simple sur Google (1) Recherche simple sur Google En appliquant ce modèle, eectuer avec Google les recherches suivantes: Penser à configurer les options : menu «Paramètres de recherche» : - Rechercher des écrivains ou des poètes. - Pour chacun des poètes ci-dessous, retrouver une page portant les informations suivantes : - Arthur Rimbaud : son portrait ( ou sa caricature ), sa biographie. - Guillaume Apollinaire : son portrait, sa biographie. - Georges Brassens : son portrait, sa biographie. En particulier : langue, saisie semi-automatique, etc M2-RT - F.-G. Carpentier - 2013 35 M2-RT - F.-G. Carpentier - 2013 36 Exemple: recherche simple sur Google (2) Exemple: recherche simple sur Google (3) - Rechercher la chanson comportant le morceau de phrase suivant : «Les gens qui voient de travers» - Recherche sur des artistes ou des oeuvres d'art. - Rechercher des pages significatives sur le peintre français Antoine Watteau, sa biographie. - Retrouver le poème portant le bout de phrase : " Voie lactée ô soeur lumineuse " - Rechercher directement l'oeuvre suivante : " Pèlerinage à l'île de Cythère " M2-RT - F.-G. Carpentier - 2013 37 M2-RT - F.-G. Carpentier - 2013 38 Recherche avancée avec Google: l’ancienne interface Exemple: recherche simple sur Google (4) Recherche rapide de media, institutions, entreprises, etc... (Plutôt que d'essayer des URLs approximatives, on lancera une recherche simple sur le nom cherché : on obtiendra toujours la page cherchée dans les 2 ou 3 premiers résultats). Trouver les pages d'accueil suivantes : En France : l'Université de Toulouse Le Mirail, la mairie de Toulouse, la mairie de Paris, la mairie de Biarritz, le gouvernement, l'académie française, le constructeur Peugeot, le musée du Louvre etc... Le Monde, Le Figaro, Libération, Le Point, L'Express etc... A l'étranger : le MIT, la CIA, le FBI, la NASA, la Maison Blanche, le musée du Prado de Madrid, le musée des Oces de Florence en Italie, le New York Times, die Welt, the Times, the Guardian, El Pais, Il Corriere della Sera etc... M2-RT - F.-G. Carpentier - 2013 39 Recherche avancée avec Google: la nouvelle interface M2-RT - F.-G. Carpentier - 2013 40 Préciser sa recherche avec Google Exemple : vous cherchez des informations sur l’île de Java - Que renvoie le mot-clé «Java» ? - Comment préciser la recherche ? Et si on cherche des information sur la danse du même nom, sur le langage de programmation Java ? M2-RT - F.-G. Carpentier - 2013 41 M2-RT - F.-G. Carpentier - 2013 42 Exemple: recherche avancée sur Google (5) La recherche d’images Faire varier les champs de recherche : Chercher : Même principe que la recherche de documents textuels, mais problèmes liés à l’indexation. - "cours internet" dans les pages, Google utilise en général : - soit le nom du fichier - "cours internet" dans les titres, - soit le contenu de la balise «alt» dans le code HTML de la page : <IMG SRC=«toto.jpg» ALT=«photo de toto»> - cours internet dans les titres. Comparer les résultats. M2-RT - F.-G. Carpentier - 2013 43 M2-RT - F.-G. Carpentier - 2013 Recherche comparée sur Yahoo! et Google La recherche d’images (2) Exercice : Recherche sur une donnée institutionnelle Cherchez les portraits d’un personnage connu en utilisant l’option «images» de Google Rechercher avec Yahoo! les informations sur les présidents de la république française ( on s'intéressera aux sites qui sont strictement dans l'annuaire ). Affichez le site affichant l’un d’eux Rechercher avec Google ces mêmes informations ( on s'intéressera aux pages trouvées directement avec Google ). Recherchez l’indice à partir duquel Google a pu référencer cette image. Pour cela, vous devrez sans doute afficher le code source de la page. M2-RT - F.-G. Carpentier - 2013 44 45 Recherche comparée sur Yahoo! et Google M2-RT - F.-G. Carpentier - 2013 46 Moteur de recherche Exalead Adresse : http://www.exalead.fr - Se veut une alternative à Google - Des possibilités étendues pour affiner la recherche. Par exemple : Recherche d'une donnée historique Rechercher avec Yahoo! des informations brèves sur 4 Châteaux de la Loire. Rechercher avec Google ces mêmes informations. * Types de sites Recherche d'une donnée de type culture populaire * Recherche phonétique Rechercher avec Yahoo! les chansons sur Paris, paroles, auteurs, compositeurs ( on s'intéressera aux pages qui sont sélectionnées directement par les requêtes ). * Orthographe approchée Rechercher avec Google ces mêmes informations. M2-RT - F.-G. Carpentier - 2013 47 M2-RT - F.-G. Carpentier - 2013 48 Recherche de publications scientifiques Exemple de recherche sur SUDOC (1) Comparez le nombre de résultats retournés après les recherches : Le SUDOC (Système Universitaire de documentation) est le catalogue collectif des universités françaises. - vie rurale Adresse : http://corail.sudoc.abes.fr - "vie rurale " Le catalogue de la BU de l’UBO : Adresse : http://portail-scd.univ-brest.fr/ Solution : les termes sans guillemets retournent plus de 6200 réponses (le système prendra les termes " vie " et " rurale " indépendamment), alors que l'expression entre guillemets en retourne 1700 (le système ne prenant que les deux termes réunis) . Google Scholar : Adresse : http://scholar.google.com M2-RT - F.-G. Carpentier - 2013 49 Exemple de recherche sur SUDOC (2) M2-RT - F.-G. Carpentier - 2013 Exemple de recherche sur SUDOC (3) Rechercher les ouvrages de la collection " Que sais-je " sur la vie rurale Vous recherchez un article de 1892 paru dans " The Sewanee Review". Où le trouverez-vous ? Vous devriez obtenir 6 résultats Solution : à la BIU Centrale de la Sorbonne et dans les collections patrimoniales de la BNF. De nombreuses bibliothèques françaises possèdent cette revue, mais pas depuis l'origine. C'est dans l'écran de recherche avancée qu'on peut limiter la recherche à certains types de documents : thèses, titres de revues ; vous devez décocher tous les types de documents, en cliquant sur le lien " aucun ", et cocher la case du type de document sur lequel vous souhaitez faire votre recherche. M2-RT - F.-G. Carpentier - 2013 50 51 M2-RT - F.-G. Carpentier - 2013 52 Navigateur Web : Enregistrement Exemple de recherche sur SUDOC (4) • Enregistrer une page Avec Mozilla Firefox : «Web Page - Complete» : avec les images et la page de style éventuelles, rassemblées dans un répertoire M2-RT - F.-G. Carpentier - 2013 53 M2-RT - F.-G. Carpentier - 2013 54 Navigateur Web : Impression Navigateur Web : Enregistrement (2) • Récupérer une image, télécharger un fichier .doc, .pdf, etc • Imprimer une page • Page HTML simple : en général sans problème (sauf caractères blancs sur fond foncé) Cliquez avec le bouton droit de la souris sur l’image, ou le lien vers le fichier • Page comportant des cadres (frames) : de préférence, affichez le cadre désiré dans une fenêtre, puis imprimez-la. Exemple à partir de : http://geai.univbrest.fr/~carpenti/tdm-index.html, puis de l’affichage des «Tables électroniques» Dans le menu contextuel qui apparaît, sélectionnez la commande «Enregistrer l’image sous...», «Enregistrez le lien sous...» M2-RT - F.-G. Carpentier - 2013 55 Navigateur Web : Impression (2) M2-RT - F.-G. Carpentier - 2013 56 Navigateur Web : Gérer les fenêtres • Imprimer une page (suite) • Utiliser plusieurs fenêtres, ou plusieurs onglets au cours de la navigation Page comportant des tableaux : le comportement dépend de la manière dont le code de la page a été écrit. Pensez au format «paysage» ... Cliquez avec le bouton droit de la souris sur le lien vers la page cible. Dans le menu contextuel qui apparaît, sélectionnez la commande «Ouvrir le lien dans une nouvelle fenêtre», «Ouvrir le lien dans un nouvel onglet» Page d’un site «dynamique» utilisant Javascript, etc : l’auteur n’a-t-il pas prévu un bouton «imprimer» ou «version imprimable» Remarque : Certains liens sont configurés pour ouvrir la page cible dans une nouvelle fenêtre. M2-RT - F.-G. Carpentier - 2013 57 Navigateur Web : Favoris ou bookmarks, cookies M2-RT - F.-G. Carpentier - 2013 58 Bibliographie • SAMIER H., SANDOVAL V., la recherche intelligente sur l’Internet, Hermès • Conserver l’adresse des sites intéressants Les navigateurs possèdent un menu «Ajouter aux signets», «Add to bookmarks», «Ajouter aux favoris» Menus permettant de gérer ces signets : renommer, supprimer, structurer de façon hiérarchique... • DEFOSSE M.-F. et al., La recherche d’information, Formation au C2i, http://www.c2imes.org/PDF/B2.pdf • Les cookies : utiles mais peuvent se montrer envahissants. La plupart peuvent être effacés sans inconvénient. Cf. menu Préférences > Vie privée dans Firefox. M2-RT - F.-G. Carpentier - 2013 59 M2-RT - F.-G. Carpentier - 2013 60