Référencement Web
Transcription
Référencement Web
Référencement Web Martin Descôteaux Référencement Web 1 Table des matières Les balises <TITLE> et <META> La balise keywords La balise robots 2 3 4 Le fichier robots.txt 5 Le savoir-vivre Le spamdexing Le cloaking 7 7 7 Référencement Web 2 Le référencement Web représente l’ensemble des techniques et technologies mises à la disposition du concepteur Web lui permettant d’inscrire son site Web au sein des différents moteurs de recherche de la toile. Lorsqu’un utilisateur lance une recherche à l’aide du mot-clé Lunette au sein de www.google.ca, pourquoi voit-il toujours s’afficher le même site Web en première position? Puisqu’il est connu que l’utilisateur ne portera vraiment d’attention qu’aux sites se situant dans les trois premières pages résultants de sa recherche, comment est-il possible que notre site se retrouve au sein de celles-ci, voir idéalement en tête de celles-ci ? Voilà la nature du problème du référencement Web. Il suffit de connaître les pratiques des moteurs de recherche afin de s’assurer la première position au sein des résultats des recherches. Les moteurs de recherche parcourent les différents sites Web de la toile, les indexent et en suivent les liens afin de visiter le plus grand nombre possible de sites. Lorsque le moteur de recherche visitera votre site Web, il utilisera plusieurs techniques afin d’identifier le plus justement que possible le contenu qui s’y trouve. Il vous suffit maintenant de faciliter la tâche aux moteurs de recherche afin de s’assurer que votre site Web soit catégorisé correctement à l’aide du bon jeu de mots-clés et, idéalement, qu’il se retrouve parmi les premiers résultats d’une recherche. Les balises <TITLE> et <META> La balise <TITLE> insérée au sein de la balise <HEAD> de vos pages Web prend toute son importance lorsqu’on sait que plusieurs moteurs de recherche s’en serve pour indexer votre site Web. Ainsi, il est important d’y insérer non pas seulement le titre de votre page Web mais également des mots-clés importants pouvant aider à la recherche. Ainsi, la balise <TITLE> suivante serait insuffisante puisque ne procurant aucune aide à la recherche par mot-clé : <TITLE>Garage chez Jack</TITLE> On préférera la balise suivante puisqu’elle incorpore astucieusement certains mots-clés : <TITLE>Garage chez Jack – Mécanique automobile et diesel</TITLE> De plus, ce titre ne figurera pas mal à l’entête du navigateur affichant votre page Web. Les balises <META> insérées au sein de la balise <HEAD> de vos pages Web ont une influence sur le comportement des moteurs de recherche face à votre site Web. En effet, celles-ci sont utilisées par les moteurs de recherche afin de déterminer dans quelle catégorie de site se trouve le vôtre, quels mots-clés l’identifient le plus appropriément, etc. Ainsi, si vous désirez optimiser le référencement de votre site Web, vous devrez optimiser l’utilisation des balises <META>. D’abord, notez que, par défaut, les moteurs de recherche parcourront et indexeront l’ensemble des pages de votre site Web. Cependant, vous désirerez peut-être qu’une seule page ou un nombre limité de pages fassent office de point d’entrée de votre site Web afin d’éviter qu’une page n’affichant que des informations très spécifiques et volatiles ne se retrouve indexée par un moteur de recherche. Ainsi, limitez l’utilisation des balises <META> suivantes aux pages que vous désirez voir indexées. Les balises <META> sont insérées au sein de la balise <HEAD> et se présentent généralement sous la forme suivante, c’est-à-dire en incluant un attribut NAME et un attribut CONTENT : <META NAME="description" CONTENT="Décrivez ici votre site Web."> L’attribut NAME identifie le nom de la balise <META> et l’attribut CONTENT en défini son contenu. Des attributs supplémentaires spécifiques à certaines balises <META> pourront éventuellement s’ajouter. Notez que la casse n’importe en aucun cas lorsque vous inscrivez des balises <META>. Référencement Web 3 Voici la liste des balises <META> reconnues et prises en charge par les différents moteurs de recherche : Balise <META> author description keywords robots category revisit-after Description Nom de l’auteur du site Web. Description (jusqu’à 200 caractères) du site Web telle qu’elle devrait apparaître dans l’affichage des résultats d’une recherche. Liste de mots-clés décrivant votre site Web jusqu’à 1000 caractères. Ces mots-clés seront utilisés lors des recherches par mots-clés. Liste d’instructions afin d’orienter les moteurs de recherche lors de l’indexation de votre site Web. Catégorie à laquelle appartient votre site Web utilisée lors des recherches par catégorie (Exemple : yahoo.com). Délai idéalement souhaité selon lequel vous désirez voir le moteur de recherche revenir indexer votre site Web. Voici une description plus approfondie de certaines balises <META> : La balise keywords La balise keywords permet de spécifier une liste de mots-clés et peut contenir jusqu’à 1000 caractères. Les différents mots-clés sont séparés les uns des autres par une virgule comme suit : <META NAME="keywords" CONTENT="pomme de terre, patate, frite"> Il est possible de préciser la langue des mots-clés inclus au sein de la balise keywords à l’aide de l’attribut lang spécifique à cette balise. Ainsi, il est possible de spécifier plusieurs jeux de mots-clés en des langues différentes : <META NAME="keywords" LANG="fr" CONTENT="patates, frites"> <META NAME="keywords" LANG="en" CONTENT="potato, fries"> Référencement Web 4 La balise robots La balise robots permet d’insérer des instructions destinées au moteur de recherche sur la façon d’indexer le site Web. Cette balise n’est prise en charge que par les principaux moteurs de recherche. La balise robots peut se voir attribuer les directives suivantes : • index indique que le moteur de recherche doit indexer la page Web en cours. • noindex indique que le moteur de recherche ne doit pas indexer la page Web en cours. • follow indique le moteur de recherche doit suivre les liens afin d’y trouver d’autres pages à indexer. • nofollow indique le moteur de recherche ne doit pas suivre les liens afin d’y trouver d’autres pages à indexer. • all équivaut à la combinaison index, follow. • none équivaut à la combinaison noindex, nofollow. Voici deux exemples de balises robots valides : <META NAME="robots" CONTENT="index, follow"> <META NAME="robots" CONTENT="index, nofollow"> N’insérez jamais de directives contradictoires au sein d’une même balise robots et n’insérez jamais plus d’une balise robots au sein d’une même page Web. Voici un exemple complet de l’entête <HEAD> d’une page Web bien référencée : <HEAD> <TITLE>Titre de votre site Web</TITLE> <META NAME="author" CONTENT="Nom auteur"> <META NAME="description" CONTENT="Description du site Web avec un peu moins de 200 caractères." <META NAME="keywords" LANG="fr" CONTENT="Mot clé, mot, clé"> <META NAME="keywords" LANG="en" CONTENT="keyword, word, key"> <META NAME="robots" CONTENT="index, follow"> <META NAME="revisit-after" CONTENT="30 days"> <META NAME="distribution" CONTENT="global"> <META NAME="reply-to" CONTENT="[email protected]"> <META NAME="identifier" CONTENT="http://www.votresite.com"> </HEAD> Consultez les outils disponibles afin de connaître la qualité du référencement de votre site Web à l’adresse suivante : http://fr.webmasterplan.com/ Référencement Web 5 Le fichier robots.txt Le fichier robots.txt est utilisé par un grand nombre de moteurs de recherche automatisés afin de prendre connaissance de la manière d’indexer un site Web. Lorsqu’un moteur de recherche (aussi connu sous le nom de spider) parcours un site Web à la recherche de pages à indexer, il tente d’accéder à un fichier robots.txt situé à la racine du répertoire virtuel du serveur testé. Si le fichier est trouvé, le moteur de recherche le parcours et en récupère l’information lui permettant de le guider au sein de l’indexation du site Web. Notez que certains moteurs de recherche sont sensibles à la casse et que, conséquemment, le nom du fichier robots.txt devrait être entièrement en minuscules. Ainsi, un fichier robots.txt inséré à la racine du répertoire virtuel de votre site Web pourra diriger la plupart des moteurs de recherche. Un fichier robots.txt inséré ailleurs qu’à la racine du répertoire virtuel ne sera en aucun cas accédé par les moteurs de recherche. Un fichier robots.txt prévoit principalement les directives suivantes : • User-agent : Spécifie la liste des indicateurs de moteurs de recherche concernés par le présent fichier d’indexation. • Disallow : Inscription d’une ressource que le moteur de recherche ne doit pas indexer. La ressource est exprimée sous forme d’un chemin relatif à la racine du serveur. La directive Allow est présentement à l’état de recommandation mais n’est pas encore reconnu comme spécification. Il est donc prématuré d’utiliser cette directive. Voici certains exemples de fichiers robots.txt : #exemple d’un fichier robots.txt User-agent: unhipbot Disallow: / User-agent: webcrawler User-agent: excite Disallow: User-agent: * Disallow: /org/plans.html Allow: /org/ Allow: /serv Allow: /~mak Référencement Web 6 Pour empêcher l’accès à l’ensemble du site à l’ensemble des moteurs de recherche : User-agent: * Disallow: / Pour permettre un accès complet au site à l’ensemble des moteurs de recherche : User-agent: * Disallow: Ou créez simplement un fichier robots.txt vide. Pour empêcher l’accès à l’ensemble du site à un seul moteur spécifique : User-agent: BadBot Disallow: / Pour autoriser l’accès à l’ensemble du site à un seul moteur de recherche spécifique : User-agent: WebCrawler Disallow: User-agent: * Disallow: / L’utilisation de caractères génériques n’est pas reconnue afin d’identifier plusieurs fichiers à l’aide d’une unique expression. Ainsi, les syntaxes du format Disallow : /tmp/* ne sont pas prises en charge. Donc, pour refuser l’accès aux moteurs de recherche à certains types de fichiers explicites, placez ceux-ci au sein d’un même répertoire et refusez l’accès à ce répertoire : #L’ensemble des fichiers non-autorisés se trouvent dans #le répertoire /docs User-agent: * Disallow: /~joe/docs/ Si vous désirez spécifier les indicateurs de moteur de recherche devant répondre à certaines des directives inscrites au sein du fichier robots.txt de votre site, consultez la liste des moteurs de recherche actifs au http://www.robotstxt.org/wc/active/html/index.html. Référencement Web 7 Le Savoir-Vivre Certaines techniques concernant les moteurs de recherche sont à proscrire lors de l’utilisation de mots-clés et de fichiers robots.txt sous peine de quoi les moteurs de recherche pourraient en venir à bannir votre site Web et à en refuser l’indexation. Le spamdexing Le spamdexing désigne un ensemble de techniques de référencement considérées comme abusives par les moteurs de recherche. Les tentatives de spamdexing sont sévèrement réprimées à chaque fois qu'elles sont détectées par les moteurs de recherche. Ainsi, sont formellement interdites par l’ensemble des moteurs les pratiques suivantes : • Inclure des mots-clés n’ayant aucun rapport avec le contenu du site dans le simple but d’en accroître le trafic ou tenter de tromper le moteur sur le contenu réel par tout autre moyen que ce soit; • Inclure au sein des mots-clés des noms de marques ne vous appartenant pas; • Utiliser des systèmes de création automatique de liens vers votre site afin de fausser le calcul de popularité effectué par les moteurs de recherche; • Harceler les moteurs de demandes d'inscriptions répétées sans tenir compte des intervalles de soumission acceptés par ceux-ci. Le cloaking Le cloaking désigne une technique permettant à un auteur Web de personnaliser le contenu d’une page Web en fonction de l’utilisateur connecté : internaute ou robot. Le cloaking est réalisable à l’aide de scripts serveur comme ASP et PHP qui récupèrent le type de navigateur en cours de navigation et délivrent du contenu personnalisé lorsque le User-Agent vaut, par exemple, Scooter ou GoogleBot. Quoique cette technique ne soit formellement refusée à cette heure que par google, elle demeure une technique dont l’usage est controversé qu’il demeure donc être sage de ne pas utiliser sous peine de peut-être voir votre site être banni des moteurs de recherche. Exemple de cloaking en ASP (à éviter) : <HEAD> <% strAgent = LCase(Request.ServerVariables("USER_AGENT")) If InStr(strAgent, "scooter") > 0 Then <TITLE>Titre pour AltaVista</TITLE> <% Else %> <% If InStr(strAgent, "google") > 0 Then %> <TITLE>Titre pour Google</TITLE> <% End If %> End If %> </HEAD> %>