Référencement Web

Transcription

Référencement Web
Référencement Web
Martin Descôteaux
Référencement Web
1
Table des matières
Les balises <TITLE> et <META>
La balise keywords
La balise robots
2
3
4
Le fichier robots.txt
5
Le savoir-vivre
Le spamdexing
Le cloaking
7
7
7
Référencement Web
2
Le référencement Web représente l’ensemble des techniques et technologies mises à la
disposition du concepteur Web lui permettant d’inscrire son site Web au sein des différents
moteurs de recherche de la toile. Lorsqu’un utilisateur lance une recherche à l’aide du mot-clé
Lunette au sein de www.google.ca, pourquoi voit-il toujours s’afficher le même site Web en
première position? Puisqu’il est connu que l’utilisateur ne portera vraiment d’attention qu’aux sites
se situant dans les trois premières pages résultants de sa recherche, comment est-il possible que
notre site se retrouve au sein de celles-ci, voir idéalement en tête de celles-ci ? Voilà la nature du
problème du référencement Web. Il suffit de connaître les pratiques des moteurs de recherche
afin de s’assurer la première position au sein des résultats des recherches. Les moteurs de
recherche parcourent les différents sites Web de la toile, les indexent et en suivent les liens afin
de visiter le plus grand nombre possible de sites. Lorsque le moteur de recherche visitera votre
site Web, il utilisera plusieurs techniques afin d’identifier le plus justement que possible le
contenu qui s’y trouve. Il vous suffit maintenant de faciliter la tâche aux moteurs de recherche afin
de s’assurer que votre site Web soit catégorisé correctement à l’aide du bon jeu de mots-clés et,
idéalement, qu’il se retrouve parmi les premiers résultats d’une recherche.
Les balises <TITLE> et <META>
La balise <TITLE> insérée au sein de la balise <HEAD> de vos pages Web prend toute son
importance lorsqu’on sait que plusieurs moteurs de recherche s’en serve pour indexer votre site
Web. Ainsi, il est important d’y insérer non pas seulement le titre de votre page Web mais
également des mots-clés importants pouvant aider à la recherche. Ainsi, la balise <TITLE>
suivante serait insuffisante puisque ne procurant aucune aide à la recherche par mot-clé :
<TITLE>Garage chez Jack</TITLE>
On préférera la balise suivante puisqu’elle incorpore astucieusement certains mots-clés :
<TITLE>Garage chez Jack – Mécanique automobile et diesel</TITLE>
De plus, ce titre ne figurera pas mal à l’entête du navigateur affichant votre page Web.
Les balises <META> insérées au sein de la balise <HEAD> de vos pages Web ont une influence
sur le comportement des moteurs de recherche face à votre site Web. En effet, celles-ci sont
utilisées par les moteurs de recherche afin de déterminer dans quelle catégorie de site se trouve
le vôtre, quels mots-clés l’identifient le plus appropriément, etc. Ainsi, si vous désirez optimiser le
référencement de votre site Web, vous devrez optimiser l’utilisation des balises <META>.
D’abord, notez que, par défaut, les moteurs de recherche parcourront et indexeront l’ensemble
des pages de votre site Web. Cependant, vous désirerez peut-être qu’une seule page ou un
nombre limité de pages fassent office de point d’entrée de votre site Web afin d’éviter qu’une
page n’affichant que des informations très spécifiques et volatiles ne se retrouve indexée par un
moteur de recherche. Ainsi, limitez l’utilisation des balises <META> suivantes aux pages que vous
désirez voir indexées. Les balises <META> sont insérées au sein de la balise <HEAD> et se
présentent généralement sous la forme suivante, c’est-à-dire en incluant un attribut NAME et un
attribut CONTENT :
<META NAME="description" CONTENT="Décrivez ici votre site Web.">
L’attribut NAME identifie le nom de la balise <META> et l’attribut CONTENT en défini son contenu.
Des attributs supplémentaires spécifiques à certaines balises <META> pourront éventuellement
s’ajouter. Notez que la casse n’importe en aucun cas lorsque vous inscrivez des balises <META>.
Référencement Web
3
Voici la liste des balises <META> reconnues et prises en charge par les différents moteurs de
recherche :
Balise <META>
author
description
keywords
robots
category
revisit-after
Description
Nom de l’auteur du site Web.
Description (jusqu’à 200 caractères) du site Web telle qu’elle devrait
apparaître dans l’affichage des résultats d’une recherche.
Liste de mots-clés décrivant votre site Web jusqu’à 1000 caractères. Ces
mots-clés seront utilisés lors des recherches par mots-clés.
Liste d’instructions afin d’orienter les moteurs de recherche lors de
l’indexation de votre site Web.
Catégorie à laquelle appartient votre site Web utilisée lors des recherches
par catégorie (Exemple : yahoo.com).
Délai idéalement souhaité selon lequel vous désirez voir le moteur de
recherche revenir indexer votre site Web.
Voici une description plus approfondie de certaines balises <META> :
La balise keywords
La balise keywords permet de spécifier une liste de mots-clés et peut contenir jusqu’à 1000
caractères. Les différents mots-clés sont séparés les uns des autres par une virgule comme suit :
<META NAME="keywords" CONTENT="pomme de terre, patate, frite">
Il est possible de préciser la langue des mots-clés inclus au sein de la balise keywords à l’aide
de l’attribut lang spécifique à cette balise. Ainsi, il est possible de spécifier plusieurs jeux de
mots-clés en des langues différentes :
<META NAME="keywords" LANG="fr" CONTENT="patates, frites">
<META NAME="keywords" LANG="en" CONTENT="potato, fries">
Référencement Web
4
La balise robots
La balise robots permet d’insérer des instructions destinées au moteur de recherche sur la
façon d’indexer le site Web. Cette balise n’est prise en charge que par les principaux moteurs de
recherche. La balise robots peut se voir attribuer les directives suivantes :
•
index indique que le moteur de recherche doit indexer la page Web en cours.
•
noindex indique que le moteur de recherche ne doit pas indexer la page Web en cours.
•
follow indique le moteur de recherche doit suivre les liens afin d’y trouver d’autres pages
à indexer.
•
nofollow indique le moteur de recherche ne doit pas suivre les liens afin d’y trouver
d’autres pages à indexer.
•
all équivaut à la combinaison index, follow.
•
none équivaut à la combinaison noindex, nofollow.
Voici deux exemples de balises robots valides :
<META NAME="robots" CONTENT="index, follow">
<META NAME="robots" CONTENT="index, nofollow">
N’insérez jamais de directives contradictoires au sein d’une même balise robots et n’insérez
jamais plus d’une balise robots au sein d’une même page Web.
Voici un exemple complet de l’entête <HEAD> d’une page Web bien référencée :
<HEAD>
<TITLE>Titre de votre site Web</TITLE>
<META NAME="author" CONTENT="Nom auteur">
<META NAME="description" CONTENT="Description du site Web avec un
peu moins de 200 caractères."
<META NAME="keywords" LANG="fr" CONTENT="Mot clé, mot, clé">
<META NAME="keywords" LANG="en" CONTENT="keyword, word, key">
<META NAME="robots" CONTENT="index, follow">
<META NAME="revisit-after" CONTENT="30 days">
<META NAME="distribution" CONTENT="global">
<META NAME="reply-to" CONTENT="[email protected]">
<META NAME="identifier" CONTENT="http://www.votresite.com">
</HEAD>
Consultez les outils disponibles afin de connaître la qualité du référencement de votre site Web à
l’adresse suivante :
http://fr.webmasterplan.com/
Référencement Web
5
Le fichier robots.txt
Le fichier robots.txt est utilisé par un grand nombre de moteurs de recherche automatisés
afin de prendre connaissance de la manière d’indexer un site Web. Lorsqu’un moteur de
recherche (aussi connu sous le nom de spider) parcours un site Web à la recherche de pages
à indexer, il tente d’accéder à un fichier robots.txt situé à la racine du répertoire virtuel du
serveur testé. Si le fichier est trouvé, le moteur de recherche le parcours et en récupère
l’information lui permettant de le guider au sein de l’indexation du site Web. Notez que certains
moteurs de recherche sont sensibles à la casse et que, conséquemment, le nom du fichier
robots.txt devrait être entièrement en minuscules.
Ainsi, un fichier robots.txt inséré à la racine du répertoire virtuel de votre site Web pourra
diriger la plupart des moteurs de recherche. Un fichier robots.txt inséré ailleurs qu’à la racine
du répertoire virtuel ne sera en aucun cas accédé par les moteurs de recherche.
Un fichier robots.txt prévoit principalement les directives suivantes :
•
User-agent : Spécifie la liste des indicateurs de moteurs de recherche concernés par le
présent fichier d’indexation.
•
Disallow : Inscription d’une ressource que le moteur de recherche ne doit pas indexer.
La ressource est exprimée sous forme d’un chemin relatif à la racine du serveur.
La directive Allow est présentement à l’état de recommandation mais n’est pas encore reconnu
comme spécification. Il est donc prématuré d’utiliser cette directive.
Voici certains exemples de fichiers robots.txt :
#exemple d’un fichier robots.txt
User-agent: unhipbot
Disallow: /
User-agent: webcrawler
User-agent: excite
Disallow:
User-agent: *
Disallow: /org/plans.html
Allow: /org/
Allow: /serv
Allow: /~mak
Référencement Web
6
Pour empêcher l’accès à l’ensemble du site à l’ensemble des moteurs de recherche :
User-agent: *
Disallow: /
Pour permettre un accès complet au site à l’ensemble des moteurs de recherche :
User-agent: *
Disallow:
Ou créez simplement un fichier robots.txt vide.
Pour empêcher l’accès à l’ensemble du site à un seul moteur spécifique :
User-agent: BadBot
Disallow: /
Pour autoriser l’accès à l’ensemble du site à un seul moteur de recherche spécifique :
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
L’utilisation de caractères génériques n’est pas reconnue afin d’identifier plusieurs fichiers à l’aide
d’une unique expression. Ainsi, les syntaxes du format Disallow : /tmp/* ne sont pas
prises en charge. Donc, pour refuser l’accès aux moteurs de recherche à certains types de
fichiers explicites, placez ceux-ci au sein d’un même répertoire et refusez l’accès à ce répertoire :
#L’ensemble des fichiers non-autorisés se trouvent dans
#le répertoire /docs
User-agent: *
Disallow: /~joe/docs/
Si vous désirez spécifier les indicateurs de moteur de recherche devant répondre à certaines des
directives inscrites au sein du fichier robots.txt de votre site, consultez la liste des moteurs de
recherche actifs au http://www.robotstxt.org/wc/active/html/index.html.
Référencement Web
7
Le Savoir-Vivre
Certaines techniques concernant les moteurs de recherche sont à proscrire lors de l’utilisation de
mots-clés et de fichiers robots.txt sous peine de quoi les moteurs de recherche pourraient en
venir à bannir votre site Web et à en refuser l’indexation.
Le spamdexing
Le spamdexing désigne un ensemble de techniques de référencement considérées comme
abusives par les moteurs de recherche. Les tentatives de spamdexing sont sévèrement
réprimées à chaque fois qu'elles sont détectées par les moteurs de recherche. Ainsi, sont
formellement interdites par l’ensemble des moteurs les pratiques suivantes :
•
Inclure des mots-clés n’ayant aucun rapport avec le contenu du site dans le simple but
d’en accroître le trafic ou tenter de tromper le moteur sur le contenu réel par tout autre
moyen que ce soit;
•
Inclure au sein des mots-clés des noms de marques ne vous appartenant pas;
•
Utiliser des systèmes de création automatique de liens vers votre site afin de fausser le
calcul de popularité effectué par les moteurs de recherche;
•
Harceler les moteurs de demandes d'inscriptions répétées sans tenir compte des
intervalles de soumission acceptés par ceux-ci.
Le cloaking
Le cloaking désigne une technique permettant à un auteur Web de personnaliser le contenu
d’une page Web en fonction de l’utilisateur connecté : internaute ou robot. Le cloaking est
réalisable à l’aide de scripts serveur comme ASP et PHP qui récupèrent le type de navigateur en
cours de navigation et délivrent du contenu personnalisé lorsque le User-Agent vaut, par
exemple, Scooter ou GoogleBot. Quoique cette technique ne soit formellement refusée à cette
heure que par google, elle demeure une technique dont l’usage est controversé qu’il demeure
donc être sage de ne pas utiliser sous peine de peut-être voir votre site être banni des moteurs
de recherche.
Exemple de cloaking en ASP (à éviter) :
<HEAD>
<% strAgent = LCase(Request.ServerVariables("USER_AGENT"))
If InStr(strAgent, "scooter") > 0 Then
<TITLE>Titre pour AltaVista</TITLE>
<% Else
%>
<% If InStr(strAgent, "google") > 0 Then %>
<TITLE>Titre pour Google</TITLE>
<% End If
%>
End If
%>
</HEAD>
%>

Documents pareils