Le SEO n’est pas qu’une affaire de contenu bien rédigé, il y a une grande quantité de critères à respecter. Les moteurs de recherche n’attribuent pas une note à chacune des pages de votre site selon le contenu de celles-ci.

Il y a d’autres facteurs à prendre en compte, aussi bien pour votre référencement que pour votre lecteur. Que va penser un lecteur qui voit plein de pages qui n’ont pas d’intérêt particulier pour lui ? même question pour les moteurs de recherche ? Votre site ne proposant pas que du contenu intéressant, il se verra être rabaissé dans les résultats des moteurs de recherche.

Pour pallier aux problèmes de pertinence de certaines pages, on va parler du fichier robots.txt qui permettra d’éviter l’indexation de certaines pages de votre site pour optimiser le référencement des autres.

Avant de continuer, je tiens à vous rappeler la différence entre indexer et référencer :

  • L’indexation Cette page va être présent dans les résultats des moteurs de recherche. Quel que soit son positionnement. se fait lorsque le robot tombe sur votre page (et encore, pas à tous les coups).
  • Le référencement va être étroitement lié avec la position de la page. Mieux une page est référencée, meilleure sera sa position et donc le trafic engendré.

Une page peut être bien ou mal référencée mais une page ne peut être bien ou mal indexée, elle l’est ou elle ne l’est pas.

On va voir ensemble pourquoi le fichier robots.txt est si important.

Pourquoi le fichier robots.txt est important

Le fichier robots.txt est le premier fichier que Google détecte avec ses robots qui analysent les sites, on dit que les robots « crawl » les sites. La première étape d’un robot en arrivant sur un site est donc de regarder les indications de ce fichier s’il est présent et de prendre note de ces dernières.

Le crawl budget de Google et les facteurs qui l’affecte

Si vous avez beaucoup de page, Google va mettre plus de temps à crawler (visiter et analyser) l’ensemble de votre site et à vérifier si telle page ou telle page n’a pas été modifié, même un tout petit peu. Du coup il y a un nombre limité d’URL qu’il se permet de crawler, cela dépend du « crawl rate limit » ou du taux de limite d’exploration ainsi que du « crawl demand » ou de la demande d’exploration.

Le taux limite d’exploration dépend de 2 facteurs :

  • Crawl health : c’est en quelque sorte les performances du site et du server. Plus votre site et votre hébergeur est bon, mieux ce sera.
  • De la limite définie dans Google Search Console, pour la modifier, le support de Google vous donne un article qui vous explique définir la vitesse de crawl du Googlebot.

La demande d’exploration dépend lui aussi de 2 facteurs

  • La popularité : plus vous êtes connu (en d’autres termes, plus vous avez de backlink de qualité) plus Google voudra que votre contenu soit rafraichi rapidement.
  • Le manque d’actualisation du contenu : Google veut que votre site soit constamment mis à jour pour donner la meilleure expérience.

Pour résumer, le budget crawl est le nombre d’URLs que le Googlebot peut et veut crawler.

Vous souhaitez aider Googlebot à dépenser son crawl budget de la meilleure façon possible pour votre site. Pour ça, il doit explorer les meilleurs pages

Il y a certains facteurs qui, selon Google, « affectent négativement l’exploration et l’indexation d’un site ».

Voici une liste de ces mauvais facteurs :

  • La navigation à facette (les filtres utilisés pour sélectionner des produits sur les sites e-commerce)
  • Les identifiants de session (les pages auxquelles ont accèdent suite à une connexion)
  • Certaines pages d’erreurs
  • Les pages hackées
  • Les pages à faible qualité et le spam

Retour sur les fichiers robots.txt

Imaginez le résultat d’un fichier qui dit quelles pages on veut faire crawler et quelles pages on ne veut pas. Le fichier robots.txt permet de bien gérer le budget crawl de Google et de vous donner un bonus non négligeable en SEO.

Dans le reste de l’article on aborde enfin la pratique et on met en place ce fichier.

Trouver et accéder à son fichier robots.txt

Les fichiers robots.txt se trouvent toujours au même endroit sur votre site. Il se situe toujours à la racine :

www.monsite.fr/robots.txt

Il faut procéder à la vérification sur notre site et être sûr qu’il n’y ait pas d’erreur 404 ou autre chose. Si c’est le cas, on va on ajouter un.

Notez bien qu’il est très important que ce fichier ait le nom « robots » et l’extension «.txt ». Toute faute d’orthographe rendra le fichier illisible donc ne vous trompait pas sur l’écriture de ces neuf caractères. Je compte sur vous.

Pour le trouver et y accéder et d’utiliser un logiciel spécifique pour accéder à l’hébergement de votre site. Pour cela je vous conseille d’utiliser le logiciel Fillezilla client qui vous permettra de vous connecter à ce dernier via le protocole FTP, dont vous avez certainement déjà entendu parler.

Une fois le logiciel installé on vous demande une adresse hôte, un identifiant, un mot de passe, un numéro de port. Tout cela vous est donné lors de l’achat de votre hébergement par mail. En cas de problème je vous invite donc à vous rapprocher de votre hébergeur pour récupérer tout ceci.

Maintenant que vous identifiants sont entrés, il faut se rendre dans le fichier principal nommé, la plupart du temps « www ». Voici donc dans le fichier racine de votre site.

S’il n’est pas déjà présent, c’est ici qu’il faudra donc glisser le fameux fichier.

La création du fichier robots.txt

Voici de quoi se compose un fichier robots.txt, ce n’est rien de très sorcier il n’y a pas besoin de savoir programmer, c’est très simple.

Les instructions sont donc :

  • User-agent :
  • Disallow :
  • Allow :
  • SItemap :

La commande User-Agent sert à dire à quel bot(robot) on s’adresse. Sauf cas particulier, l’idéal est de s’adresser à tous les bots avec la commande :

  • User-agent : *

 

La commande Disallow est la principale, celle qui sert à dire qu’on ne veut pas indexer une page, un fichier ou bien même un répertoire entier. Par exemple :

  • Disallow : /page-non-optimisee (ce qui bloque la page www.monsite.fr/page-non-optimisee)

 

La commande Allow est un peu implicite. Chaque page est déjà en Allow automatiquement. Elle sera utile pour autoriser une petite partie d’un répertoire que l’on n’autorise pas. Pour m’expliquer un peu mieux je n’autorise pas l’indexation de tout le répertoire /author/ mais je veux quand même en garder un ça donnerait :

  • Disallow : /Author/

Allow : /Author/louis-maitreau

 

La commande Sitemap sert à indiquer dans son fichier le positionnement de son fichier Sitemap (fichier opposé au robots.txt, qui sert à donner les pages que l’on souhaite voir indexées) exemple :

Sitemap : https://www.monsite.fr/sitemap

 

Je vous invite à ouvrir un logiciel de traitement de texte comme Word, OpenOffice ou bien même simplement un logiciel comme Bloc-note, disponible sur chaque ordinateur Windows et TextEdit sur Mac. On commence maintenant la rédaction de son fichier robots.txt optimisé

Optimiser son fichier robots.txt

L’optimisation de son fichier robots.txt va dépendre de votre site et des besoins que vous avez. Je vais donc m’efforcer de vous montrer les cas les plus communs.

Je rappelle que vous pouvez empêcher l’indexation de vos pages, non pas bloquer l’accès aux moteurs de recherche. Ces petites bêtes voient tout et sauront vous pénaliser si vous tentez de manipuler leur algorithme.

La meilleure utilisation possible est de ne pas montrer au public les parties « privées » de votre site et donc de ne pas les indexer.

Voici des exemples de page à ne pas indexer

  • Des pages dont le contenu n’est pas intéressant ou que l’on souhaite cacher comme par exemple ses mentions légales, une page de remerciement après avoir rentré son adresse e-mail pour s’inscrire à la newsletter du site…
  • Éviter le contenu dupliqué entre certaines pages. Par exemple la version imprimable de son site
  • Ne pas vouloir indexer des fichiers PDF qui auraient le même contenu que les pages de votre site
  • Ne pas vouloir indexer des images dans Google image
  • Des pages avec un contenu de faible qualité
  • Des fichiers de construction du site comme avec WordPress par exemple.

On peut voir des pages de remerciement directement dans résultats de recherche, ce qui est plutôt bizarre vu que nous n’avons effectué aucune action en particulier.

Le problème c’est que cette directive qu’on donne aux robots ne nous assure pas de ne pas voir les pages sur les index des moteurs de recherche. En effet Disallow empêche simplement le crawl. Il suffit d’avoir un lien vers cette page mise en Disallow et elle se retrouvera quand même indexée. C’est pour cette raison que je veux vous présenter deux autres commandes :

  • Noindex : cette commande viendra en plus de Disallow pour s’assurer que la page n’est réellement pas indexée. Grâce à cela, vous serez sûr à 98 % que votre page ne sera pas indexé (oui il peut quand même arriver qu’elle soit indexée mais on ne peut pas faire grand-chose la)
  • NoFollow : Cette commande va dire au moteur de recherche de ne pas aller sur les liens que vous avez dans la page pour que les robots ne les suivent pas. C’est plutôt utile sur ces liens sont de faibles qualités

Ces deux commandes fonctionnent comme Allow et Disallow.

Les balises Meta robots

Ces balises sont différentes du fichier robots.txt. Elles vont faire le même travail en revanche.

Cette balise va empêcher l’indexation et le suivi des liens

Assurez-vous de vous placer entre les balises <head> et d’y placer la balise <meta name= « robots » content= « noindex »/>

Vous pouvez aussi ajouter la mention nofollow en mettant dans l’attribut content : « noindex, nofollow ».

Pour ceux qui seraient sur WordPress, Yoast simplifie l’insertion de cette balise dans son cadre sous le contenu écrit.

Il suffit de cliquer sur la roue dentée à gauche :

Cadre de yoast pour l'ajout de la meta robots

N’hésitez pas à jeter un œil à mon fichier robots.txt pour vous inspirer. Etant sur WordPress, mon cas est différent. Attention si vous n’utilisez pas ce CMS.

Cependant attention à ne pas se mêler les pinceaux entre le fichier robots et les metas robots. Si vous donner une directive de no index grâce à la meta et une directive de non crawl sur le fichier robots.txt, il peut y avoir des soucis.

Tester le fichier

On commence dans un premier temps par mettre son fichier sur son hebergement via Fillezilla dans le fichier racine comme je l’expliquais précédemment.

Pour tester le fichier robots, on se rend sur Google Search Console et on s’y connecte.

Rendez-vous dans l’onglet exploration à outils de test du fichier robots.txt

Google search console pour l'analyse du fichier robots.txt

Il va falloir attendre un peu que Google voit votre fichier robots et une fois que ce sera fait, vous le verrez apparaitre.

Tester le et vous voilà avec un fichier robots bien optimisé !

Conclusion

La configuration de votre robots.txt va permettre d’aider les moteurs de recherche à mieux référencer votre site en optimisant votre budget crawl mais en plus de ça vous mènerez vos lecteurs aux endroits les plus intéressant pour eux.

La mise en place de ce dernier ne demande que très peu d’effort et est valide sur un long terme. Il est tout à fait possible d’y revenir plus tard en cas d’oubli d’une page ou simplement de publication d’une page non utile aux lecteurs.

Ce fichier peut réellement faire une différence significative donc optimisez le au mieux.

A bientôt pour un prochain article

Share This