Robots.txt : Définition

Le Robots.txt est le nom commun d’un fichier texte téléchargé dans le répertoire racine d’un site Web. Il est lié dans le code HTML du site Web. Le fichier robots.txt s’utilise pour fournir des instructions sur le site Web aux robots Web et aux robots.

Les auteurs Web peuvent utiliser le fichier robots.txt pour empêcher les spiders (les robots des moteurs de recherche) d’accéder à une partie d’un site Web que vous souhaitez garder privé.

Chaque agent utilisateur de moteur de recherche qui visite votre site recherche d’abord un fichier robots.txt. Ce fichier peut les guider à travers votre site. Cela les aide à choisir des pages à indexer ou crawler sur internet. Par conséquent, c’est un aspect très important pour votre site Web.

L’utilisation du fichier robots.txt

Il se place normalement dans le dossier racine du site. Un éditeur de texte comme le Bloc-notes peut servir pour le créer.

Une fois le fichier créé, il doit prendre le nom précis de “robots.txt”, sinon il ne sera pas reconnu.

Il peut y avoir plusieurs lignes dans le fichier. une premier qui définit à quels robots est-ce qu’on s’adresse ( Il n’y a pas que Google), une deuxième pour donner les instructions et une dernière pour indiquer l’adresse du sitemap.

Voici un exemple simple et court de robots.txt :

Utilisateur-agent : googlebot
Disallow : /mise-en-scene/
Sitemap: https://www.monsite.fr/sitemap.xml

Vous devez être très prudent lorsque vous ajoutez des instructions au fichier robots.txt. Une mauvaise instruction peut égarer le moteur de recherche et il peut ignorer toutes les pages importantes de votre site. Cela peut affecter considérablement les performances de votre site Web.

Pourquoi désindexer une page avec le robots.txt?

Indiquer aux robots d’exploration les pages d’un site à ignorer est le travail principal d’un fichier robots.txt. Plusieurs raisons existent pour lesquelles les administrateurs de sites peuvent vouloir que les moteurs de recherche ignorent des pages :

  • Des informations sensibles
  • les pages de travail en cours
  • Des pages sans intérêts pour la recherche
  • les fichiers de construction du site, etc.

Éviter le conflit entre fichier robots.txt et la balise meta robots no index

Attention, il existe plusieurs moyens de ne pas indexer du contenu. Si vous venez à utiliser les deux instructions, elles peuvent rentrer en contradiction et ne pas désindexer le contenu. Veillez à utiliser l’une ou l’autre !

L’utilité finale du robots.txt

Le fichier robots.txt sert surtout à éviter l’indexation des fichiers de construction d’un site, notamment pour les CMS. Utilisez la balise meta robots no index pour désindexer des pages.

De plus, la commande Disallow sert à empêcher le crawl et non pas l’indexation. Un simple lien vers un fichier qui est en disallow et il se retrouve indexé.

N’hésitez pas à voir comment faire un bon fichier robots.txt.

Une photo de Louis Maitreau

Bonjour, Je suis Louis Maîtreau, Consultant SEO.

J’accompagne celles et ceux qui souhaitent améliorer leur référencement naturel pour arriver dans les premières pages de résultats sur Google.

Le but ? Augmenter le trafic sur le site et  par conséquent augmenter le chiffre d’affaires.

Pour cela, je vous propose un accompagnement personnel via des prestations de consulting ou alors je vous propose de vous former directement sur mon site à l’aide des formations en ligne avec un espace privé.

Vous trouverez également des guides et des articles sur le référencement naturel mis en ligne sur le site.

Bon courage dans cette course au référencement.

Bandeau dans la sidebar pour promouvoir les services de consultant SEO

Abonnez-vous !

Cliquez sur le bouton pour vous abonner à ma chaîne YouTube et recevoir mes derniers conseils :

Icone Youtube pour s'abonner à la chaine

Share This