Un site web est constitué d’un ensemble de page qu’on veut proposer ou non à l’index de Google. On se souci beaucoup des pages que l’on veut voir bien placées dans Google mais pas de celles qu’on ne veut pas voir.

Lorsqu’on veut augmenter le nombre de visiteur sur notre site on aura tendance à publier du contenu. Jusqu’à là, ça fonctionne bien si on cible bien nos mots-clés, c’est le principe du marketing de contenu.

C’est mathématique si on se positionne sur un grand nombre de mots-clés, on augmente le nombre de visiteur.

Il peut être intéressant de faire du content pruning (élagage de contenu en français), ce qui consiste à désindexer du contenu pour mieux indexer celui qui est important pour vos visiteurs. C’est un peu comme le Feng Shui dans une maison où on va faire de l’ordre dans l’ameublement pour mieux s’y sentir.

Dans cet article, on va voir comment faire du « Feng Shui dans votre site » pour que Google s’y sente comme chez lui et vous donne des meilleurs résultats.

Comment se passe le crawl et l’indexation

Avant de vous expliquer pourquoi il est intéressant de désindexer du contenu, il faut qu’on parle du crawl et de l’indexation des pages.

Le crawl, c’est la visite de votre site par des robots aussi appelés « spiders » pour araignées en anglais. À la suite du crawl d’une page par un robot, celui-ci décide (ou non) d’indexer la page dans le moteur de recherche qui lui est propre (Google, Bing, Yahoo, …).

Un robot peut aussi récupérer du contenu sur des sites web via le principe du scraping.

Pour faciliter le travail des robots d’indexations, on vient à placer un fichier sitemap qui indique à Google les pages qu’on souhaite voir présentes dans Google.

L’indexation est le fait d’ajouter une page aux index du moteur de recherche, ce qui les rend trouvables à la recherche.

Par défaut, une page est indexable lorsque vous la publiée mais il est tout à fait possible d’empêcher cela.

Voici le principe du crawl et de l’indexation de manière simplifiée :

  1. Ce robot visite l’ensemble d’une page en analysant le code HTML et les liens hypertextes
  2. S’il le souhaite, il index la page
  3. Il visite chaque lien et tombe sur des pages
  4. Le processus recommence

Si vous proposez du contenu de qualité aux moteurs, cela vous rapportera plus de clics, de trafic et de visibilité.

Au contraire, si vous proposez des pages sans intérêts, cela ne vous aidera pas et fera plus de mal que de bien.

Pourquoi désindexer des pages peut augmenter le trafic

L'élagage d'un arbre pour symboliser le content pruning

Cela peut paraitre étrange de supprimer certaines pages de son site pour mieux se positionner.

Mais avec des explications, cela vous paraitra beaucoup plus logique.

La première raison est que vous allez baisser le nombre de page à crawler sur votre site donc augmenter ce qu’on appelle le budget crawl. En faisant cela, on laisse la priorité du crawl aux grosses pages et ne fait pas perdre de temps à Google.

La deuxième est que vous allez optimiser l’expérience utilisateur des internautes. En effet, si vous proposez des pages non intéressantes dans les résultats de recherches, votre taux de clic va diminuer.

Il y a plusieurs exemples de cas où des pages devraient être supprimés de l’index de Google. En voici quelques-unes.

Certains CMS peuvent dupliquer des pages, par exemple avoir une page qui sera disponible à plusieurs adresses. Les moteurs de recherche voient cela comme un manque de qualité. En cas de contenu dupliqué, on peut utiliser les redirections 301 ou les balises canonicales.

On peut également avoir deux versions de son contenu comme par exemple un article et sa version en PDF téléchargeable ou encore une version imprimable de son contenu. L’idée est de n’indexer que l’article.

Il y a également les pages de remerciement suite à une action. Si par exemple, vous avez une page de capture d’email et que suite à l’inscription d’un visiteur celui-ci tombe sur une page de remerciement, vous vous attendez à ce qu’une action soit menée s’il y parvient. Cela implique que cette page de remerciement ne soit pas indexée pour éviter d’être trouvée par la recherche.

Voici un exemple supplémentaire avec un cas concret.

Un cas concret de page à désindexer

Britney Muller du site Moz s’est rendu compte qu’une grande quantité des pages du site étaient des profils comme celui-ci (qui se trouve être le mien) :

Le profil de Louis Maiutreau sur Moz

Le hic, c’est que ça fait beaucoup de pages qui n’ont pas réellement d’intérêts à la recherche. Pourquoi iriez-vous chercher le profil Moz d’une personne ?

En désindexant 75% des profils d’utilisateur du site, il y a eu un gros impact sur le trafic du site.

Il y avait énormément de profils spammy qui n’avaient aucun intérêt pour le site. Les profils étaient juste là pour obtenir un backlink vers leur site. Cela représentait plusieurs milliers de pages.

Actuellement le site fonctionne avec des points pour remercier la communauté. Il faut désormais 200 points pour voir son profil indexé et bénéficier de la pleine puissance du backlink de ce profil. On peut voir que je n’ai que 20 points sur mon profil. Il faut notamment écrire des articles sur Moz pour obtenir des points.

Donc les profils de ceux qui participent sont indexés, ceux qui ne participent pas ne le sont pas. C’est une manière de remercier ceux qui participent.

Si vous proposez ce service à vos visiteurs, sachez que beaucoup vont en profiter pour obtenir un backlink. C’est peut-être l’occasion de demander des services avant d’indexer la page profil de vos utilisateurs. En plus, vous allez probablement obtenir un bon boost dans les résultats de recherche.

Que faire des pages inactives de son site ?

Un autre point important à travailler, est l’ensemble de vos pages sous performantes. Ces pages qui sont présentes sur votre site mais qui n’ont clairement aucune utilité depuis des années puisque personne ne les consultes.

Voici un exemple de ces différentes pages grâce à la Google Search console :

Les pages inactives sur la Google Search Console

Après avoir été dans « Performances » (1), sélectionné les page 2() et trié par clic (3), on peut identifier ces pages qui n’ont pas assez de vues ni mêmes d’impressions.

Assurez-vous en cliquant sur l’URL des pages qu’elles ont réellement peu de vues sur au moins un an.

Vous avez maintenant identifié les pages qui sont sans importances.

Comment désindexer des pages

Maintenant, il faut faire de l’ordre dans les pages que vous proposez à Google. Vous avez votre liste de page « à problème » et il faut en faire quelque chose évidemment.

Avant de vous montrer les façons de désindexer il faut se poser des questions importantes :

  • Est-ce que la page que je veux désindexer est importante pour mon visiteur ?
  • Dois-je forcément désindexer la page ? Ne puis-je pas la supprimer et la rediriger avec une redirection 301 ?

En effet, ces questions sont importantes parce que si personne ne va voir votre contenu, autant la supprimer et rediriger l’URL vers une page au contenu similaire.

Dans le cas où elle peut servir mais que simplement personne n’y accède via les moteurs de recherche, la désindexation est de rigueur.

Les meta robots

La première façon de faire et certainement la plus saine et plus efficace reste de mettre une balise meta robots avec l’attribut « noindex » dans la balise Head du code HTML, de cette façon :

<head>
<meta name= “robots” content= “noindex, nofollow”>
</head>

 

On peut donc voir qu’on utilise une balise meta avec l’attribut name= « robots » pour dire qu’on s’adresse aux robots qui crawl le site. On utilise également un attribut content= « noindex, nofollow » pour dire qu’on ne souhaite pas l’indexation et qu’on ne souhaite pas non plus que les robots suivent les liens qui sont dedans.

On peut changer Noindex par « index » mais dans ce cas, c’est implicite et il n’y a pas d’intérêt de la placer.

Il est également possible de mettre follow à la place du nofollow pour que les robots puissent suivre l’ensemble des liens dans la page.

Si vous ne souhaitez pas empêcher le suivi de l’ensemble des liens, il faudra passer par l’attribut « rel » de la balise <a>, de cette façon :

<a href = « https://www.mondomaine.fr/article-genial/” rel=”nofollow”>

Cela permet de sélectionner un seul lien.

La balise Meta robots est la façon la plus propre d’empêcher l’indexation d’une page.

Vous pouvez mettre cette balise, il suffit d’avoir accès à votre code html de la page en question et d’y insérer le code juste au-dessus.

Pour ceux qui ont un CMS comme WordPress, le plugin Yoast s’occupe très bien de cela :

Ajouter la balise noindex sur une page

X robot tag

Une autre méthode, un peu plus « réservée » à ceux qui aiment mettre la main dans le code est la solution des x robots tag.

Cela consiste à passer par le fichier htaccess pour empêcher le crawl et / ou l’indexation de fichiers dans votre hébergement.

Pour ma part, je l’utilise pour empêcher les moteurs d’accéder aux fichiers PDF et docx qui sont sur mon hébergement, de cette façon :

<files ~ "\.(doc|docx|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Cela vient compléter le rôle des balises Meta puisqu’il n’est pas possible d’en rajouter sur ce genre de document.

À savoir que vous ne pouvez que désindexer des extensions de fichier comme .png, .pdf, .docx etc…

Robots.txt

La troisième méthode et probablement celle qui est la plus connue est le fichier robots.txt. Ce dernier permet d’empêcher le crawl des fichiers, de déclarer des fichiers à ne pas indexer et également de rappeler aux moteurs la localisation du sitemap.

Explication rapide du fonctionnement du fichier robots.txt

C’est un simple fichier texte (.txt) qu’on peut créer avec le bloc note de votre ordinateur. Il doit impérativement être nommé « robots » et porter l’extension « .txt » tout en étant hébergé à la racine du site.

Il est donc disponible à l’adresse monsite.fr/robots.txt

Vous pouvez regarder le mien pour avoir une idée de son allure.

Ce fichier n’est pas obligatoire, certains sites n’en ont pas.

Chaque fichier robots.txt doit ressembler à cela :

User-agent: *
Disallow: /wp-admin/

Après « Disallow » on met le chemin du répertoire (finit par « / ») ou du fichier (ne finit pas par « / ») qu’on souhaite empêcher de crawler.

Il faut bien comprendre que « Disallow » empêche le crawl et non pas l’indexabilité. Il suffit d’un lien vers le fichier pour que celui-ci soit indexé.

Voici mon guide pour faire un bon fichier robots.txt.

Les erreurs à éviter pour désindexer

Cela parait bête mais des erreurs peuvent être faites lorsqu’on désindexe sans réellement savoir comment on fait ou qu’on n’a pas de stratégie.

Voici des exemples de ce qu’il ne faut pas faire :

Éviter l’utilisation de la meta noindex et du robots.txt conjointement

Une erreur commune qui arrive lorsqu’on veut désindexer du contenu est de croire que le fichier robots.txt peut suffire à l’aide d’une indication disallow.

On se rend compte que la page n’est toujours pas désindexée et on place à l’intérieur de la page une balise meta noindex.

En faisant cela, vous demandez aux robots de ne pas crawler (donc visiter) la page tout en lui demandant de ne pas prendre en compte cette page dans l’index. C’est comme rendre une personne sourde et à lui parler ensuite… Cela n’a pas d’effet.

Pour déréférencer du contenu, je vous invite à avoir une stratégie claire :

  • Je désindexe mes pages avec la balise meta robots
  • J’empêche les moteurs de crawler les fichiers de constructions (comme avec WordPress par exemple) grâce aux répertoires avec le robots.txt
  • Je m’assure de ne pas avoir de contenu dupliqué avec mes PDFs et documents Word grâce au X robots Tag, présent dans le htaccess.

Voici un exemple de stratégie (la mienne en l’occurrence).

Mais évidemment, vous pouvez faire différemment, tant que c’est clair, simple et logique.

Ne pas inclure ces pages dans le sitemap

Pour rappel, le fichier sitemap sert à indiquer les pages que vous souhaitez voir dans l’index de Google. C’est une indication que Google va prendre en compte (ou peut-être pas s’il décide que non).

Il est donc contradictoire de dire à Google que vous souhaitez voir une page dans son index puisque vous renseignez celle-ci dans le Sitemap et de placer une balise meta noindex.

Il y a deux sortes de contenu sur votre site :

  1. Celles qui vont renseigner la personne qui recherche. Ce sont des pages de grande qualité (enfin j’espère que c’est bien le cas…)
  2. Celles qui n’ont pas d’intérêt à la recherche mais qui malgré cela, méritent leur place dans votre site web.

Ce sont les pages du premier cas que l’on vient à placer dans un fichier sitemap. Mais ce n’est pas parce qu’une page n’est pas présente qu’elle sera ignorée par Google.

Sachez que si vous utiliser un plugin pour votre sitemap et la génération des balises meta robots no index, les deux se mettront à jour pour éviter cette contradiction.

Pour mieux comprendre votre indexation, je vous invite à taper la commande :

Site:www.mondomaine.fr

Vous verrez l’ensemble des pages indexées. Cela vous permet de comparer directement avec la Google Search Console :

Exemple de couverture dans la Google Search Console

Conclusion

Le référencement nécessite d’avoir une stratégie en proposant le bon contenu à Google. C’est aussi bien valable pour Google, vos visiteurs et même pour vous.

Indexer l’ensemble de vos pages peut faire du tort à votre référencement. Un site web, c’est comme une maison, il faut l’entretenir régulièrement, faire de l’ordre et du ménage. Vous ne pouvez pas laisser les babioles, la poussière et la crasse s’entacher chez vous.

Rappelez-vous de ce que Google attend de vos pages mais également de votre site :

  • Qualité
  • Pertinence

On parle d’optimisation de la page mais il ne faut pas en oublier l’optimisation du site en lui-même !

Vous devez savoir si une page est intéressante à la recherche ou non et ce que vous devez en faire.

Désindexer des pages inutiles vous permettra d’être vu comme un site web ordonné plutôt que plein de désordre. Vous allez booster vos résultats de recherche.

Mais attention ! Il ne faut pas en faire trop, sinon vous allez faire l’effet inverse et perdre du trafic.

J’espère que cet article vous aidera à avoir encore plus de trafic !

À bientôt pour le suivant.

Share This