Un des fléaux pour Google est bien le duplicate content ou le contenu dupliqué en français !

Dans sa course à la pertinence, quel est pour lui l’intérêt de proposer deux pages qui ont un contenu identique ? Certainement aucun.

Cela peut provenir de plein de points différents :

  • La description de votre entreprise peut avoir des similitudes avec celle d’un concurrent
  • Un texte qui présente un produit dans votre boutique e-commerce
  • Un article dans lequel vous citez un passage d’un autre site
  • Du contenu généré par votre CMS
  • Une phrase formulée de la même manière qu’un autre site

Les possibilités sont énormes !

En y réfléchissant bien, il est impossible de faire un contenu qui soit 100% unique et qui ne vienne pas à être dupliqué un minimum ! Le but est simplement de s’assurer qu’il y en ait le moins possible

Selon une étude de SEMrush, le contenu dupliqué est le problème le plus fréquent dans les sites. En effet, il y a 50% des sites web qui ont des problèmes de contenu dupliqués.

Une statistique de SEMrush : 50 % des sites ont du duplicate content

Le duplicate content, c’est quoi ?

Google défini le contenu dupliqué comme étant : « des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires »

Si vous venez à faire des du copier-coller de contenu, on rentre typiquement dans du contenu dupliqué.

Plus la duplication est volumineuse, plus cela peut avoir un effet négatif sur votre référencement.

Voici les différentes formes de contenus dupliqués :

Au sein du même domaine

Cela peut se produire au sein d’un même domaine avec les possibilités suivantes

Contenu structurel

Le contenu structurel est ce qu’on retrouve sur l’ensemble de vos pages :

  • Le menu de navigation dans l’entête (header), la sidebar, le pied de page (footer)…
  • Certains endroits spécifiques qu’on peut retrouver sur l’ensemble du site (bar au-dessus du header, menu secondaire déroulant…)
  • Certains fichiers de construction et quelques balises. Notamment JS / CSS, les classes et ID …

Les sites web sont tous constitués de la même façon. C’est-à-dire un header, un footer et parfois une sidebar. Tout cela nous fourni du contenu ainsi que des liens qui seront visibles sur l’ensemble du site.

Ce genre de contenu est connu des moteurs de recherches et savent que ce sont des conventions de conception de site web. Cependant, attention à ne pas abuser avec les liens pour ne pas perdre de jus.

Le problème de Duplicate URL Same Text

Pour faire simple, le Duplicate URL Same Text consiste à avoir différentes URLs qui dirigent vers des pages différentes dont le contenu est identique.

Voici un exemple :

  • fr
  • monsite.fr
  • http://monsite.fr
  • htts://www.monsite.fr
  • https://monsite.fr/

On pourrait faire tout une quantité de variantes, mais celles cités au-dessus sont suffisantes pour que vous compreniez

Lorsque vous utilisez suffisamment le web, vous êtes habitués à ce que les adresses redirigent vers une page unique.

Si vos redirections sont mal faites, vous risquez d’avoir des gros problèmes en termes de référencement.

Causés par le CMS

Les CMS peuvent aussi être la source de contenu dupliqué. Un problème connu, notamment avec WordPress est le problème des articles.

Lorsque vous écrivez un article, vous venez à le classer dans une ou plusieurs catégorie, pareil pour les étiquettes. Vous avez également des extraits d’articles sur la page d’accueil, dans le blog et pourquoi pas dans la sidebar.

Avec tout cela, on se retrouve à avoir des extraits dans beaucoup de pages d’un même article. Il faut savoir qu’une page de catégorie ou d’étiquette, liste l’ensemble des articles liés à elles.

On peut se retrouver avec facilement 5 extraits.

Pour régler cela, pensez à écrire des descriptions de catégorie / étiquette, cela distillera le duplicate content. Sinon, la solution la plus simple est de désindexer ces pages à l’aide de Yoast.

Dans des domaines différents

Évidemment, il peut aussi y avoir du contenu dupliqué à travers différents domaines

Le contenu copié

Un des grands problèmes des créateurs de contenu : la copie et la reprise illégale. Google sait très bien que ce sont des atteintes aux droit du créateur et va également lutter contre cela.

Quel intérêt Google a de présenter un site web avec une majorité de contenu dupliqué ? Est-il pertinent à proposer deux fois les mêmes résultats ? Probablement pas.

Google va trouver celui qui est le premier à avoir créer le contenu et le garder dans ses index. Le reste ne sera pas disponible dans les résultats.

La curation de contenu

La curation de contenu est « une pratique qui consiste à sélectionner, éditer et partager les contenus les plus pertinents du web pour une requête ou un sujet donné » selon Wikipedia.

C’est par exemple ce que fait Scoop.it, c’est un outil idéal pour faire de la veille.

Le problème est que lorsque vous reprenez trop de contenu, vous allez le dupliquer simplement et purement. Si vous ne faites que citer des extraits avec des analyses personnelles, cela ne sera pas vu comme mauvais aux yeux de Google.

La syndication de contenu

Le principe de la syndication de contenu est de reprendre un article paru quelque part et de le republié sur un site grâce à un procédé. On utilise pour cela, le flux RSS d’un site.

On peut remarquer certaines fois, en haut de l’article la mention : l’article [titre de l’article] est apparu en premier sur [nom du site]

C’est quasiment comme un copier-coller d’un article.

Pour éviter les foudres de Google, il faut faire cela proprement en demande l’autorisation au site web où vous prenez le contenu et mettre une mention vers l’article source avec un lien.

Le scraping de contenu

Le scraping de contenu est encore une pratique à éviter. Mais avant tout, qu’est-ce que c’est ?

C’est un logiciel qui extrait du contenu web.Certaines fois il est extrait pour être republié.

Voici un exemple simple de scraping :

Un exemple de scraping dans les résultats de recherche de Google

C’est simplement du contenu qui est récupéré. Le « problème », c’est que celui-ci est « autorisé »

Cela reste une pratique à éviter.

Les différents domaines

Lors d’une stratégie à l’international, on peut être amené à faire différents domaines avec par exemple un .fr, .de, .es, .co.uk …

Cela demande évidemment de faire plusieurs sites. Si par exemple vous faites un .de pour l’Allemagne et un .co.uk pour la Grande Bretagne, vous allez avoir du duplicate content. Surtout si vous faites 2 sites en anglais.

Ce qui n’est pas du contenu dupliqué

Il y a cependant quelques exceptions à ce qui s’apparente à du contenu dupliqué. En voici deux exemples :

Le contenu traduit

Lors d’une campagne internationale, il peut être utile d’avoir plusieurs sites web avec une extension selon le pays.

Si votre contenu est traduit, cela n’est pas considéré comme du duplicate content.

Il faut quand même faire attention à la qualité de vos traductions !

Si vous avez un site français, et que vous voulez faire un site anglais par exemple, faites-le traduire par un anglais natif. Cela permettra d’éviter le contenu de faible qualité. Notamment celui généré par un traducteur comme Google Traduction. La qualité des traductions n’est plus à faire !

Le contenu d’un site mobile

Certaines entreprises proposent un site web pour ordinateur et un autre pour mobile. Oui cela existe encore malgré l’index mobile first, la technologie Responsive Design ou encore AMP.

Voici deux URLS :

  • fr
  • monsite.fr

Le deuxième correspond à la version mobile. Vous arrivez sur une version ou sur une autre selon l’appareil que vous utilisez.

Si vous faîtes les choses dans les règles de l’art, vous n’avez pas à vous souciez des pénalités de Google.

Pensez en revanche à avoir un site unique avec la technologie responsive design. Cela permet d’avoir un site qui s’adapte à l’écran de l’appareil.

Les problèmes causés par le contenu dupliqué

Quels sont les effets de ce contenu dupliquer ? Voici 3 effets notables de la duplication de contenu :

Dilution de vos liens

Imaginez que vous veniez de créer un article excellent, vous avez passez des heures à le rédiger et le peaufiner ! Vous êtes très content de le mettre en ligne mais … Vu que vous avez le même article disponible à différentes pages, les gens font des liens sur des pages différentes.

Vous venez à diviser le nombre de backlink que la page peut obtenir ! Votre page n’a pas l’autorité que vous étiez certain d’avoir. Juste parce que les moteurs n’ont pas su quelle page était la vraie et l’originale.

Le contenu dupliqué est vraiment un des fléaux du référencement, je ne vous ai pas menti en début d’article !

Épuisement du Budget Crawl

Google utilise des robots pour visiter votre site, on dit qu’il crawl ce dernier. Google a tellement de page à visiter provenant de quasiment 2 milliards de sites selon internetlivestats, qu’il doit faire un tri.

Si vous proposez 5 pages dont le contenu est le même avec 5 URLs différentes, Google va venir à comprendre que votre site à beaucoup de duplication.

Résultat des courses ? Vous allez diminuer ce budget crawl ou simplement le nombre de page que Google prévoit de crawler sur votre site. Cela veut dire que votre contenu sera moins bien indexé et moins mis à jour dans l’index.

Donc moins de visites provenant des moteurs de recherche.

Les moteurs de recherches ne savent pas quelle page placer dans les index

Si vous proposez, encore 5 pages pour un même contenu. Qu’est ce que Google va mettre dans les résultats de recherche ?

La qui lui semble la plus appropriée, pas celle que vous auriez forcément souhaité.

Au lieu de montrer une URL comme https://monsite.fr, Il pourrait montrer une URL comme https://www.monsite.fr/index.php

Ce n’est pas forcément quelque chose qui va être adapté à l’utilisateur.

Comment Google gère le duplicate content

Le duplicate content n’est pas forcément la source dé pénalité pour le moteur de recherche.

Dans la plupart des cas, Google le détecte et ne propose qu’une seule version dans ses résultats.

Cela devient un peu plus problématique lorsque c’est utilisé pour manipuler l’algorithme. Notamment en cas de vol ou lorsque vous souhaitez publier du contenu légèrement différent (pas assez pour être vu comme du contenu unique) sur différents sites.

C’est dans ce genre de cas que Google peut vous pénaliser ou bien désindexer du contenu.

Comment repérer les problèmes de contenu dupliqué

Maintenant que vous connaissez le duplicate content et savez le reconnaitre, il faut aussi savoir comment le chercher. Voici quelques méthodes pour parvenir à vos fins :

Une simple recherche Google

La solution la plus simple pour détecter du contenu déjà utilisé sur le web est de faire une recherche sur Google.

Deux possibilités pour cela :

  • Rechercher le mot-clé sur lequel vous vous placez et voir s’il y a une mauvaise URL.
  • Faire une recherche du texte directement. Dans l’Ideal il ne doit pas être trop long. Une phrase ou deux.

Utiliser des logiciels en ligne de détection

Vous pouvez utiliser des logiciels qui vont scanner une page de votre site. Pour cela voici trois logiciels :

  • SIteliner : Analyse le duplicate content au sein de votre site ainsi que quelques données supplémentaires pour votre SEO. Comme un crawler
  • CopyScape : analyse le contenu de votre page par rapport au web
  • Positeo: compare un lien ou bien du contenu pour trouver du contenu plagié ou dupliqué

Vérifier Google Search console

Lorsqu’on lance un site, il est important de voir comment Google aperçoit notre site. Pour cela, rien de mieux que Google Search console. Le logiciel est plus qu’essentiel pour un référencement de qualité.

Ce même logiciel nous envoie des messages pour nous prévenir en cas de problème, notamment si vous avez du contenu dupliqué.

Screaming Frog

Sreaming frog est un logiciel qui va crawler (analyser) l’ensemble de votre site, un peu comme les spiders de Google le feraient.

Le logiciel est gratuit jusqu’à 500 fichiers crawlés. Au-delà, le logiciel s’arrêta. Il faudra payer 149£ pour l’obtenir.

Le tableau de bord du logiciel Screaming frog pour detecter le contenu dupliqué

Il suffit d’entrer l’adresse d’un site dans la barre prévue à cet effet, juste à gauche du bouton « Start ».
Une fois le crawl terminé, il faudra cliquer sur « Page Titles » pour obtenir toutes les pages avec le contenu de la balise title lié à chaque page.

Ensuite on filtre avec la mention « Duplicate ».

C’est une façon très simple d’avoir ses pages dupliqués.

Traiter les problèmes de duplicate content

Maintenant que vous êtes au courant de vos problèmes de contenus dupliqués, il ne vous reste plus qu’une chose à faire : les régler.

Voici plusieurs solutions adaptées aux problèmes que vous rencontrez.

Les problèmes de protocole et de sous-domaine

Quand on lance un site, il y a quelques réglages à faire pour le protocole HTTPS ainsi que pour le sous domaine.

Le sous domaine à régler

Lorsque vous lancez un site, on vous propose de mettre « www. » devant votre nom de domaine. Que vous le rajoutiez ou non, vous devez faire des redirections qui se font via le tableau d’administration de votre hébergeur.
La plupart du temps, cela se gère depuis la zone DNS de votre nom de domaine.

Le protocole HTTPS

Le protocole HTTPS est simplement le même que le http mais avec un cryptage qui empêche une personne mal intentionnée de récupérer les données qui transitent.

Le navigateur de Google, Chrome, vient même à pointer du doigt les sites qui n’ont pas le protocole HTTPS. De quoi bien dissuader pas mal de visiteurs à venir sur votre site.

En attendant, le passage est vraiment conseillé ! Une fois que vous avez fait ce passage (les hébergeurs fournissent des guides pour cela), il faut s’assurer que les redirections du http se fassent bien vers le HTTPS.

Encore une fois les guides peuvent vous y aider en passant par le fichier .htaccess. Si vous ne voulez pas y toucher, vous avez des extensions qui font très bien le travail sur WordPress comme : Really Simple SSL

Les redirections 301

Dans beaucoup de cas, la meilleure façon d’arriver au bout du contenu dupliqué est d’utiliser la redirection 301. Cela consiste à rediriger l’adresse de la page dupliquée vers celle qu’on estime être l’originale et / ou la plus adaptée.

Lorsqu’un moteur arrive sur une page qui est redirigée en 301, il est automatiquement redirigé vers la page en question. Google conseille l’utilisation de ces redirections permanentes. En plus, il n’y a aucune perte en termes de SEO.

Pour faire des redirections 301, il faut passer par le fichier .htaccess sur le serveur de votre site ou bien simplement utiliser un plugin comme Redirection sur WordPress.

La balise link rel=canonical

La balise link rel=canonical permet de définir quelle page est celle d’origine.

Cela va donner une indication claire à Google. Comme si on disait « Je suis conscient que je copie cette page-là, je joue réglo en te le disant ». Google placera cette page d’origine au sein des moteurs de recherche.

Voici comment elle s’écrit :

<link rel=«canonical» href= «https://monsite.fr/page-origine/ »/>

Elle se place dans les balises <head> du code.

Si vous estimez par exemple que vous devez faire deux fois la même page avec une URL différente, il peut être judicieux de rajouter la balise dans les deux pages. Ces deux balises doivent pointer vers la page d’origine. On conseille également à la page d’origine de faire une canonical vers elle-même.

Yoast SEO, le fameux plugin de référencement pour WordPress, fait automatiquement une balise canonical à chaque nouvelle page / article créé. La balise pointe automatiquement vers l’URL de l’article.

Mais il est également possible de la changer avec Yoast en l’indiquant ici :

L'emplacement de la meta robots et de la canonical dans Yoast

Balise meta noindex

Les balises meta offrent la possibilité de donner beaucoup d’informations aux moteurs de recherche. Il en existe une bonne quantité.

Celle qui nous intéresse est la balise meta robots « noindex » :

<Meta Name=”Robots” Content=”noindex,follow”>

Il est également possible de l’insérer très facilement avec le plugin Yoast SEO lorsque vous créez / modifiez une page. (Voir sur l’image juste au-dessus)

Une fois insérée entre les balises <head> de la page, elle permet aux moteurs de ne pas placée la page dans ses résultats de recherche.

En référencement, cette balise est utilisée lorsqu’on estime qu’une page n’a pas d’intérêts pour la recherche. De ce fait, on vient à éviter de la proposer à ceux qui cherche le site.

Par exemple, elle peut servir à empêcher l’indexation d’une page de remerciement à la suite d’une action sur le site. Elle peut également empêcher l’indexation d’une page dont le contenu est dupliqué.

Cela permet de garder la page active sur le site tout en évitant la moindre pénalité.

La balise hreflang

Dans une stratégie de référencement à l’international, il faut aider Google à mieux comprendre les cibles du site. C’est-à-dire la zone géographique ainsi que la langue à qui s’adresse le site.

Pour cela on utilise la balise :

“<link rel=”alternate” href=”http://exemple.com” hreflang=”fr-ca” />”

Cela permet de s’adresser aux francophones situés au canada. De plus, il ne faut pas oublier de mettre l’adresse de la page d’origine dans l’attribut « href ».

Cela permet d’éviter toutes confusions de la part des moteurs de recherche avec le duplicate content.

Attention aux sites qui font de la syndication de contenu

SI vous autorisez des sites à syndiquer votre contenu, ou bien simplement le republier (mot pour mot) il y a des précautions à prendre.

En effet, vous ne pouvez pas laisser n’importe qui dupliquer votre contenu. Vous devez vous assurez que ceux qui le font, soient « en règles ». Pour cela il faut s’assurer de la présence d’une balise rel=canonical ou bien de la présence d’une balise noindex.

Idéalement, ne l’autorisez pas, cela vous évitera bien des ennuis. Même si le site fait une quantité énorme de backlink vers votre site, quel est l’intérêt de ces derniers ? Leur valeur sera plutôt faible.

Ce qui ne règle pas vos problèmes de duplication

Pour régler les problèmes de contenu dupliqué, il vous suffit de vous référer à ce qui se trouve juste au-dessus. Voici certaines erreurs à ne pas faire pour « régler la duplication » :

Ne pas utiliser le robots.txt

Le fichier robots.txt sert à donner des indications de crawl aux robots. Vous pouvez simplement empêcher qu’un robot passe sur un fichier ou une page et donc empêcher dans certains cas l’indexation de vos fichiers.

Le problème est qu’un robot n’ira pas sur le fichier ou la page que vous avez demandé à ne pas crawler, il peut cependant aller dessus depuis un lien. Finalement, la page sera indexée et Google la prendra en compte malgré tout.

Le fichier robots.txt n’est pas une façon de régler vos problèmes de duplicate content.

Éviter les logiciels de spin ou reformuler une phrase

Il existe des logiciels qui viennent à faire différents textes en mêlant certains synonymes pour créer des textes « uniques ». Il est également possible de le faire sans logiciel et reformuler simplement une phrase.

Ces techniques peuvent être dangereuse et faire croire à Google que vous tentez de manipuler l’algorithme. Le moteur de recherche sait plutôt bien discerner ce genre de pratique ! Ils savent aussi très bien vous pénaliser pour cela.

Il est préférable d’utiliser la balise rel= « canonical » pour régler ces problèmes.

Utiliser Google search console pour désindexer une page

Si vous utilisez Google Search console régulièrement, ce que je vous conseille de faire, vous avez certainement vu l’outil qui sert à désindexer une page :

Supprimer une URL avec Google Search Console

Cette possibilité ne sera probablement plus disponible avec la nouvelle version de la Search Console.

Mais en attendant, il faut comprendre que même si l’URL n’est plus visible dans les moteurs de recherche, elle reste visible dans l’index de Google. Cela ne va donc pas résoudre le problème. Il ne faut pas chercher à noyer le poisson !

Conclusion

Le référencement naturel n’est qu’une question de logique en fin de compte. Google n’est pas si compliqué à comprendre, il cherche « juste » à obtenir un web clair propre et pertinent.

Essayez de faire une course de vélo alors que vous êtes à pieds, vous n’allez probablement pas finir dans une bonne position. C’est pareil pour le SEO avec le duplicate content.

La plupart des problèmes de duplication peuvent être gérés ! Cela va nettement améliorer vos résultats dans les moteurs de recherche.

Faîtes ces quelques manipulations, vous ne serrez probablement pas déçu du résultat. Même si cela implique de désindexer certaines pages ! Il est fort probable que ces pages à désindexer n’apportent que peu de trafic de toutes façons.

J’espère que cet article vous aura aidé au maximum.

À bientôt pour le suivant.

Share This