Google détecterait du contenu dupliqué en cas d’URL similaires entre deux pages web.
Les voies du contenu dupliqué sont impénétrables.
Il y a peu, John Mueller (vous commencez à le connaître depuis le temps que je le cite) nous indiquait que deux contenus identiques ayant des formats différents (textuel et vidéo, par exemple) n’étaient pas considérés comme dupliqués par Google.
Maintenant, voilà que l’on apprend de la bouche du Search Advocate de Google, que deux contenus textuels différents seraient vus comme dupliqués si leurs URL étaient identiques. Le sujet a été porté sur la table d’un Google SEO Office Hours enregistré le 5 mars. Ruchit Patel, propriétaire d’un site consacré à l’évènementiel, a demandé à John Mueller pourquoi des milliers d’URL n’étaient pas correctement indexées.
L’examen des URL pour vérifier le contenu dupliqué
Google opère à plusieurs niveaux pour détecter le Duplicate Content :
- tout d’abord, le moteur de recherche examine directement le contenu de la page pour voir s’il est identique à un autre ;
- Google utilise une deuxième méthode dite « prédictive ». Celle-ci se base sur les URL des pages web. En cas de similarité, Google en tire la conclusion que le contenu présent sur les deux pages est identique. Autrement dit, nous sommes face à un cas de contenu dupliqué.
La rationalité derrière cette approche est la volonté de préserver les ressources du moteur de recherche Google en matière d’exploration et d’indexation. En effet, s’il pense qu’une page est une version dupliquée d’une autre page en raison de son URL similaire, il ne prend même pas la peine d’explorer ladite page pour voir à quoi ressemble vraiment le contenu.
Il s’agit d’une méthode prédictive pour détecter du contenu dupliqué sur la base de modèles d’URL. Cela pourrait conduire à l’identification incorrecte de pages comme étant dupliquées. Le problème est que cela pourrait conduire à des erreurs. Une page au contenu unique pourrait être considérée comme un doublon en raison de la similarité de son URL avec une autre. Elle serait alors dévalorisée dans les résultats de recherche de Google.
John Mueller prend pour exemple les sites consacrés à l’évènementiel sensibles au phénomène. En effet, un même évènement se déroulant dans plusieurs villes proches sera traité par différentes pages dont l’URL sera très proche. Résultat : les URL seront considérées comme similaires par Google qui y verra du contenu dupliqué.
Les URL canoniques comme solution aux URL similaires
Dès lors, comment corriger ce problème ?
Il convient de rechercher les situations où il existe des cas réels de duplication de contenu et de limiter cela autant que possible.
Une solution consiste à employer les URL canoniques. Ce sont des balises (rel=canonical) qui indiquent aux moteurs de recherche quelle URL indexer. En l’occurrence, l’idée est d’insérer cette balise pour la page de l’évènement qui se déroule dans une grande ville.
On évite alors le contenu dupliqué et les conséquences négatives pour le référencement du site.