Par la voix de John Mueller, Google a répondu à la question de savoir à partir de quel seuil de similarité on peut parler de contenu dupliqué.
Nous y avons tous pensé un jour.
Surtout quand on débute dans la rédaction web.
Est-ce que le contenu que l’on rédige est dupliqué ?
Le contenu dupliqué est celui est similaire à un autre sur un site extérieur (l’hypothèse peut aussi se vérifier sur un même site entre deux pages ou plus).
Avec les milliards de pages qui inondent le web, c’est une question légitime. Matt Cutts, ingénieur logiciel chez Google, nous disait en 2013 que 25 à 30% du web était du contenu dupliqué. La plupart était innocent, sans intention de tromper Google.
L’enjeu est de taille car en cas de contenu dupliqué, la page web est déclassée dans Google. Il n’est pas nécessaire qu’un contenu soit 100% identique à un autre pour être considéré comme dupliqué. On parle souvent d’un seuil de similarité à 70% au-delà duquel le contenu est considéré comme dupliqué.
C’est sur Twitter que John Mueller a donné une réponse officielle : « il n’y a pas de chiffre ».
Autant dire que la réponse est décevante et ne fera pas avancer le schmilblick. Elle est l’occasion de se pencher sur la manière dont fonctionne le contenu dupliqué.
Comment Google traite le contenu dupliqué ?
À l’origine, Google détectait les contenus dupliqués et les groupait en un contenu à part. Un filtre était ensuite appliqué afin mettre en avant le contenu original au détriment du contenu dupliqué et privilégier l’expérience utilisateur.
Aujourd’hui, cela fonctionne différemment. Google détecte d’abord les doublons, les regroupe dans un cluster et procède ensuite à la canonicalisation c’est-à-dire qu’il va chercher la page d’origine.
Ok, mais comment Google identifie justement les doublons ?
Il compare les « checksums » des pages qui sont des sortes d’empreintes numériques. Elles contiennent une série de chiffres et de lettres représentatives du contenu de la page. Il s’agit ici du contenu original, pas des éléments comme le header, le footer etc. En cas de checksum similaire, Google considère que le contenu dupliqué. Il faut donc bien voir que Google ne compare pas directement les contenus mais les fameux checksums des pages web.
Voilà pourquoi on ne peut pas raisonner en termes de taux de similarité comme l’indique John Mueller.