Une fuite de documents révèle les secrets de cuisine de Google

Un ancien employé de chez Google a rendu public des documents qui seraient internes à Google. Ils donnent des informations clés sur le fonctionnement du moteur de recherche et donc sur la manière de pratiquer le SEO.

L’histoire commence le 5 mai 2024 lorsque le célèbre SEO Rand Fishkin de Sparktoro reçoit un email d’une source anonyme lui indiquant qu’il dispose d’un accès à des milliers de documents API de la division Search de Google. La source prétend que ces documents ont été authentifiés par d’autres anciens employés de Google.

Depuis, la source a révélé son identité. Il s’agit de Erfan Azimi, un praticien du référencement naturel et fondateur de EA Eagle Digital. Il a justifié son acte par la volonté de démystifier les « mensonges » que Google « propage depuis des années ».

Après enquête, Rand Fishkin considère ces fuites comme d’authentiques documents provenant de la division Search de Google. D’autres, comme Roger Montti du Search Engine Journal, sont beaucoup plus prudents sur l’origine de ces données.

Depuis, Mike King du site I Pull Rank a livré une première analyse de ces données dont est tiré en partie l’article qui suit. Dans son analyse, King met en lumière les contradictions entre la communication des officiels de Google et la réalité des informations contenues dans les données qui ont fuité.

Les 14 000 critères de classement de Google

En SEO, nous avons l’habitude de dire que Google utilise 200 critères pour classer les pages web dans les résultats de rechercher. Or, les 2 596 modules représentés dans la documentation de l’API de Google révèlent 14 014 attributs ! Ils sont liés à des composants de YouTube, Assistant, Books, recherche vidéo, liens, documents web, infrastructure de crawl, un système de calendrier interne et l’API People.

Le Domain Authority

Parmi ces nombreux critères, on trouve le « Domain Authority » ou « autorité de domaine ». Il est intéressant car, pendant de nombreuses années, il a été nié par les officiels de Google.

Or, le leak révèle que le moteur de recherche de la firme de Mountain View utilise un signal intitulé « siteAuthority » même si nous ne savons pas spécifiquement comment il est calculé ou utilisé dans les fonctions de notation en aval.

NavBoost et l’utilisation des données utilisateur

Par ailleurs, la fuite de données confirme l’utilisation par Google d’un système appelé NavBoost qui se base sur les clics des utilisateurs pour booster, rétrograder ou renforcer un classement dans la recherche web.

Il opère la distinction entre les mauvais clics, les bons clics, le temps passé sur la page… Selon un brevet, Google s’assure qu’il n’y ait pas de manipulation excessive basée sur le signal de clic.

Beaucoup de ces mêmes mesures basées sur les clics se trouvent dans un autre module lié aux signaux d’indexation. L’une des mesures est la date du « dernier bon clic » vers un document donné. Cela suggère que la dégradation du contenu (ou la perte de trafic au fil du temps) est aussi fonction du fait qu’une page de classement ne génère pas le nombre attendu de clics pour sa position dans les SERP.

De plus, la documentation représente les utilisateurs comme des électeurs et leurs clics sont enregistrés comme leurs votes. Le système compte le nombre de mauvais clics et segmente les données par pays et par appareil.

Google enregistre également quel résultat a eu le clic le plus long pendant la session. Ainsi, il ne suffit pas de simplement effectuer la recherche et de cliquer sur le résultat, les utilisateurs doivent aussi passer un temps significatif sur la page. Le temps passé sur une page mesure le succès d’une session de recherche mais il n’y a pas de fonctionnalité spécifique appelée « temps de visite » dans cette documentation.

Pour information, diverses sources ont indiqué que NavBoost est « déjà l’un des signaux de classement les plus forts de Google ». La documentation divulguée mentionne « NavBoost » 84 fois avec cinq modules comportant NavBoost dans le titre. Il existe également des preuves qu’ils envisagent son évaluation au niveau du sous-domaine, du domaine racine et de l’URL, ce qui indique intrinsèquement qu’ils traitent différemment les niveaux d’un site.

Pour résumer, si Google ne mentionne pas le « CTR » ou le « temps de visite », les clics sur les résultats de recherche et les mesures d’une session de recherche sont pris en compte dans le positionnement.

Le bac à sable (Sandbox)

Là encore, contrairement aux déclarations passées de Google, les documents montrent qu’il existe une « Sandbox » où les sites web sont placés en fonction de leur âge ou de l’absence de signaux de confiance.

Ainsi, ils indiquent l’existence d’un attribut appelé « hostAge » qui est utilisé spécifiquement « pour isoler le spam récent au moment de la diffusion ».

En outre, l’un des modules liés aux scores de qualité des pages présente une mesure au niveau du site des vues provenant de Chrome. Un autre module qui semble être lié à la génération de sitelinks a également un attribut lié à Chrome.

L’architecture des systèmes de classement de Google

Selon Mike King, il faut envisager « l’algorithme de Google » non comme une seule entité mais comme une série de microservices où de nombreuses fonctionnalités sont prétraitées et mises à disposition au moment de l’exécution pour composer les SERP (Search Engine Results Pages). D’après les différents systèmes référencés dans la documentation, il pourrait y avoir plus d’une centaine de systèmes de classement différents. En supposant que ce ne sont pas tous les systèmes, peut-être que chaque système représente un « signal de classement », ce qui pourrait expliquer les 200 signaux de classement dont Google parle souvent.

King cite certains de ces systèmes :

  • pour le crawl,
    • Traweler qui est un système d’exploration du web. Il comporte une file d’attente d’exploration, maintient les taux d’exploration et comprend la fréquence de changement des pages ;
  • pour l’indexation,
    • Alexandria : le système d’indexation principal ;
    • SegIndexer : le système qui classe les documents en niveaux dans l’index ;
    • TeraGoogle : le système d’indexation secondaire pour les documents stockés sur disque à long terme ;
  • pour le rendu,
    • HtmlrenderWebkitHeadless : système de rendu pour les pages JavaScript ;
  • pour le traitement,
    • LinkExtractor : extrait les liens des pages ;
    • WebMirror : système de gestion de la canonicalisation et de la duplication ;
  • pour le classement,
    • Mustang : système principal de notation, de classement et de service ;
    • Ascorer : l’algorithme de classement principal qui classe les pages avant tout ajustement de re-classement ;
    • NavBoost : système de re-classement basé sur les journaux de clics du comportement des utilisateurs ;
    • FreshnessTwiddler : système de re-classement pour les documents en fonction de leur fraîcheur ;
    • WebChooserScorer qui définit les noms des fonctionnalités utilisées dans le scoring des extraits ;
  • pour le service,
    • Google Web Server : GWS est le serveur avec lequel l’interface frontale de Google interagit. Il reçoit les charges de données à afficher à l’utilisateur ;
    • SuperRoot : c’est le cerveau de Google Search qui envoie des messages aux serveurs de Google et gère le système de post-traitement pour le re-classement et la présentation des résultats ;
    • SnippetBrain : le système qui génère les extraits pour les résultats (« Featured Snippet ») ;
    • Glue : le système qui rassemble les résultats universels en utilisant le comportement des utilisateurs ;
    • Cookbook : le système de génération de signaux. Il y a des indications que les valeurs sont créées au moment de l’exécution.

Sur les Twiddlers

Les Twiddlers sont décrits par Mike King comme des fonctions de re-classement après le classement initial. Les Twiddlers peuvent ajuster le score de récupération d’information d’un document ou changer le classement d’un document. Beaucoup des expériences en direct et des systèmes nommés que nous connaissons sont mis en œuvre de cette manière.

Ainsi, l’algorithme Panda est certainement un Twidler qui augmente ou diminue le classement.

Présumément, toutes les fonctions avec un suffixe Boost fonctionnent en utilisant le cadre Twiddler. On peut citer NavBoost, QualityBoost, RealTimeBoost ou encore WebImageBoost.

Les révélations clés qui peuvent influencer le SEO

Dans son article, Mike King passe en revue les éléments concrets qui peuvent nous aider au quotidien dans notre SEO.

Google Panda

Pour rappel, Panda est un filtre lancé par Google en 2011 pour expurger le contenu dupliqué ou de mauvaise qualité. Selon un brevet, il s’agissait de construire un modificateur de score basé sur des signaux distribués liés au comportement des utilisateurs et aux liens externes. Ce modificateur peut être appliqué au niveau du domaine, du sous-domaine ou du sous-répertoire.

Nous savons dorénavant que ces signaux proviennent de NavBoost, notamment ce qu’on appelle les requêtes de référence

La fonction « Auteur »

Pour déterminer, l’expertise, l’autorité et la confiance qu’on peut accorder à un contenu (la fameuse EEAT), Google fait de l’auteur un signal.

Il cherche également à déterminer si une entité sur la page est aussi l’auteur de la page.

Rétrogradations algorithmiques

La documentation évoque tout une série d’algorithmes de rétrogradation :

  • « Anchor Mismatch ». Lorsque le lien ne correspond pas au site cible vers lequel il pointe, le lien est déclassé dans les calculs. Google recherche la pertinence des deux côtés d’un lien ;
  • « SERP Demotion ». C’est un signal indiquant une rétrogradation basée sur des facteurs observés dans la SERP, suggérant une insatisfaction potentielle des utilisateurs avec la page, probablement mesurée par les clics ;
  • « Nav Demotion ». Il s’agit probablement une rétrogradation appliquée aux pages présentant de mauvaises pratiques de navigation ou des problèmes d’expérience utilisateur ;
  • « Exact Match Domains Demotion ». Comme le nom l’indique, c’est une dévalorisation liée à l’emploi des Exact Match Domain (EMD) ;
  • « Product Review Demotion ». Il n’y a pas d’informations spécifiques à ce sujet, mais cela pourrait être lié à la mise à jour des avis sur les produits de 2023 ;
  • « Location Demotions ». Il y a une indication que les pages « globales » et « super globales » peuvent être déclassées, ce qui suggère que Google tente d’associer les pages à un lieu et de les classer en conséquence ;
  • « Porn Demotions » : rétrogradation du contenu adulte.

L’importance des liens

Impact du niveau d’indexation sur la valeur des liens

Un indicateur appelé « sourceType » montre une relation entre l’endroit où une page est indexée et sa valeur. Pour information, l’index de Google est stratifié en niveaux où le contenu le plus important, régulièrement mis à jour et consulté est stocké en mémoire flash. Le contenu moins important est stocké sur des disques SSD, et le contenu mis à jour de manière irrégulière est stocké sur des disques durs standard.

Cela signifie que plus le niveau est élevé, plus le lien est précieux. Les pages considérées comme « fraîches » sont également considérées de haute qualité.

Signaux de vélocité de spam de liens

Il y a toute une série de métriques sur l’identification des pics dans les textes d’ancre de spam. Notant la fonctionnalité phraseAnchorSpamDays, Google peut mesurer la vitesse des liens de spam.

Cela pourrait être utilisé pour identifier quand un site fait du spam et pour annuler une attaque de SEO négatif.

Limite de 20 changements sur une URL pour l’analyse des liens

Google ne prend en compte que les 20 dernières versions d’une page lorsqu’il analyse les liens. Cela signifie que pour obtenir une « ardoise propre » dans Google, il est essentiel de modifier et de faire indexer une page au moins 20 fois. Cela confirme que les redirections vers des cibles non pertinentes ne permettent pas de transférer l’équité des liens de manière efficace.

PageRank de la page d’accueil

Chaque document est associé au PageRank de sa page d’accueil, utilisé comme proxy pour les nouvelles pages jusqu’à ce qu’elles obtiennent leur propre PageRank. De plus, la confiance accordée à un lien dépend de la fiabilité de la page d’accueil du site source. Il est donc crucial de se concentrer sur la qualité et la pertinence des liens plutôt que sur leur volume.

Importance de la taille de la police des termes et des liens

Google suit la taille moyenne pondérée de la police des termes dans les documents et des textes d’ancre des liens. Cela suggère que rendre certains termes ou liens plus visibles peut influencer leur importance perçue par Google.

Liens internes ignorés par le filtre Pingouin

Le filtre Pingouin ignore certains liens internes, suggérant que tous les liens internes ne sont pas pris en compte de la même manière. Il est donc essentiel de structurer les liens internes d’un site web de manière stratégique.

Absence de mentions de Disavow

Les données de disavow ne sont pas spécifiquement mentionnées dans l’API, suggérant qu’elles sont décorrélées des systèmes de classement principaux. Cela renforce l’idée que l’outil de disavow pourrait être utilisé principalement pour former les classificateurs de spam de Google.

Limitation des Tokens dans les documents

Google compte le nombre de tokens et le ratio de mots uniques dans le corps des documents. Il y a une limite au nombre de tokens considérés, ce qui signifie que les auteurs devraient placer le contenu le plus important en début de page.

Scoring de l’originalité pour le contenu court

Le score d’originalité des contenus courts indique que Google évalue la qualité et l’originalité même des textes courts. Un contenu court n’est donc pas forcément défavorable au SEO même si les études tendent à montrer que les contenu longs dominent la SERP.

Titres de pages et correspondance avec les Requêtes

Le score de correspondance des titres suggère que Google accorde toujours de l’importance à la manière dont le titre de la page correspond à la requête de l’utilisateur. Il est donc conseillé de placer les mots-clés cibles en tête du titre de la page.

Absence de mesures de décompte des caractères

Contrairement aux croyances populaires, il n’y a pas de mesures de décompte des caractères pour les titres de pages ou les Snippets dans les données de Google. Seule la longueur du préfixe des snippets est mesurée, confirmant que les titres longs ne sont pas optimaux pour les clics, bien qu’ils puissent aider au classement.

L’importance des dates

Google accorde une grande importance aux résultats récents et utilise diverses méthodes pour associer des dates aux pages :

  • bylineDate. Date explicitement définie sur la page ;
  • syntacticDate. Date extraite de l’URL ou du titre ;
  • semanticDate. Date dérivée du contenu de la page.

Pour optimiser la performance des contenus, il est crucial de spécifier une date cohérente dans les métadonnées structurées, les titres de pages et les sitemaps XML. Des dates conflictuelles peuvent diminuer les performances des contenus.

Informations sur l’Enregistrement du Domaine

Google stocke les informations d’enregistrement de domaine au niveau du document composite. Cela pourrait informer le processus de sandboxing pour le nouveau contenu ou pour les domaines précédemment enregistrés qui ont changé de propriétaire. L’importance de cette mesure semble avoir été renforcée avec l’introduction de la politique anti-spam pour les domaines expirés.

Sites axés sur les vidéos

Les sites dont plus de 50 % des pages contiennent des vidéos sont traités différemment. Cela implique que les stratégies SEO pour ces sites doivent intégrer des considérations spécifiques aux contenus vidéo.

Classification YMYL (Your Money Your Life)

Google utilise des classificateurs pour générer des scores spécifiques pour les contenus YMYL Santé et YMYL Actualités.

Documents de référence

Les documents indiquent l’existence de documents standards « human-labeled » (étiquetés par des humains) par rapport aux annotations « automatically labeled » (étiquetées automatiquement). Bien que Google affirme que les évaluations de qualité n’affectent pas les classements, l’impact potentiel de ces documents reste à clarifier.

L’intégration de sites pour mesurer la pertinence

Google vectorise les pages et les sites, comparant les embeddings des pages aux embeddings des sites pour évaluer leur pertinence. Le score de concentration du site (siteFocusScore) mesure la cohérence du site sur un seul sujet, tandis que le rayon du site (site radius) évalue l’écart d’un sujet central basé sur les vecteurs site2vec.

Impact sur les petits sites

Google dispose d’un drapeau spécifique pour indiquer si un site est un « petit site personnel ». Bien que la définition de tels sites ne soit pas claire, il serait possible que Google utilise des ajustements pour booster ou déclasser ces sites. L’impact des mises à jour comme la Helpful Content Update sur les petites entreprises reste un sujet de préoccupation.

Questions ouvertes et Recommandations Stratégiques

Baby Panda et Helpful Content Update

Il existe des références à « baby panda » dans les signaux de qualité compressée, fonctionnant comme un Twiddler (ajustement après le classement initial). Cela pourrait indiquer que la Helpful Content Update partage des similarités avec Panda, utilisant des requêtes de référence, des liens et des clics.

NSR – Neural Semantic Retrieval

De nombreuses références à des modules et attributs avec NSR (Neural Semantic Retrieval) semblent indiquer des fonctionnalités liées à la recherche sémantique. Bien que non confirmé, cela pourrait représenter une part importante des améliorations de correspondance sémantique de Google.

Laisser un commentaire