L’indexation de votre contenu par le moteur de recherche Google

Pour être visible dans le moteur de recherche Google, votre contenu doit au préalable passer par l’étape de l’indexation. Décryptage d’une notion incontournable en référencement naturel.

Pour comprendre ce qu’est l’indexation, il convient d’examiner la façon dont fonctionne un moteur de recherche.

Comment fonctionne un moteur de recherche comme Google ?

Ce dernier utilise ce qu’on appelle un index. C’est grosso modo une copie du web. Lorsqu’un internaute effectue une recherche, le moteur (que ce soit Google ou un autre) extrait les résultats de cet index qu’il affiche dans une page spéciale qu’on appelle la SERP (page de résultats du moteur de recherche pour « Search Engine Result Page »). Ces résultats dits organiques (distincts des annonces sponsorisées payantes) correspondent aux pages web qui répondent à la requête de l’internaute. Leur ordre dépend de critères de pertinence qui sont étudiés par les spécialistes du référencement naturel ou SEO.

Si vous avez un site web ou si vous produisez du contenu pour des sites internet, votre objectif est d’apparaître tout en haut des résultats pour que vous soyez immédiatement visible de l’internaute. Ce dernier est alors plus prompt à cliquer sur votre lien et à effectuer l’action désirée (lire, acheter…).

Mais avant d’apparaître dans les résultats de recherche, votre page doit être présente dans l’index du moteur de recherche.

Vous l’avez compris : sans indexation, pas de visibilité dans Google. C’est donc un enjeu considérable de référencement naturel auquel il faut répondre.

Faciliter le passage des crawlers ou spiders

Pour être indexé, il faut que le moteur de recherche puisse « aller chercher » votre contenu.

Qu’est-ce que cela signifie ?

Pour gérer son index, un moteur de recherche comme Google utilise des robots qu’on appelle Googlebot. On dit que ce dernier « explore » ou « crawle » votre page web. C’est pourquoi ils sont aussi appelés crawlers. Mais on leur donne d’autres dénominations comme « spiders ».

Qu’est-ce que le crawl d’une page web ?

Cette opération consiste à :

  • examiner le code HTML de la page et à l’envoyer à Google pour indexation ;
  • suivre tous les liens de la page qu’ils soient internes ou externes ;
  • vérifier si la page est dans l’index de Google. Dans ce cas, le robot contrôle si elle a changé depuis son dernier passage.

Tout l’enjeu de l’indexation consiste alors à faciliter l’accès de votre contenu au robot.

Les raisons de l’absence d’indexation d’une page web

Plusieurs raisons peuvent expliquer que votre page web n’a pas été indexée par Google :

  • votre contenu vient d’être publié et les robots ne l’ont pas encore crawlé ;
  • votre page est difficilement accessible car il faut plusieurs clics (quatre voire plus) dans l’interface de votre site pour l’atteindre ;
  • votre contenu ne respecte pas les bonnes pratiques de la rédaction web et du référencement naturel. C’est le cas si vous n’utilisez pas de balises (h1, h2, mots en gras…) ou si vous ne mettez pas de liens internes ou externes dans vos textes.

Attention : toutes les pages d’un site web n’ont pas vocation à être indexées car elles n’apportent pas forcément grand chose à votre activité en termes de visibilité sur les moteurs de recherche. On peut citer, par exemple, les mentions légales ou la politique de confidentialité.

À cela, s’ajoute un élément de contexte : le web d’aujourd’hui n’a plus rien à voir avec celui des débuts de Google dans les années 90. Nous comptons actuellement près de 2 milliards de sites web dans le monde selon le site Internet Live Stats. Ce sont des dizaines de milliards de pages crawlées par jour. Pour des raisons de ressources, de performances mais également d’opportunité, Google refuse désormais d’explorer toutes ces pages.

Le temps du 100% indexation est terminée selon le référenceur Raphael Doucet

Vous avez donc tout intérêt à produire du contenu de qualité en suivant les règles du référencement naturel pour augmenter vos chances d’être indexé.

Comment vérifier que votre page web a été indexée par Google ?

Pour savoir si une page web a bien été indexée par Google, vous pouvez taper l’opérateur booléen « site: » dans le moteur de recherche immédiatement suivi de la page en question.

Si Google n’affiche pas de résultats, c’est que votre page web n’est pas indexée.

Sinon, vous pouvez passer par la Google Search Console. Rendez-vous dans la rubrique « couverture » de la partie « Index » de votre Search Console. Cliquez ensuite sur la case « exclues ».

Les pages non indexées dans la Search Console
Les pages non indexées dans la Search Console

Plus bas, cliquez sur « explorée, actuellement non indexée » pour voir la liste des pages non indexées sur votre site.

les pages explorées mais non indexées dans la Search Console
Les pages explorées mais non indexées dans la Search Console

N’oubliez pas que seules vous intéressent les pages qui vous apportent quelque chose en termes de visibilité dans Google. Sur un site web, vous avez beaucoup de pages qui ne servent à rien pour l’internaute (par exemple, les pages « feed » dans WordPress). Il est donc normal qu’elles ne soient pas indexées.

L’indexation de votre page web avec la Google Search Console

Une fois que vous avez détecté une page non indexée, vous pouvez demander son indexation à Google. Pour cela, il faut passer par la Search Console. Rendez-vous dans « Inspection de l’URL » (à gauche de votre écran). Le champ en haut de la Search Console s’éclaire. Vous devez rentrer l’URL de la page à indexer.

Indexer une page web dans la Google Search Console
Indexer une page web dans la Google Search Console

Tapez sur la touche « Entrée ». Une fenêtre « Récupération de données à partir de l’index Google » s’affiche. Cliquez ensuite sur « Demander une indexation ».

Il convient d’attendre quelques jours avant d’effectuer une recherche avec l’opérateur « site: » pour vérifier si votre contenu a bien été indexé. 

Favoriser l’indexation de votre site web par Google

En-dehors des demandes ponctuelles faites sur des pages spécifiques dans la Search Console, il existe des méthodes pour faciliter en amont l’indexation de votre site web par Google.

Améliorez la navigation sur votre site

Il convient d’améliorer la navigation sur votre site dans le cas où vos pages sont lointaines dans l’arborescence (plus de quatre clics).

Mettez en place un Sitemap XML

Vous pouvez aussi mettre en place ce qu’on appelle un fichier Sitemap XML. La procédure est simple sur un site qui utilise le CMS WordPress : il suffit d’utiliser le plugin Yoast SEO (pas de code à manier). Dans les « Réglages généraux », allez dans la rubrique « Fonctionnalités ». Rendez-vous sur « Plans de site XML » et cliquez sur « Voir le plan de site XML ». Le Sitemap XML de votre site s’affiche alors à l’écran. Copiez son URL puis collez-la dans « Ajouter un Sitemap » de la rubrique « Sitemaps » de la partie « Index » de votre Google Search Console.

Créez un plan de site

L’indexation de votre site web passe également par la création d’un plan de site avec toutes les parties qui le composent. Ce plan s’affiche dans le Footer de votre site. Il facilite la navigation de ce dernier par les Googlebots.

Votre fichier Robots.txt ne doit pas bloquer pas l’exploration de vos pages

Il se peut que l’absence d’indexation découle d’un blocage.

Pour le savoir, rendez-vous dans votre tableau de bord WordPress, et allez dans « Réglages », « Général », « Lecture », et cliquez sur « robots.txt ».

Vous pouvez également vérifier votre fichier robots.txt en copiant l’adresse suivante : https://domainnameexample.com/robots.txt et en la saisissant dans la barre d’adresse de votre navigateur Web.

En supposant que votre site est correctement configuré, cette adresse devrait afficher votre fichier robots.txt sans problème.

Dans le fichier robots.txt, si vous avez accidentellement désactivé complètement l’exploration, vous devriez voir la ligne suivante :

User-agent : *
disallow : /

La barre oblique dans la ligne « disallow » est l’instruction qui indique aux robots d’indexation qu’ils doivent cesser d’indexer votre site à partir du dossier racine dans public_html.

L’astérisque à côté de user-agent indique que l’instruction s’applique à tous les robots.

Par conséquent, la syntaxe adéquate pour l’indexation de votre site est la suivante :

User-agent : *
disallow :

En définitive, n’oubliez pas que la clé de l’indexation (comme d’un bon positionnement dans les résultats de recherche) est de produire en amont un bon contenu unique que vous avez optimisé pour le rendre important aux yeux de Google. Cela passe par le maillage interne, les liens depuis la page d’accueil, les liens externes ou encore le Sitemap.

Et vous ? Quelle(s) méthode(s) utilisez-vous pour indexer les pages web de votre site ?

Laisser un commentaire