Meta robots

Guide SEO > Technique > Meta robots

On me trouve dans l’entête HTML de vos pages internet. Je suis un élément indicateur pour permettre l’indexation d’une page internet. Je suis, je suis ?

La balise méta robots, bien évidemment !

Si son utilisation est vieille comme le monde virtuel, elle n’en demeure pas moins toujours efficace et indispensable. En gros, c’est votre interlocutrice privilégiée pour vous adresser directement aux robots de moteurs de recherche. Alors, comment fonctionne la balise méta robots ?

Définition de la balise méta robots

La balise méta robots, c’est une balise HTML qui vous donne le contrôle sur l’affichage de vos pages web dans les résultats de moteurs de recherche. Concrètement, elle vous autorise à interdire un crawler Google, Bing, Yahoo ou MSN d’indexer votre page web dans les SERP.

Mais à quoi ça sert, de ne pas indexer une page internet ?

On ne va pas se mentir : toute page indexée dans les résultats de moteurs de recherche augmentent vos chances de générer du trafic organique, dit « naturel« . Cependant, il arrive parfois que des pages ne nécessitent pas d’être affichées dans Google, Bing, Yahoo ou encore Qwant. C’est notamment le cas des URL de back-office, des pages de connexion pour accéder à un espace personnel, des pages en construction, des contenus premium, etc.

Où insère-t-on la balise méta robots ?

Chaque balise méta robots s’insère directement dans l’entête HTML de la page ciblée, entre les balises <head> et </head>. Exemple :

<html>

<head>

<title>Titre de la page</title>

<meta name="robots" content="noindex, nofollow">

</head>

On peut noter également que certains plugins, comme Yoast SEO, permettent de gérer ces balises en quelques clics seulement, sans avoir à entrer dans la partie HTML du site. Pour ce faire, il vous suffit de cliquer sur le bouton , que l’on peut retrouver dans la fenêtre située en-dessous de chaque page dans l’interface WordPress.

Vous n’aurez plus qu’à choisir d’interdire ou non l’indexation de la page ou de suivre les liens !

C’est quoi la différence avec le fichier robots.txt ?

Pour faire simple, la balise méta robots indique des directives spécifiques aux moteurs en fonction de la page qu’ils visitent. Ce n’est pas le cas du fichier robots.txt, qui autorise ou non l’accès à la page ou un groupe de page.

De manière générale, si vous voulez procéder à la non-indexation d’une page dans les résultats de moteurs de recherche, optez pour le fichier robots.txt, qui interdira le crawl en amont. En revanche, si vous souhaitez que la page soit explorée mais non indexée, adoptez plutôt la balise méta robots.

A savoir : si vous souhaitez désindexer une page déjà référencée dans les résultats de recherche, ne collez pas un fichier robots.txt. Vous savez pourquoi ? Parce que Google ne pourra plus parcourir votre page, et ne pourra pas connaitre vos directives. Glissez tout simplement une balise méta robots noindex dans l’entête HTML de la page !

Quelles sont les différentes directives de la balise méta robots ?

La balise méta robots offrent de nombreuses valeurs possibles de l’attribut « content« . Ainsi, vous pouvez vous contenter d’empêcher les robots d’indexer une page, de suivre les liens externes ou encore d’indiquer aux crawlers l’heure et la date exactes auxquelles ils doivent cesser l’exploration. Découvrez toutes les variables ci-dessous !

  • noindex : comme son nom l’indique, cette balise empêche l’indexation de la page qui contient le code ‹meta name=“robots“ content=“noindex“/›. A savoir que la page sera tout de même parcourue par les crawlers.
  • nofollow : vous ne voulez pas distribuer votre « jus SEO », ou refusez que votre zone de commentaires soit polluée par des spammeurs qui ne souhaitent que placer un lien vers leur site ? Insérez la balise ‹meta name=“robots“ content=“nofollow“/› dans le contenu de votre page !
  • none : avec la balise ‹meta name=“robots“ content=“none“/›, vous cumulez d’un coup d’un seul les balises noindex et nofollow.
  • nosnippet : même si l’intérêt de cette balise est à remettre en cause, la balise ‹meta name=“robots“ content=“nosnippet“/› indique aux moteurs de ne pas afficher le descriptif de la page dans les résultats de recherche.
  • noodp : avec la balise ‹meta name=“robots“ content=“noodp“/›, vous interdisez aux moteurs de recherche d’utiliser une description de votre site web issue de l’annuaire DMOZ.
  • noarchive : en insérant la balise ‹meta name=“robots“ content=“noarchive“/› ou ‹meta name=“robots“ content=“nocache“/› dans l’entête HTML de votre page, vous cachez aux crawlers tout lien placé en cache et associé à une page.
  • unavailable_after : dans le cas d’une page qui n’a plus d’intérêt d’être après un moment donné (inscription à une formation, article obsolète, évènement), vous pouvez préciser aux robots de ne plus parcourir le contenu à compter d’une date et d’une heure précise. Pour cela, il suffit d’ajouter la balise ‹meta name=“robots“ content=“unavailable_after“/›. Exemple : ‹meta name=“robots“ content=“unavailable_after:20-Mar-2018 18:00:00 EST“/›
  • noimageindex : pour ceux qui souhaitent ne pas indexer une image dans les SERP, la balise ‹meta name=“robots“ content=“noimageindex“/› devrait répondre à leurs attente.

Des balises spécifiques à chaque moteur de recherche

Bien entendu, vous pouvez choisir de vouloir vous adresser exclusivement aux robots de Bing et Yahoo, mais pas forcément Google. Dans le cas d’un article en anglais, par exemple ! En effet, Google adore fournir dans ses SERP un lien pour accéder à la traduction de votre page. Si vous ne souhaitez pas cette traduction automatique, vous pouvez ainsi le signaler à Google avec la balise suivante :

<meta name="google" content="notranslate">

Vous vous souvenez de la balise noodp, qui empêche de reprendre une description DMOZ pour votre site ? Yahoo a aussi le droit à la même chose, avec son annuaire Yahoo! Directory. Il suffit d’insérer la balise suivante :

<meta name="Slurp" content="noydir"> (oui, le robot d'exploration de Yahoo s'appelle Slurp)

En ce qui concerne Bing et MSN, même procédé :

<meta name="msnbot" content="xxxx">

<meta name="bingbot" content="xxxx">

J’ai eu la flemme de lire l’article. Un résumé ?

Beaucoup moins radicale que le fichier robots.txt (qui interdit l’exploration et l’indexation d’une page ou d’un groupe de pages), la balise méta robots est utilisée pour donner des directives aux moteurs de recherche. Ne pas traduire la page, ne pas suivre les liens, ne pas indexer le contenu, ne pas indexer les images : de nombreuses possibilités sont ouvertes avec les balises méta robots !