Robots.txt : tout ce qu’il faut savoir sur ce fichier important
Si vous avez déjà créé un site internet et en particulier si vous vous êtes intéressé à son référencement, vous avez sans doute entendu parler du robots.txt. Il s’agit d’un fichier texte destiné à communiquer des informations aux robots d’exploration des moteurs de recherche. Concrètement, la création et la mise en place d’un fichier robots.txt sont des étapes assez faciles à réaliser. Dans cet article, nous vous expliquons en détail son rôle, et allons aussi voir ensemble les points sur lesquels il faudra rester particulièrement vigilant.
Robots.txt : c’est quoi ?
Comme tout bon propriétaire de site, votre objectif est de faire en sorte que vos pages soient indexées par les moteurs de recherche (je vous rappelle au passage qu’il y a une différence entre indexation et référencement). Cependant, il peut arriver que certaines d’entre elles doivent rester confidentielles, ou que vous ne souhaitiez tout simplement pas les rendre accessibles dans les résultats de recherche. Un site web ou une page en construction, par exemple, ne doivent pas être diffusés avant d’être prêts. Il est alors important d’empêcher les robots de Google de les répertorier dans l’index du moteur de recherche. C’est une action qu’il est possible de réaliser grâce à un fichier texte, le robots.txt. Celui-ci est présent à la racine de votre site web.
En fait, ce fichier va fournir des indications précises au moteur de recherche qui explore votre site web. Ces informations vont lui permettre de savoir ce qu’il peut faire ou ne pas faire sur le site. Par exemple, dès qu’un « crawler » de moteur de recherche explore un site internet, il commence par chercher le fichier robots.txt. S’il le trouve, il va le lire puis en suivre toutes les indications. S’il ne parvient pas à le trouver, il commence alors le travail de scan et d’indexation des pages accessibles.
À quel moment le fichier robots.txt est pris en compte ?
Avant l’indexation du contenu de votre page, les robots vont d’abord scanner le site pour s’assurer de la présence (ou pas) du fichier robots.txt. Il est important de savoir où le placer. Ici, rien de bien sorcier, il tout simplement être inséré à la racine du site.
Si le fichier est présent, le robot en lit les instructions. Dans le cas contraire (absence de fichier), aucune action de sa part n’est interdite, ce qui peut entraîner quelques problèmes pour le référencement.
La structure du fichier robots.txt
Le fichier robots.txt répond à une logique bien précise : a chaque robot indiqué dans le fichier, une ou plusieurs règles sont fixées. Voici une image intéressante, pour mieux comprendre : imaginez plusieurs contributeurs d’un blog, avec des niveaux d’accréditation différents. Certains peuvent modifier le contenu, ajouter des images et publier des articles, d’autres n’ont que la possibilité de lire le contenu sans le modifier.
C’est la même chose avec les robots. Certains pourront réaliser telle ou telle opération, d’autres ne pourront pas indexer des parties précises du site. Dans votre fichier, vous pouvez par exemple autoriser les robots dans tous les répertoires, mais limiter leur action, en leur interdisant l’exploration d’un répertoire bien spécifique. Il peut s’agir, notamment, du répertoire d’administration de WordPress. Parmi les robots des moteurs de recherche les plus connus, on retrouve Googlebot-Images, Bingbot, Voilabot et Exabot.
Comment se présente un fichier robots.txt ?
Pour saisir des informations dans un fichier robots.txt, il faut suivre deux étapes. Le plus souvent, cela se fait en deux lignes, mais il est possible d’utiliser plusieurs lignes afin de fixer plus de règles et d’inclure plus de « user agents » (terme technique qui désigne les robots). Au niveau de la partie supérieure du code, vous allez déclarer un « user agent » grâce à son nom, et allez l’inviter à réaliser une action.
Par exemple, pour ordonner à Googlebot de ne pas explorer votre répertoire CMS, vous pouvez utiliser l’instruction suivante :
– User-Agent :Googlebot
– Disallow:/cms/
Si l’instruction en question est valable pour tous les robots d’exploration, il faudra utiliser la syntaxe suivante :
– User-Agent : *
– Disallow:/cms/
Si vous souhaitez, par ailleurs, vous assurer que toute votre présence sur le web sera ignorée par les robots des moteurs de recherche, il faut utiliser la syntaxe suivante :
– User-Agent : *
– Disallow:/
Utiliser des fichiers robots.txt avec des wilcards : comment faire ?
Pour simplifier la création d’un fichier robots.txt, il est possible d’utiliser des wildcards. Les wildcards sont en fait des marqueurs spécifiques, permettant d’éviter la répétition de certaines instructions. On peut les comparer à des raccourcis.
Ils sont compatibles avec les moteurs de recherche les plus connus. On peut citer, notamment, Yahoo!, Google, Bing ou encore Baidu. Parmi les wildcards, on retrouve deux signes, l’astérisque « * » et le dollar « $ ». Ces derniers ont deux rôles bien spécifiques, et permettent d’indiquer des instructions particulières aux « crawlers ».
Par exemple, l’astérisque permet d’inclure la totalité des robots dans une ligne telle que « User-agent :* », sans avoir à tous les citer. Le signe dollar, quant à lui, indique qu’il faut prendre en compte une instruction précise pour un ensemble d’URLs se terminant, par exemple, par.doc ou.pdf :
User-agent: *
Disallow: /*.doc$
Le bon fonctionnement d’un robots.txt est essentiel. Avant de penser à mettre le fichier en ligne, il faut vérifier s’il respecte les règles suivantes :
• Le fichier robots.txt se situe sur le premier niveau de répertoire
• La fin de l’extension du fichier a été marquée par le caractère $
• Le fichier est sur « Allow » par défaut. Pour bloquer certaines zones, il suffit de le faire avec « Disallow ».
• Les instructions restent sensibles à la casse
• Plusieurs règles sont toujours séparées par une ligne vierge
Comment tester les fichiers robots.txt ?
Il est possible de tester les fichiers robots.txt grâce à l’outil de test des fichiers robots.txt. On peut même travailler directement dessus dans la Search Console de Google afin d’obtenir de précieuses informations. Pour ce faire, il faut se rendre dans la sous-rubrique « Testeur robots.txt », au niveau du menu « Exploration » situé à la page d’accueil.
Lorsqu’une autre personne crée votre répertoire web et que vous n’avez pas toutes les informations sur le fichier robots.txt, il est possible de le repérer grâce au testeur, en saisissant son URL. S’il s’avère que le fichier est introuvable, c’est une erreur « 404 » qui va s’afficher. Dans ce cas, il faudra le soumettre à Google en procédant ainsi :
· Aller dans l’éditeur de fichiers robots.txt puis cliquer sur « Envoyer », en bas en droite. Une fenêtre de dialogue va s’afficher et vous pourrez y télécharger le code édité par la page de test. Pour cela, il suffit de cliquer sur « Télécharger ». Il faudra ensuite télécharger le nouveau fichier robots.txt au niveau de votre répertoire racine puis vérifier si le fichier est correctement exploré par Google. Vous allez, par la même occasion, informer Google que le fichier robots.txt a été modifié.
· Pour corriger les éventuelles erreurs dans un fichier robots.txt, s’il existe déjà, il est possible de faire défiler le code afin de vérifier la présence d’alertes dans le système. Au niveau du testeur, une zone va s’afficher et vous pourrez y saisir l’URL de l’une des pages de votre site avant de cliquer sur « Tester ». Mais avant cela, il est possible de tester le comportement d’un robot sur votre site, en le sélectionnant dans la liste déroulante. Une fois que vous aurez terminé, si vous voyez l’expression « Autorisé » s’afficher, la page peut être indexée.
Par contre, si le résultat du test affiche « Bloquer », cela signifie tout simplement que l’URL que vous avez saisie a été bloquée pour un ou plusieurs robots d’exploration de Google. Dès lors, si le résultat ne correspond pas vraiment à vos attentes, il va falloir corriger l’erreur au niveau du fichier, puis effectuer le test une nouvelle fois. À noter qu’il faut éditer le fichier robots.txt sur votre site, car vous n’avez pas la possibilité directement depuis la section test de la Search Console.
Le contrôle du fichier robots.txt avec OnPage.org
Que vous soyez une petite ou une grande entreprise, il est impératif de vérifier que le fichier robots.txt de votre site est accessible à tout moment ou que son contenu est adapté à vos objectifs. Par exemple, que certaines pages que vous ne souhaitez pas voir être indexées ne figurent pas dans les résultats des moteurs de recherche. Grâce à OnPage.org, un outil très puissant, vous avez, entre autres, la possibilité de vérifier régulièrement l’indexabilité des pages de votre site. C’est un atout précieux en matière de référencement !
Et si tout cela vous dépasse, il y a des professionnels dont c’est le métier : référenceurs, consultants et consultantes SEO, société de référencement, agences SEO, autant de personnes et d’entreprises spécialisées qui seront en mesure de travailler à l’amélioration du référencement de votre site web.