Qu'est-ce que le fichier robots.txt et à quoi sert-il ?

Temps de lecture 7 minute(s)

Ce qu’il faut retenir

Le fichier robots.txt indique aux robots d’indexation quelles zones d’un site ils sont invités à explorer ou à ignorer.
Il sert à optimiser le crawl, réduire la charge serveur et éviter l’exploration de contenus non pertinents ou techniques.
Une mauvaise configuration peut empêcher l’indexation de pages importantes, vérifiez toujours vos règles avant publication.

Dans le monde du référencement, le fichier robots.txt est un petit fichier texte placé à la racine du site qui indique aux robots ce qu’ils peuvent ou ne peuvent pas parcourir. Il n’influence pas directement le classement, mais il guide l’exploration et aide à utiliser efficacement le budget d’exploration.

Cet article vous explique de manière pratique ce qu’est robots.txt, comment il fonctionne, les erreurs fréquentes à éviter et des bonnes pratiques simples à appliquer, sans jargon inutile.

Sommaire

Qu’est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte accessible à l’adresse https://votre-domaine/robots.txt. Il contient des directives lisibles par les robots des moteurs de recherche qui consultent ce fichier avant d’explorer le reste du site. Ces directives sont publiques et servent de règle de courtoisie : elles indiquent ce qui peut être exploré ou non.

Important à comprendre : robots.txt ne sécurise pas une page. Bloquer une URL empêche son exploration par les robots qui respectent ce fichier, mais n’empêche pas l’accès direct si quelqu’un connaît l’URL. Pour protéger des contenus sensibles, utilisez des mesures d’authentification ou des permissions serveur.

Pourquoi robots.txt est-il utile pour le SEO ?

Les moteurs disposent d’un budget de crawl, c’est à dire d’un nombre de requêtes qu’ils effectuent sur votre site lors d’une période donnée. Sur les grands sites ou ceux avec beaucoup d’URL non pertinentes, il est utile de guider les robots vers les pages importantes pour améliorer l’efficacité de l’exploration.

Concentrer l’exploration sur les pages stratégiques et éviter les pages techniques ou temporaires.
Réduire la charge serveur en limitant les requêtes inutiles des robots.
Empêcher l’exploration de parties du site qui génèrent du contenu dupliqué ou peu utile pour l’indexation.

Comment fonctionne le fichier robots.txt ?

Le fichier est lu par les robots avant toute exploration. Il est structuré en groupes de directives. Les principales lignes à connaître :

User-agent : nom du robot concerné (par exemple Googlebot). L’astérisque (*) signifie tous les robots.
Disallow : chemin à ne pas explorer.
Allow : autorise l’exploration d’un sous-chemin dans un dossier bloqué.
Sitemap : indique l’emplacement du sitemap.xml pour aider les moteurs à trouver les pages importantes.

Exemple basique :

User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml

Point d’attention

Si vous mettez Disallow: /, vous empêchez tous les robots d’explorer votre site. Cela peut retirer vos pages des résultats de recherche. Vérifiez toujours avant publication et testez les règles sur un environnement de préproduction si possible.

Directives avancées et patterns

Certains moteurs comprennent des motifs pour préciser des chemins plus finement. Les plus utilisés :

L’astérisque (*) représente une séquence de caractères.
Le symbole dollar ($) indique la fin de l’URL.

Exemples pratiques :

User-agent: *
Disallow: /private/*
Disallow: /*?sessionid=

Remarque importante : tous les robots n’interprètent pas de la même façon ces extensions. Google reconnaît la plupart des motifs courants, mais d’autres crawlers peuvent ignorer certaines syntaxes. Testez les règles sur les moteurs que vous ciblez.

Cas pratiques et scénarios

Masquer une zone d’administration

Sur la plupart des sites, il est pertinent d’empêcher l’exploration de la zone d’administration pour éviter que des pages techniques ne consomment le budget de crawl.

User-agent: *
Disallow: /wp-admin/

Autoriser un fichier spécifique dans un dossier bloqué

Parfois vous bloquez un dossier mais vous souhaitez qu’un fichier précis reste accessible aux robots. Dans ce cas, utilisez Allow pour l’indiquer explicitement.

User-agent: *
Disallow: /images/
Allow: /images/important.jpg

Empêcher l’exploration d’URL avec paramètres

Les sites e-commerce et les plateformes dynamiques génèrent souvent des URL avec paramètres qui créent des doublons d’URL. Bloquer certains paramètres peut limiter ce phénomène, mais attention à ne pas bloquer des paramètres utiles au référencement ou à l’expérience utilisateur.

User-agent: *
Disallow: /*?sort=
Disallow: /*?sessionid=

Astuce pratique

Avant de déployer un robots.txt en production, testez-le dans un environnement de préproduction et utilisez le rapport robots.txt de Google Search Console pour vérifier le comportement. Sauvegardez la version précédente pour pouvoir revenir en arrière rapidement.

Tableau récapitulatif des directives courantes du robots.txt

Directives communes et leur utilité

Directive	Exemple	Rôle / Quand l’utiliser
User-agent	User-agent: Googlebot	Spécifie à quel robot s’appliquent les règles. Utilisez-le pour cibler un moteur précis.
Disallow	Disallow: /admin/	Empêche l’exploration de dossiers ou d’URL non pertinents pour l’indexation.
Allow	Allow: /images/important.jpg	Permet d’autoriser un fichier ou chemin malgré un blocage plus large sur le dossier parent.
Sitemap	Sitemap: https://www.example.com/sitemap.xml	Indique l’emplacement du sitemap pour aider les moteurs à découvrir les pages importantes.

Erreurs courantes à éviter

Publier un robots.txt avec Disallow: / par erreur, ce qui bloque tout le site.
Penser que robots.txt protège des données sensibles. Il ne fait que demander aux robots de ne pas explorer ce qui est indiqué.
Oublier d’autoriser des robots d’outils importants si votre site dépend d’audits automatisés.
Ne pas mettre à jour le fichier après une restructuration d’URL, ce qui peut laisser des chemins obsolètes bloqués.

Comment tester et diagnostiquer

Plusieurs outils et méthodes permettent de vérifier que votre robots.txt fonctionne comme prévu :

Consulter directement l’URL https://votre-domaine/robots.txt pour voir le fichier publié.
Utiliser le rapport robots.txt dans Google Search Console pour connaître la date de dernière lecture et les erreurs signalées.
Avec l’outil d’inspection d’URL dans Search Console, tester si une page est bloquée par robots.txt.
Analyser les logs serveur pour voir quelles URL sont demandées par quels robots et repérer des comportements anormaux.

Ces vérifications permettent de détecter rapidement si une règle a un impact négatif sur l’exploration et l’indexation.

Bonnes pratiques pour un robots.txt efficace

Ne bloquez que ce qui est nécessaire. Laissez accessibles les contenus utiles au public et aux moteurs.
Référencez votre sitemap dans le fichier pour aider les moteurs à trouver vos pages importantes.
Tenez le fichier à jour après toute modification d’architecture, de CMS ou de structure d’URL.
Testez chaque changement dans Search Console et surveillez les effets sur le trafic organique et l’indexation.

Checklist rapide avant publication

Vérifier qu’aucune page stratégique n’est bloquée par erreur.
S’assurer que le sitemap est bien référencé si vous en avez un.
Tester les motifs (wildcards) sur les moteurs que vous ciblez.
Contrôler les logs serveur après publication pour détecter des comportements inattendus.

Pour conclure

Le fichier robots.txt est un levier simple et utile pour guider les robots d’indexation. Bien utilisé, il permet de concentrer le crawl sur les pages importantes et de réduire la charge serveur. Mal configuré, il peut couper l’accès des moteurs à des pages clés et nuire à la visibilité du site. Prenez le temps de rédiger des règles claires, testez-les et surveillez les effets après publication.

Besoin d’aide pour votre robots.txt ?

Je peux analyser votre fichier et proposer des règles adaptées à votre site.

Me contacter

Foire aux questions (FAQ)

Le fichier robots.txt bloque-t-il l’affichage d’une page dans les résultats de recherche ?

Robots.txt empêche l’exploration par les robots qui respectent cette norme. Si une page est déjà indexée, elle peut rester visible sans extrait. Pour retirer une page des résultats, utilisez la balise meta robots noindex sur la page elle-même ou l’outil de suppression d’URL dans Search Console.

Dois-je bloquer les paramètres d’URL dans robots.txt ?

Bloquer certains paramètres peut limiter le contenu dupliqué exploré par les moteurs. Toutefois, certains paramètres sont nécessaires au fonctionnement du site (tri, filtres). Testez les règles, combinez-les si besoin avec des balises canonique et utilisez la gestion des paramètres dans Search Console quand c’est approprié.

Le fichier robots.txt protège-t-il mes fichiers confidentiels ?

Non. Robots.txt est une instruction publique pour les robots et ne protège pas l’accès. Toute personne connaissant l’URL peut accéder au contenu. Pour protéger des fichiers, utilisez l’authentification, les permissions serveur ou stockez-les hors d’accès public.

Comment vérifier que mon robots.txt fonctionne pour Google ?

Utilisez le rapport robots.txt dans Google Search Console pour voir la dernière lecture et les erreurs. L’outil d’inspection d’URL permet de vérifier si une page est bloquée. Vous pouvez aussi consulter directement l’URL /robots.txt et analyser les logs serveur pour confirmer le comportement des robots.

Frédéric KABOUCHE

Passionné pas le SEO depuis 2004, je vous propose de mettre mes compétences à votre service.

Qu’est-ce que le fichier robots.txt ?

Pourquoi robots.txt est-il utile pour le SEO ?

Comment fonctionne le fichier robots.txt ?

Directives avancées et patterns

Cas pratiques et scénarios

Masquer une zone d’administration

Autoriser un fichier spécifique dans un dossier bloqué

Empêcher l’exploration d’URL avec paramètres

Tableau récapitulatif des directives courantes du robots.txt

Erreurs courantes à éviter

Comment tester et diagnostiquer

Bonnes pratiques pour un robots.txt efficace

Checklist rapide avant publication

Pour conclure

Foire aux questions (FAQ)

Articles en relation