Temps de lecture 7 minute(s)
Ce qu’il faut retenir
- Le fichier robots.txt indique aux robots d’indexation quelles zones d’un site ils sont invités à explorer ou à ignorer.
- Il sert à optimiser le crawl, réduire la charge serveur et éviter l’exploration de contenus non pertinents ou techniques.
- Une mauvaise configuration peut empêcher l’indexation de pages importantes, vérifiez toujours vos règles avant publication.
Dans le monde du référencement, le fichier robots.txt est un petit fichier texte placé à la racine du site qui indique aux robots ce qu’ils peuvent ou ne peuvent pas parcourir. Il n’influence pas directement le classement, mais il guide l’exploration et aide à utiliser efficacement le budget d’exploration.
Cet article vous explique de manière pratique ce qu’est robots.txt, comment il fonctionne, les erreurs fréquentes à éviter et des bonnes pratiques simples à appliquer, sans jargon inutile.
Sommaire
Qu’est-ce que le fichier robots.txt ?
Le fichier robots.txt est un fichier texte accessible à l’adresse https://votre-domaine/robots.txt. Il contient des directives lisibles par les robots des moteurs de recherche qui consultent ce fichier avant d’explorer le reste du site. Ces directives sont publiques et servent de règle de courtoisie : elles indiquent ce qui peut être exploré ou non.
Important à comprendre : robots.txt ne sécurise pas une page. Bloquer une URL empêche son exploration par les robots qui respectent ce fichier, mais n’empêche pas l’accès direct si quelqu’un connaît l’URL. Pour protéger des contenus sensibles, utilisez des mesures d’authentification ou des permissions serveur.
Pourquoi robots.txt est-il utile pour le SEO ?
Les moteurs disposent d’un budget de crawl, c’est à dire d’un nombre de requêtes qu’ils effectuent sur votre site lors d’une période donnée. Sur les grands sites ou ceux avec beaucoup d’URL non pertinentes, il est utile de guider les robots vers les pages importantes pour améliorer l’efficacité de l’exploration.
- Concentrer l’exploration sur les pages stratégiques et éviter les pages techniques ou temporaires.
- Réduire la charge serveur en limitant les requêtes inutiles des robots.
- Empêcher l’exploration de parties du site qui génèrent du contenu dupliqué ou peu utile pour l’indexation.
Comment fonctionne le fichier robots.txt ?
Le fichier est lu par les robots avant toute exploration. Il est structuré en groupes de directives. Les principales lignes à connaître :
- User-agent : nom du robot concerné (par exemple Googlebot). L’astérisque (*) signifie tous les robots.
- Disallow : chemin à ne pas explorer.
- Allow : autorise l’exploration d’un sous-chemin dans un dossier bloqué.
- Sitemap : indique l’emplacement du sitemap.xml pour aider les moteurs à trouver les pages importantes.
Exemple basique :
User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml
Point d’attention
Si vous mettez Disallow: /, vous empêchez tous les robots d’explorer votre site. Cela peut retirer vos pages des résultats de recherche. Vérifiez toujours avant publication et testez les règles sur un environnement de préproduction si possible.
Directives avancées et patterns
Certains moteurs comprennent des motifs pour préciser des chemins plus finement. Les plus utilisés :
- L’astérisque (*) représente une séquence de caractères.
- Le symbole dollar ($) indique la fin de l’URL.
Exemples pratiques :
User-agent: *
Disallow: /private/*
Disallow: /*?sessionid=
Remarque importante : tous les robots n’interprètent pas de la même façon ces extensions. Google reconnaît la plupart des motifs courants, mais d’autres crawlers peuvent ignorer certaines syntaxes. Testez les règles sur les moteurs que vous ciblez.
Cas pratiques et scénarios
Masquer une zone d’administration
Sur la plupart des sites, il est pertinent d’empêcher l’exploration de la zone d’administration pour éviter que des pages techniques ne consomment le budget de crawl.
User-agent: *
Disallow: /wp-admin/
Autoriser un fichier spécifique dans un dossier bloqué
Parfois vous bloquez un dossier mais vous souhaitez qu’un fichier précis reste accessible aux robots. Dans ce cas, utilisez Allow pour l’indiquer explicitement.
User-agent: *
Disallow: /images/
Allow: /images/important.jpg
Empêcher l’exploration d’URL avec paramètres
Les sites e-commerce et les plateformes dynamiques génèrent souvent des URL avec paramètres qui créent des doublons d’URL. Bloquer certains paramètres peut limiter ce phénomène, mais attention à ne pas bloquer des paramètres utiles au référencement ou à l’expérience utilisateur.
User-agent: *
Disallow: /*?sort=
Disallow: /*?sessionid=
Astuce pratique
Avant de déployer un robots.txt en production, testez-le dans un environnement de préproduction et utilisez le rapport robots.txt de Google Search Console pour vérifier le comportement. Sauvegardez la version précédente pour pouvoir revenir en arrière rapidement.
Tableau récapitulatif des directives courantes du robots.txt
| Directive | Exemple | Rôle / Quand l’utiliser |
|---|---|---|
| User-agent | User-agent: Googlebot | Spécifie à quel robot s’appliquent les règles. Utilisez-le pour cibler un moteur précis. |
| Disallow | Disallow: /admin/ | Empêche l’exploration de dossiers ou d’URL non pertinents pour l’indexation. |
| Allow | Allow: /images/important.jpg | Permet d’autoriser un fichier ou chemin malgré un blocage plus large sur le dossier parent. |
| Sitemap | Sitemap: https://www.example.com/sitemap.xml | Indique l’emplacement du sitemap pour aider les moteurs à découvrir les pages importantes. |
Erreurs courantes à éviter
- Publier un robots.txt avec
Disallow: /par erreur, ce qui bloque tout le site. - Penser que robots.txt protège des données sensibles. Il ne fait que demander aux robots de ne pas explorer ce qui est indiqué.
- Oublier d’autoriser des robots d’outils importants si votre site dépend d’audits automatisés.
- Ne pas mettre à jour le fichier après une restructuration d’URL, ce qui peut laisser des chemins obsolètes bloqués.
Comment tester et diagnostiquer
Plusieurs outils et méthodes permettent de vérifier que votre robots.txt fonctionne comme prévu :
- Consulter directement l’URL https://votre-domaine/robots.txt pour voir le fichier publié.
- Utiliser le rapport robots.txt dans Google Search Console pour connaître la date de dernière lecture et les erreurs signalées.
- Avec l’outil d’inspection d’URL dans Search Console, tester si une page est bloquée par robots.txt.
- Analyser les logs serveur pour voir quelles URL sont demandées par quels robots et repérer des comportements anormaux.
Ces vérifications permettent de détecter rapidement si une règle a un impact négatif sur l’exploration et l’indexation.
Bonnes pratiques pour un robots.txt efficace
- Ne bloquez que ce qui est nécessaire. Laissez accessibles les contenus utiles au public et aux moteurs.
- Référencez votre sitemap dans le fichier pour aider les moteurs à trouver vos pages importantes.
- Tenez le fichier à jour après toute modification d’architecture, de CMS ou de structure d’URL.
- Testez chaque changement dans Search Console et surveillez les effets sur le trafic organique et l’indexation.
Checklist rapide avant publication
- Vérifier qu’aucune page stratégique n’est bloquée par erreur.
- S’assurer que le sitemap est bien référencé si vous en avez un.
- Tester les motifs (wildcards) sur les moteurs que vous ciblez.
- Contrôler les logs serveur après publication pour détecter des comportements inattendus.
Pour conclure
Le fichier robots.txt est un levier simple et utile pour guider les robots d’indexation. Bien utilisé, il permet de concentrer le crawl sur les pages importantes et de réduire la charge serveur. Mal configuré, il peut couper l’accès des moteurs à des pages clés et nuire à la visibilité du site. Prenez le temps de rédiger des règles claires, testez-les et surveillez les effets après publication.
Foire aux questions (FAQ)
Le fichier robots.txt bloque-t-il l’affichage d’une page dans les résultats de recherche ?
Dois-je bloquer les paramètres d’URL dans robots.txt ?
Le fichier robots.txt protège-t-il mes fichiers confidentiels ?
Comment vérifier que mon robots.txt fonctionne pour Google ?

Passionné pas le SEO depuis 2004, je vous propose de mettre mes compétences à votre service.
