Robots.txt — le guide complet du fichier robots.txt
Le fichier robots.txt est l'un des fondements de la configuration d'un site pour les moteurs de recherche. Malgré sa syntaxe simple, une mauvaise configuration peut bloquer l'indexation de tout le site ou révéler une structure sensible du service. Ce guide vous accompagnera à travers tout ce que vous devez savoir — de la syntaxe de base aux techniques avancées et aux erreurs courantes.
Vous voulez vérifier le fichier robots.txt de votre domaine ?
Ouvrir le testeur robots.txtQu'est-ce que le fichier robots.txt ?
Robots.txt est un fichier texte placé dans le répertoire racine du domaine à l'adresse example.com/robots.txt. Il définit des règles pour les robots d'internet (crawlers) en précisant quelles parties du site peuvent être visitées et indexées. Ce protocole est connu sous le nom de REP (Robots Exclusion Protocol) et est respecté par tous les principaux moteurs de recherche : Google, Bing, Yandex, DuckDuckGo et autres.
Important : robots.txt n'est qu'une suggestion, pas une obligation. Les robots malveillants peuvent ignorer ses règles. Il ne doit pas être utilisé comme unique mécanisme de protection des ressources sensibles.
Où placer le fichier robots.txt ?
Le fichier doit se trouver dans le répertoire racine du domaine — pas dans un sous-domaine ou un sous-répertoire. Disponible à l'adresse :
https://example.com/robots.txt
✓ Correct
https://www.example.com/robots.txt
✓ Correct
https://example.com/folder/robots.txt
✗ Incorrect
https://sub.example.com/robots.txt
✓ Robots.txt distinct pour le sous-domaine
Syntaxe de base
Le fichier robots.txt se compose de groupes de règles. Chaque groupe commence par une ou plusieurs directives User-agent, suivies des directives Allow et Disallow. Les groupes sont séparés par des lignes vides.
Structure du fichier
Directives — liste complète
User-agent
Tous
Spécifie le robot. * signifie tous.
Disallow
Tous
Bloque l'accès au chemin et aux sous-répertoires.
Allow
Google, Bing
Autorise l'accès, même si le chemin parent est bloqué.
Sitemap
Tous
Indique l'emplacement du sitemap XML.
Crawl-delay
Bing, Yandex
Délai minimal entre les requêtes du crawler en secondes. Google l'ignore.
Host
Yandex
Indique le domaine préféré. Utilisé par Yandex.
Clean-param
Yandex
Informe les robots des paramètres d'URL sans importance pour le contenu.
Wildcards et modèles de chemins
Google et Bing prennent en charge deux caractères spéciaux (wildcards) dans les chemins :
Disallow: /*.pdf$
Correspond à n'importe quelle chaîne de caractères (zéro ou plus).
Disallow: /search$
Correspond à la fin de l'URL — le chemin doit se terminer exactement à cet endroit.
Exemples de modèles
Priorité des règles — qui l'emporte ?
Lorsque plusieurs règles correspondent à la même URL, Google applique la règle de la correspondance la plus longue — la règle avec le modèle correspondant le plus long l'emporte. En cas de longueur égale, Allow est prioritaire sur Disallow.
Exemples de configuration
1. Configuration de base — WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/
Sitemap: https://example.com/sitemap.xml
2. Boutique e-commerce
User-agent: *
Disallow: /panier/
Disallow: /commande/
Disallow: /mon-compte/
Disallow: /tableau-de-bord/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produits/
Allow: /catégories/
Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml
3. Blocage de certains robots d'IA
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://example.com/sitemap.xml
4. Site en mode maintenance
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Crawlers connus et leurs User-Agents
Googlebot
Googlebot-Image
AdsBot-Google
Google-Extended
bingbot
YandexBot
DuckDuckBot
Baiduspider
GPTBot
anthropic-ai
CCBot
SemrushBot
AhrefsBot
Erreurs les plus courantes dans le robots.txt
Robots.txt et SEO — ce qu'il faut savoir
Le fichier robots.txt impacte directement le crawl budget — le budget d'exploration alloué par Google à chaque site. Une utilisation efficace du robots.txt permet de diriger les crawlers vers les pages importantes et d'éviter de gaspiller le budget sur des URL sans importance.