Robots.txt — le guide complet du fichier robots.txt

Le fichier robots.txt est l'un des fondements de la configuration d'un site pour les moteurs de recherche. Malgré sa syntaxe simple, une mauvaise configuration peut bloquer l'indexation de tout le site ou révéler une structure sensible du service. Ce guide vous accompagnera à travers tout ce que vous devez savoir — de la syntaxe de base aux techniques avancées et aux erreurs courantes.

Vous voulez vérifier le fichier robots.txt de votre domaine ?

Ouvrir le testeur robots.txt

Qu'est-ce que le fichier robots.txt ?

Robots.txt est un fichier texte placé dans le répertoire racine du domaine à l'adresse example.com/robots.txt. Il définit des règles pour les robots d'internet (crawlers) en précisant quelles parties du site peuvent être visitées et indexées. Ce protocole est connu sous le nom de REP (Robots Exclusion Protocol) et est respecté par tous les principaux moteurs de recherche : Google, Bing, Yandex, DuckDuckGo et autres.

Important : robots.txt n'est qu'une suggestion, pas une obligation. Les robots malveillants peuvent ignorer ses règles. Il ne doit pas être utilisé comme unique mécanisme de protection des ressources sensibles.

Où placer le fichier robots.txt ?

Le fichier doit se trouver dans le répertoire racine du domaine — pas dans un sous-domaine ou un sous-répertoire. Disponible à l'adresse :

https://example.com/robots.txt ✓ Correct

https://www.example.com/robots.txt ✓ Correct

https://example.com/folder/robots.txt ✗ Incorrect

https://sub.example.com/robots.txt ✓ Robots.txt distinct pour le sous-domaine

Syntaxe de base

Le fichier robots.txt se compose de groupes de règles. Chaque groupe commence par une ou plusieurs directives User-agent, suivies des directives Allow et Disallow. Les groupes sont séparés par des lignes vides.

Structure du fichier

# Commentaire — la ligne commence par #

User-agent: [nom-du-robot]

Disallow: [chemin]

Allow: [chemin]

Crawl-delay: [secondes]

User-agent: [autre-robot]

Disallow: [chemin]

Sitemap: [URL-du-sitemap]

Directives — liste complète

User-agent Tous

User-agent: *

Spécifie le robot. * signifie tous.

Disallow Tous

Disallow: /admin/

Bloque l'accès au chemin et aux sous-répertoires.

Allow Google, Bing

Allow: /public/

Autorise l'accès, même si le chemin parent est bloqué.

Sitemap Tous

Sitemap: /sitemap.xml

Indique l'emplacement du sitemap XML.

Crawl-delay Bing, Yandex

Crawl-delay: 10

Délai minimal entre les requêtes du crawler en secondes. Google l'ignore.

Host Yandex

Host: example.com

Indique le domaine préféré. Utilisé par Yandex.

Clean-param Yandex

Clean-param: sid

Informe les robots des paramètres d'URL sans importance pour le contenu.

Wildcards et modèles de chemins

Google et Bing prennent en charge deux caractères spéciaux (wildcards) dans les chemins :

Disallow: /*.pdf$

Correspond à n'importe quelle chaîne de caractères (zéro ou plus).

Disallow: /search$

Correspond à la fin de l'URL — le chemin doit se terminer exactement à cet endroit.

Exemples de modèles

# bloque tout le site

Disallow: /

# bloque /admin/ et tous les sous-répertoires

Disallow: /admin/

# bloque tous les URL se terminant par .pdf

Disallow: /*.pdf$

# bloque tous les URL avec des paramètres de requête

Disallow: /*?

# bloque uniquement /search, pas /search/results

Disallow: /search$

# autorise un sous-répertoire d'un répertoire bloqué

Allow: /admin/public/

Priorité des règles — qui l'emporte ?

Lorsque plusieurs règles correspondent à la même URL, Google applique la règle de la correspondance la plus longue — la règle avec le modèle correspondant le plus long l'emporte. En cas de longueur égale, Allow est prioritaire sur Disallow.

# Exemples de règles :

User-agent: *

Disallow: /dossier/

Allow: /dossier/public/

# Pour l'URL /folder/prive/ → Disallow (correspondance plus longue)

# Pour l'URL /folder/public/ → Allow (correspondance plus longue)

# Pour l'URL /folder/ → Disallow

Exemples de configuration

1. Configuration de base — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. Boutique e-commerce

User-agent: *
Disallow: /panier/
Disallow: /commande/
Disallow: /mon-compte/
Disallow: /tableau-de-bord/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produits/
Allow: /catégories/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Blocage de certains robots d'IA

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Site en mode maintenance

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Crawlers connus et leurs User-Agents

Googlebot

Google

Googlebot

Google Images

Google

Googlebot-Image

Google AdsBot

Google

AdsBot-Google

Google Extended

Google AI

Google-Extended

Bingbot

Microsoft

bingbot

Yandex

YandexBot

DuckDuckBot

DuckDuckGo

DuckDuckBot

Baidu

Baiduspider

GPTBot

OpenAI

GPTBot

Claude

Anthropic

anthropic-ai

CCBot

Common Crawl

CCBot

SemrushBot

Semrush

SemrushBot

AhrefsBot

Ahrefs

AhrefsBot

Erreurs les plus courantes dans le robots.txt

Blocage de tout le site

Disallow: / pour tous les robots bloque tout le site — l'une des erreurs SEO les plus coûteuses. Google informe régulièrement de ces pages dans la Search Console.

Blocage des pages avec noindex

Si une page possède une balise meta noindex, ne la bloquez pas dans le robots.txt. Le crawler doit visiter la page pour voir la directive noindex. Une page bloquée peut rester dans l'index s'il existe un lien vers elle.

Révélation de la structure du service

Le fichier robots.txt est public. En inscrivant Disallow: /panel-secret/, vous informez tout le monde de l'existence de ce répertoire. Utilisez le robots.txt pour contrôler le crawling, pas pour cacher des ressources.

Absence de fichiers distincts pour les sous-domaines

Le robots.txt sur example.com ne s'applique pas à blog.example.com. Chaque sous-domaine nécessite son propre fichier robots.txt.

Blocage des ressources CSS et JS

Google a besoin d'accéder au CSS et au JavaScript pour rendre la page et évaluer sa qualité. Bloquer ces ressources peut nuire au classement.

Confusion entre robots.txt et .htaccess

Le robots.txt ne bloque pas l'accès aux fichiers — il informe seulement les robots de ne pas les visiter. Un utilisateur peut toujours accéder à une URL bloquée. Pour une protection réelle, utilisez le .htaccess ou la configuration du serveur.

Robots.txt et SEO — ce qu'il faut savoir

Le fichier robots.txt impacte directement le crawl budget — le budget d'exploration alloué par Google à chaque site. Une utilisation efficace du robots.txt permet de diriger les crawlers vers les pages importantes et d'éviter de gaspiller le budget sur des URL sans importance.

Bloquer les URL sans importance

Paramètres de tri, de filtrage, de session — bloquez-les pour que les crawlers se concentrent sur les pages à forte valeur.

Ajoutez toujours un Sitemap

La directive Sitemap dans le robots.txt est un moyen rapide d'informer tous les moteurs de recherche de l'emplacement du sitemap.

Protégez les panneaux d'administration

Bloquez /admin/, /wp-admin/, /phpmyadmin/ — pas pour la sécurité, mais pour ne pas gaspiller le crawl budget.

Vérifiez dans la Search Console

En complément de notre outil, vous pouvez utiliser la Google Search Console, qui possède également un outil intégré pour tester le robots.txt - cela montre comment Google interprète directement les règles.

Testeur de robots.txt

Vérifiez le fichier robots.txt de n'importe quel domaine et testez les règles pour des URL spécifiques.

Vérifier les enregistrements DNS

Vérifiez la configuration DNS de votre domaine — enregistrements A, MX, TXT et autres.