wtoolsy.com
Réseau, DNS, IP
Outils de développement
SEO et analyse de site
Finance et calculateurs
Universel
Articles
Tous les articles

Robots.txt — le guide complet du fichier robots.txt

Le fichier robots.txt est l'un des fondements de la configuration d'un site pour les moteurs de recherche. Malgré sa syntaxe simple, une mauvaise configuration peut bloquer l'indexation de tout le site ou révéler une structure sensible du service. Ce guide vous accompagnera à travers tout ce que vous devez savoir — de la syntaxe de base aux techniques avancées et aux erreurs courantes.

Vous voulez vérifier le fichier robots.txt de votre domaine ?

Ouvrir le testeur robots.txt

Qu'est-ce que le fichier robots.txt ?

Robots.txt est un fichier texte placé dans le répertoire racine du domaine à l'adresse example.com/robots.txt. Il définit des règles pour les robots d'internet (crawlers) en précisant quelles parties du site peuvent être visitées et indexées. Ce protocole est connu sous le nom de REP (Robots Exclusion Protocol) et est respecté par tous les principaux moteurs de recherche : Google, Bing, Yandex, DuckDuckGo et autres.

Important : robots.txt n'est qu'une suggestion, pas une obligation. Les robots malveillants peuvent ignorer ses règles. Il ne doit pas être utilisé comme unique mécanisme de protection des ressources sensibles.

Où placer le fichier robots.txt ?

Le fichier doit se trouver dans le répertoire racine du domaine — pas dans un sous-domaine ou un sous-répertoire. Disponible à l'adresse :

https://example.com/robots.txt ✓ Correct
https://www.example.com/robots.txt ✓ Correct
https://example.com/folder/robots.txt ✗ Incorrect
https://sub.example.com/robots.txt ✓ Robots.txt distinct pour le sous-domaine

Syntaxe de base

Le fichier robots.txt se compose de groupes de règles. Chaque groupe commence par une ou plusieurs directives User-agent, suivies des directives Allow et Disallow. Les groupes sont séparés par des lignes vides.

Structure du fichier

# Commentaire — la ligne commence par #
User-agent: [nom-du-robot]
Disallow: [chemin]
Allow: [chemin]
Crawl-delay: [secondes]
User-agent: [autre-robot]
Disallow: [chemin]
Sitemap: [URL-du-sitemap]

Directives — liste complète

User-agent Tous
User-agent: *

Spécifie le robot. * signifie tous.

Disallow Tous
Disallow: /admin/

Bloque l'accès au chemin et aux sous-répertoires.

Allow Google, Bing
Allow: /public/

Autorise l'accès, même si le chemin parent est bloqué.

Sitemap Tous
Sitemap: /sitemap.xml

Indique l'emplacement du sitemap XML.

Crawl-delay Bing, Yandex
Crawl-delay: 10

Délai minimal entre les requêtes du crawler en secondes. Google l'ignore.

Host Yandex
Host: example.com

Indique le domaine préféré. Utilisé par Yandex.

Clean-param Yandex
Clean-param: sid

Informe les robots des paramètres d'URL sans importance pour le contenu.

Wildcards et modèles de chemins

Google et Bing prennent en charge deux caractères spéciaux (wildcards) dans les chemins :

*
Disallow: /*.pdf$

Correspond à n'importe quelle chaîne de caractères (zéro ou plus).

$
Disallow: /search$

Correspond à la fin de l'URL — le chemin doit se terminer exactement à cet endroit.

Exemples de modèles

# bloque tout le site
Disallow: /
# bloque /admin/ et tous les sous-répertoires
Disallow: /admin/
# bloque tous les URL se terminant par .pdf
Disallow: /*.pdf$
# bloque tous les URL avec des paramètres de requête
Disallow: /*?
# bloque uniquement /search, pas /search/results
Disallow: /search$
# autorise un sous-répertoire d'un répertoire bloqué
Allow: /admin/public/

Priorité des règles — qui l'emporte ?

Lorsque plusieurs règles correspondent à la même URL, Google applique la règle de la correspondance la plus longue — la règle avec le modèle correspondant le plus long l'emporte. En cas de longueur égale, Allow est prioritaire sur Disallow.

# Exemples de règles :
User-agent: *
Disallow: /dossier/
Allow: /dossier/public/
# Pour l'URL /folder/prive/ → Disallow (correspondance plus longue)
# Pour l'URL /folder/public/ → Allow (correspondance plus longue)
# Pour l'URL /folder/ → Disallow

Exemples de configuration

1. Configuration de base — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. Boutique e-commerce

User-agent: *
Disallow: /panier/
Disallow: /commande/
Disallow: /mon-compte/
Disallow: /tableau-de-bord/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produits/
Allow: /catégories/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Blocage de certains robots d'IA

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Site en mode maintenance

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Crawlers connus et leurs User-Agents

Googlebot
Google
Googlebot
Google Images
Google
Googlebot-Image
Google AdsBot
Google
AdsBot-Google
Google Extended
Google AI
Google-Extended
Bingbot
Microsoft
bingbot
Yandex
Yandex
YandexBot
DuckDuckBot
DuckDuckGo
DuckDuckBot
Baidu
Baidu
Baiduspider
GPTBot
OpenAI
GPTBot
Claude
Anthropic
anthropic-ai
CCBot
Common Crawl
CCBot
SemrushBot
Semrush
SemrushBot
AhrefsBot
Ahrefs
AhrefsBot

Erreurs les plus courantes dans le robots.txt

Blocage de tout le site
Disallow: / pour tous les robots bloque tout le site — l'une des erreurs SEO les plus coûteuses. Google informe régulièrement de ces pages dans la Search Console.
Blocage des pages avec noindex
Si une page possède une balise meta noindex, ne la bloquez pas dans le robots.txt. Le crawler doit visiter la page pour voir la directive noindex. Une page bloquée peut rester dans l'index s'il existe un lien vers elle.
Révélation de la structure du service
Le fichier robots.txt est public. En inscrivant Disallow: /panel-secret/, vous informez tout le monde de l'existence de ce répertoire. Utilisez le robots.txt pour contrôler le crawling, pas pour cacher des ressources.
Absence de fichiers distincts pour les sous-domaines
Le robots.txt sur example.com ne s'applique pas à blog.example.com. Chaque sous-domaine nécessite son propre fichier robots.txt.
Blocage des ressources CSS et JS
Google a besoin d'accéder au CSS et au JavaScript pour rendre la page et évaluer sa qualité. Bloquer ces ressources peut nuire au classement.
Confusion entre robots.txt et .htaccess
Le robots.txt ne bloque pas l'accès aux fichiers — il informe seulement les robots de ne pas les visiter. Un utilisateur peut toujours accéder à une URL bloquée. Pour une protection réelle, utilisez le .htaccess ou la configuration du serveur.

Robots.txt et SEO — ce qu'il faut savoir

Le fichier robots.txt impacte directement le crawl budget — le budget d'exploration alloué par Google à chaque site. Une utilisation efficace du robots.txt permet de diriger les crawlers vers les pages importantes et d'éviter de gaspiller le budget sur des URL sans importance.

Bloquer les URL sans importance
Paramètres de tri, de filtrage, de session — bloquez-les pour que les crawlers se concentrent sur les pages à forte valeur.
Ajoutez toujours un Sitemap
La directive Sitemap dans le robots.txt est un moyen rapide d'informer tous les moteurs de recherche de l'emplacement du sitemap.
Protégez les panneaux d'administration
Bloquez /admin/, /wp-admin/, /phpmyadmin/ — pas pour la sécurité, mais pour ne pas gaspiller le crawl budget.
Vérifiez dans la Search Console
En complément de notre outil, vous pouvez utiliser la Google Search Console, qui possède également un outil intégré pour tester le robots.txt - cela montre comment Google interprète directement les règles.