Testador de robots.txt
Confira nosso artigo detalhado sobre robots.txt
Abrir artigoO que é o arquivo robots.txt?
O arquivo robots.txt é um arquivo de texto padrão colocado no diretório raiz do domínio no endereço /robots.txt. Ele informa aos robôs dos motores de busca (crawlers) quais partes do site podem ser indexadas e quais devem ser ignoradas. Faz parte do protocolo REP (Robots Exclusion Protocol) e, embora os crawlers não sejam obrigados a respeitá-lo, todos os principais motores de busca como Google, Bing ou Yandex seguem essas regras.
Evite a indexação de duplicatas, páginas de staging, painéis de administração e outros recursos que não devem aparecer nos resultados de busca.
Limite a frequência de rastreamento usando Crawl-delay para não sobrecarregar o servidor com robôs de busca.
Indique a localização do sitemap XML — isso facilita para os motores de busca a descoberta de todas as subpáginas do site.
Sintaxe do arquivo robots.txt
| Diretiva | Exemplo | Significado |
|---|---|---|
User-agent |
User-agent: * | Define a qual robô as regras se aplicam. * significa todos os robôs. |
Disallow |
Disallow: /admin/ | Bloqueia o acesso ao caminho especificado e a todos os subdiretórios. |
Allow |
Allow: /public/ | Permite o acesso ao caminho, mesmo que o caminho pai esteja bloqueado. |
Sitemap |
Sitemap: /sitemap.xml | Indica a localização do sitemap XML para os motores de busca. |
Crawl-delay |
Crawl-delay: 10 | Define o intervalo mínimo em segundos entre as solicitações sucessivas do rastreador. |
Disallow |
Disallow: | Disallow vazio — permite o acesso a todo o site. |
Disallow |
Disallow: / | Bloqueia o acesso a todo o site para um robô específico. |
Exemplo de arquivo robots.txt
# todos os robôs User-agent: * Disallow: /admin/ Disallow: /tmp/ Disallow: /search? Allow: /public/ # apenas Googlebot User-agent: Googlebot Disallow: /no-google/ # bloquear Bingbot completamente User-agent: Bingbot Disallow: / Sitemap: https://example.com/sitemap.xml
Perguntas frequentes
Não exatamente. O robots.txt diz aos crawlers para não visitarem certos endereços, mas não garante que a página não aparecerá nos resultados de busca. Se outra página apontar links para a URL bloqueada, o Google pode indexá-la sem visitá-la. Para bloquear completamente a indexação, use a meta tag noindex ou o cabeçalho X-Robots-Tag.
Sim — o arquivo robots.txt está sempre disponível publicamente no endereço /robots.txt. Não coloque nele informações sensíveis sobre a estrutura do site que você não deseja revelar, pois qualquer pessoa pode lê-lo.
Disallow bloqueia o acesso ao caminho, Allow o permite. Allow tem prioridade maior que Disallow quando ambas as regras coincidem com a mesma URL. Exemplo: Disallow: /folder/ e Allow: /folder/publico/ — o rastreador não entrará em /folder/, mas entrará em /folder/publico/.
Use nosso testador acima — insira o domínio ou cole seu próprio arquivo e verifique se uma URL específica está bloqueada para o robô escolhido. Você também pode usar o Google Search Console → Ferramenta de teste de robots.txt, que mostra como o Googlebot interpreta as regras.
O asterisco * é um wildcard que representa todos os robôs. As regras sob User-agent: * aplicam-se a qualquer rastreador que não tenha sua própria seção dedicada. Se um robô tiver sua própria seção (ex: User-agent: Googlebot), ele aplicará apenas as regras dessa seção, ignorando as regras para *.
Não — a falta do arquivo robots.txt significa que todos os robôs podem rastrear livremente todo o site. Este é o comportamento padrão. O problema surge quando você deseja bloquear certas seções (ex: /admin/, /staging/) ou indicar a localização do sitemap.