Confira nosso artigo detalhado sobre robots.txt

O que é o arquivo robots.txt?

O arquivo robots.txt é um arquivo de texto padrão colocado no diretório raiz do domínio no endereço /robots.txt. Ele informa aos robôs dos motores de busca (crawlers) quais partes do site podem ser indexadas e quais devem ser ignoradas. Faz parte do protocolo REP (Robots Exclusion Protocol) e, embora os crawlers não sejam obrigados a respeitá-lo, todos os principais motores de busca como Google, Bing ou Yandex seguem essas regras.

SEO

Evite a indexação de duplicatas, páginas de staging, painéis de administração e outros recursos que não devem aparecer nos resultados de busca.

Crawl budget

Limite a frequência de rastreamento usando Crawl-delay para não sobrecarregar o servidor com robôs de busca.

Sitemap

Indique a localização do sitemap XML — isso facilita para os motores de busca a descoberta de todas as subpáginas do site.

Sintaxe do arquivo robots.txt

Diretiva	Exemplo	Significado
`User-agent`	User-agent: *	Define a qual robô as regras se aplicam. * significa todos os robôs.
`Disallow`	Disallow: /admin/	Bloqueia o acesso ao caminho especificado e a todos os subdiretórios.
`Allow`	Allow: /public/	Permite o acesso ao caminho, mesmo que o caminho pai esteja bloqueado.
`Sitemap`	Sitemap: /sitemap.xml	Indica a localização do sitemap XML para os motores de busca.
`Crawl-delay`	Crawl-delay: 10	Define o intervalo mínimo em segundos entre as solicitações sucessivas do rastreador.
`Disallow`	Disallow:	Disallow vazio — permite o acesso a todo o site.
`Disallow`	Disallow: /	Bloqueia o acesso a todo o site para um robô específico.

Exemplo de arquivo robots.txt

# todos os robôs
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /search?
Allow: /public/

# apenas Googlebot
User-agent: Googlebot
Disallow: /no-google/

# bloquear Bingbot completamente
User-agent: Bingbot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Perguntas frequentes

O robots.txt bloqueia a indexação da página?

Não exatamente. O robots.txt diz aos crawlers para não visitarem certos endereços, mas não garante que a página não aparecerá nos resultados de busca. Se outra página apontar links para a URL bloqueada, o Google pode indexá-la sem visitá-la. Para bloquear completamente a indexação, use a meta tag noindex ou o cabeçalho X-Robots-Tag.

O robots.txt é visível publicamente?

Sim — o arquivo robots.txt está sempre disponível publicamente no endereço /robots.txt. Não coloque nele informações sensíveis sobre a estrutura do site que você não deseja revelar, pois qualquer pessoa pode lê-lo.

Qual a diferença entre Allow e Disallow?

Disallow bloqueia o acesso ao caminho, Allow o permite. Allow tem prioridade maior que Disallow quando ambas as regras coincidem com a mesma URL. Exemplo: Disallow: /folder/ e Allow: /folder/publico/ — o rastreador não entrará em /folder/, mas entrará em /folder/publico/.

Como verificar se o robots.txt está funcionando corretamente?

Use nosso testador acima — insira o domínio ou cole seu próprio arquivo e verifique se uma URL específica está bloqueada para o robô escolhido. Você também pode usar o Google Search Console → Ferramenta de teste de robots.txt, que mostra como o Googlebot interpreta as regras.

O que significa User-agent: *?

O asterisco * é um wildcard que representa todos os robôs. As regras sob User-agent: * aplicam-se a qualquer rastreador que não tenha sua própria seção dedicada. Se um robô tiver sua própria seção (ex: User-agent: Googlebot), ele aplicará apenas as regras dessa seção, ignorando as regras para *.

A falta do arquivo robots.txt é um problema?

Não — a falta do arquivo robots.txt significa que todos os robôs podem rastrear livremente todo o site. Este é o comportamento padrão. O problema surge quando você deseja bloquear certas seções (ex: /admin/, /staging/) ou indicar a localização do sitemap.

Testador de robots.txt

O que é o arquivo robots.txt?

Sintaxe do arquivo robots.txt

Exemplo de arquivo robots.txt

Perguntas frequentes