Sprawdź nasz szczegółowy artykuł dot. robots.txt

Czym jest plik robots.txt?

Plik robots.txt to standardowy plik tekstowy umieszczany w głównym katalogu domeny pod adresem /robots.txt. Informuje roboty wyszukiwarek (crawlery) które części witryny mogą być indeksowane, a które powinny być pomijane. Jest to część protokołu REP (Robots Exclusion Protocol) i choć crawlery nie muszą go respektować, wszystkie główne wyszukiwarki takie jak Google, Bing czy Yandex przestrzegają tych reguł.

SEO

Zapobiegaj indeksowaniu duplikatów, stron stagingowych, paneli admina i innych zasobów które nie powinny trafiać do wyników wyszukiwania.

Crawl budget

Ogranicz częstotliwość crawlowania za pomocą Crawl-delay, żeby nie przeciążać serwera robotami wyszukiwarek.

Sitemap

Wskaż lokalizację sitemapy XML — ułatwia wyszukiwarkom odkrycie wszystkich podstron witryny.

Składnia pliku robots.txt

Dyrektywa	Przykład	Znaczenie
`User-agent`	User-agent: *	Określa do którego bota odnoszą się reguły. * oznacza wszystkie boty.
`Disallow`	Disallow: /admin/	Blokuje dostęp do podanej ścieżki i wszystkich podkatalogów.
`Allow`	Allow: /public/	Zezwala na dostęp do ścieżki, nawet jeśli nadrzędna jest zablokowana.
`Sitemap`	Sitemap: /sitemap.xml	Wskazuje lokalizację sitemapy XML dla wyszukiwarek.
`Crawl-delay`	Crawl-delay: 10	Określa minimalny odstęp w sekundach między kolejnymi żądaniami crawlera.
`Disallow`	Disallow:	Puste Disallow — zezwala na dostęp do całej witryny.
`Disallow`	Disallow: /	Blokuje dostęp do całej witryny dla danego bota.

Przykładowy plik robots.txt

# wszystkie boty
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /search?
Allow: /public/

# tylko Googlebot
User-agent: Googlebot
Disallow: /no-google/

# blokuj Bingbot całkowicie
User-agent: Bingbot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Najczęściej zadawane pytania

Czy robots.txt blokuje indeksowanie strony?

Nie do końca. Robots.txt mówi crawlerom żeby nie odwiedzały danych adresów, ale nie gwarantuje że strona nie pojawi się w wynikach wyszukiwania. Jeśli inna strona linkuje do zablokowanego URL-a, Google może go zaindeksować bez odwiedzania. Aby całkowicie zablokować indeksowanie użyj meta tagu noindex lub nagłówka X-Robots-Tag.

Czy robots.txt jest widoczny publicznie?

Tak — plik robots.txt jest zawsze dostępny publicznie pod adresem /robots.txt. Nie umieszczaj w nim wrażliwych informacji o strukturze witryny których nie chcesz ujawniać, bo każdy może go odczytać.

Czym różni się Allow od Disallow?

Disallow blokuje dostęp do ścieżki, Allow go zezwala. Allow ma wyższy priorytet niż Disallow gdy obie reguły pasują do tego samego URL. Przykład: Disallow: /folder/ i Allow: /folder/publiczny/ — crawler nie wejdzie do /folder/ ale wejdzie do /folder/publiczny/.

Jak sprawdzić czy robots.txt działa poprawnie?

Użyj naszego testera powyżej — wpisz domenę lub wklej własny plik i sprawdź czy konkretny URL jest zablokowany dla wybranego bota. Możesz też użyć Google Search Console → Narzędzie testowania robots.txt które pokazuje jak Googlebot interpretuje reguły.

Co oznacza User-agent: *?

Gwiazdka * to wildcard oznaczający wszystkie boty. Reguły pod User-agent: * dotyczą każdego crawlera który nie ma własnej dedykowanej sekcji. Jeśli bot ma własną sekcję (np. User-agent: Googlebot), stosuje tylko reguły z tej sekcji, ignorując reguły dla *.

Czy brak pliku robots.txt to problem?

Nie — brak pliku robots.txt oznacza że wszystkie boty mogą swobodnie crawlować całą witrynę. To domyślne zachowanie. Problem pojawia się gdy chcesz zablokować pewne sekcje (np. /admin/, /staging/) albo wskazać lokalizację sitemapy.

Tester robots.txt

Czym jest plik robots.txt?

Składnia pliku robots.txt

Przykładowy plik robots.txt

Najczęściej zadawane pytania