Tester robots.txt
Sprawdź nasz szczegółowy artykuł dot. robots.txt
Otwórz artykułCzym jest plik robots.txt?
Plik robots.txt to standardowy plik tekstowy umieszczany w głównym katalogu domeny pod adresem /robots.txt. Informuje roboty wyszukiwarek (crawlery) które części witryny mogą być indeksowane, a które powinny być pomijane. Jest to część protokołu REP (Robots Exclusion Protocol) i choć crawlery nie muszą go respektować, wszystkie główne wyszukiwarki takie jak Google, Bing czy Yandex przestrzegają tych reguł.
Zapobiegaj indeksowaniu duplikatów, stron stagingowych, paneli admina i innych zasobów które nie powinny trafiać do wyników wyszukiwania.
Ogranicz częstotliwość crawlowania za pomocą Crawl-delay, żeby nie przeciążać serwera robotami wyszukiwarek.
Wskaż lokalizację sitemapy XML — ułatwia wyszukiwarkom odkrycie wszystkich podstron witryny.
Składnia pliku robots.txt
| Dyrektywa | Przykład | Znaczenie |
|---|---|---|
User-agent |
User-agent: * | Określa do którego bota odnoszą się reguły. * oznacza wszystkie boty. |
Disallow |
Disallow: /admin/ | Blokuje dostęp do podanej ścieżki i wszystkich podkatalogów. |
Allow |
Allow: /public/ | Zezwala na dostęp do ścieżki, nawet jeśli nadrzędna jest zablokowana. |
Sitemap |
Sitemap: /sitemap.xml | Wskazuje lokalizację sitemapy XML dla wyszukiwarek. |
Crawl-delay |
Crawl-delay: 10 | Określa minimalny odstęp w sekundach między kolejnymi żądaniami crawlera. |
Disallow |
Disallow: | Puste Disallow — zezwala na dostęp do całej witryny. |
Disallow |
Disallow: / | Blokuje dostęp do całej witryny dla danego bota. |
Przykładowy plik robots.txt
# wszystkie boty User-agent: * Disallow: /admin/ Disallow: /tmp/ Disallow: /search? Allow: /public/ # tylko Googlebot User-agent: Googlebot Disallow: /no-google/ # blokuj Bingbot całkowicie User-agent: Bingbot Disallow: / Sitemap: https://example.com/sitemap.xml
Najczęściej zadawane pytania
Nie do końca. Robots.txt mówi crawlerom żeby nie odwiedzały danych adresów, ale nie gwarantuje że strona nie pojawi się w wynikach wyszukiwania. Jeśli inna strona linkuje do zablokowanego URL-a, Google może go zaindeksować bez odwiedzania. Aby całkowicie zablokować indeksowanie użyj meta tagu noindex lub nagłówka X-Robots-Tag.
Tak — plik robots.txt jest zawsze dostępny publicznie pod adresem /robots.txt. Nie umieszczaj w nim wrażliwych informacji o strukturze witryny których nie chcesz ujawniać, bo każdy może go odczytać.
Disallow blokuje dostęp do ścieżki, Allow go zezwala. Allow ma wyższy priorytet niż Disallow gdy obie reguły pasują do tego samego URL. Przykład: Disallow: /folder/ i Allow: /folder/publiczny/ — crawler nie wejdzie do /folder/ ale wejdzie do /folder/publiczny/.
Użyj naszego testera powyżej — wpisz domenę lub wklej własny plik i sprawdź czy konkretny URL jest zablokowany dla wybranego bota. Możesz też użyć Google Search Console → Narzędzie testowania robots.txt które pokazuje jak Googlebot interpretuje reguły.
Gwiazdka * to wildcard oznaczający wszystkie boty. Reguły pod User-agent: * dotyczą każdego crawlera który nie ma własnej dedykowanej sekcji. Jeśli bot ma własną sekcję (np. User-agent: Googlebot), stosuje tylko reguły z tej sekcji, ignorując reguły dla *.
Nie — brak pliku robots.txt oznacza że wszystkie boty mogą swobodnie crawlować całą witrynę. To domyślne zachowanie. Problem pojawia się gdy chcesz zablokować pewne sekcje (np. /admin/, /staging/) albo wskazać lokalizację sitemapy.