wtoolsy.com
Sieć, DNS, IP
Narzędzia developerskie
SEO i analiza stron
Finanse i kalkulatory
Uniwersalne
Artykuły

Tester robots.txt

Pobierz i przeanalizuj plik robots.txt, sprawdź reguły i zweryfikuj dostęp botów do stron.
Sprawdź dostęp do URL

Sprawdź nasz szczegółowy artykuł dot. robots.txt

Otwórz artykuł

Czym jest plik robots.txt?

Plik robots.txt to standardowy plik tekstowy umieszczany w głównym katalogu domeny pod adresem /robots.txt. Informuje roboty wyszukiwarek (crawlery) które części witryny mogą być indeksowane, a które powinny być pomijane. Jest to część protokołu REP (Robots Exclusion Protocol) i choć crawlery nie muszą go respektować, wszystkie główne wyszukiwarki takie jak Google, Bing czy Yandex przestrzegają tych reguł.

SEO

Zapobiegaj indeksowaniu duplikatów, stron stagingowych, paneli admina i innych zasobów które nie powinny trafiać do wyników wyszukiwania.

Crawl budget

Ogranicz częstotliwość crawlowania za pomocą Crawl-delay, żeby nie przeciążać serwera robotami wyszukiwarek.

Sitemap

Wskaż lokalizację sitemapy XML — ułatwia wyszukiwarkom odkrycie wszystkich podstron witryny.

Składnia pliku robots.txt

Dyrektywa Przykład Znaczenie
User-agent User-agent: * Określa do którego bota odnoszą się reguły. * oznacza wszystkie boty.
Disallow Disallow: /admin/ Blokuje dostęp do podanej ścieżki i wszystkich podkatalogów.
Allow Allow: /public/ Zezwala na dostęp do ścieżki, nawet jeśli nadrzędna jest zablokowana.
Sitemap Sitemap: /sitemap.xml Wskazuje lokalizację sitemapy XML dla wyszukiwarek.
Crawl-delay Crawl-delay: 10 Określa minimalny odstęp w sekundach między kolejnymi żądaniami crawlera.
Disallow Disallow: Puste Disallow — zezwala na dostęp do całej witryny.
Disallow Disallow: / Blokuje dostęp do całej witryny dla danego bota.

Przykładowy plik robots.txt

# wszystkie boty
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /search?
Allow: /public/

# tylko Googlebot
User-agent: Googlebot
Disallow: /no-google/

# blokuj Bingbot całkowicie
User-agent: Bingbot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Najczęściej zadawane pytania

Czy robots.txt blokuje indeksowanie strony?

Nie do końca. Robots.txt mówi crawlerom żeby nie odwiedzały danych adresów, ale nie gwarantuje że strona nie pojawi się w wynikach wyszukiwania. Jeśli inna strona linkuje do zablokowanego URL-a, Google może go zaindeksować bez odwiedzania. Aby całkowicie zablokować indeksowanie użyj meta tagu noindex lub nagłówka X-Robots-Tag.

Czy robots.txt jest widoczny publicznie?

Tak — plik robots.txt jest zawsze dostępny publicznie pod adresem /robots.txt. Nie umieszczaj w nim wrażliwych informacji o strukturze witryny których nie chcesz ujawniać, bo każdy może go odczytać.

Czym różni się Allow od Disallow?

Disallow blokuje dostęp do ścieżki, Allow go zezwala. Allow ma wyższy priorytet niż Disallow gdy obie reguły pasują do tego samego URL. Przykład: Disallow: /folder/ i Allow: /folder/publiczny/ — crawler nie wejdzie do /folder/ ale wejdzie do /folder/publiczny/.

Jak sprawdzić czy robots.txt działa poprawnie?

Użyj naszego testera powyżej — wpisz domenę lub wklej własny plik i sprawdź czy konkretny URL jest zablokowany dla wybranego bota. Możesz też użyć Google Search Console → Narzędzie testowania robots.txt które pokazuje jak Googlebot interpretuje reguły.

Co oznacza User-agent: *?

Gwiazdka * to wildcard oznaczający wszystkie boty. Reguły pod User-agent: * dotyczą każdego crawlera który nie ma własnej dedykowanej sekcji. Jeśli bot ma własną sekcję (np. User-agent: Googlebot), stosuje tylko reguły z tej sekcji, ignorując reguły dla *.

Czy brak pliku robots.txt to problem?

Nie — brak pliku robots.txt oznacza że wszystkie boty mogą swobodnie crawlować całą witrynę. To domyślne zachowanie. Problem pojawia się gdy chcesz zablokować pewne sekcje (np. /admin/, /staging/) albo wskazać lokalizację sitemapy.