#growUp!

Zaznacz stronę

Strona głównaBlogBlog SEORobots.txt – czym jest plik robots i do czego służy?

Niepozorny plik tekstowy, a potrafi naprawdę sporo! Plik robots.txt pozwala kontrolować dostęp robotów wyszukiwarek internetowych do witryny. Dlatego nawet nie waż się go pomijać! Przeczytaj, jakie są najważniejsze elementy pliku i stwórz robots.txt, który działa. 

Co to jest plik robots txt?

Plik o nazwie robots.txt to standardowy plik tekstowy – czyli zapisany w formacie .txt oraz umieszczony w głównym folderze domeny. Jest dostępny bezpośrednio pod adresem domena.pl/robots.txt. Zawiera wskazówki dla robotów, które odwiedzają i skanują stronę internetową. Może dotyczyć wszystkich lub wybranych robotów, np. jedynie robotów Google. 

Plik informuje je, jak powinny się zachowywać w danej witrynie, tzn. które strony mogą odwiedzać, a do których nie powinny zaglądać. 

Oznacza to, że cel robots.txt jest całkowicie odmienny od celu sitemapy. Mapa witryny wskazuje te adresy, które mają być odwiedzane przez roboty, plik robots skupia się z kolei na adresach „zakazanych”. 

Dlaczego plik robots jest ważny?

Robots.txt to must have każdej witryny, w szczególności rozbudowanych i skomplikowanych stron. Jeżeli serwis zawiera tysiące podstron, jego skanowanie może zająć wiele tygodni, jeśli nie miesięcy. Gdyby roboty zaglądały na absolutnie każdą ze stron z domeny głównej, proces mógłby się wydłużyć, a dodatkowo mogłoby to spowodować „zepsucie” wyników. Dzięki plikowi robots skanowanie dotyczy wyłącznie tych podstron, które są istotne z punktu widzenia optymalizacji ruchu. Te mniej istotne są pomijane. 

Jak stworzyć plik robots?

Nie potrzebujesz do tego specjalnych narzędzi. robots.txt to zwyczajny plik tekstowy, który można zapisać w Notatniku. Aby mógł pełnić swoją funkcję, po nadaniu mu odpowiedniej nazwy należy umieścić go w katalogu głównym strony – tak, by był dostępny po dopisaniu „/robots.txt” do nazwy domeny. 

Z czego składa się robots.txt?

Plik robots zbudowany jest z kilku elementów. Są to przede wszystkim:

Dyrektywy Allow i Disallow

Informują robota o tym, czy mogą wejść na dany adres URL i go zweryfikować (Allow), czy jest on dla niego niedostępny (Disallow). Domyślnie każdy robot ma możliwość zeskanowania każdej podstrony, chyba że jego dostęp zostanie ograniczony. 

Przykład: 

User-agent: *

Disallow: /wp-admin/

Dwa powyższe elementy blokują robotom dostęp do wszystkich adresów rozpoczynających się od /wp-admin. Oznacza to, że nie będą mogły zeskanować panelu administracyjnego WordPress. 

W zależności od potrzeb możesz ustalać tu wyjątki, np. wyodrębnić element w obrębie zablokowanego katalogu, do którego roboty będą miały dostęp:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Dyrektywa „allow” może też dotyczyć nie konkretnych podstron, a konkretnych robotów:

User-agent: *

Disallow: / 

User-agent: Googlebot

Allow: / 

W tym przypadku dostęp do strony mają zablokowane wszystkie roboty oprócz jednego – robota Google. 

User-agent

W przytoczonych wyżej przykładach pojawia się określenie „user-agent”. O co chodzi? W robots.txt możesz zawrzeć informacje „skierowane” do różnych skanujący robotów – jak np. do wspomnianego już Googlebot. Dzięki temu komenda będzie tyczyła się tylko jego. Możesz też sprecyzować, do którego konkretnie user-agenta Googlebot „mówisz”. Np.:

User-agent: Googlebot-News,

User-agent: AdsBot-Google,

User-agent: Mediapartners-Google (dotyczy Google Adsense). 

Sitemap

W pliku robots warto też umieścić link do mapy swojej strony w formacie XML. Dlaczego? Roboty Google regularnie odwiedzają stronę robots.txt – jest to jedno z pierwszych miejsc, od których zaczynają wędrówkę po witrynie. Umieszczenie linku do sitemapy sprawi, że strona będzie dla nich bardziej przejrzysta i mniej czasu zajmie im jej skanowanie. 

Inne dyrektywy w pliku robots

Opisaliśmy podstawowe dyrektywy z pliku robots.txt. Oprócz nich stosuje się również:

  • Host – dzięki niej można wskazać preferowaną domenę spośród jej kopii w internecie. 
  • Crawl delay – to, jak „działa”, zależy przede wszystkim od robota. Przykładowo w przypadku robota Bing oznacza minimalny czas pomiędzy pierwszym a drugim zeskanowaniem jednej podstrony witryny. 

Przykład pliku robots

Aby lepiej zrozumieć, o co chodzi w pliku robots, sprawdź poniższy przykład. To plik robots na stronie admix.pl: https://admix.pl/robots.txt.

przykład pliku robots.txt

Pod długą listą podstron ukrytych przed robotami widzimy spis robotów, które mają dostęp do zawartości witryny. Są to m.in.: 

przykład pliku robots.txt

Jak przetestować robots.txt?

Do wyboru masz przynajmniej kilka narzędzi, dzięki którym upewnisz się, czy stworzony przez Ciebie plik robots nie zawiera błędów. Najpopularniejszym jest Google Search Console. Wystarczy wpisać lub wybrać swoją domenę, przejść do zakładki „Pobieranie” i wybrać opcję „Tester pliku robots.txt”. Zweryfikuj, czy lista dostępnych i niedostępnych podstron się zgadza. Dostępne podświetlą się na zielono, zablokowane zaś na czerwono. 

Czy brak pliku robots.txt to błąd?

Plik robots powinieneś stworzyć nawet wtedy, gdy nie zamierzasz blokować dostępu robotom do którejkolwiek z podstron. Wystarczą nawet te dwie linijki:

User-agent: *
Allow: /

Dlaczego? Jeśli robot nie znajdzie robots.txt w witrynie, opatrzy stronę komunikatem „404 nie znaleziono”. Może to doprowadzić do powstania błędów w statystykach. Poza tym robot może zinterpretować witrynę jako niedbale przygotowaną – o niższej wartości dla użytkownika. 

Plik robots.txt to bardzo istotny element technicznego SEO. Jeżeli źle go wypełnisz, prawdopodobnie wkrótce zauważysz zmniejszenie ruchu organicznego w witrynie. Im bardziej skomplikowana strona, tym bardziej go potrzebujesz, jednak również w prostych witrynach jest po prostu nieodzowny. 

Iwona Bortniczuk