SEO-PODCAST.PL – Czym jest crawl budget i jaki ma wpływ na pozycjonowanie?

SEO-PODCAST.PL – Czym jest crawl budget i jaki ma wpływ na pozycjonowanie?

Czym jest crawl budget i jaki ma wpływ na pozycjonowanie?

Rozmawiając o pozycjonowaniu technicznym należy wziąć pod uwagę bardzo ważny proces – crawlowanie naszego serwisu internetowego przez roboty indeksujące wyszukiwarki Google. W tym odcinku porozmawiamy o bardzo ważnej z punktu widzenia technicznej części SEO, czynności crawlowania i indeksowania zasobów przez wyszukiwarkę Google. Wytłumaczę Ci, na czym polega ten proces i w jaki sposób uprościć pracę robotom indeksującym oraz co zrobić, aby nowe podstrony w Twoim serwisie jak najszybciej znalazły się w indeksie wyszukiwarki.

Spis treści:

Podcast

Listen to „Czym jest crawl budget i jaki ma wpływ na pozycjonowanie?” on Spreaker.

Wideo

YouTube video

Transkrypcja

  • Co oznacza termin „Crawl budget”?
  • Co wpływa na jakość crawlowania w Google?
  • Jak zadbać o jakość crawlowania serwisu?

Na te pytania poznasz odpowiedzi w dzisiejszym odcinku SEO Podcastu!

Dla wielu osób pojęcie crawlowania i indeksacji własnego serwisu przez roboty wyszukiwarek jest niestety tym tematem, który nie jest często analizowany. A to wielki błąd! Crawlowanie i indeksacja zasobów w prostych słowach oznaczają czynności analizowania każdej wewnętrznej podstrony, pobierania ich zawartości (czyli crawlowanie) oraz przekazywanie tych danych do bazy danych Google (czyli indeksację), co w następstwie pozwala na prezentowanie ich w formie organicznych wyników wyszukiwania. I to, co robot crawlujący znajdzie wcześniej, później zostanie pokazane użytkownikom wyszukiwarki Google w organicznych wynikach wyszukiwania.

W dzisiejszym odcinku porozmawiamy o bardzo ważnej z punktu widzenia technicznej części SEO, czynności crawlowania i indeksowania zasobów przez wyszukiwarkę Google. Wytłumaczę Ci, na czym polega ten proces i w jaki sposób uprościć pracę robotom indeksującym oraz co zrobić, aby nowe podstrony w Twoim serwisie jak najszybciej znalazły się w indeksie wyszukiwarki. Startujemy!

Co oznacza termin „Crawl budget”?

„Crawl budget” to termin z j. angielskiego oznaczający budżet na indeksację witryny. Polega na pewnym ograniczeniu co do przeanalizowania i zaindeksowania zasobów przez roboty indeksujące.

Wraz z głośnym pojawieniem się problemu z indeksacją nowych zasobów w wyszukiwarce Google, na ustach wielu pojawiło się pytanie: „Czy zasoby firmy Google właśnie się skończyły?”. Wraz z powszechnym udostępnieniem ogólnodostępnych narzędzi do generowania treści przez sztuczną inteligencję, internet został dosłownie „zalany” ogromną ilością treści, z którą firma miała problem, aby ją wczytać, przeanalizować i zaindeksować w swoich zasobach. Serwery Google zostały bardzo mocno obciążone, a ich praca została ograniczona. Tym sposobem, aby móc ogarnąć ten problem, Google narzuca limity, a także wymagania dla twórców witryn, o których opowiem w tym odcinku SEO Podcastu.

Być może na usta ciśnie Ci się pytanie: jakie serwisy powinny zwracać szczególną uwagę na tzw. crawl budget? A więc moją odpowiedzią jest: wszystkie.

Oczywiście, inaczej będzie się on przedstawiał w przypadku stron firmowych (tzw. wizytówek firmowych), a inaczej w przypadku dużych serwisów i sklepów internetowych z kilkutysięczną czy z kilkudziesięciu tysięczną ilością podstron wewnętrznych. Ale problem, który może przeszkadzać w indeksacji witryny może dotyczyć każdej z nich, bez względu na jej wielkość, np. duplikacja wewnętrzna w treści, jako bardzo istotny błąd w wewnętrznej strukturze, który najczęściej jest spotykany w serwisach publikujących codzienne newsy, które to z kolei powinny zostać jak najszybciej zaindeksowane w wyszukiwarce.

Aby poznać sposób działania robotów crawlujących, zacznijmy od omówienia czynników, które mają istotny wpływ na indeksację Twojego serwisu.

Co wpływa na jakość crawlowania w Google?

Działanie robotów crawlujących wchodzących do serwisu nie jest przypadkowe. Ich czynności zostały na tyle przemyślane, aby jak najdokładniej mogły wychwytywać unikalne i wartościowe treści w na stronach i w sklepach internetowych, które po analizie i indeksacji zostaną wyświetlone w SERP-ach (czyli w organicznych wynikach wyszukiwania).

Jeśli chcesz zrozumieć pojęcie budżetu crawlowania, powinieneś poznać trzy składowe parametry, z których się on składa, a należą do nich: crawl rate limit, crawl health i crawl demand.

Pierwszy z nich, czyli „Crawl rate limit” jest jednym z najważniejszych limitów dla twórców witryn jest limit indeksacji pierwszych 15mb danych, które zostaną pobrane przez roboty indeksujące – dane powyżej tego limitu nie będą brane pod uwagę. Dlatego zadbaj o odpowiednio niską wagę swojego serwisu i szybki czas odpowiedzi Twojego serwera. W pierwszej kolejności powinieneś zoptymalizować swój serwis pod kątem prędkości wczytywania i podstawowych wskaźników internetowych o nazwie „Core Web Vitals”. Wykorzystaj do tego narzędzie „Google Pagespeed Insights” i zweryfikuj, jaką punktację otrzymuje.

Dodatkowo powinieneś korzystać z usług szybkiego i wydajnego serwera, który w pełni obsłuży zarówno zapytania zwykłych użytkowników, jak i robotów indeksujących. Jeśli Twój serwer jest zbyt wolny, poszukaj alternatywy. Niech będzie to serwer zoptymalizowany pod platformę CMS lub e-commerce, z której korzystasz. Najważniejsze, aby nikomu nie ograniczać dostępności naszego serwisu i umożliwić każdemu obsłużenie wysyłanych przez nich żądań.

Drugi parametr składowy budżetu crawlowania to „Crawl health”. Termin ten oznacza kondycję crawlowania, a dokładniej jej jakość, która może zostać obniżona przez wolne wczytywanie i renderowanie serwisu, spowodowanego błędną lub brakiem optymalizacji i wolną pracą serwera, który również może nie być zoptymalizowany przez oprogramowanie CMS lub e-commerce, z którego korzystamy. I tak jak w poprzednim punkcie, tutaj również należy zweryfikować stopień optymalizacji naszego serwisu za pomocą narzędzia „Google PageSpeed Insights”.

Parametr „Crawl health” ma ogromne znaczenie w trakcie indeksacji, gdyż decyduje o tym, czy wyszukiwarka będzie wyświetlała i polecała Twój serwis innym użytkownikom. Jeśli roboty crawlujące nie zrenderują witryny w sposób szybki i przede wszystkim poprawny, to spodziewaj się słabych wyników w trakcie swojej kampanii SEO. Strona internetowa lub sklep internetowy musi zostać zoptymalizowana pod podstawowe wskaźniki internetowe, o których również wspominałem w poprzednim punkcie.

Rozmawiając o czynnikach wpływających na jakość crawlowania i indeksacji naszego serwisu, należy także wspomnieć o trzecim i ostatnim parametrze składowym budżetu crawlowania – „Crawl demand”, a bierze on pod uwagę datę ostatniej aktualizacji podstrony (na tej podstawie sprawdza aktualność informacji) oraz jej popularność (o czym decyduje ilość linków wewnętrznych, które do niej prowadzą). Dokładnie na tej podstawie wyszukiwarka Google ustali hierarchię crawlowania i ustanowi pierwszeństwo crawlowania danym podstronom w naszym serwisie.

Jak zadbać o jakość crawlowania serwisu?

Zdążyłeś do tej pory dowiedzieć się o tym, że masz ogromny wpływ na to, co na swojej drodze spotka robot indeksujący, w jaki sposób to odczyta, a następnie przekaże do bazy danych Google. Z tego powodu podzielę się z Tobą kilkunastoma wskazówkami, które powinieneś wykorzystać w praktyce, aby zadbać zarówno o jakość indeksacji, jak i o możliwie najlepszą pozycję w rankingu wyszukiwarki:

  • W pierwszej kolejności zweryfikuj plik robots.txt znajdujący się na Twoim serwerze, pod kątem występowania w nim ewentualnych komend blokujących roboty indeksujące. Jeśli taki plik jest niedostępny w katalogu głównym, pomiędzy plikami Twojego serwisu – utwórz go. Za pomocą komend „allow” i „disallow” pozwól na indeksację lub zablokuj do indeksacji konkretne zasoby, które powinny lub nie powinny zostać zaindeksowane w wyszukiwarce. A powinieneś te zasoby podzielić na podstrony zawierające wartościową, które powinieneś zaindeksować oraz wybrane katalogi, zawierające skrypty czy biblioteki JavaScript;
  • Zweryfikuj w narzędziu Google Search Console (w sekcji: Indeksowanie > Strony), czy roboty indeksujące Twój serwisu napotkały jakieś problemy, które trzeba wyeliminować. W pierwszej kolejności pogrupuj je na priorytet wysoki, średni i niski, a następnie zajmij się poprawą tych najistotniejszych błędów;
  • Zadbaj o aktualną treść na swojej stronie. I tutaj moja rada: aktualizuj ją, zamiast pisać nową, ponieważ Google docenia tzw. recykling treści, czyli artykuły, które są ciągle rozwijane i aktualizowane, będące na czasie i dostarczające użytkownikom informacji, których mogą poszukiwać;
  • Ogranicz wykorzystywanie parametrów we wszystkich wewnętrznych adresach URL w serwisie, a mam na myśli to, aby adresy URL były czytelne zarówno dla człowieka, jak i robota indeksującego. To na ich podstawie nie tylko robot powinien wiedzieć, czego dotyczy dana podstrona, ale także człowiek;
  • Zweryfikuj za pomocą narzędzia Copyscape, czy w Twoim serwisie występuje problem duplikacji wewnętrznej (z ang. duplicate content) i popraw ją, jeśli taki problem zostanie wykryty – treść, która występuje na innej stronie internetowej, a nawet na innych podstronach wewnętrznych jest oceniana bardzo negatywnie przez algorytmy wyszukiwarki Google, dlatego zadbaj o to, aby Twoja treść była napisana od podstaw i niekoniecznie przez ChatGPT, którego użycie może być dużym prawdopodobieństwem plagiatu;
  • Zweryfikuj wielkość i zawartość mapy strony (czyli pliku sitemap.xml) i w przypadku posiadania bardzo dużej ilości wewnętrznych adresów URL (licząc w dziesiątkach tysięcy), podziel go na części, kierując się priorytetem. Zadbaj o to, aby najważniejsze wewnętrzne adresy były widoczne jako pierwsze w kolejce do indeksacji. Plik mapy witryny nie może w żadnym formacie mieć więcej niż 50 MB (po rozpakowaniu) oraz nie może zawierać więcej niż 50 tys. adresów URL;
  • Zmniejsz wagę serwisu i ogranicz ilość wczytywanych zasobów – im dłużej boty muszą spędzać czasu na danej podstronie, tym mniej zasobów zostanie zaindeksowanych. Wagę serwisu sprawdzaj za pomocą narzędzia Google Pagespeed Insights;
  • Zweryfikuj ocenę podstawowych wskaźników internetowych (czyli Core Web Vitals) za pomocą narzędzia Google Pagespeed Insights i w przypadku wartości oznaczonych kolorem czerwonym – popraw je;
  • Sprawdź czas odpowiedzi podstron wewnętrznych (np. za pomocą narzędzia Screaming Frog SEO Spider) i zoptymalizuj te podstrony, których czas odpowiedzi sięga minimum od 10 sekund wzwyż;
  • Zweryfikuj występujące linkowanie wewnętrzne i sprawdź, czy w Twoim serwisie występują tzw. podstrony osierocone (z ang. orhpan pages), czyli podstrony, do których nie prowadzi żaden link wewnętrzny;
  • Wyeliminuj napotkane błędy 400 i 500 przez roboty crawlujące, a takie podstrony znajdziesz w panelu Google Search Console oraz używając automatycznego crawlera, jak np. Ahrefs, DeepCrawl, ContentKing, czy narzędzi jak np. Screaming Frog SEO Spider i Sitebulb;
  • Udostępniaj linki do podstron i wpisów blogowych w swoich kanałach social media, gdyż stanowią one sygnały dla Google o obecności danej aktywnej podstrony;
  • Przeanalizuj logi serwerowe i sprawdź błędy napotkane przez roboty indeksujące za pomocą np. SEO Log File Analyser od Screaming Frog.

 
Przejdźmy do podsumowania naszego odcinka SEO Podcastu:

  • Wyjaśniłem Ci pojęcie tzw. budżetu indeksowania i opowiedziałem Ci, na czym polega proces indeksacji Twojego serwisu;
  • Poznałeś trzy parametry wchodzące w skład budżetu indeksowania i ich znaczenie w trakcie crawlowania;
  • Na potrzeby tego odcinka SEO Podcastu przygotowałem dla Ciebie 13 wskazówek, które poprawią optymalizację Twojego serwisu pod obecne wymagania wyszukiwarki, a także pozwolą na jego poprawną indeksację w Google.

Chciałbym, abyś z tego odcinka zapamiętał jedną bardzo ważną regułę, a mianowicie „czas to pieniądz”, która tak naprawdę obowiązuje zarówno Ciebie, jak i firmę Google, dlatego dąż do optymalizacji wszelkich działań, aby maksymalnie zaoszczędzać czas pracy robotom wyszukiwarki, dzięki czemu Twój serwis zostanie szybciej i w pełni zaindeksowany.

Jeśli spodobała Ci się tematyka tego odcinka, to daj mi proszę o tym znać w komentarzu. Kliknij łapkę w górę i zasubskrybuj ten kanał, abyś otrzymywał od serwisu YouTube powiadomienia o kolejnych odcinkach, a jeśli słuchasz mnie na platformie podcastowej, to zasubskrybuj ten kanał.

A to wszystko po to, abym wiedział, że odcinki SEO Podcastu są dla Ciebie ciekawe i wyciągasz z nich odpowiednią wiedzę, którą wykorzystasz w praktyce!

Zapraszam Cię również do sprawdzenia moich dwóch książek o pozycjonowaniu, do których linki znajdziesz w opisie pod tym filmem.

Dziękuję Ci za wysłuchanie tego odcinka w formie podcastu lub obejrzenie go w formie wideo w serwisie YouTube i oczywiście zapraszam Cię do pozostałych odcinków.

Do zobaczenia lub usłyszenia w kolejnym odcinku.

Trzymaj się, hej!

 

Poszukujesz agencji SEO w celu wypozycjonowania swojego serwisu? Skontaktujmy się!

Podziel się treścią:
Kategoria:

Wpisy, które mogą Cię również zainteresować: