Dagelijks crawled Google een aantal pagina’s op je WordPress website. Dit aantal, ook wel het crawlbudget genoemd, kan per dag iets variëren.
Google analyseert niet altijd elke pagina op een site onmiddellijk. Soms kan het soms weken duren. Dit kan uw SEO-inspanningen in de weg staan. Je nieuw geoptimaliseerde landingspagina wordt misschien niet geïndexeerd. Op dat moment is het tijd om uw crawlbudget te optimaliseren. We zullen in dit artikel bespreken wat een ‘crawl budget’ is en wat je kunt doen om het te optimaliseren.
IN DEZE HANDLEIDING:
Wat is een crawl budget?
Crawlbudget is het aantal pagina’s dat Google op een bepaalde dag op uw site zal crawlen. Dit aantal varieert enigszins van dag tot dag, maar over het algemeen is het relatief stabiel. Google kan elke dag 10 pagina’s op uw site crawlen, het kan 5.000 pagina’s crawlen. Het kan zelfs elke dag 2.000.000 pagina’s crawlen. Het aantal pagina’s dat Google crawlt, je ‘budget’, wordt over het algemeen bepaald door de grootte van uw site, de ‘gezondheid’ van je site (hoeveel fouten Google tegenkomt) en het aantal links naar uw site. Sommige van deze factoren kunt u beïnvloeden, daar komen we zo op.
Hoe werkt een crawler van Google of een zoekmachine?
Een crawler zoals Googlebot krijgt een lijst met URL’s om te crawlen op een site. Het gaat systematisch door die lijst. Hij bekijkt af en toe uw robots.txt-bestand om er zeker van te zijn dat hij elke URL nog steeds mag crawlen en crawlt de URL’s dan een voor een. Zodra een spider een URL heeft gecrawld en de inhoud heeft ontleed, voegt hij nieuwe URL’s die hij op die pagina heeft gevonden en die hij moet crawlen, weer toe aan de takenlijst.
Verschillende gebeurtenissen kunnen Google het gevoel geven dat een URL gecrawld moet worden. Er kunnen nieuwe links zijn gevonden die naar inhoud verwijzen, of iemand heeft de pagina getweet, of de pagina is bijgewerkt in de XML-sitemap, enzovoort, enzovoort. Er is geen manier om een lijst te maken van alle redenen waarom Google een URL zou crawlen, maar als Google bepaalt dat het moet, wordt de URL toegevoegd aan de to-do-lijst.
Wanneer is crawl budget een probleem?
Crawlbudget is geen probleem als Google veel URL’s op uw site moet crawlen en het veel crawls heeft toegewezen gekregen. Maar stel dat uw site 100.000 pagina’s heeft en Google crawlt elke dag 2.000 pagina’s op deze specifieke site. Sommige pagina’s (zoals de homepage) zullen meer worden gecrawld dan andere. Als u niets doet, kan het tot 50 dagen duren voordat Google bepaalde wijzigingen in uw pagina’s opmerkt. Crawlbudget is nu een probleem. Aan de andere kant, als het 50.000 per dag crawlt, is het nauwelijks probleem.
Om snel te bepalen of uw site een crawl budget probleem heeft, kunt u de onderstaande stappen volgen. Hierbij wordt er wel van uitgegaan dat uw site een relatief klein aantal URL’s heeft die Google crawlt maar niet indexeert. Bijvoorbeeld omdat u meta noindex heeft toegevoegd. Doe de volgende stappen:
- Bepaal hoeveel pagina’s u op uw site heeft, het aantal van uw URL’s in uw XML-sitemaps zou een goed begin kunnen zijn.
- Ga naar Google Search Console.
- Ga naar “Instellingen” -> “Crawlstatistieken” en noteer het gemiddelde aantal pagina’s dat per dag wordt gecrawld.
- Deel het aantal pagina’s door het “Gemiddeld gecrawld per dag” getal.
- Als je eindigt met een getal hoger dan ~10 (dus je hebt 10x meer pagina’s dan wat Google crawlt per dag), moet je waarschijnlijk je crawl budget optimaliseren. Als je eindigt met een getal lager dan 3, kun je zeker iets anders gaan lezen.
Welke URL’s is Google aan het crawlen?
U moet echt weten welke URL’s Google crawlt op uw site. De enige ‘echte’ manier om dat te weten is kijken naar de serverlogs van uw site. Voor grotere sites gebruik ik persoonlijk het liefst Logstash + Kibana. Voor kleinere sites hebben de jongens van Screaming Frog een leuke kleine tool uitgebracht, toepasselijk genaamd SEO Log File Analyser (let op de S, het zijn Britten).
Verkrijg uw server logs en kijk er naar
Afhankelijk van uw type hosting, zult u niet altijd in staat zijn om uw logbestanden te pakken te krijgen. Echter, als je zelfs zo veel als je denkt dat je nodig hebt om te werken aan crawl budget optimalisatie, omdat uw site groot is, moet je ze krijgen. Als uw host niet toestaat dat u om ze te krijgen, is het tijd om hosts te veranderen.
Het repareren van het crawl budget van je site is net zoiets als het repareren van een auto. Je kunt hem niet repareren door naar de buitenkant te kijken, je zult de motor moeten openen. Logs bekijken zal in het begin eng zijn. Je zult snel merken dat er veel ruis zit in logboeken. Je zult een hoop 404’s vinden die vaak voorkomen en waarvan je denkt dat het onzin is. Maar je moet ze oplossen. Je moet door de ruis heen prikken en ervoor zorgen dat je site niet verzuipt in tonnen oude 404’s.
Tips om crawlbudget te verhogen voor WordPress website
Laten we eens kijken naar de dingen die daadwerkelijk verbeteren hoeveel pagina’s Google op uw site kan crawlen.
Website onderhoud: verminder fouten
Stap één om meer pagina’s te laten crawlen, is ervoor te zorgen dat de pagina’s die worden gecrawld, een van de twee mogelijke returncodes terugsturen: 200 (voor ‘OK’) of 301 (voor ‘Ga in plaats daarvan hierheen’). Alle andere return codes zijn niet OK. Om dit uit te zoeken, moet je naar de serverlogs van je site kijken. Google Analytics en de meeste andere analysepakketten houden alleen pagina’s bij die een 200 hebben geserveerd. Je zult daar dus niet veel van de fouten op je site vinden.
Als je eenmaal je server logs hebt, probeer dan veel voorkomende fouten te vinden, en los ze op. De eenvoudigste manier om dat te doen is door alle URL’s te pakken die geen 200 of 301 teruggaven en dan te rangschikken op hoe vaak ze werden opgevraagd. Het oplossen van een fout kan betekenen dat je code moet aanpassen. Of je moet een URL ergens anders heen leiden. Als u weet wat de oorzaak van de fout is, kunt u ook proberen de bron te herstellen.
Een andere goede bron om fouten te vinden is Google Search Console. Lees deze post van Michiel voor meer info daarover. Als je Yoast SEO Premium hebt, kun je ze zelfs eenvoudig wegleiden met de redirects manager.
Blokkeer delen van Je WordPress site
Als je delen van je site hebt die echt niet in Google hoeven te staan, blokkeer ze dan met robots.txt. Doe dit natuurlijk alleen als u weet wat u doet. Een van de problemen die we vaak zien bij grotere e-commercesites is dat ze een biljoen manieren hebben om producten te filteren. Elke filter kan nieuwe URL’s toevoegen voor Google. In dergelijke gevallen moet u er echt voor zorgen dat u Google slechts een of twee van die filters laat spideren en niet allemaal.
Verminder redirect ketens
Wanneer u een URL 301 redirect, gebeurt er iets vreemds. Google ziet die nieuwe URL en voegt die URL toe aan de to-do lijst. Het volgt het niet altijd onmiddellijk, het voegt het toe aan zijn to-do lijst en gaat gewoon verder. Wanneer je redirects ketent, bijvoorbeeld, wanneer je non-www redirect naar www, dan http naar https, heb je overal twee redirects, dus alles duurt langer om te crawlen.