Wat is een Robots.txt

Zonder dat jij het weet heeft jouw website toch meer pagina’s dan jij denkt. Dit kunnen bijvoorbeeld filterpagina’s of parameter ( url’s met een ?) zijn. Waar jij een beeld van ±10.000 URL’s hebt kunnen de “niet bekende” pagina’s oplopen tot in de miljoenen. Mocht jij hier niet van bewust zijn en hier niet naar optimaliseren, kan het zo zijn dat Google alle pagina’s gaat crawlen en indexeren met als resultaat dat jij tegen crawl limieten aanloopt en duplicated content ontwikkelt. 1 klein bestandje kan hierbij ondersteunen, de robots.txt.

Wat doet robots.txt precies?

Robots.txt fungeert als een digitale poortwachter. Het instrueert webrobots, zoals Googlebot, welke delen van jouw website ze kunnen bezoeken en welke ze moeten mijden. Hiermee kan je sturen welke informatie wordt geïndexeerd en welke data beschermd blijft.

Hoe moet ik de robots.txt instellen?

De opbouw van robots.txt is gelukkig niet ingewikkeld. Geplaatst in de root van je website, geeft het instructies aan webcrawlers middels simpele regels. Deze regels specificeren welke ‘user-agents’ (zoals Googlebot of Bingbot) welke instructies moeten volgen, zoals toegang tot specifieke pagina’s wel of niet toestaan.

Laten we dieper ingaan op de meest gangbare instructies:

  • User-agent: Hiermee specificeer je voor welke bot de volgende regels gelden.

Bijv.: User-agent: Googlebot

  • Disallow: Een commando om toegang tot bepaalde pagina’s of mappen te beperken.

Bijv.: Disallow: /privé/

  • Allow: Hiermee geef je juist toestemming voor pagina’s die standaard geblokkeerd zijn.

Bijv.: Allow: /openbaar/

  • Sitemap: Deze wijst bots naar jouw XML-sitemap, wat helpt bij efficiënter indexeren.

Bijv.: Sitemap: https://www.voorbeeld.nl/sitemap.xml

Het gebruik van robots.txt vraagt om een specialistische benadering. Hoewel webcrawlers de instructies volgen, kunnen kwaadwillende bots deze negeren. Daarom mag je nooit alleen op robots.txt vertrouwen voor de bescherming van gevoelige gegevens.

Best practices voor robots.txt:

Om ervoor te zorgen dat je XML-sitemap optimaal functioneert en effectief is, is het belangrijk om de beste praktijken te volgen zoals gedefinieerd door het sitemaps-protocol. Hoewel er veel aspecten belangrijk zijn, worden sommige beste praktijken vaak over het hoofd gezien. Laten we deze belangrijke aanbevelingen eens bekijken:

nummer 1

Sluit GEEN bronbestanden uit: Wanneer jij ervoor kiest om css, js of afbeeldingen uit te sluiten zorg je ervoor dat Google dit niet kan gebruiken om webpagina’s op te bouwen. Resultaat: Google mist functionaliteiten of krijgt geen goed beeld van de lay-out waardoor Google kan denken dat de UX van de website onvoldoende/spammy is. Met als resultaat lagere posities.

nummer 2

Test en verifieer: Zorg dat jouw robots.txt correct werkt door gebruik te maken van specifieke tools of webmaster dashboards van zoekmachines.

nummer 3

Houd het overzichtelijk: Zorg voor een heldere structuur in je robots.txt-bestand. Vermijd tegenstrijdige regels en gebruik opmerkingen waar nodig.

nummer 4

Periodieke controle: Websites ontwikkelen door. Controleer regelmatig je robots.txt om te waarborgen dat het nog steeds voldoet aan jouw wensen en pas het aan indien nodig.

Dit zijn slechts enkele essentiële beste praktijken voor XML-sitemaps. Voor een uitgebreide lijst kun je de documentatie van het sitemaps-protocol raadplegen.

In het kort: Wat is de Robots.txt?

De robots.txt  is een standaard, gebruikt door websites, om bots en webcrawlers (automatische agents die websites doorzoeken) te informeren welke pagina’s op hun site wel of niet mogen worden gecrawld. Het is een tekstbestand dat webmasters kunnen maken om instructies te geven over hun site aan webrobots; dit wordt The Robots Exclusion Protocol genoemd.

Het doel hiervan is om bots alleen te sturen naar de belangrijke pagina’s van jouw website en geen crawlbudget te spenderen aan onnodige filterpagina’s.

 

Vragen Over Een Robots.txt?

Neem dan contact op of download onze SEO whitepaper!

SEO Gerelateerde Artikelen

Redirects, de complete handleiding

Redirects, de complete handleiding

Redirects, de complete handleiding Redirects zijn een belangrijk onderdeel van websitebeheer en zoekmachineoptimalisatie (SEO). Ze stellen website-eigenaren in staat om…
Marktonderzoek: Online Aankopen

Marktonderzoek: Online Aankopen

De ontwikkelingen van de online markt De afgelopen jaren hebben we een enorme verschuiving gezien in de manier waarop consumenten…
Google Marketing Live - De Toekomst Van Adverteren

Google Marketing Live - De Toekomst Van Adverteren

Google Marketing Live – De Toekomst Van Adverteren Tijdens het jaarlijkse event Google Marketing Live houdt Google hun partners op…
ChatGPT en SEO: zo kan jij het inzetten

ChatGPT en SEO: zo kan jij het inzetten

ChatGPT en SEO: zo kan jij het inzetten Je wordt overspoeld met berichten over de AI-tool ChatGPT. Van bedreiging voor…