Het robots.txt bestand is veel belangrijker voor SEO dan men denkt. In dit artikel leggen we het belang van het Robots.txt bestand uit en hoe je dit bestand kunt optimaliseren voor SEO.

Wat is een robots.txt bestand?

Het robots.txt bestand is een bestand in de rootdirectory van jouw website die zoekmachines vertelt welke pagina’s volgens de webmaster wel en niet toegankelijk zouden moeten zijn.

Het is niet mogelijk om het robots.txt bestand op een andere plaats in jouw website te uploaden. Het robots.txt bestand zal dus voor elke website te vinden zijn op de volgende URL.

https://www.domein.nl/robots.txt

Robots.txt is onderdeel van het Robots Exclusion Protocol (REP). Dit is een protocol die er voor zorgt dat bepaalde delen van een website niet toegankelijk zijn voor webspiders en zoekrobots.

Hoe ziet een standaard robots.txt bestand er uit?

Een standaard robots.txt-bestand bestaat uit 2 regels en ziet er als volgt uit:

Op de eerste regel staat User-agent: *. Achter de user-agent kun je aangeven op welke zoekbots de onderstaande regels van toepassing zijn. Wanneer de regels op alle zoekbots van toepassing zijn, plaats je een sterretje zoals op bovenstaande afbeelding.

Op de tweede regel staat Disallow: /. Deze regel zorgt er voor dat er geen enkele URL wordt meegenomen door zoekbots.

Hoe voeg je een robots.txt bestand toe aan jouw Wordpress website?

Het robots.txt bestand plaats je in de rootdirectory.

Mocht je niet zo technisch zijn, dan zijn er gelukkig ook nog andere mogelijkheden!

Met de Yoast SEO plugin maak je namelijk eenvoudig een robots.txt bestand aan, die automatisch in de rootdirectory wordt geplaatst door de plugin.

Dit werkt als volgt:

  1. Login in op jouw Wordpress website
  2. Installeer en activeer de Yoast SEO plugin
  3. Klik op SEO
  4. Klik op Extra
  5. Klik op Bestandsbewerker
  6. Maak het robots.txt bestand aan!
  7. Je kunt in dit scherm ook jouw robots.txt bestand aanpassen!

Waarom is een robots.txt bestand zo belangrijk voor SEO?

Het belang van het robots.txt bestand wordt door velen erg onderschat.

Zoals eerder al beschreven zal een standaard robots.txt bestand de complete website uitsluiten voor de zoekmachines. Controleer daarom altijd voor en na een website migratie jouw robots.txt bestand om te voorkomen dat belangrijke pagina’s worden uitgesloten.

Daarnaast heb je als website altijd te maken met een crawl budget.

Jouw crawl budget geeft aan hoeveel pagina’s Google van jouw site scant. Hoe hoger je crawl budget is, hoe meer van je pagina’s geïndexeerd kunnen worden.

Dus mocht je in bezit zijn van een grote website met veel pagina’s van lage kwaliteit die niet geïndexeerd hoeven worden, dan doe je er goed aan om deze toe te voegen aan jouw robots.txt bestand.

Hiermee maak je crawlbudget vrij voor de belangrijke pagina’s van jouw website!

Hoe richt je een robots.txt bestand goed in?

Een robots.txt bestand is van levensbelang voor de SEO van jouw website.

Om een robots.txt bestand op te maken is het wel belangrijk dat je als SEO-marketeer de basis kent van het robots.txt bestand.

Wij hebben 10 tips samengesteld, die jou gaan helpen bij het opzetten van een goed robots.txt bestand!

Tip 1: Schrijf de bestandnaam met kleine letters

De meest voorkomende fout is dat de bestandsnaam hoofdletters bevat. In dit geval zal Google jouw robots.txt bestand niet meenemen.

Fout

  • Robots.txt
  • ROBOTS.txt

Goed

robots.txt

Tip 2: Gebruik de Yoast SEO plugin om te voorkomen dat het bestand in de verkeerde map wordt geplaatst

Een andere fout die wij heel veel zien voorkomen is dat het bestand in de verkeerde map wordt geplaatst. Dit voorkom je door de Yoast SEO plugin te gebruiken.

Fout

https://www.domein.nl/categorie/robots.txt

Goed

https://www.domein.nl/robots.txt

Tip 3: Voeg de sitemap van jouw website toe aan jouw robots.txt

Een zoekbot bezoekt altijd jouw robots.txt pagina. Door jouw sitemap onderaan de robots.txt pagina te plaatsen, weet je zeker dat Google bekent is met al jouw URL’s.

Voeg onderaan het robots.txt bestand de volgende regel toe:

Sitemap: https://www.domein.nl/sitemap

Controleer goed wat de url is van jouw sitemap!

Tip 4: Een richtlijn per regel

Het komt vaak voor dat een webmaster meerdere URL’s wil uitsluiten in één regel. Gebruik voor elke “Disallow” richtlijn een nieuwe regel. Zet dus niet meerdere URL’s in één regel.

Fout

Disallow: /categorie1/ /categorie2/

Goed

Disallow: /categorie1/
Disallow: /categorie2/

Tip 5: Vul altijd wat in bij User-Agent

Zorg dat er altijd een User-Agent is ingevuld! Mochten de richtlijnen van toepassing zijn op alle zoekbots plaats dan een sterretje.

Fout

User-agent:
Disallow:

Goed

User-agent: *
Disallow:

Tip 6: Het is niet nodig om alle bestanden in een map te benoemen

Wanneer je alle bestanden uit een map niet wilt laten indexeren is het niet nodig om deze een voor een in het robots.txt bestand te plaatsen. Door een sterretje achter de map worden alle bestanden meegenomen.

Fout

User-agent: *
Disallow: /categorie/categorie1/
Disallow: /categorie/categorie2/
Disallow: /categorie/categorie3/

Goed

User-agent: *
Disallow: /categorie/*

Tip 7: Gebruik geen speciale tekens

Het robots.txt bestand accepteert alleen * en $. Andere tekens worden niet herkend.

Tip 8: Sluit de volgende pagina’s uit in jouw robots.txt

Zoals ik al eerder aangaf in dit artikel wordt het robots.txt bestand vaak gebruikt om URL’s uit te sluiten van indexatie, om op die manier crawlbudget te besparen.

Je kunt pagina’s uitsluiten door middel van de “Disallow” richtlijn.

De volgende pagina’s sluit ik vaak uit door middel van de robots.txt:

  • Account pagina’s (Disallow: /mijn-account/*)
  • Admin pagina’s (Disallow: /wp-admin/*)
  • Winkelmand pagina (Disallow: /winkelmandje/)
  • Afrekenpagina (Disallow: /afrekenen/)
  • Bedankt-pagina (Disallow: /bedankt-voor-uw-bestelling/)
  • Paginatie (Disallow: /my-account/)
  • Zoekopdrachten pagina’s (Disallow: /zoeken/*)
  • Filter pagina’s (Disallow: /filter/*)
  • Pagina’s met dubbele content

Let op! De “Disallow” richtlijnen die ik noem achter elke pagina zijn voorbeelden. Controleer goed of jullie website gebruikmaakt van dezelfde URL’s.

Tip 9: Maak voor elk subdomein een uniek robots.txt bestand

Elk subdomein heeft zijn eigen robots.txt bestand. Host jij bijvoorbeeld een blog op blog.domein.nl dan zul je ook voor dit domein een robots.txt bestand moeten opstellen!

Tip 10: Gebruik een hashtag om berichten achter te laten

Crawlers accepteren geen regels die beginnen met een #. De hashtag wordt daarom vaak gebruikt om kopjes te geven aan bepaalde regels om op die manier overzicht te creëren.

Robots.txt bestand testen

Om te testen of je jouw robots.txt bestand juist hebt opgezet, heeft Google de Robots Testing tool ontwikkeld. Met deze tool kun je als webmaster testen of jouw robots.txt de URL’s uitsluit, die jij wilt uitsluiten.

Je selecteert de gewenste property en voert vervolgens URL’s in om testen of deze nog gecrawlt worden.

Joost Ogink

Categorieën

Vragen over dit onderwerp?

Neem contact op
Begin gesprek
SYcommerce via WhatsApp
Hallo,
Kunnen wij je misschien ergens mee helpen?