AI-bots in robots.txt: GPTBot, ClaudeBot, PerplexityBot — toelaten of blokkeren?
Een complete lijst van alle relevante AI-bots in 2026, hun rol, en wanneer je ze toelaat of blokkeert. Met concrete robots.txt voorbeelden voor verschillende strategieën.
In 2026 zijn er minstens 12 AI-bots die je moet kennen. Sommigen trainen modellen, anderen indexeren voor AI-search, weer anderen fetchen real-time tijdens een gebruiker-chat. Wie ze door elkaar haalt, blokkeert per ongeluk zijn eigen citaties.
Dit is de complete lijst, hun rol, en wanneer je elk toelaat of blokkeert.
De 12 bots die ertoe doen
OpenAI (3 bots)
| Bot | User-agent | Rol |
|---|---|---|
| GPTBot | GPTBot | Training data voor toekomstige modellen |
| OAI-SearchBot | OAI-SearchBot | Bouwt de search-index voor ChatGPT Search |
| ChatGPT-User | ChatGPT-User | Real-time fetch wanneer een gebruiker je site aanvraagt |
Anthropic (3 bots)
| Bot | User-agent | Rol |
|---|---|---|
| ClaudeBot | ClaudeBot | Training data voor Claude-modellen |
| Claude-SearchBot | Claude-SearchBot | Search-index voor Claude.ai met web access |
| Claude-User | Claude-User | Real-time fetch tijdens een Claude-gesprek |
Perplexity (2 bots)
| Bot | User-agent | Rol |
|---|---|---|
| PerplexityBot | PerplexityBot | Hoofd-crawler voor Perplexity's index |
| Perplexity-User | Perplexity-User | Real-time fetch tijdens query |
Google (1 bot, naast Googlebot)
| Bot | User-agent | Rol |
|---|---|---|
| Google-Extended | Google-Extended | Training voor Gemini en Vertex AI |
Andere belangrijke
| Bot | User-agent | Rol |
|---|---|---|
| CCBot | CCBot | Common Crawl, gebruikt door veel AI-trainingsdatasets |
| Bytespider | Bytespider | ByteDance/TikTok AI-training |
| Applebot-Extended | Applebot-Extended | Apple Intelligence training |
| Meta-ExternalAgent | Meta-ExternalAgent | Meta AI (Llama) gerelateerd |
| Amazonbot | Amazonbot | Amazon's AI training |
De drie functies uit elkaar halen
Belangrijk om te snappen: trainen, indexeren en real-time fetchen zijn drie verschillende dingen.
- Training = je content wordt gebruikt om toekomstige modellen te trainen. Geen direct verkeer, geen citatie, lange-termijn impact op model-kennis.
- Indexeren = je content wordt opgenomen in een search-index. Daar wordt uit geciteerd in AI-antwoorden. Direct effect op zichtbaarheid.
- Real-time fetch = wanneer iemand expliciet een AI vraagt om jouw URL te lezen, fetcht de bot de pagina live. Direct effect op hoe goed jouw content in dat antwoord komt.
Veel sites blokkeren alle drie de functies van OpenAI of Anthropic, in de gedachte "geen training data afgeven". Resultaat: ze worden ook niet geciteerd in ChatGPT-antwoorden of Claude-antwoorden, want de search en real-time bots zijn ook geblokkeerd.
Strategie 1: maximale AI-zichtbaarheid
Voor SaaS, e-commerce, content-bedrijven die willen worden geciteerd:
# Allow all AI search and retrieval bots
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Allow training (optional, jij beslist)
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
# Disallow non-compliant scrapers
User-agent: Bytespider
Disallow: /
# Default
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
Strategie 2: zichtbaarheid zonder training
Wil je wel geciteerd worden, maar geen content afgeven aan training? Blokkeer training-bots, laat search en real-time bots toe:
# Allow search + retrieval, block training
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Block training crawlers
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
Strategie 3: alles dichttimmeren
Voor sites met betaalde content, gevoelige data, of bewuste "geen-AI" stance:
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: Claude-User
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Perplexity-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
Let op: dit maakt je onzichtbaar in alle AI-antwoorden. Voor de meeste commerciële sites is dat een dure keuze. Onderzoek wijst uit dat AI-referral verkeer 3x beter converteert dan klassieke organic. Wegen voor je dichtgooit.
Strategie 4: gemengd per pad
Selectief: laat marketing-content vrij, blokkeer login/account pagina's en betaalde content:
User-agent: GPTBot
Allow: /
Disallow: /account/
Disallow: /api/
Disallow: /pro/
Disallow: /private/
User-agent: ClaudeBot
Allow: /
Disallow: /account/
Disallow: /api/
Disallow: /pro/
User-agent: PerplexityBot
Allow: /
Disallow: /account/
Disallow: /api/
User-agent: *
Allow: /
Disallow: /api/
Dit is wat ik op flashcards.nl draai: open content vrij, transactionele paden dicht.
Wat over compliance en stealth-crawlers
Niet alle bots gehoorzamen robots.txt:
- Bytespider (ByteDance) — meermaals betrapt op negeren van robots.txt
- Perplexity — Wired publiceerde augustus 2024 onderzoek over een stealth-crawler die robots.txt bypastte; situatie is verbeterd maar niet 100% opgelost in 2026
- Diverse scrapers zonder duidelijke organisatie achter zich
Voor real-world bescherming tegen non-compliant bots heb je een server-laag verdediging nodig:
- Cloudflare WAF met de "AI Scrapers and Crawlers" categorie aan
- Vercel firewall rules op user-agent
- Eigen rate-limiting op IP + user-agent niveau
Robots.txt is een verzoek, geen muur. Voor echte blokkades: server-side.
Toekomstige claim-implicaties
Een nuance die soms over het hoofd wordt gezien: als je een AI-bot blokkeert, kun je later moeilijker claimen dat ze jouw content gebruikt hebben zonder toestemming. Het New York Times-OpenAI proces draait deels om of NYT consent had geweigerd. Site-eigenaren die GPTBot expliciet hebben geblokkeerd staan juridisch sterker.
Tegelijk: blokkeren = niet geciteerd worden. Het is een afruil. Voor de meeste commerciële sites weegt zichtbaarheid zwaarder dan toekomstige claim-leverage. Voor uitgevers met substantiële, exclusieve content kan het andersom liggen.
Hoe te checken wat je nu hebt
Drie checks:
1. Open je robots.txt direct in de browser
https://jouwsite.nl/robots.txt — lees wat er staat. Vaak verbazend.
2. Check je Cloudflare/CDN-instellingen Cloudflare's "AI Scrapers" preset blokkeert standaard veel AI-bots. Veel site-eigenaren weten dit niet. Ga naar Cloudflare Dashboard → Security → Bots → AI Scrapers.
3. Run een Priso scan We checken zowel je robots.txt als de daadwerkelijke fetch-respons per AI-bot. Verschil tussen wat je denkt dat geconfigureerd is en wat de bot écht ziet komt vaker voor dan je denkt.
Concrete fout die ik vaak zie
Twee veel voorkomende patronen:
Patroon 1: oude robots.txt met alleen User-agent: *
Mist alle AI-specifieke bots. Resultaat: alles is open, inclusief training. Voor sommigen prima, voor anderen ongewenst.
Patroon 2: per ongeluk blokkeren via Cloudflare Site-eigenaar denkt: "robots.txt staat alles open." Cloudflare's bot-preset blokkeert echter GPTBot, ClaudeBot, PerplexityBot via WAF rules. Robots.txt is niet de waarheid — de feitelijke server-respons is dat.
Wat ik adviseer
Voor 90% van de Nederlandse SaaS-, e-commerce- en contentbedrijven: strategie 1 of 2. Maximale AI-zichtbaarheid, eventueel zonder training. Verkeer en zichtbaarheid wegen zwaarder dan toekomstige claim-leverage.
Voor uitgevers, betaalde content, of sterk gereguleerde sectoren (juridisch, medisch met paywalled content): strategie 3 of 4.
Beslissen op basis van je business-doelen, niet op basis van een blogpost van een tool-leverancier. Maar als richting: AI-traffic is een groeiend kanaal dat 3x beter converteert dan classic organic. De default zou "open" moeten zijn, met expliciete blokkades waar nodig.
Check welke bots jouw site écht binnenlaat
Check welke bots jouw site écht binnenlaatVeelgestelde vragen
Hoe vaak moet ik mijn robots.txt updaten? Bij elke nieuwe AI-engine-launch, en minstens elk kwartaal een review. AI-bot landschap verandert snel.
Werkt User-agent: * voor AI-bots?
Sommige AI-bots respecteren *-regels, maar de meeste hebben specifieke documentatie en respecteren alleen hun eigen user-agent string. Schrijf elke bot expliciet uit.
Wat gebeurt er als ik een nieuwe bot vergeet?
Default = je bot-strategie voor User-agent: *. Als die op Allow: / staat, krijgt de nieuwe bot toegang. Op Disallow: / niet. Bewust kiezen.
Kan ik per pagina verschillen?
Niet via robots.txt (alleen pad-niveau). Voor pagina-niveau-blokkades: gebruik een <meta name="robots" content="noai, noimageai"> tag in je HTML head.
Geschreven door Richard van Leeuwen, founder van Priso. Beheert robots.txt-strategieën voor flashcards.nl en priso.nl, en ziet robots.txt-bestanden in elke audit die langs Priso komt.