Kennisbank AI en Zoekmachines
LLM-trainingsdata is niet wat je denkt
Het zien van GPTBot, CCBot of ClaudeBot in je serverlogs voelt als bewijs. Bewijs dat AI je website kan bereiken en dat een volgend model jouw merk zal kennen. Maar daar begint vaak de verwarring: een crawlerbezoek betekent niet dat jouw content in de trainingsdata terechtkomt. Het betekent alleen dat een bot een URL heeft opgevraagd. Meer niet.
Daarom is de recente gids van Stephen Burns, The AI Visibility Audit, zo interessant. Hij laat SEO- en GEO-teams een stap teruggaan in de keten: nog vóór rankings, AI-antwoorden, citaties of retrieval moet een website eerst bereikbaar zijn voor crawlers die mogelijk trainingsdata verzamelen.
Als je content niet gecrawld kan worden, heeft die geen enkele kans om in trainingsdatasets terecht te komen die afhankelijk zijn van die crawl.
Maar er is een belangrijke nuance:
- Gecrawld worden is niet hetzelfde als getraind worden.
- Getraind worden is niet hetzelfde als opgehaald worden (retrieval).
- Deze drie lagen worden vaak door elkaar gehaald.
1. Mythes over trainingsdata
Ik zie op LinkedIn regelmatig twee hardnekkige misverstanden.
Mythe 1:
"Als een AI-crawler mijn pagina bezoekt, zit mijn content in het model." Nee. Een crawlerlog is geen trainingsbewijs. Het laat alleen zien dat een bot een URL heeft bezocht. Het vertelt niets over wat daarna gebeurde.
De keten ziet er ongeveer zo uit: Crawler → Archief → Filtering & Training → Modelkennis Het belangrijkste onderdeel is de derde stap.
Modelbouwers halen data uit archieven en andere bronnen, filteren die op kwaliteit en trainen vervolgens modellen. Opname in een model gebeurt pas ná die selectie.
Een realistischer proces is: Crawlerbezoek → Archief → Tekstextractie → Filtering → Deduplicatie → Datamix → Training → Modelgedrag. Je logfile bewijst alleen de eerste stap. Over de rest weet je vrijwel niets.
Mythe 2:
"Als ik mijn website update, wordt het model automatisch bijgewerkt." Ook niet. Zodra een model is getraind en uitgerold, staat het geheugen van dat model vast.
Ja, AI-systemen kunnen live zoeken en actuele pagina's ophalen. Ze kunnen nieuwe bronnen citeren en recente content gebruiken als context. Maar dat verandert de gewichten van het model niet. Dit verschilt fundamenteel van klassieke SEO. Bij Google kan een hercrawl leiden tot een nieuwe indexering. Bij LLM's kan een nieuwe pagina invloed hebben op live retrieval, maar die komt pas in het modelgeheugen terecht bij een toekomstige trainingsronde of modelrelease. Daarom kun je een bezoek van GPTBot niet rechtstreeks koppelen aan meer zichtbaarheid in een AI-model. De cyclus duurt te lang en is te ondoorzichtig.
2. Trainingsdata is geen gigantische HTML-database
Dit wordt nog steeds vaak verkeerd begrepen. LLM's worden niet getraind op een enorme verzameling HTML-pagina's.
Ruwe HTML bevat:
- Navigaties
- Cookiebanners
- Footer-links
- Advertenties
- Trackingcodes
- Templates
- JavaScript
Voor training verandert een webpagina uiteindelijk in tekst, vervolgens documenten, daarna tokens en uiteindelijk mogelijk trainingsdata.
Vereenvoudigd: Crawl → Archief → Tekstextractie → Taaldetectie → Kwaliteitsfiltering → Veiligheidsfiltering → Deduplicatie → Tokenisatie → Datamix → Training
Bij iedere stap kan content verdwijnen.
Een pagina kan
- Gecrawld worden maar niet goed geëxtraheerd worden.
- Geëxtraheerd worden maar als lage kwaliteit worden gezien.
- Door kwaliteitsfilters komen maar als duplicaat worden verwijderd.
- Overblijven maar nauwelijks gewicht krijgen in de trainingsset.
Daarom zijn deze uitspraken niet hetzelfde:
❌ "Wij zitten in Common Crawl."
❌ "Het model heeft ons geleerd."
Common Crawl is grondstof. Trainingsdata is het geselecteerde eindresultaat. Onderzoek zoals FineWeb, DataComp-LM, LLaMA en studies over deduplicatie laten allemaal zien dat filtering, kwaliteitscontrole en databalancering cruciale onderdelen zijn.
Belangrijk inzicht: Optimaliseren voor crawlbaarheid is een voorwaarde, maar niet automatisch een manier om modelkennis te beïnvloeden.
3. Modelkennis beïnvloedt live retrieval
Nog een veelgemaakte fout: Mensen zien modelgeheugen en live retrieval als twee volledig gescheiden systemen. Dat zijn ze niet. AI-antwoorden ontstaan meestal op twee manieren.
Model-only
- Geen live zoekopdracht
- Geen actuele bronnen
- Geen citaties
Het model antwoordt puur vanuit zijn interne kennis. Model + Retrieval Hier verloopt het proces ongeveer zo: Prompt → Zoekopdrachten genereren → Zoekresultaten → Inhoud ophalen → Bronnen selecteren → Antwoord genereren
Dat lijkt op een zoekmachine, maar het is geen neutrale zoekmachine. Het model bepaalt zelf:
- Welke zoektermen worden gebruikt
- Hoe de vraag wordt herschreven
- Welke bronnen betrouwbaar lijken
- Hoe het antwoord wordt geformuleerd
Daarom blijft modelgeheugen belangrijk. Een model dat jouw merk al associeert met een bepaald onderwerp:
- Zoekt eerder naar jouw merk.
- Gebruikt jouw site eerder als bron.
- Ziet jouw domein eerder als autoriteit.
Een model dat jouw merk niet kent, zal mogelijk nooit een zoekopdracht formuleren waarbij jij überhaupt kandidaat bent. Live retrieval vervangt modelgeheugen dus niet. Het bouwt erop voort.
4. Wat moet je doen?
Volgens Salomon moet je drie soorten audits uitvoeren.
Audit 1: Crawlbaarheid
Controleer:
- Toegang voor CCBot
- Opname in Common Crawl
- Harmonic Centrality
- Structured data
- Server-side rendering
Controleer ook:
- robots.txt
- CDN-instellingen
- WAF/firewall-regels
- Botmanagement
Belangrijk: Een pagina die goed scoort in Google is niet automatisch toegankelijk voor AI-crawlers.
Audit 2: Training Readiness
De belangrijkste vraag: Als deze content wordt gecrawld, is hij dan de moeite waard om te bewaren?
Controleer:
- Is de content makkelijk te extraheren?
- Is de tekst origineel?
- Is er veel duplicatie?
- Zijn entiteiten duidelijk beschreven?
- Worden claims ondersteund door externe bronnen?
Daarnaast:
- Consistente merkvermeldingen
- Wikidata
- Wikipedia
- Crunchbase
- Partnerwebsites
- Perspublicaties
- Branchegidsen
De focus verschuift hiermee van traditionele SEO naar:
- Entiteitmanagement
- Digitale PR
- Autoriteit
Het doel is niet méér pagina's publiceren. Het doel is content maken die:
- Extracteerbaar is
- Onderscheidend is
- Onderbouwd is
- Consistent is
Samenvatting
AI-zichtbaarheid bestaat uit meerdere lagen:
- Crawlbaarheid – kan AI je bereiken?
- Training Readiness – overleeft je content de filters?
- Parametrisch geheugen – wat weet het model?
- Live Retrieval – wordt je content opgehaald?
- Bronselectie – kiest AI jouw content?
- Antwoordformulering – hoe wordt je merk genoemd?