De website van de toekomst – van pagina naar kennisnetwerk

Kennisbank AI en Zoekmachines

LLM-trainingsdata is niet wat je denkt

Het zien van GPTBot, CCBot of ClaudeBot in je serverlogs voelt als bewijs. Bewijs dat AI je website kan bereiken en dat een volgend model jouw merk zal kennen. Maar daar begint vaak de verwarring: een crawlerbezoek betekent niet dat jouw content in de trainingsdata terechtkomt. Het betekent alleen dat een bot een URL heeft opgevraagd. Meer niet.

Daarom is de recente gids van Stephen Burns, The AI Visibility Audit, zo interessant. Hij laat SEO- en GEO-teams een stap teruggaan in de keten: nog vóór rankings, AI-antwoorden, citaties of retrieval moet een website eerst bereikbaar zijn voor crawlers die mogelijk trainingsdata verzamelen.

Als je content niet gecrawld kan worden, heeft die geen enkele kans om in trainingsdatasets terecht te komen die afhankelijk zijn van die crawl.

Maar er is een belangrijke nuance:

Gecrawld worden is niet hetzelfde als getraind worden.
Getraind worden is niet hetzelfde als opgehaald worden (retrieval).
Deze drie lagen worden vaak door elkaar gehaald.

1. Mythes over trainingsdata

Ik zie op LinkedIn regelmatig twee hardnekkige misverstanden.

Mythe 1:

"Als een AI-crawler mijn pagina bezoekt, zit mijn content in het model." Nee. Een crawlerlog is geen trainingsbewijs. Het laat alleen zien dat een bot een URL heeft bezocht. Het vertelt niets over wat daarna gebeurde.

De keten ziet er ongeveer zo uit: Crawler → Archief → Filtering & Training → Modelkennis Het belangrijkste onderdeel is de derde stap.

Modelbouwers halen data uit archieven en andere bronnen, filteren die op kwaliteit en trainen vervolgens modellen. Opname in een model gebeurt pas ná die selectie.

Een realistischer proces is: Crawlerbezoek → Archief → Tekstextractie → Filtering → Deduplicatie → Datamix → Training → Modelgedrag. Je logfile bewijst alleen de eerste stap. Over de rest weet je vrijwel niets.

Mythe 2:

"Als ik mijn website update, wordt het model automatisch bijgewerkt." Ook niet. Zodra een model is getraind en uitgerold, staat het geheugen van dat model vast.

Ja, AI-systemen kunnen live zoeken en actuele pagina's ophalen. Ze kunnen nieuwe bronnen citeren en recente content gebruiken als context. Maar dat verandert de gewichten van het model niet. Dit verschilt fundamenteel van klassieke SEO. Bij Google kan een hercrawl leiden tot een nieuwe indexering. Bij LLM's kan een nieuwe pagina invloed hebben op live retrieval, maar die komt pas in het modelgeheugen terecht bij een toekomstige trainingsronde of modelrelease. Daarom kun je een bezoek van GPTBot niet rechtstreeks koppelen aan meer zichtbaarheid in een AI-model. De cyclus duurt te lang en is te ondoorzichtig.

2. Trainingsdata is geen gigantische HTML-database

Dit wordt nog steeds vaak verkeerd begrepen. LLM's worden niet getraind op een enorme verzameling HTML-pagina's.

Ruwe HTML bevat:

Navigaties
Cookiebanners
Footer-links
Advertenties
Trackingcodes
Templates
JavaScript

Voor training verandert een webpagina uiteindelijk in tekst, vervolgens documenten, daarna tokens en uiteindelijk mogelijk trainingsdata.

Vereenvoudigd: Crawl → Archief → Tekstextractie → Taaldetectie → Kwaliteitsfiltering → Veiligheidsfiltering → Deduplicatie → Tokenisatie → Datamix → Training

Bij iedere stap kan content verdwijnen.

Een pagina kan

Gecrawld worden maar niet goed geëxtraheerd worden.
Geëxtraheerd worden maar als lage kwaliteit worden gezien.
Door kwaliteitsfilters komen maar als duplicaat worden verwijderd.
Overblijven maar nauwelijks gewicht krijgen in de trainingsset.

Daarom zijn deze uitspraken niet hetzelfde:

❌ "Wij zitten in Common Crawl."

❌ "Het model heeft ons geleerd."

Common Crawl is grondstof. Trainingsdata is het geselecteerde eindresultaat. Onderzoek zoals FineWeb, DataComp-LM, LLaMA en studies over deduplicatie laten allemaal zien dat filtering, kwaliteitscontrole en databalancering cruciale onderdelen zijn.

Belangrijk inzicht: Optimaliseren voor crawlbaarheid is een voorwaarde, maar niet automatisch een manier om modelkennis te beïnvloeden.

3. Modelkennis beïnvloedt live retrieval

Nog een veelgemaakte fout: Mensen zien modelgeheugen en live retrieval als twee volledig gescheiden systemen. Dat zijn ze niet. AI-antwoorden ontstaan meestal op twee manieren.

Model-only

Geen live zoekopdracht
Geen actuele bronnen
Geen citaties

Het model antwoordt puur vanuit zijn interne kennis. Model + Retrieval Hier verloopt het proces ongeveer zo: Prompt → Zoekopdrachten genereren → Zoekresultaten → Inhoud ophalen → Bronnen selecteren → Antwoord genereren

Dat lijkt op een zoekmachine, maar het is geen neutrale zoekmachine. Het model bepaalt zelf:

Welke zoektermen worden gebruikt
Hoe de vraag wordt herschreven
Welke bronnen betrouwbaar lijken
Hoe het antwoord wordt geformuleerd

Daarom blijft modelgeheugen belangrijk. Een model dat jouw merk al associeert met een bepaald onderwerp:

Zoekt eerder naar jouw merk.
Gebruikt jouw site eerder als bron.
Ziet jouw domein eerder als autoriteit.

Een model dat jouw merk niet kent, zal mogelijk nooit een zoekopdracht formuleren waarbij jij überhaupt kandidaat bent. Live retrieval vervangt modelgeheugen dus niet. Het bouwt erop voort.

4. Wat moet je doen?

Volgens Salomon moet je drie soorten audits uitvoeren.

Audit 1: Crawlbaarheid

Controleer:

Toegang voor CCBot
Opname in Common Crawl
Harmonic Centrality
Structured data
Server-side rendering

Controleer ook:

robots.txt
CDN-instellingen
WAF/firewall-regels
Botmanagement

Belangrijk: Een pagina die goed scoort in Google is niet automatisch toegankelijk voor AI-crawlers.

Audit 2: Training Readiness

De belangrijkste vraag: Als deze content wordt gecrawld, is hij dan de moeite waard om te bewaren?

Controleer:

Is de content makkelijk te extraheren?
Is de tekst origineel?
Is er veel duplicatie?
Zijn entiteiten duidelijk beschreven?
Worden claims ondersteund door externe bronnen?

Daarnaast:

Consistente merkvermeldingen
Wikidata
Wikipedia
Crunchbase
Partnerwebsites
Perspublicaties
Branchegidsen

De focus verschuift hiermee van traditionele SEO naar:

Entiteitmanagement
Digitale PR
Autoriteit

Het doel is niet méér pagina's publiceren. Het doel is content maken die:

Extracteerbaar is
Onderscheidend is
Onderbouwd is
Consistent is

Samenvatting

AI-zichtbaarheid bestaat uit meerdere lagen:

Crawlbaarheid – kan AI je bereiken?
Training Readiness – overleeft je content de filters?
Parametrisch geheugen – wat weet het model?
Live Retrieval – wordt je content opgehaald?
Bronselectie – kiest AI jouw content?
Antwoordformulering – hoe wordt je merk genoemd?