Het LLM Quality Canvas: Waarom traditioneel testen faalt bij AI

Nicole van Gijn
01-07-2025
16:02

🗣 LLM Quality Canvas

Hoe waarborg je continuïteit van software zonder voorspelbare output? In onze nieuwste blog delen we de eerste aanzet tot een LLM Quality Canvas — een denkkader voor testers, QA leads en AI-teams die verder denken dan prompts proberen.

De wereld van software testing verandert sneller dan ooit. Waar we jarenlang testautomatisering zagen als eindoplossing voor testvragen, breekt nu een nieuw tijdperk aan dat het testautomatisering fundamenteel moeilijk maakt: dat van AI-gedreven appplicaties. Large Language Models (LLM’s) zijn bezig om zich in elke laag van onze applicaties te nestelen — en dus ook in onze teststrategieën.

Dit roept fundamentele vragen op. Hoe test je een systeem dat geen vaste output heeft? Wat betekent testdekking als er miljoenen mogelijke inputvarianten zijn? En wie beoordeelt de kwaliteit als modellen elkaars werk reviewen?

Daarom presenteren wij vandaag de eerste aanzet tot een nieuw denkkader: het LLM Quality Canvas.

Waarom Traditionele Testmethoden Tekort Schieten

Het testen van LLM’s vraagt om een fundamenteel andere aanpak dan we gewend zijn bij traditionele software. Waar klassieke applicaties voorspelbaar reageren op dezelfde input, zijn LLM’s juist non-deterministisch: dezelfde vraag kan telkens een andere output opleveren. Dit maakt standaard testmethoden ontoereikend.

Stel je voor: een e-commercebedrijf gebruikt een LLM om klantvragen over retourbeleid te beantwoorden. Een klant vraagt twee keer achter elkaar: “Kan ik mijn bestelling gratis retourneren?” De eerste keer krijgt hij het juiste antwoord: “Ja, retourzendingen zijn gratis binnen 30 dagen.” De tweede keer reageert het model met: “Voor retourzendingen worden administratiekosten gerekend.”

“AI inzetten zonder teststrategie is als deployen zonder monitoring.”

Het LLM Quality Canvas: Zes Pijlers voor Betrouwbare AI

Het boek Taming LLMs van Tharsis T. P. Souza (bron) is een van de eerste publicaties die gestructureerd ingaat op het beheersen van LLM-systemen in productieomgevingen. Souza introduceert daarin een analysemodel dat risicovraagstukken van LLM’s categoriseert langs assen als alignment, non-determinisme, eval-gap en safety. Deze leggen we hieronder verder uit.

Ons LLM Quality Canvas is een directe toepassing van deze conceptuele basis — vertaald naar zes praktische pijlers voor testers, AI-specialisten en productteams. Elke pijler adresseert één of meer kernproblemen uit het boek en vertaalt deze naar concrete testtechnieken.

QA Company LLM Quality Canvas met de zes deelgebieden van AI-risico's — Van theorie naar teststrategie. Van concept naar canvas.

1. Promptrobuustheid

Koppeling met Taming LLMs: hoofdstukken over prompt instabiliteit & structurele variatie

LLM’s zijn extreem gevoelig voor kleine wijzigingen in prompts. Souza noemt dit “prompt sensitivity” en beschrijft technieken als schema enforcement om consistent gedrag af te dwingen. Ons advies sluit hierbij aan: werk met gestructureerde prompts (JSON, regex, system messages) om onverwachte variatie te beperken — met name in klantgerichte applicaties.

2. Outputkwaliteit

Koppeling met Taming LLMs: Eval-gap, preference tuning, LLM-as-judge evaluaties

Het boek bespreekt het ‘evaluation gap’ dilemma: traditionele QA-methodes schieten tekort in LLM-contexten. Daarom adviseren wij een hybride benadering — automatische metrics (zoals BLEU, BERTScore) én subjectieve evaluatie via menselijke review of eventueel een tweede LLM. Deze aanpak sluit aan bij Souza’s pleidooi voor multi-modal assessment.

3. Ethiek & Bias

Koppeling met Taming LLMs: Safety concerns, representatieproblemen in trainingsdata

Souza onderstreept hoe LLM’s maatschappelijke bias kunnen overnemen of versterken, vooral bij onvoldoende fine-tuning of safety alignment. Ons canvas benadrukt het gebruik van content safety tooling (zoals Azure AI Safety) en fairness-metrics om dit systematisch te meten. Tevens raden we aan om hier subjectieve evaluatie voor toe te passen, met voldoende diversiteit in de beoordelaars.

4. Use Case Representatie

Koppeling met Taming LLMs: Distribution gaps & hallucination under context shifts

In het boek wordt duidelijk hoe LLM’s kunnen falen bij edge cases of wanneer context onverwacht verandert. Wij adviseren daarom high-fidelity scenario’s en realistische user intents te gebruiken in testcases — inclusief prompt injection en RAG-vervorming.

5. Regressie & Versiebeheer

Koppeling met Taming LLMs: Model drift & non-reproducibility

Souza maakt duidelijk dat LLM’s moeilijk reproduceerbaar zijn, zeker als modellen of APIs in de achtergrond worden bijgewerkt. Daarom bevat ons canvas expliciete aanbevelingen voor logging, version control en periodieke regressietests met vaste promptsets.

6. Evaluatiemethoden

Koppeling met Taming LLMs: Human-in-the-loop & hybride evaluatiestructuren

Het boek sluit af met het belang van menselijke feedbackloops. Ons canvas sluit hierop aan door aan te sturen op een gelaagde evaluatie — automatische scores, LLM-verificatie én menselijke validatie. Alleen zo vermijd je hallucinaties en overmatige afhankelijkheid van het optimaliseren van metrics.

Waarom deze vertaalslag ertoe doet

Waar Taming LLMs de denkrichting en de risicoanalyse biedt, is het LLM Quality Canvas bedoeld voor de praktijkvloer. Van testmanager tot AI-productowner: deze zes pijlers helpen je om structuur aan te brengen in een domein dat zich vaak chaotisch lijkt te gedragen.

De Praktijk: Van Canvas naar Code

Het LLM Quality Canvas is een praktische leidraad die teams helpt bij het opzetten van effectieve teststrategieën voor AI-applicaties. Door elk van deze zes pijlers systematisch aan te pakken, ga je bewuster om met de inherente nadelen en risico’s van LLM’s, en bouw je betrouwbaardere AI-systemen.

🗣 LLM Quality Canvas

De wereld van AI beweegt sneller dan onze testmethoden. Maar we hoeven niet achter de feiten aan te lopen. Met het LLM Quality Canvas zetten we de eerste stap naar voorspelbare, betrouwbare AI in de praktijk.

In de volgende blog gaan we het hebben over: Promptrobuustheid. Spoiler alert: het gaat niet alleen om betere prompts schrijven.

➡️ Volg onze serie. Denk vooruit. Test anders.

Deel dit bericht:

Gerelateerde posts

Observability voor testers, deel 1

Jakob Jan Kamminga 05-11-2025

Observability is een essentieel onderdeel van moderne DevOps-teams. Maar in de wereld van testen blijft het onderbenut. In dit artikel laten we je zien wat observability is en waarom het zo belangrijk is voor testers.

RAG & Bias Checklist:Zo voorkom je hallucinatie en bias in AI-modellen

Nicole van Gijn 24-09-2025

Retrieval Augmented Generation (RAG) is een krachtige manier om met Large Language Models (LLM’s) te werken, maar geen wondermiddel. Het vermindert hallucinatie en bias niet

Het LLM Quality Canvas: Waarom traditioneel testen faalt bij AI

🗣 LLM Quality Canvas

Waarom Traditionele Testmethoden Tekort Schieten

Het LLM Quality Canvas: Zes Pijlers voor Betrouwbare AI

1. Promptrobuustheid

2. Outputkwaliteit

3. Ethiek & Bias

4. Use Case Representatie

5. Regressie & Versiebeheer

6. Evaluatiemethoden

Waarom deze vertaalslag ertoe doet

De Praktijk: Van Canvas naar Code

🗣 LLM Quality Canvas

Gerelateerde posts

Observability voor testers, deel 1

RAG & Bias Checklist:Zo voorkom je hallucinatie en bias in AI-modellen

Onze gegevens

>

Social

Onze gegevens

>

Social

Onze gegevens

Social

Het LLM Quality Canvas: Waarom traditioneel testen faalt bij AI

🗣 LLM Quality Canvas

Waarom Traditionele Testmethoden Tekort Schieten

Het LLM Quality Canvas: Zes Pijlers voor Betrouwbare AI

1. Promptrobuustheid

2. Outputkwaliteit

3. Ethiek & Bias

4. Use Case Representatie

5. Regressie & Versiebeheer

6. Evaluatiemethoden

Waarom deze vertaalslag ertoe doet

De Praktijk: Van Canvas naar Code

🗣 LLM Quality Canvas

Gerelateerde posts

Observability voor testers, deel 1

RAG & Bias Checklist:Zo voorkom je hallucinatie en bias in AI-modellen​

RAG & Bias Checklist:Zo voorkom je hallucinatie en bias in AI-modellen