🗣 LLM Quality Canvas
Hoe waarborg je continuïteit van software zonder voorspelbare output? In onze nieuwste blog delen we de eerste aanzet tot een LLM Quality Canvas — een denkkader voor testers, QA leads en AI-teams die verder denken dan prompts proberen.
De wereld van software testing verandert sneller dan ooit. Waar we jarenlang testautomatisering zagen als eindoplossing voor testvragen, breekt nu een nieuw tijdperk aan dat het testautomatisering fundamenteel moeilijk maakt: dat van AI-gedreven appplicaties. Large Language Models (LLM’s) zijn bezig om zich in elke laag van onze applicaties te nestelen — en dus ook in onze teststrategieën.
Dit roept fundamentele vragen op. Hoe test je een systeem dat geen vaste output heeft? Wat betekent testdekking als er miljoenen mogelijke inputvarianten zijn? En wie beoordeelt de kwaliteit als modellen elkaars werk reviewen?
Daarom presenteren wij vandaag de eerste aanzet tot een nieuw denkkader: het LLM Quality Canvas.
Waarom Traditionele Testmethoden Tekort Schieten
Het testen van LLM’s vraagt om een fundamenteel andere aanpak dan we gewend zijn bij traditionele software. Waar klassieke applicaties voorspelbaar reageren op dezelfde input, zijn LLM’s juist non-deterministisch: dezelfde vraag kan telkens een andere output opleveren. Dit maakt standaard testmethoden ontoereikend.
Stel je voor: een e-commercebedrijf gebruikt een LLM om klantvragen over retourbeleid te beantwoorden. Een klant vraagt twee keer achter elkaar: “Kan ik mijn bestelling gratis retourneren?” De eerste keer krijgt hij het juiste antwoord: “Ja, retourzendingen zijn gratis binnen 30 dagen.” De tweede keer reageert het model met: “Voor retourzendingen worden administratiekosten gerekend.”

Het LLM Quality Canvas: Zes Pijlers voor Betrouwbare AI
Het boek Taming LLMs van Tharsis T. P. Souza (bron) is een van de eerste publicaties die gestructureerd ingaat op het beheersen van LLM-systemen in productieomgevingen. Souza introduceert daarin een analysemodel dat risicovraagstukken van LLM’s categoriseert langs assen als alignment, non-determinisme, eval-gap en safety. Deze leggen we hieronder verder uit.
Ons LLM Quality Canvas is een directe toepassing van deze conceptuele basis — vertaald naar zes praktische pijlers voor testers, AI-specialisten en productteams. Elke pijler adresseert één of meer kernproblemen uit het boek en vertaalt deze naar concrete testtechnieken.

1. Promptrobuustheid
Koppeling met Taming LLMs: hoofdstukken over prompt instabiliteit & structurele variatie
LLM’s zijn extreem gevoelig voor kleine wijzigingen in prompts. Souza noemt dit “prompt sensitivity” en beschrijft technieken als schema enforcement om consistent gedrag af te dwingen. Ons advies sluit hierbij aan: werk met gestructureerde prompts (JSON, regex, system messages) om onverwachte variatie te beperken — met name in klantgerichte applicaties.
2. Outputkwaliteit
Koppeling met Taming LLMs: Eval-gap, preference tuning, LLM-as-judge evaluaties
Het boek bespreekt het ‘evaluation gap’ dilemma: traditionele QA-methodes schieten tekort in LLM-contexten. Daarom adviseren wij een hybride benadering — automatische metrics (zoals BLEU, BERTScore) én subjectieve evaluatie via menselijke review of eventueel een tweede LLM. Deze aanpak sluit aan bij Souza’s pleidooi voor multi-modal assessment.
3. Ethiek & Bias
Koppeling met Taming LLMs: Safety concerns, representatieproblemen in trainingsdata
Souza onderstreept hoe LLM’s maatschappelijke bias kunnen overnemen of versterken, vooral bij onvoldoende fine-tuning of safety alignment. Ons canvas benadrukt het gebruik van content safety tooling (zoals Azure AI Safety) en fairness-metrics om dit systematisch te meten. Tevens raden we aan om hier subjectieve evaluatie voor toe te passen, met voldoende diversiteit in de beoordelaars.
4. Use Case Representatie
Koppeling met Taming LLMs: Distribution gaps & hallucination under context shifts
In het boek wordt duidelijk hoe LLM’s kunnen falen bij edge cases of wanneer context onverwacht verandert. Wij adviseren daarom high-fidelity scenario’s en realistische user intents te gebruiken in testcases — inclusief prompt injection en RAG-vervorming.
5. Regressie & Versiebeheer
Koppeling met Taming LLMs: Model drift & non-reproducibility
Souza maakt duidelijk dat LLM’s moeilijk reproduceerbaar zijn, zeker als modellen of APIs in de achtergrond worden bijgewerkt. Daarom bevat ons canvas expliciete aanbevelingen voor logging, version control en periodieke regressietests met vaste promptsets.
6. Evaluatiemethoden
Koppeling met Taming LLMs: Human-in-the-loop & hybride evaluatiestructuren
Het boek sluit af met het belang van menselijke feedbackloops. Ons canvas sluit hierop aan door aan te sturen op een gelaagde evaluatie — automatische scores, LLM-verificatie én menselijke validatie. Alleen zo vermijd je hallucinaties en overmatige afhankelijkheid van het optimaliseren van metrics.
Waarom deze vertaalslag ertoe doet
Waar Taming LLMs de denkrichting en de risicoanalyse biedt, is het LLM Quality Canvas bedoeld voor de praktijkvloer. Van testmanager tot AI-productowner: deze zes pijlers helpen je om structuur aan te brengen in een domein dat zich vaak chaotisch lijkt te gedragen.
De Praktijk: Van Canvas naar Code
Het LLM Quality Canvas is een praktische leidraad die teams helpt bij het opzetten van effectieve teststrategieën voor AI-applicaties. Door elk van deze zes pijlers systematisch aan te pakken, ga je bewuster om met de inherente nadelen en risico’s van LLM’s, en bouw je betrouwbaardere AI-systemen.
🗣 LLM Quality Canvas
De wereld van AI beweegt sneller dan onze testmethoden. Maar we hoeven niet achter de feiten aan te lopen. Met het LLM Quality Canvas zetten we de eerste stap naar voorspelbare, betrouwbare AI in de praktijk.
In de volgende blog gaan we het hebben over: Promptrobuustheid. Spoiler alert: het gaat niet alleen om betere prompts schrijven.
➡️ Volg onze serie. Denk vooruit. Test anders.