Welk AI-model voor welke taak?

Dezelfde aanvraag (nieuwbouw woning, Almelo) door verschillende modellen laten toetsen laat zien dat model-keuze er sterk toe doet: snelheid, diepgang, consistentie en of het model tekeningen kan zien (vision) lopen flink uiteen.

Model Via Snelheid Oordeel G / O / R Diepgang Tools Vision Geschiktheid
Llama 3.3 70B Groq ~7 s VOLDOET_MET_OPM. 5 / 2 / 1 ondiep (1 aspect) Te ondiep voor inhoudelijke Bbl-toets. Prima voor intake/RO.
GPT-OSS 120B Groq ~36 s AANVULLEN_VEREIST 3 / 1 / 5 grondig (8 aspecten) Snel én grondig; let op run-tot-run-variatie.
Gemma 4 31B OpenRouter ~460 s (zeer traag) AANVULLEN_VEREIST 4 / 0 / 2 5 aspecten, multimodaal Tekst+beeld+video én tools; kwaliteit bruikbaar, maar ~8 min op OpenRouter — te traag voor productie.
Claude Opus 4.6 Anthropic ~270–410 s AANVULLEN_VEREIST 5 / 2 / 1 volledig + vision Grondigst + ziet tekeningen; trager/duurder. Aanbevolen voor de inhoudelijke toets.

Wat valt op

  • Strengheid verschilt sterk — het aantal "rood" liep van 1 tot 5 op dezelfde documenten.
  • Run-tot-run-variatie binnen één model is reëel: gpt-oss-120b gaf op identieke documenten zowel AANVULLEN_VEREIST (3/1/5) als VOLDOET_MET_OPMERKINGEN (5/2/1).
  • Llama 3.3 70B is te ondiep voor de inhoudelijke toets (alleen tellingen, nauwelijks aspecten) — wél prima voor intake/RO.
  • Vision is nodig voor tekeningen: alleen modellen die de PDF zien herkennen de aanvulling op BA-01 (achtererf 464 m², veiligheidsglas). Tekstmodellen missen dat via OCR.

Aanbevolen inzet per taak

  • Intake / RO: snel tekstmodel (Llama 3.3 70B op Groq).
  • OCR scans: Mistral OCR (Mistral API).
  • Tekening-/aanvulling-herkenning: vision-model (Claude; Gemma 4 kan ook, maar traag op OpenRouter).
  • Inhoudelijke Bbl-toets: sterker/consistenter model (Claude Opus), of meetbare eisen deterministisch scoren om ruis te dempen.
Versievergelijking (aanvulling herkennen). De vision-vergelijking op de twee BA-01-versies vond de toevoegingen correct en framede ze als aanvulling t.o.v. de oude situatie ("ontbreekt → nieuw toegevoegd"): achtererf 464 m², balustradedetail, veiligheidsglas-notitie. Een tekstmodel mist deze visuele toevoegingen.

Opus referentie (before/after): VOOR (zonder aanvulling) 4 groen / 1 oranje / 3 rood → NA (met aanvulling) 5 / 2 / 1. De aanvulling bracht 'rood' terug van 3 naar 1; het totaaloordeel bleef AANVULLEN_VEREIST. Let op: de per-aspect koppeling van 'opgeloste punten' is beperkt doordat het model aspecttitels tussen runs anders benoemt — een reden om de meetbare eisen deterministisch te scoren.

Gemeten op de Almelo-testset (nieuwbouw woning, geschatte bouwkosten € 250.000). Cijfers zijn indicatief — LLM-uitkomsten variëren per run.