Welk AI-model voor welke taak?
Dezelfde aanvraag (nieuwbouw woning, Almelo) door verschillende modellen laten toetsen laat zien dat model-keuze er sterk toe doet: snelheid, diepgang, consistentie en of het model tekeningen kan zien (vision) lopen flink uiteen.
| Model | Via | Snelheid | Oordeel | G / O / R | Diepgang | Tools | Vision | Geschiktheid |
|---|---|---|---|---|---|---|---|---|
| Llama 3.3 70B | Groq | ~7 s | VOLDOET_MET_OPM. | 5 / 2 / 1 | ondiep (1 aspect) | ✓ | — | Te ondiep voor inhoudelijke Bbl-toets. Prima voor intake/RO. |
| GPT-OSS 120B | Groq | ~36 s | AANVULLEN_VEREIST | 3 / 1 / 5 | grondig (8 aspecten) | ✓ | — | Snel én grondig; let op run-tot-run-variatie. |
| Gemma 4 31B | OpenRouter | ~460 s (zeer traag) | AANVULLEN_VEREIST | 4 / 0 / 2 | 5 aspecten, multimodaal | ✓ | ✓ | Tekst+beeld+video én tools; kwaliteit bruikbaar, maar ~8 min op OpenRouter — te traag voor productie. |
| Claude Opus 4.6 | Anthropic | ~270–410 s | AANVULLEN_VEREIST | 5 / 2 / 1 | volledig + vision | ✓ | ✓ | Grondigst + ziet tekeningen; trager/duurder. Aanbevolen voor de inhoudelijke toets. |
Wat valt op
- Strengheid verschilt sterk — het aantal "rood" liep van 1 tot 5 op dezelfde documenten.
- Run-tot-run-variatie binnen één model is reëel: gpt-oss-120b gaf op identieke documenten zowel AANVULLEN_VEREIST (3/1/5) als VOLDOET_MET_OPMERKINGEN (5/2/1).
- Llama 3.3 70B is te ondiep voor de inhoudelijke toets (alleen tellingen, nauwelijks aspecten) — wél prima voor intake/RO.
- Vision is nodig voor tekeningen: alleen modellen die de PDF zien herkennen de aanvulling op BA-01 (achtererf 464 m², veiligheidsglas). Tekstmodellen missen dat via OCR.
Aanbevolen inzet per taak
- Intake / RO: snel tekstmodel (Llama 3.3 70B op Groq).
- OCR scans: Mistral OCR (Mistral API).
- Tekening-/aanvulling-herkenning: vision-model (Claude; Gemma 4 kan ook, maar traag op OpenRouter).
- Inhoudelijke Bbl-toets: sterker/consistenter model (Claude Opus), of meetbare eisen deterministisch scoren om ruis te dempen.
Versievergelijking (aanvulling herkennen).
De vision-vergelijking op de twee BA-01-versies vond de toevoegingen correct en framede ze als aanvulling
t.o.v. de oude situatie ("ontbreekt → nieuw toegevoegd"): achtererf 464 m², balustradedetail,
veiligheidsglas-notitie. Een tekstmodel mist deze visuele toevoegingen.
Opus referentie (before/after): VOOR (zonder aanvulling) 4 groen / 1 oranje / 3 rood → NA (met aanvulling) 5 / 2 / 1. De aanvulling bracht 'rood' terug van 3 naar 1; het totaaloordeel bleef AANVULLEN_VEREIST. Let op: de per-aspect koppeling van 'opgeloste punten' is beperkt doordat het model aspecttitels tussen runs anders benoemt — een reden om de meetbare eisen deterministisch te scoren.
Opus referentie (before/after): VOOR (zonder aanvulling) 4 groen / 1 oranje / 3 rood → NA (met aanvulling) 5 / 2 / 1. De aanvulling bracht 'rood' terug van 3 naar 1; het totaaloordeel bleef AANVULLEN_VEREIST. Let op: de per-aspect koppeling van 'opgeloste punten' is beperkt doordat het model aspecttitels tussen runs anders benoemt — een reden om de meetbare eisen deterministisch te scoren.
Gemeten op de Almelo-testset (nieuwbouw woning, geschatte bouwkosten € 250.000). Cijfers zijn indicatief — LLM-uitkomsten variëren per run.