AI in audit klinkt als een no-brainer. Auditors werken met grote datasets, zoeken naar afwijkingen, en moeten hun bevindingen onderbouwen. AI is daar bij uitstek geschikt voor — in theorie. In de praktijk zien we vier patronen die de waarde van AI in audit-teams systematisch ondermijnen. Geen ervan is fataal, alle vier zijn voorkombaar.
Valkuil 01 — AI op vuile data
Een classifier die transacties categoriseert op basis van een rekeningschema dat per entiteit verschilt, leert vooral entity-specifieke ruis. Een anomaly-detection model getraind op een periode met handmatige journalcorrecties, leert die correcties als "normaal". Het oude principe blijft: garbage in, garbage out.
De praktische test: kun je beschrijven welke datakwaliteit het model nodig heeft? Welke velden moeten gevuld zijn? Welke historische periode is representatief en welke niet? Als die vragen niet duidelijk te beantwoorden zijn, is het te vroeg voor AI.
Een goed AI-model op slechte data produceert overtuigend ogende rotzooi. Dat is gevaarlijker dan helemaal geen AI.
Valkuil 02 — Black-box modellen zonder auditor-oordeel
Auditors moeten hun bevindingen kunnen uitleggen — aan de cliënt, aan de AFM, en in extremis aan een rechter. Een model dat een transactie als "afwijkend" classificeert zonder uit te leggen waarom, is daarmee niet in een audit-context bruikbaar.
Dat sluit deep learning niet uit, maar vraagt wel om explainability-tooling. SHAP-waarden, feature importance, of in het geval van LLM's: een gestructureerd antwoord met geciteerde bronposten. De auditor moet altijd kunnen zeggen: "het model flaggde deze post omdat..." — en dat antwoord moet professioneel houdbaar zijn.
Valkuil 03 — Geen audit-trail van het AI-gebruik
Welke versie van het model heeft welke transactie gescoord? Wanneer is het model voor het laatst getraind? Welke trainingsdata is gebruikt? Wie heeft het deployed? Vragen die voor traditionele audit-tooling vanzelfsprekend zijn, worden bij AI vaak overgeslagen.
We adviseren een eenvoudig model-register: per AI-component een fiche met versie, trainingsdatum, eigenaar, gebruiksdoel, en bekende beperkingen. Een paar regels per model. Ontbreekt dit, dan kan in een review niet gereconstrueerd worden waarom bepaalde keuzes zijn gemaakt.
Valkuil 04 — Geen menselijke review op AI-flags
Een model dat 200 transacties als "verdacht" flaggt, levert geen werkbesparing op als alle 200 alsnog handmatig geanalyseerd worden. Erger: het levert geen besparing en het systeem voelt als extra werk, waarna het team het negeert.
De oplossing zit in confidence scoring en in priorisering: het model geeft een zekerheidsindicator, en alleen items boven een drempel gaan naar menselijke review. Items met lage zekerheid worden niet blind gepubliceerd — ze gaan terug naar de batch voor het volgende cycle, eventueel met aanvullende features. Het idee is niet dat de mens vervangen wordt; het idee is dat de mens zijn aandacht richt op de gevallen waar zijn oordeel het verschil maakt.
Wat wel werkt
AI in audit slaagt waar drie dingen samenkomen: schone, gestandaardiseerde data; transparante modellen met uitlegbaarheid; en een auditor in de lead die het model als gereedschap gebruikt in plaats van als orakel.
Bij audit-teams die we begeleid hebben, zien we typisch 30-40% tijdwinst op routine-controles binnen het eerste jaar — niet door automatisering, maar door betere prioritering. Het auditoordeel blijft menselijk, het zoekwerk wordt slimmer.
HAAI