AI in de audit: vier valkuilen die we te vaak zien

AI in audit-teams werkt — maar niet vanzelf. Vier patronen die we keer op keer zien als organisaties te snel beginnen.

AI in audit klinkt als een no-brainer. Auditors werken met grote datasets, zoeken naar afwijkingen, en moeten hun bevindingen onderbouwen. AI is daar bij uitstek geschikt voor — in theorie. In de praktijk zien we vier patronen die de waarde van AI in audit-teams systematisch ondermijnen. Geen ervan is fataal, alle vier zijn voorkombaar.

Valkuil 01 — AI op vuile data

Een classifier die transacties categoriseert op basis van een rekeningschema dat per entiteit verschilt, leert vooral entity-specifieke ruis. Een anomaly-detection model getraind op een periode met handmatige journalcorrecties, leert die correcties als "normaal". Het oude principe blijft: garbage in, garbage out.

De praktische test: kun je beschrijven welke datakwaliteit het model nodig heeft? Welke velden moeten gevuld zijn? Welke historische periode is representatief en welke niet? Als die vragen niet duidelijk te beantwoorden zijn, is het te vroeg voor AI.

Een goed AI-model op slechte data produceert overtuigend ogende rotzooi. Dat is gevaarlijker dan helemaal geen AI.

Valkuil 02 — Black-box modellen zonder auditor-oordeel

Auditors moeten hun bevindingen kunnen uitleggen — aan de cliënt, aan de AFM, en in extremis aan een rechter. Een model dat een transactie als "afwijkend" classificeert zonder uit te leggen waarom, is daarmee niet in een audit-context bruikbaar.

Dat sluit deep learning niet uit, maar vraagt wel om explainability-tooling. SHAP-waarden, feature importance, of in het geval van LLM's: een gestructureerd antwoord met geciteerde bronposten. De auditor moet altijd kunnen zeggen: "het model flaggde deze post omdat..." — en dat antwoord moet professioneel houdbaar zijn.

Valkuil 03 — Geen audit-trail van het AI-gebruik

Welke versie van het model heeft welke transactie gescoord? Wanneer is het model voor het laatst getraind? Welke trainingsdata is gebruikt? Wie heeft het deployed? Vragen die voor traditionele audit-tooling vanzelfsprekend zijn, worden bij AI vaak overgeslagen.

We adviseren een eenvoudig model-register: per AI-component een fiche met versie, trainingsdatum, eigenaar, gebruiksdoel, en bekende beperkingen. Een paar regels per model. Ontbreekt dit, dan kan in een review niet gereconstrueerd worden waarom bepaalde keuzes zijn gemaakt.

Valkuil 04 — Geen menselijke review op AI-flags

Een model dat 200 transacties als "verdacht" flaggt, levert geen werkbesparing op als alle 200 alsnog handmatig geanalyseerd worden. Erger: het levert geen besparing en het systeem voelt als extra werk, waarna het team het negeert.

De oplossing zit in confidence scoring en in priorisering: het model geeft een zekerheidsindicator, en alleen items boven een drempel gaan naar menselijke review. Items met lage zekerheid worden niet blind gepubliceerd — ze gaan terug naar de batch voor het volgende cycle, eventueel met aanvullende features. Het idee is niet dat de mens vervangen wordt; het idee is dat de mens zijn aandacht richt op de gevallen waar zijn oordeel het verschil maakt.

Wat wel werkt

AI in audit slaagt waar drie dingen samenkomen: schone, gestandaardiseerde data; transparante modellen met uitlegbaarheid; en een auditor in de lead die het model als gereedschap gebruikt in plaats van als orakel.

Bij audit-teams die we begeleid hebben, zien we typisch 30-40% tijdwinst op routine-controles binnen het eerste jaar — niet door automatisering, maar door betere prioritering. Het auditoordeel blijft menselijk, het zoekwerk wordt slimmer.

AI in audit sounds like a no-brainer. Auditors work with large datasets, look for anomalies, and need to substantiate findings. AI is perfectly suited for that — in theory. In practice, we see four patterns that systematically undermine the value of AI in audit teams. None is fatal, all four are avoidable.

Pitfall 01 — AI on dirty data

A classifier that categorises transactions based on a chart of accounts that varies per entity mostly learns entity-specific noise. An anomaly-detection model trained on a period with manual journal corrections learns those corrections as "normal". The old principle holds: garbage in, garbage out.

The practical test: can you describe what data quality the model requires? Which fields must be populated? Which historical period is representative, and which is not? If those questions can't be answered clearly, it's too early for AI.

A good AI model on bad data produces convincing-looking nonsense. That's more dangerous than no AI at all.

Pitfall 02 — Black-box models without auditor judgement

Auditors must be able to explain their findings — to the client, to the regulator, and in extreme cases to a court. A model that classifies a transaction as "anomalous" without explaining why is therefore not usable in an audit context.

That doesn't rule out deep learning, but it does require explainability tooling. SHAP values, feature importance, or in the case of LLMs: a structured answer with cited source entries. The auditor must always be able to say "the model flagged this entry because..." — and that answer must hold up professionally.

Pitfall 03 — No audit trail of AI use

Which version of the model scored which transaction? When was the model last trained? What training data was used? Who deployed it? Questions that are second nature for traditional audit tooling often get skipped with AI.

We advise a simple model register: per AI component a card with version, training date, owner, purpose, and known limitations. A few lines per model. Without it, a review can't reconstruct why certain choices were made.

Pitfall 04 — No human review on AI flags

A model that flags 200 transactions as "suspicious" delivers no time saving if all 200 still get manually analysed. Worse: it delivers no saving and the system feels like extra work, after which the team ignores it.

The solution lies in confidence scoring and prioritisation: the model provides a certainty indicator, and only items above a threshold go to human review. Low- confidence items are not blindly published — they go back into the batch for the next cycle, possibly with additional features. The idea isn't to replace the human; the idea is for the human to focus attention on cases where their judgement makes the difference.

What does work

AI in audit succeeds where three things come together: clean, standardised data; transparent models with explainability; and an auditor in the lead who uses the model as a tool rather than an oracle.

With audit teams we've worked with, we typically see 30-40% time savings on routine checks within the first year — not through automation, but through better prioritisation. The audit judgement remains human; the search becomes smarter.

← Terug naar blog — Coen Visser MBA, oprichter HAAI Data