Research Article
Print
Research Article
Efficiëntere detailcontroles dankzij synergie van statistische en digitale technieken: profiteren van integraal beschikbare gegevens
expand article infoKoen Derks
‡ Nyenrode Business Universiteit, Breukelen, Netherlands
Open Access

Samenvatting

Detailcontroles via steekproeven zijn een veelgebruikt instrument om voldoende en geschikte controle-informatie te verzamelen. Het op een statistische manier meenemen van integraal beschikbare gegevens over de populatie in de steekproefevaluatie leidt tot een efficiëntere controle en beter geïnformeerde beslissingen. Ondanks de praktische voordelen wordt deze aanpak echter nog weinig toegepast. De methode is voor velen nog onbekend, waardoor deze nog niet goed heeft kunnen inburgeren in de auditpraktijk. Dat is deels toe te schrijven aan technische complexiteit en aan gebrek aan uitleg. Dit artikel overbrugt de kloof tussen theorie en praktijk en demonstreert drie voordelen van het meenemen van integraal beschikbare gegevens, die steeds makkelijker verkrijgbaar zijn, in de steekproefevaluatie.

Trefwoorden

Bayesiaanse statistiek, detailcontroles, data-analyse, efficiëntie, steekproef

Relevantie voor de praktijk

Auditors kunnen tegenwoordig relatief eenvoudig allerlei integraal beschikbare gegevens over een te controleren populatie digitaal verkrijgen. Het statistisch meenemen van deze gegevens in de steekproefevaluatie zorgt voor een efficiëntere controle en beter geïnformeerde beslissingen. Dit artikel bespreekt de praktische voordelen hiervan en biedt handvatten om deze techniek toe te passen.

1. Inleiding

We leven in een tijdperk waarin data centraal staan, gemakkelijk toegankelijk en goedkoop zijn. Auditors profiteren hiervan door technologische ontwikkelingen als process- en data-mining (Van der Aalst and Koopman 2015) en het Internet of Things (Al-Zamil et al. 2024), waarmee zij digitaal toegang hebben tot allerlei gegevens van de auditee die voorheen niet beschikbaar waren. De beschikbaarheid van deze gegevens brengt de verwachting met zich mee dat dit de kennis van auditors over de auditee zal vergroten en hun vermogen om voldoende en geschikte controle-informatie te verzamelen zal verbeteren (Yoon et al. 2015). Dit blijkt uit de wens van auditonderzoekers (zie onder anderen Brown-Liburd and Vasarhelyi (2015); Cao et al. (2015)), auditkantoren (onder andere Deloitte (2021)) en toezichthouders (bijvoorbeeld PCAOB (2017); NBA (2019)) om data te gebruiken voor het sturen van controlewerkzaamheden. Auditors zijn daarom volop bezig met het innoveren van hun controlemethodologie (Van Buuren and Wijma 2022), bijvoorbeeld door meer data-analyse te gebruiken (Gold and Majoor 2022). Echter, methoden voor de analyse van (big) data worden maar langzaam overgenomen in de auditpraktijk (Gepp et al. 2018), en sommige activiteiten in het auditproces blijven achter qua innovatie. Vooral detailcontroles via steekproeven worden vaak nog steeds op traditionele wijze uitgevoerd, zonder te profiteren van de grote hoeveelheid digitaal beschikbare gegevens. Dat is zonde, want het meenemen van deze gegevens in de steekproefevaluatie zorgt voor een efficiëntere controle en beter geïnformeerde beslissingen. Dit artikel bespreekt de praktische voordelen van deze aanpak en laat met drie praktijkvoorbeelden zien hoe auditors dit kunnen toepassen in hun werkzaamheden.

Detailcontroles via steekproeven blijven een veelgebruikt instrument in audits om voldoende en geschikte controle-informatie te verzamelen. Dankzij vooruitgang op het gebied van data-analyse kunnen auditors sommige populaties volledig inspecteren (Appelbaum et al. 2017; Huang et al. 2022). Echter, als de populatie en de norm om de te controleren gegevens mee te vergelijken niet eenvoudig digitaal beschikbaar zijn, zijn detailcontroles via steekproeven de primaire methode om een redelijke mate van zekerheid te verkrijgen over een populatie, hoewel er ook andere methoden hiervoor beschikbaar zijn. Voor dergelijke populaties, die veel controle-inspanning vergen, zal het gebruik van data-analyse niet volledig detailcontroles via steekproeven kunnen vervangen, maar zal het deze juist aanvullen (Cockcroft and Russell 2018; Yoon and Pearce 2021). Zo kan data-analyse in de fase vóór de uitvoering van de statistische steekproef een belangrijke rol spelen. Door bijvoorbeeld risicovolle deelpopulaties via data-analyse te identificeren, kan de auditor de steekproef gerichter uitvoeren (De Swart et al. 2013). Daarnaast kan voorafgaand aan de steekproef met data-analyse al zekerheid kan worden gekwantificeerd, waardoor de benodigde steekproefomvang kan worden verkleind (Derks et al. 2024). Omdat detailcontroles via steekproeven echter nog vaak nodig zullen zijn om de resterende zekerheid te verkrijgen, is het belangrijk om methoden te blijven ontwikkelen die deze procedures efficiënter en informatiever maken.

Het benutten van integraal beschikbare gegevens in detailcontroles via steekproeven maakt ze efficiënter en leidt tot beter geïnformeerde beslissingen. Met integraal beschikbare gegevens worden kenmerken bedoeld die voor alle elementen in een populatie (posten, facturen, etc.) beschikbaar zijn, vaak in digitale vorm. Zo kan een auditor bijvoorbeeld relatief eenvoudig voor elke factuur in een te controleren populatie de doorlooptijd achterhalen. Wanneer dergelijke gegevens informatie bevatten die samenhangt met het optreden van fouten, is het waardevol om ze mee te nemen in de steekproefevaluatie en ervan te leren. Een aantrekkelijke manier om dit te doen is door de gegevens op te nemen in een statistisch model. Deze aanpak biedt drie praktische voordelen:

  1. De fout(fractie) kan nauwkeuriger worden ingeschat, omdat er meer informatie wordt meegenomen. Het is met name interessant dat dit kan resulteren in een lagere meest waarschijnlijke en maximale fout, waardoor auditors populaties zonder materiële afwijkingen sneller en op statistisch verantwoorde wijze kunnen goedkeuren, zonder de steekproef achteraf te hoeven uitbreiden bij het aantreffen van fouten.
  2. Auditors kunnen transparant maken wat fouten in de populatie kenmerkt, doordat ze de impact van de gegevens statistisch kunnen onderbouwen. Hierdoor kunnen problemen op een hoger organisatieniveau worden geïdentificeerd (De Swart et al. 2013), wat het management inzicht geeft in mogelijke verbeteringen van de organisatie.
  3. Auditors kunnen effectiever ongeziene fouten opsporen. Als er integraal beschikbare gegevens worden meegenomen in de steekproefevaluatie, kunnen er fijnmazige schattingen worden gemaakt voor de populatie. Hierdoor kunnen eventuele vervolgactiviteiten worden gericht op posten met de grootste kans op fouten. Alles bijeengenomen helpt deze aanpak auditors te voldoen aan de maatschappelijke verwachtingen over het gebruik van data om hun controlewerkzaamheden te sturen.

Ondanks de hiervoor genoemde voordelen is het nog niet gebruikelijk om integraal beschikbare gegevens mee te nemen in de steekproefevaluatie. Hoewel dit al wel gebeurt in andere disciplines (zie onder anderen Kennedy and Gelman (2021)) en in cijferanalyses (zie onder anderen Stringer and Stewart (1986)), is de techniek om dit te doen bij detailcontroles nog onbekend, waardoor deze nog niet goed heeft kunnen inburgeren in de auditpraktijk. Dit komt deels door de technische complexiteit en het gebrek aan uitleg over het gebruik ervan. Bovendien gebruiken auditors vaak Excel-spreadsheets en statistische auditsoftware zoals ACL (Diligent 2022) en IDEA (CaseWare Analytics 2022), die eenvoudige statistische modellen hanteren en geen gebruik maken van andere gegevens dan die uit de steekproef. Dit artikel overbrugt de kloof tussen theorie en praktijk door praktische handvatten te bieden voor het meenemen van integraal beschikbare gegevens in de evaluatie van auditsteekproeven. Daarmee maakt het deze state-of-the-art techniek toegankelijk voor alle auditors.

De opbouw van dit artikel is als volgt. In hoofdstuk 2 worden de voordelen besproken van het meenemen van integraal beschikbare gegevens in de evaluatie van auditsteekproeven. In hoofdstuk 3 worden twee praktijkvoorbeelden behandeld, waarmee wordt aangetoond dat het gebruik van dit soort gegevens in deze fase van de audit zowel realistisch als praktisch haalbaar is. In het laatste hoofdstuk worden de conclusies en aanbevelingen voor de praktijk gepresenteerd.

2. Profiteren van integraal beschikbare gegevens in de steekproefevaluatie

Dit hoofdstuk bespreekt hoe auditors kunnen profiteren van integraal beschikbare gegevens bij de steekproefevaluatie. Als illustratie wordt een voorbeeld besproken van een interne auditor die reiskostendeclaraties controleert. Aan de hand van dit voorbeeld wordt eerst de traditionele statistische steekproefmethodiek uitgelegd. Vervolgens wordt gedemonstreerd hoe auditors in dezelfde casus integraal beschikbare gegevens kunnen meenemen in de steekproefevaluatie. Tot slot worden de drie praktische voordelen van deze vernieuwende aanpak belicht. Hoewel in dit hoofdstuk een voorbeeld van een interne auditor wordt gebruikt, is het meenemen van integraal beschikbare gegevens in de steekproefevaluatie ook nuttig voor externe auditors, hetgeen in het volgende hoofdstuk wordt toegelicht.

2.1. Voorbeeld 1: Controle van reiskostendeclaraties door een interne auditor

Om de theorie achter het profiteren van integraal beschikbare gegevens bij de steekproefevaluatie te verduidelijken, wordt het volgende voorbeeld gebruikt. Een interne auditor controleert een populatie, bestaande uit duizend reiskostendeclaraties van werknemers. Volgens het beleid mogen reiskosten alleen worden gedeclareerd als de reisafstand meer dan 70 kilometer bedraagt en de declaratie goedgekeurd is door de leidinggevende met een handtekening. De auditor wil vaststellen welk percentage van de declaraties ongeldig is, bijvoorbeeld omdat deze geen geldige handtekening hebben. Hiervoor wordt een statistische steekproef van honderd declaraties getrokken, waarin de auditor drie ongeldige declaraties ontdekt.

Naast de steekproefgegevens beschikt de auditor voor alle duizend declaraties over het aantal gedeclareerde kilometers (reisafstand) en het aantal minuten tussen het indienen van de declaratie door de werknemer en het goedkeuren van de declaratie door de leidinggevende (verwerkingstijd). Figuur 1 toont deze gegevens voor de gehele populatie. De honderd declaraties in de steekproef zijn gekleurd weergegeven, waarbij geldige declaraties groen zijn en ongeldige declaraties rood. Figuur 1 laat zien dat de drie fouten in de steekproef (de ongeldige declaraties) worden gekenmerkt door een relatief grote reisafstand en een relatief korte verwerkingstijd. Daarnaast zijn in deze figuur vijf declaraties gemarkeerd die niet in de steekproef vallen; deze worden later in dit hoofdstuk verder toegelicht.

Figuur 1.

Spreidingsdiagram van de reisafstand (in kilometers) en de verwerkingstijd (in minuten) voor de declaraties in de populatie (N = 1.000) van Voorbeeld 1. De waargenomen declaraties (n = 100) zijn weergegeven in groen (geldig) of rood (ongeldig), terwijl de ongeziene declaraties (n = 900) in grijs zijn weergegeven. De vijf gemarkeerde ongeziene declaraties komen overeen met de declaraties in Tabel 1.

De auditor wil profiteren van de beschikbare gegevens over de reisafstand en verwerkingstijd bij de steekproefevaluatie. Een reden hiervoor kan bijvoorbeeld zijn om meer zekerheid te verkrijgen over het percentage ongeldige declaraties in de populatie, of om relevante inzichten op te doen over de kenmerken van ongeldige declaraties. Met andere woorden: de auditor wil deze integraal beschikbare gegevens meenemen in de statistische evaluatie van de steekproef om efficiënter te controleren of om beter geïnformeerde beslissingen te nemen.

2.2. Integraal beschikbare gegevens opnemen in een statistisch model

Om een statistische steekproef te evalueren, moet de auditor een statistisch model specificeren. Dit model definieert een functionele relatie tussen gegevens k en een parameter θ. In dit voorbeeld geven de gegevens k aan of een declaratie fout is, terwijl de parameter θ de foutfractie in de populatie weergeeft. Het voordeel van een statistisch model is dat het met een kansverdeling expliciet maakt hoe fouten in de steekproef relateren aan de foutfractie in de populatie. Hierdoor kan de onzekerheid in de schatting van de foutfractie worden gekwantificeerd en het risico worden bepaald dat de werkelijke afwijking in de populatie de toelaatbare afwijking overschrijdt (NBA 2025, Standaard 530).

Bij het specificeren van een statistisch model kan de auditor kiezen tussen Bayesiaanse en frequentistische statistiek. Bayesiaanse statistiek biedt een aantal praktische voordelen ten opzichte van frequentistische statistiek (Steele 1992; Van Batenburg et al. 1994; Stewart 2013). Zo maakt Bayesiaanse statistiek het mogelijk om verschillende vormen van voorinformatie over de foutfractie mee te nemen in de steekproefevaluatie (Derks et al. 2021, 2024) en vergemakkelijkt het de uitbreiding van auditsteekproeven (Mensink et al. 2024). Bovendien kan men met Bayesiaanse statistiek individuele probabilistische schattingen eenvoudig combineren tot een representatieve schatting voor de populatie, wat essentieel is voor het meenemen van integraal beschikbare gegevens. Dit artikel bespreekt daarom statistische modellen binnen de context van de Bayesiaanse statistiek.

Elk statistisch model is een vereenvoudiging van de werkelijkheid. Dit betekent dat de uitkomsten gebaseerd zijn op de aanname dat het model de werkelijkheid nauwkeurig weergeeft. De keuze van de auditor voor een statistisch model bepaalt daarom wat er wel of niet uit de steekproef geleerd kan worden. De volgende secties verduidelijken dit met drie verschillende modellen: het basismodel (traditionele methodiek) en twee uitbreidingen (met gebruik van integraal beschikbare gegevens) daarop.

2.2.1. Model 1: basismodel

Bij auditsteekproeven wordt de relatie tussen de gegevens k en de foutfractie θ doorgaans verondersteld een Bernoulliverdeling te zijn (Stewart 2012; AICPA 2019).1 Deze verdeling houdt rekening met de onzekerheid door het controleren van een steekproef uit een grotere populatie. Het bijbehorende model is ki ~ Bernoulli(θ), waarbij het symbool ~ betekent “is een stochastische variabele verdeeld als". Dit model verklaart de gegevens k met een enkele parameter θ, namelijk de foutfractie in de populatie.

In een Bayesiaanse aanpak specificeert de auditor een prior-verdeling die de voorkennis over de foutfractie bevat en werkt deze bij met de informatie uit de steekproef om de posterior-verdeling te verkrijgen. Voor een uitgebreide uitleg van dit leerproces wordt verwezen naar Derks et al. (2024, pp. 133–135). In dit voorbeeld gebruikt de auditor een uniforme bèta(1, 1) prior-verdeling voor θ, die verwaarloosbare voorinformatie representeert.

Na het controleren van de steekproef kan de auditor de posterior-verdeling voor θ berekenen en daarmee kansuitspraken doen over de foutfractie in de populatie. De modus van de posterior-verdeling geeft de meest waarschijnlijke foutfractie in de populatie, en het 95 procent geloofwaardigheidsinterval geeft aan tussen welke waarden de foutfractie met 95 procent waarschijnlijkheid ligt. De breedte van dit geloofwaardigheidsinterval geeft een indicatie van de onzekerheid in de schatting van de foutfractie. In dit voorbeeld is de meest waarschijnlijke foutfractie 3 procent, met een 95 procent geloofwaardigheidsinterval van 1,1 procent tot 8,4 procent. Daarnaast kan de auditor met de posterior-verdeling de foutkans voor elke ongeziene declaratie in de populatie schatten, zoals weergegeven in de vierde kolom van Tabel 1 voor de vijf ongeziene declaraties die zijn gemarkeerd in Figuur 1.

Tabel 1.

De meest waarschijnlijke geschatte foutkansen (met 95 procent geloofwaardigheidsintervallen) voor vijf ongeziene declaraties in de populatie.*

Declaratie (Fig. 1) X 1 X 2 Model 1: Basis Model 2: X1 Model 3: X1 en X2
1 135 50 0,03 [0,011; 0,084] 0,800 [0,123; 0,959] 0,085 [0,024; 0,943]
2 125 25 0,03 [0,011; 0,084] 0,227 [0,068; 0,655] 0,917 [0,221; 0,985]
3 100 50 0,03 [0,011; 0,084] 0,004 [0,001; 0,048] 0,001 [0,000; 0,030]
4 90 25 0,03 [0,011; 0,084] 0,001 [0,000; 0,025] 0,006 [0,000; 0,334]
5 80 70 0,03 [0,011; 0,084] 0,000 [0,000; 0,015] 0,000 [0,000; 0,002]
Gemiddeld (populatie) 0,03 [0,011; 0,084] 0,025 [0,010; 0,071] 0,022 [0,008; 0,066]
X 1 = Reisafstand (kilometers), X2 = Verwerkingstijd (minuten)

Volgens Tabel 1 schat de auditor voor alle vijf ongeziene declaraties een identieke foutkans van 3 procent. Dit komt doordat het basismodel ervan uitgaat dat de kans op een fout uitsluitend een functie is van de foutfractie in de populatie. Hierdoor worden alle ongeziene declaraties over één kam geschoren. Dit is niet altijd ideaal, aangezien declaraties met een bepaalde combinatie van kenmerken meer kans zouden kunnen hebben om fout te zijn. Het basismodel kan echter geen onderscheid maken tussen declaraties op basis van reisafstand en verwerkingstijd, omdat deze gegevens niet zijn opgenomen. Om dit onderscheid te kunnen maken, moet het basismodel uitgebreid worden.

2.2.2. Model 2: reisafstand

Het basismodel kan worden uitgebreid met nieuwe parameters om extra informatie mee te nemen bij het schatten van de foutfractie. Om eenvoudig te beginnen, wordt eerst een uitgebreid model besproken dat alleen de gegevens over reisafstand gebruikt.

Een handige manier om het basismodel te specificeren is door het te herformuleren als logistisch regressiemodel via de getransformeerde parameter ξ = ln ( θ 1 θ ) = logit(θ).2 Het model wordt dan ki ~ Bernoulli(logit-1(ξ)), waarbij logit-1 de inverse-logit functie is. Deze formulering is handig omdat het logistische regressiemodel eenvoudig kan worden uitgebreid met een nieuwe parameter β1, die de sterkte van de lineaire relatie tussen de predictor reisafstand en log-odds van de foutkans θ kwantificeert (Vergelijking 1).3

logit(θ) = α + β1 ∙ Reisafstand (1)

Omdat dit een Bayesiaans model is, moet er ook een prior-verdeling voor de parameter β1 worden gespecificeerd.4 Een gebruikelijke prior-verdeling hiervoor is een Cauchy-verdeling, gecentreerd op nul en met een schaalparameter van 2,5, gecombineerd met het standaardiseren van de reisafstand zodat deze een gemiddelde van nul en een standaardafwijking van 0,5 heeft (Gelman et al. 2008).5 Voorkennis over de relatie tussen reisafstand en foutkans kan worden meegenomen door de prior-verdeling voor β1 aan te passen. Het uitwerken hiervan valt echter buiten de scope van dit artikel.

Tabel 2 toont de resultaten van het logistische regressiemodel. Ten eerste laat deze tabel zien dat de verklaarde variantie van dit model (R² = 0,11) hoger is dan die van het basismodel (R² = 0).6 Het basismodel verklaart geen variantie, omdat het voor alle declaraties dezelfde schatting geeft, gelijk aan de geschatte foutfractie in de populatie. De interpretatie van de parameterschattingen in Tabel 2 is als volgt. De α-parameter, geschat op −4,225 via het model, vertegenwoordigt de log-odds van de foutkans bij een gestandaardiseerde reisafstand van nul. Hiermee kan de foutkans bij een gemiddelde reisafstand worden berekend door de inverse logistische functie e α 1 + e α te gebruiken. Dit geeft e 4 , 225 1 + e 4 , 225 = 0,0144, wat betekent dat de meest waarschijnlijke foutkans bij een reisafstand van 99,97 kilometer (het populatiegemiddelde) 1,44 procent is. Daarnaast volgt uit het model dat de relatie tussen reisafstand en foutkans positief is (aangegeven met een ‘+’ in Tabel 2), wat betekent dat grotere reisafstanden geassocieerd worden met een hogere foutkans. Om specifiek te zijn, de βI-coëfficiënt van 2,853 betekent dat bij een toename van één in de gestandaardiseerde reisafstand (21,07 kilometer op de oorspronkelijke schaal), de log-odds van de foutkans gemiddeld met 2,853 stijgen.7 Omdat log-odds echter lastig te interpreteren zijn, kan dit worden omgezet naar odds door de exponent te nemen: e2,853 = 17,34 (meest rechtse kolom in Tabel 2). Dit betekent dat bij een toename van 21,07 kilometer in reisafstand, de odds van een fout gemiddeld met een factor van 17,34 vermenigvuldigd worden. De geschatte foutkans stijgt hierdoor van 1,44 procent bij een reisafstand van 99,97 kilometer naar e 4 , 225 + 2 , 853 1 + e 4 , 225 + 2 , 853 = 0,202, oftewel 20,2 procent, bij een reisafstand van 121,04 kilometer.

Tabel 2.

Parameterschattingen voor de drie modellen in Voorbeeld 1.*

Model (R2) Parameter Effect Modus 95% Geloofwaardigheidsinterval Exp(modus)
Ondergrens Bovengrens
1 (0,00) Foutfractie (θ) 0,030 0,011 0,084
2 (0,11) Foutfractie (θ) 0,025 0,010 0,071
Intercept (α) -4,225 -7,427 -2,988 0,015
Reisafstand (β1) + 2,853 1,026 6,012 17,340
3 (0,16) Foutfractie (θ) 0,022 0,008 0,066
Intercept (α) -5,253 -8,802 -3,441 0,005
Reisafstand (β1) + 2,899 0,819 6,245 18,156
Verwerkingstijd (β2) -2,196 -5,577 -0,419 0,111

Met het logistische regressiemodel kan de auditor voor elke nog niet geobserveerde declaratie in de populatie een schatting maken van de foutkans. De vijfde kolom in Tabel 1 toont dat de geschatte foutkansen voor de vijf ongeziene declaraties, gemarkeerd in Figuur 1, met dit model variëren. Declaraties 1 en 2 hebben een relatief hoge foutkans, omdat ze een reisafstand hebben die vergelijkbaar is met die van de foute declaraties in de steekproef. Het huidige model maakt echter nog geen onderscheid tussen declaraties op basis van verwerkingstijd. Om dit te bereiken, moeten deze gegevens ook in het model worden opgenomen.

2.2.3. Model 3: verwerkingstijd en reisafstand

Om de gegevens over verwerkingstijd in het model op te nemen, kan er een derde parameter β2 worden toegevoegd aan het logistische regressiemodel (Vergelijking 2). Deze parameter kwantificeert de sterkte van de lineaire relatie tussen verwerkingstijd en log-odds van de foutkans bij gelijke reisafstand.

logit(θ) = α + β1 ∙ Reisafstand + β2 ∙ Verwerkingstijd (2)

Tabel 2 toont de parameterschattingen voor dit model. Hieruit volgt dat de relatie tussen verwerkingstijd en foutkans negatief is (aangegeven met een ‘–’ in Tabel 2). Dit betekent dat kortere verwerkingstijden geassocieerd worden met een hogere foutkans. De β2-coëfficiënt van −2,196 betekent dat bij een toename van één in de gestandaardiseerde verwerkingstijd (21,01 seconden op de oorspronkelijke schaal), de log-odds van de foutkans gemiddeld met 2,196 dalen. Met andere woorden: bij een toename van 21 seconden in verwerkingstijd worden de odds van een fout gemiddeld met een factor e−2,196 = 0,11 vermenigvuldigd. De verklaarde variantie is bij dit model toegenomen (R2 = 0,16) ten opzichte van Model 2.

De laatste kolom in Tabel 1 toont dat de geschatte foutkansen voor de vijf ongeziene declaraties met dit model verschillen ten opzichte van het vorige model. Voor declaratie 1 wordt nu een lagere foutkans geschat, terwijl voor declaratie 2 een hogere foutkans wordt geschat. Dit komt doordat declaratie 1 lijkt op de fouten in de steekproef qua reisafstand, maar niet qua verwerkingstijd, die gelijk is aan die van veel geldige declaraties. Specifiek de combinatie van grote reisafstand en korte verwerkingstijd kenmerkt de fouten in de steekproef. Dit komt overeen met de kenmerken van declaratie 2, wat resulteert in een hogere foutkans.

2.3. Drie praktische voordelen

Auditors kunnen integraal beschikbare gegevens meenemen in de steekproefevaluatie door deze op te nemen in een statistisch model. Zoals eerder vermeld, zijn de uitkomsten van een statistisch model gebaseerd op de aanname dat het model de werkelijkheid nauwkeurig weergeeft. Bovendien worden er inherent weinig fouten geconstateerd, wat de schattingen relatief onzeker maakt. Daarom is het belangrijk dat de auditor samen met een inhoudelijk expert beoordeelt of de uitkomsten van een uitgebreid model praktisch zinnig zijn, voordat deze worden gebruikt om conclusies te trekken. Deze inhoudelijk expert moet de kennis hebben om te kunnen beoordelen of de verbanden tussen bepaalde kenmerken en fouten logisch en plausibel zijn binnen de specifieke context van de organisatie. Bijvoorbeeld: als het model suggereert dat declaraties met een lange doorlooptijd meer fouten bevatten, moet de inhoudelijk expert kunnen beoordelen of dit verband logisch is, gegeven de opera­tionele processen van de organisatie en eventuele eerdere ervaringen. Deze werkwijze komt het beste tot zijn recht als leercyclus, bestaande uit 1) een steekproef trekken; 2) deze analyseren en inzichten opdoen; en 3) de inzichten voorleggen aan een inhoudelijk expert om eventuele vervolgwerkzaamheden te sturen (zie Figuur 2).

Figuur 2.

Diagram van het leerproces voor het meenemen van integraal beschikbare gegevens in de steekproefevaluatie. De auditor 1) trekt een steekproef, 2) analyseert deze en verkrijgt inzichten, en 3) legt deze inzichten voor aan een inhoudelijk expert om eventuele vervolgwerkzaamheden te sturen.

Het doorlopen van de leercyclus in Figuur 2 met een uitgebreid statistisch model biedt drie praktische voordelen:

  1. een nauwkeurigere schatting van de foutfractie, wat de efficiëntie verhoogt;
  2. statistische onderbouwing van de kenmerken van fouten, wat de transparantie bevordert; en
  3. effectievere opsporing van ongeziene fouten door fijnmazige schattingen te maken voor nog niet gecontroleerde declaraties.

2.3.1. Voordeel 1: efficiënter controleren door nauwkeurigere schattingen

Allereerst levert een uitgebreid model vaak een nauwkeurigere schatting van de foutfractie in de populatie op dan het basismodel. Ter illustratie toont de onderste rij van Tabel 1 de geschatte foutfractie in de populatie onder elk van de drie modellen in dit hoofdstuk. De breedte van het 95 procent geloofwaardigheidsinterval daalt van 7,3 procent bij het basismodel naar 6,1 procent bij het model dat alleen rekening houdt met de reisafstand, en naar 5,8 procent bij het model dat zowel de reisafstand als verwerkingstijd meeneemt. Naarmate er meer gegevens in het model worden opgenomen, wordt de schatting van de foutfractie in dit voorbeeld dus nauwkeuriger. Deze reductie in onzekerheid betekent dat de auditor met een uitgebreid model meer zekerheid uit dezelfde steekproef haalt dan met het basismodel. Omgekeerd had de auditor ook dezelfde hoeveelheid zekerheid kunnen verkrijgen met een kleinere, efficiëntere steekproef. In dat geval heeft het opnemen van de integraal beschikbare gegevens de efficiëntie van de controle verhoogd.

2.3.2. Voordeel 2: transparant maken wat fouten in de populatie kenmerkt

Een uitgebreid model maakt ook transparant wat fouten in de populatie kenmerkt. In het voorbeeld kan de auditor met de parameterschattingen in Tabel 2 bijvoorbeeld statistisch onderbouwen wat de relatie is tussen de kenmerken van een declaratie en de foutkans. Zo heeft de auditor geleerd dat ongeldige declaraties vooral gekenmerkt worden door relatief grote reisafstanden en korte verwerkingstijden. Dit zijn relevante inzichten die, na beoordeling door een inhoudelijk expert, kunnen leiden tot het identificeren van problemen op een hoger organisatieniveau (De Swart et al. 2013). Het management kan vervolgens worden geïnformeerd over mogelijke verbeteringen in het declaratieproces. Om toekomstige fouten te voorkomen, zou het management bijvoorbeeld kunnen vereisen dat declaraties met een grote reisafstand ook door de interne auditor worden goedgekeurd voordat ze worden uitbetaald.

2.3.3. Voordeel 3: effectiever ongeziene fouten opsporen

Een uitgebreid model helpt de auditor om effectiever ongeziene fouten op te sporen. Als het model volgens de inhoudelijk expert zinnige resultaten oplevert, kan voor elke nog niet gecontroleerde declaratie een schatting van de foutkans worden gemaakt op basis van de kenmerken. Hierdoor kan de auditor eventuele vervolgwerkzaamheden richten op de declaraties met de hoogste geschatte foutkans. Hoe meer gegevens er in het model worden opgenomen, hoe fijnmaziger deze schattingen zijn en hoe gerichter de auditor kan zoeken. Ter illustratie, Tabel 3 toont de drie ongeziene declaraties in de populatie met een geschatte foutkans hoger dan 1 2 onder het model wat gebruik maakt van reisafstand en verwerkingstijd.

Tabel 3.

De drie declaraties met een geschatte foutkans hoger dan 1 2 onder het model met verwerkingstijd en reisafstand in Voorbeeld 1.*

Declaratie Reisafstand Verwerkingstijd Foutkans
494 117,73 17,47 0,934 [0,147; 0,988]
102 125,00 25,00 0,917 [0,221; 0,985]
156 124,02 26,79 0,844 [0,189; 0,972]

Door de drie risicovolle declaraties te controleren, kan de auditor de kwaliteit van de audit verbeteren. Als deze declaraties geldig blijken te zijn, kan de auditor namelijk meer zekerheid over de foutfractie in de populatie verkrijgen (evenveel als het controleren van tien extra declaraties met het basismodel). Aan de andere kant, als ze ongeldig blijken te zijn, heeft de auditor deze fouten ontdekt en kunnen deze gecorrigeerd worden. Na het controleren van deze declaraties en het updaten van de modeluitkomsten, kan de auditor samen met de inhoudelijk expert beoordelen of de nieuwe inzichten, verkregen door het controleren van de risicovolle declaraties, zinnig zijn en gebruikt kunnen worden om eventuele vervolgwerkzaamheden te sturen.

Al met al biedt het meenemen van integraal beschikbare gegevens in de steekproefevaluatie duidelijke praktische voordelen wanneer deze in een statistisch model worden opgenomen. Merk op dat deze voordelen alleen gelden als er fouten worden gevonden, omdat anders geen onderscheid tussen declaraties kan worden gemaakt. Dit zijn echter juist de gevallen waarin de geschetste voordelen het meest waardevol zijn. Ten slotte is het essentieel dat het statistische model vooraf wordt gespecificeerd aan de hand van de beschikbare gegevens en niet achteraf wordt bijgesteld op basis van de resultaten, om te voorkomen dat er naar de gewenste uitkomst wordt geredeneerd.

3. Toepassing op twee casussen uit de praktijk

In dit hoofdstuk wordt de techniek uit het vorige hoofdstuk toegepast op twee praktijkvoorbeelden. Eerst wordt een casus besproken waarin een toezichthouder controleert of rekeninghouders correct zijn ingedeeld in risicocategorieën, waarbij gebruik wordt gemaakt van gegevens uit het banksysteem. Vervolgens wordt een casus behandeld van een monetaire steekproef op online verkooptransacties, waarbij een externe auditor toegang heeft tot gegevens uit het betaalsysteem. Deze voorbeelden tonen aan dat het gebruik van integraal beschikbare gegevens in de steekproeffase zowel realistisch als praktisch haalbaar is.

3.1. Voorbeeld 2: toezicht op risicobeoordeling bij een bank

In dit voorbeeld controleert een auditor bij een toezichthoudende instantie de risicoclassificatie van bankklanten. Banken kennen elke rekeninghouder een integriteits-risicoscore toe, en de toezichthouder wil nagaan of de bank geen te lage integriteits-risicoscore heeft toegekend. De bank in dit voorbeeld heeft duizend rekeninghouders waarover een uitspraak moet worden gedaan. De auditor wil met een statistische steekproef van 200 willekeurige rekeninghouders toetsen of het percentage rekeninghouders met een te laag toegekende integriteits-risicoscore (de foutfractie) onder de toelaatbare 4 procent valt. In de steekproef bevinden zich vier fouten, oftewel vier rekeninghouders met een te laag toegekende integriteits-risicoscore.

Voor iedere rekeninghouder bevat het banksysteem gegevens over leeftijd (in jaren), huidige balans (in euro’s), kredietscore, aantal binnenlandse en buitenlandse betalingen dit jaar, en de totale som van deze betalingen (in euro’s). Deze gegevens zijn weergegeven in Figuur 3, waarbij de vier rekeninghouders in de steekproef met een te laag toegekende integriteits-risicoscore rood zijn gemarkeerd. Door de grote hoeveelheid gegevens is het moeilijk om in één oogopslag te zien wat deze fouten kenmerkt. De auditor wil daarom de combinatie van kenmerken die fouten kenmerkt uit de steekproefgegevens leren door deze kenmerken in een statistisch model op te nemen.

Figuur 3.

Spreidingsdiagrammen voor de zes integraal beschikbare kenmerken (N = 1.000) in Voorbeeld 2. De gecontroleerde rekeninghouders (n = 200) zijn weergegeven in groen (correcte waarnemingen) of rood (foute waarnemingen), terwijl de ongeziene rekeninghouders (n = 800) in grijs zijn weergegeven.

Om de gegevens uit de bankdatabase in de steek­proefevaluatie te gebruiken, stelt de auditor een logistisch regressiemodel op met zes β-parameters (Vergelijking 3). Elke β-parameter kwantificeert de relatie tussen een specifiek kenmerk van de rekeninghouders en de foutkans.

logit(θ) = α + β1 ∙ Leeftijd + β2 ∙ Balans + β3 ∙ Kredietscore + β4 ∙ Binnenlandse betalingen + β5 ∙ Buitenlandse betalingen + β6 ∙ Som van betalingen (3)

Het toepassen van dit model op de gegevens in Figuur 3 geeft de parameterschattingen in Tabel 4. De eerste rij toont een geschatte foutfractie van 2 procent met een onnauwkeurigheid van 4,2 procent onder het basismodel (paragraaf 2.2.1). Door het uitgebreide model te gebruiken, heeft de auditor een nauwkeurigere schatting verkregen: 1,1 procent met een onnauwkeurigheid van 2,9 procent. Het uitgebreide model is daarmee 1,3 procentpunt nauwkeuriger, en dus efficiënter. Hierdoor kan de auditor concluderen dat de kans dat de foutfractie onder het toelaatbare percentage van 4 procent ligt ten minste 95 procent is, terwijl er met het basismodel hiervoor nog minstens 26 foutloze waarnemingen nodig zijn (de 95 procent bovengrens voor de foutfractie is in dat geval 3,99 procent).

Tabel 4.

Parameterschattingen voor de twee modellen in Voorbeeld 2.*

Model (R2) Parameter Effect Modus 95% Geloofwaardigheidsinterval
Ondergrens Bovengrens
Basis (0,00) Foutfractie (θ) 0,020 0,008 0,050
Uitgebreid (0,22) Foutfractie (θ) 0,011 0,005 0,034
Intercept (α) -7,390 -12,162 -5,155
Leeftijd (β1) + 0,118 -2,525 2,770
Kredietscore (β2) + 2,615 0,504 6,282
Binnenlandse betalingen (β3) -1,525 -7,000 1,676
Buitenlandse betalingen (β4) + 1,665 -2,911 7,018
Som van betalingen (β5) + 0,864 -2,216 5,715
Balans (β6) -0,047 -2,635 2,657

Daarnaast kan de auditor met het uitgebreide model waarschijnlijk maken wat fouten in de populatie kenmerkt. Uit Tabel 4 blijkt dat vooral de kredietscore, en in mindere mate het aantal binnen- en buitenlandse betalingen, gerelateerd is aan de kans op een te lage integriteits-risicoscore. Na bevestiging door een inhoudelijk expert dat deze uitkomsten praktisch zinvol zijn binnen de context van de organisatie, kan de auditor de bank adviseren om in eerste instantie meer aandacht te besteden aan rekeninghouders met een hoge kredietscore (kredietwaardigheid), omdat deze waarschijnlijk sneller over het hoofd worden gezien door het KYC-team.

Als laatste kan de auditor eventuele vervolgwerkzaamheden richten op de rekeninghouders met de hoogste kans op een te lage integriteits-risicoscore. Daartoe kan de auditor bijvoorbeeld de vijf rekeninghouders met de hoogste geschatte foutkans achterhalen. In overeenstemming met Tabel 4 gaat het hier om rekeninghouders met een relatief hoge kredietscore, relatief weinig binnenlandse betalingen en relatief veel buitenlandse betalingen. Door deze risicovolle rekeninghouders vervolgens te controleren, kan de auditor de kwaliteit van het toezicht verder verbeteren. Bevatten deze waarnemingen geen fouten, dan neemt de kans dat het percentage rekeninghouders met een te lage integriteits-risicoscore toelaatbaar is namelijk verder toe. Zo niet, dan heeft de auditor belangrijke fouten ontdekt.

3.2. Voorbeeld 3: juistheidscontrole van online verkooptransacties bij een webshop

In dit laatste voorbeeld voert een externe auditor van een Big 4-firma de jaarrekeningcontrole uit van een webshop. Als onderdeel van de audit moet de juistheid van online verkooptransacties gecontroleerd worden. Het businessmodel van de webshop voorziet erin dat klanten online bestellingen kunnen plaatsen en deze ofwel in het magazijn kunnen ophalen, of thuis laten bezorgen. Gedurende het jaar hebben er duizend verkooptransacties plaatsgevonden met een totale waarde van € 154.910,50. De uitvoeringsmaterialiteit voor de populatie verkooptransacties is € 6.000. De auditor wil met een monetaire steekproef van 150 geldeenheden toetsen of het foutbedrag in de populatie lager is dan de uitvoeringsmaterialiteit. De steekproef bestaat uit 150 transacties, waarvan er drie een (gedeeltelijke) fout bevatten.

De auditor heeft toegang tot de betaalsystemen van de webshop, en daarmee tot de verwerkingstijd van elke verkooptransactie (in seconden), de afstand tussen het IP-adres van de koper en de webshop (in kilometer), en het verschil met de vorige betaling van dezelfde koper (in euro’s). Figuur 4 vergelijkt deze kenmerken. Hierin valt op dat veel transacties een korte afstand tussen IP-adressen hebben. Dit komt doordat mensen die dichtbij wonen vaak online bestellen en vervolgens bij het magazijn langskomen. Figuur 4 laat daarnaast zien dat de drie foute verkooptransacties op het eerste gezicht worden gekenmerkt door een relatief groot verschil met de vorige betaling van dezelfde koper.

Figuur 4.

Spreidingsdiagrammen voor de drie integraal beschikbare kenmerken (N = 1.000) in Voorbeeld 3. De gecontroleerde transacties (n = 150) zijn weergegeven in groen (correcte waarnemingen) of rood (foute waarnemingen), terwijl de ongeziene transacties (n = 750) in grijs zijn weergegeven.

Om de foutfractie in de populatie te schatten, gebruikt de auditor een recent ontwikkeld statistisch model voor monetaire steekproeven: het hurdle model (Derks et al. 2025). Dit model kent een kans p0 op een correcte verkooptransactie, een kans p1 op een volledig foute verkooptransactie, en een kans p(0,1) op een gedeeltelijk foute verkooptransactie. Bij een gedeeltelijk foute verkooptransactie wordt de proportionele fout (de taint) hierin gemodelleerd met een bèta(ϕν, (1 − ϕ) ν)-verdeling, waarbij ϕ de gemiddelde taint is en ν een concentratieparameter.

De parameters p0, p1 en p(0,1) kunnen worden herschreven met twee nieuwe parameters: p0 = 1 – p(0,1], p1 = p(0,1]p1|(0,1] en p(0,1) = p(0,1] ∙ (1 − p1|(0,1]). Hierin is p(0,1] de kans op een fout en p1|(0,1] de kans op een hele fout ten opzichte van een gedeeltelijke fout. De parameters p(0,1] en p1|(0,1] kunnen vervolgens, net als ϕ, gemodelleerd worden met een logistische regressievergelijking als functie van de verwerkingstijd, de afstand tussen IP-adressen en het verschil tussen betalingen (zie Vergelijking 4, waarbij γ elk van deze drie parameters representeert).

logit(γ) = αγ + β1,γ ∙ Verwerkingstijd + β2,γ ∙ Afstand + β3,γ ∙ Verschil (4)

Het toepassen van dit model op de gegevens in Figuur 4 resulteert in de parameterschattingen in Tabel 5. De bovenste rij toont de schatting van de foutfractie (het foutbedrag ten opzichte van de totale waarde) met de gangbare Stringer bound (Stringer 1963), die een onnauwkeurigheid en bovengrens van 4,5 procent heeft. Het uitgebreide hurdle model heeft daarentegen een onnauwkeurigheid van 3,1 procent en is daarmee 1,4 procentpunt nauwkeuriger. Bovendien kan de auditor met het uitgebreide model, waarin de maximale fout gelijk is aan € 5.500 (ongeveer 3,5 procent), concluderen dat de kans dat het foutbedrag lager is dan de uitvoeringsmaterialiteit van € 6.000 ten minste 95 procent is. Met de Stringer bound zou de auditor hiervoor nog minstens 26 foutloze verkooptransacties moeten zien (de 95 procent betrouwbare bovengrens voor het foutbedrag is in dat geval € 5.978).

Tabel 5.

Parameterschattingen voor het uitgebreide model in Voorbeeld 3.*

Model (R2) Parameter Effect Modus 95% Geloofwaardigheidsinterval
Ondergrens Bovengrens
Stringer (0,00) Foutfractie (θ) 0,016 0,045
Uitgebreid (0,51) Foutfractie (θ) 0,011 0,004 0,035
Intercept kans op fout ( α p ( 0 , 1 ] ) -5,239 -8,784 -3,633
Verwerkingstijd ( β 1 , p ( 0 , 1 ] ) + 0,066 -1,931 2,538
Afstand ( β 2 , p ( 0 , 1 ] ) + 0,626 -0,869 2,388
Verschil vorige betaling ( β 3 , p ( 0 , 1 ] ) + 2,379 0,418 5,897
Intercept kans op hele fout t.o.v. gedeeltelijke fout ( α p 1 ? ( 0 , 1 ] ) 0,632 -2,499 4,296
Verwerkingstijd ( β 1 , p 1 ? ( 0 , 1 ] ) -0,445 -7,989 3,373
Afstand ( β 2 , p 1 ? ( 0 , 1 ] ) -0,198 -8,082 3,984
Verschil vorige betaling ( β 3 , p 1 ? ( 0 , 1 ] ) -0,771 -6,529 4,007
Intercept gemiddelde taint ( α ? ) 0,106 -3,150 3,474
Verwerkingstijd ( β 1 , ? ) -0,088 -1,277 1,164
Afstand ( β 2 , ? ) + 0,313 -4,363 5,605
Verschil vorige betaling ( β 3 , ? ) + 0,471 -4,666 4,866

De parameterschattingen bieden de auditor ook relevante inzichten. Uit Tabel 5 blijkt dat vooral het verschil met de vorige betaling een sterk positieve relatie heeft met de kans op een fout. Dit suggereert dat fouten in verkooptransacties waarschijnlijk gepaard gaan met een groot verschil ten opzichte van de vorige betaling door dezelfde koper. Na een positief oordeel van de inhoudelijk expert over de zinnigheid van deze bevinding, kan de auditor de webshop bijvoorbeeld adviseren om een controlemechanisme in te bouwen waarbij deze transacties extra worden gecontroleerd.

Op basis van de uitkomsten van het model kan de auditor eventuele vervolgwerkzaamheden richten op de verkooptransacties met de hoogste geschatte foutfractie. In overeenstemming met Tabel 5 zijn dit transacties met een relatief groot verschil met de vorige betaling. Door deze meest risicovolle transacties te controleren, kan de auditor de grootste winst in zekerheid behalen.

4. Conclusie en aanbevelingen

Dit artikel toont aan dat statistische modellen kunnen worden gebruikt om integraal beschikbare gegevens te gebruiken in de steekproefevaluatie, wat drie praktische voordelen biedt voor auditors. Ten eerste kunnen auditors hierdoor nauwkeuriger de fout(fractie) in de populatie schatten, wat zorgt voor een efficiëntere controle. Ten tweede wordt het hierdoor transparant wat fouten in de populatie kenmerkt, doordat auditors de impact van deze gegevens statistisch kunnen onderbouwen. Ten derde kunnen auditors effectiever ongeziene fouten opsporen, omdat ze meer onderscheid kunnen maken tussen posten in de populatie. Belangrijk hierbij is dat de auditor zich niet volledig laat leiden door het statistische model, maar in een leerproces samen met een inhoudelijk expert beoordeelt of de uitkomsten zinnig zijn en gebruikt kunnen worden om vervolgwerkzaamheden te sturen. In het huidige tijdperk, waarin data centraal staan, gemakkelijk toegankelijk en goedkoop zijn, kan deze aanpak auditors helpen bij het voldoen aan de maatschappelijke verwachtingen met betrekking tot het gebruik van (big) data waarmee ze momenteel worden geconfronteerd. Het zelf toepassen van deze techniek in de praktijk hoeft niet moeilijk te zijn; de code en data om alle voorbeelden in dit artikel te reproduceren zijn beschikbaar in de online appendix op https://osf.io/bwrxs.8 Deze appendix bevat daarnaast gebruiksklare R scripts voor toepassingen buiten de genoemde voorbeelden.

Het is belangrijk dat de auditor de voor- en nadelen van een uitgebreid statistisch model zorgvuldig afweegt. Hoewel het gebruik van zo’n model praktische voordelen biedt, is het moeilijker om op te zetten en kan het verkrijgen van integraal beschikbare gegevens soms tijd en geld kosten. Een uitgebreid model is bijvoorbeeld al snel de moeite waard als het evalueren van een grote steekproef duur is, of als er veel gegevens gemakkelijk digitaal te verkrijgen zijn. Zelfs als het toevoegen van deze gegevens de nauwkeurigheid van de schatting van de foutfractie niet verbetert, kan het weinig kwaad om ze in het model op te nemen, omdat de output van het statistische model zal onthullen wanneer de gegevens tevergeefs zijn opgenomen. Aan de andere kant, als het verzamelen van gegevens duur is of het evalueren van een grote steekproef goedkoop is, wegen de benodigde tijd en kosten van een uitgebreid model misschien niet op tegen de voordelen. In dat geval is het pragmatischer om een grotere steekproef te evalueren met het basismodel. Echter, omdat data steeds goedkoper en toegankelijker worden, zal het gebruik van uitgebreide modellen steeds aantrekkelijker worden.

Samenvattend biedt het meenemen van integraal beschikbare gegevens in de steekproefevaluatie praktische voordelen voor auditors en helpt het hen om te voldoen aan de maatschappelijke verwachtingen over de sturende rol van data in de audit. Als deze techniek voet aan de grond krijgt in de auditpraktijk en het accountancyonderwijs, is het waarschijnlijk dat auditors er in de nabije toekomst de vruchten van zullen plukken.

Dr. K. P. Derks – Koen is universitair docent bij Nyenrode Business Universiteit en lid van de Stuurgroep Statistical Auditing van het Limperg Instituut. Daarnaast ontwikkelt hij de modules voor auditing en machine learning in JASP, een gratis en open-source statistiekprogramma.

Dankwoord

De auteur wil graag Ruud Wetzels bedanken voor de waardevolle feedback op dit artikel.

Noten

1

Het aggregeren van meerdere Bernoulli-verdeelde waarnemingen leidt tot een binomiale verdeling, een concept dat waarschijnlijk beter bekend is onder auditors (Touw and Hoogduin 2012).

2

Zie Derks et al. (2022, p. 42) voor een verdere uitleg over de logistische transformatie (de logit functie en de inverse-logit functie).

3

Zie Derks et al. (2022, pp. 42–43) voor een uitleg hoe dit werkt voor niet-numerieke (categorische) integraal beschikbare gegevens. In audittermen wordt dit stratificatie genoemd.

4

De prior-verdeling voor de α-parameter is een logistische verdeling met een gemiddelde van 0 en een schaalparameter van 1, wat overeenkomt met een uniforme prior-verdeling tussen 0 en 1 op de ongetransformeerde schaal.

5

De Cauchy prior-verdeling met schaalparameter 2,5 is een standaardkeuze die de voorinformatie bevat dat extreem grote regressiecoëfficiënten onwaarschijnlijk zijn. Na het standaardiseren van elke predictor (zoals reisafstand), zodat deze een gemiddelde van nul hebben en een standaardafwijking van 0,5, impliceert deze prior-verdeling namelijk dat het absolute verschil in log-odds kleiner is dan vijf wanneer men voor elke predictor van één standaardafwijking onder het gemiddelde naar één standaardafwijking boven het gemiddelde gaat (Gelman et al. 2008).

6

De verklaarde variantie wordt hier gemeten met een Bayesiaanse variant van R2, die een schatting geeft van de proportie van de variantie die naar verwachting in nieuwe data kan worden verklaard door de predictoren in het model (Gelman et al. 2019).

7

Het 95 procent geloofwaardigheidsinterval voor deze regressiecoëfficiënt bevat de waarde 0 niet, wat aangeeft dat de kans dat de reisafstand een positieve relatie heeft met de foutkans meer dan 95 procent bedraagt. Dit kan worden geïnterpreteerd als een ruwe indicatie van de ‘significantie’ van de regressiecoëfficiënt, binnen de Bayesiaanse context.

8

Bij het uitvoeren van de code in de online appendix kunnen minimale verschillen optreden ten opzichte van de in dit artikel gepresenteerde resultaten, doordat de berekeningen worden uitgevoerd met een stochastisch algoritme (Gelman et al. 2013, pp. 22–24).

Literatuur

  • AICPA [American Institute of Certified Public Accountants] (2019) Audit guide: Audit sampling. John Wiley & Sons.
  • Al-Zamil ZS, Appelbaum DA, Nehmer RA (2024) IoT as audit evidence: A reasonable assurance framework. Journal of Emerging Technologies in Accounting 21(2): 35–51. https://doi.org/10.2308/JETA-2023-002
  • Appelbaum D, Kogan A, Vasarhelyi MA (2017) Big data and analytics in the modern audit engagement: Research needs. Auditing: A Journal of Practice & Theory 36(4): 1–27. https://doi.org/10.2308/ajpt-51684
  • CaseWare Analytics (2022) IDEA (Version 12) [Computer software].
  • Cockcroft S, Russell M (2018) Big data opportunities for accounting and finance practice and research. Australian Accounting Review 28(3): 323–333. https://doi.org/10.1111/auar.12218
  • De Swart J, Wille J, Majoor B (2013) Het ‘push left’-principe als motor van data analytics in de accountantscontrole. Maandblad Voor Accountancy en Bedrijfseconomie 87(10): 425–433. https://doi.org/10.5117/mab.87.11905
  • Derks K, Mensink L, De Swart J, Wetzels R (2024) Toepassing van data-analyse om de steekproef te rationaliseren. Maandblad voor Accountancy en Bedrijfseconomie 98(4): 131–143. https://doi.org/10.5117/mab.98.124167
  • Derks K, De Swart J, Van Batenburg P, Wagenmakers E-J, Wetzels R (2021) Priors in a Bayesian audit: How integration of existing information into the prior distribution can improve audit transparency and efficiency. International Journal of Auditing 25(3): 621–636. https://doi.org/10.1111/ijau.12240
  • Derks K, De Swart J, Wetzels R (2022) Een Bayesiaanse blik op gestratificeerde steekproeven heeft voordelen voor de auditor. Maandblad voor Accountancy en Bedrijfseconomie 96(1/2): 37–46. https://doi.org/10.5117/mab.96.78836
  • Diligent (2022) Audit Command Language (ACL) [Computer software].
  • Gelman A, Carlin JB, Stern HS, Dunson DB, Vehtari A, Rubin DB (2013) Bayesian Data Analysis, 3rd Edition. Chapman & Hall/CRC Press, London. https://doi.org/10.1201/b16018
  • Gelman A, Jakulin A, Pittau MG, Su YS (2008) A weakly informative default prior distribution for logistic and other regression models. The Annals of Applied Statistics 2(4): 1360–1383. https://doi.org/10.1214/08-AOAS191
  • Gepp A, Linnenluecke MK, O’Neill TJ, Smith T (2018) Big data techniques in auditing research and practice: Current trends and future opportunities. Journal of Accounting Literature 40: 102–115. https://doi.org/10.1016/j.acclit.2017.05.003
  • Huang F, No WG, Vasarhelyi MA, Yan Z (2022) Audit Data Analytics, Machine Learning, and Full Population Testing. The Journal of Finance and Data Science 8: 138–144. https://doi.org/10.1016/j.jfds.2022.05.002
  • Kennedy L, Gelman A (2021) Know your population and know your model: Using model-based regression and poststratification to generalize findings beyond the observed sample. Psychological Methods 26(5): 547–558. https://doi.org/10.1037/met0000362
  • Steele A (1992) Audit Risk and Audit Evidence: The Bayesian Approach to Statistical Auditing. Academic Press, London.
  • Stewart T (2012) Technical Notes on the AICPA Audit Guide Audit Sampling. American Institute of Certified Public Accountants (AICPA), New York.
  • Stewart T (2013) A Bayesian Audit Assurance Model with Application to the Component Materiality Problem in Group audits. Ph.D. dissertation. VU University Amsterdam. Limperg Instituut, Amsterdam.
  • Stringer KW (1963) Practical aspects of statistical sampling in auditing. In: Proceedings of the Business and Economic Statistics Section. American Statistical Association, 405–411.
  • Stringer KW, Stewart TR (1986) Statistical Techniques for Analytical Review in Auditing. John Wiley & Sons.
  • Touw P, Hoogduin L (2012) Statistiek voor Audit en Controlling. A­cademic Service.
  • Van Batenburg PC, O’Hagan A, Veenstra RH (1994) Bayesian discovery sampling in financial auditing: A hierarchical prior model for substantive test sample sizes. Journal of the Royal Statistical Society: Series D (The Statistician) 43: 99–110. https://doi.org/10.2307/2348936
  • Van Buuren J, Wijma W (2022) Over kwaliteitsborging van datagedreven controlemethodologie. Maandblad voor Accountancy en Bedrijfseconomie 96(1/2): 15–25. https://doi.org/10.5117/mab.96.78556
  • Van der Aalst W, Koopman A (2015) Process mining: Data analytics voor de accountant die wil weten hoe het nu echt zit. Maandblad Voor Accountancy en Bedrijfseconomie 89(10): 359–368. https://doi.org/10.5117/mab.89.31176
  • Yoon K, Pearce T (2021) Can Substantive Analytical Procedures with Data and Data Analytics Replace Sampling as Tests of Details? Journal of Emerging Technologies in Accounting 18(2): 185–199. https://doi.org/10.2308/JETA-19-03-23-10
login to comment