Research Article |
|
Corresponding author: Koen Derks ( k.derks@nyenrode.nl ) Academic editor: Oscar van Leeuwen
© 2025 Koen Derks.
This is an open access article distributed under the terms of the Creative Commons Attribution License (CC BY-NC-ND 4.0), which permits to copy and distribute the article for non-commercial purposes, provided that the article is not altered or modified and the original author and source are credited.
Citation:
Derks K (2025) Efficiëntere detailcontroles dankzij synergie van statistische en digitale technieken: profiteren van integraal beschikbare gegevens. Maandblad voor Accountancy en Bedrijfseconomie 99(6): 365-377. https://doi.org/10.5117/mab.99.151907
|
Detailcontroles via steekproeven zijn een veelgebruikt instrument om voldoende en geschikte controle-informatie te verzamelen. Het op een statistische manier meenemen van integraal beschikbare gegevens over de populatie in de steekproefevaluatie leidt tot een efficiëntere controle en beter geïnformeerde beslissingen. Ondanks de praktische voordelen wordt deze aanpak echter nog weinig toegepast. De methode is voor velen nog onbekend, waardoor deze nog niet goed heeft kunnen inburgeren in de auditpraktijk. Dat is deels toe te schrijven aan technische complexiteit en aan gebrek aan uitleg. Dit artikel overbrugt de kloof tussen theorie en praktijk en demonstreert drie voordelen van het meenemen van integraal beschikbare gegevens, die steeds makkelijker verkrijgbaar zijn, in de steekproefevaluatie.
Bayesiaanse statistiek, detailcontroles, data-analyse, efficiëntie, steekproef
Auditors kunnen tegenwoordig relatief eenvoudig allerlei integraal beschikbare gegevens over een te controleren populatie digitaal verkrijgen. Het statistisch meenemen van deze gegevens in de steekproefevaluatie zorgt voor een efficiëntere controle en beter geïnformeerde beslissingen. Dit artikel bespreekt de praktische voordelen hiervan en biedt handvatten om deze techniek toe te passen.
We leven in een tijdperk waarin data centraal staan, gemakkelijk toegankelijk en goedkoop zijn. Auditors profiteren hiervan door technologische ontwikkelingen als process- en data-mining (
Detailcontroles via steekproeven blijven een veelgebruikt instrument in audits om voldoende en geschikte controle-informatie te verzamelen. Dankzij vooruitgang op het gebied van data-analyse kunnen auditors sommige populaties volledig inspecteren (
Het benutten van integraal beschikbare gegevens in detailcontroles via steekproeven maakt ze efficiënter en leidt tot beter geïnformeerde beslissingen. Met integraal beschikbare gegevens worden kenmerken bedoeld die voor alle elementen in een populatie (posten, facturen, etc.) beschikbaar zijn, vaak in digitale vorm. Zo kan een auditor bijvoorbeeld relatief eenvoudig voor elke factuur in een te controleren populatie de doorlooptijd achterhalen. Wanneer dergelijke gegevens informatie bevatten die samenhangt met het optreden van fouten, is het waardevol om ze mee te nemen in de steekproefevaluatie en ervan te leren. Een aantrekkelijke manier om dit te doen is door de gegevens op te nemen in een statistisch model. Deze aanpak biedt drie praktische voordelen:
Ondanks de hiervoor genoemde voordelen is het nog niet gebruikelijk om integraal beschikbare gegevens mee te nemen in de steekproefevaluatie. Hoewel dit al wel gebeurt in andere disciplines (zie onder anderen
De opbouw van dit artikel is als volgt. In hoofdstuk 2 worden de voordelen besproken van het meenemen van integraal beschikbare gegevens in de evaluatie van auditsteekproeven. In hoofdstuk 3 worden twee praktijkvoorbeelden behandeld, waarmee wordt aangetoond dat het gebruik van dit soort gegevens in deze fase van de audit zowel realistisch als praktisch haalbaar is. In het laatste hoofdstuk worden de conclusies en aanbevelingen voor de praktijk gepresenteerd.
Dit hoofdstuk bespreekt hoe auditors kunnen profiteren van integraal beschikbare gegevens bij de steekproefevaluatie. Als illustratie wordt een voorbeeld besproken van een interne auditor die reiskostendeclaraties controleert. Aan de hand van dit voorbeeld wordt eerst de traditionele statistische steekproefmethodiek uitgelegd. Vervolgens wordt gedemonstreerd hoe auditors in dezelfde casus integraal beschikbare gegevens kunnen meenemen in de steekproefevaluatie. Tot slot worden de drie praktische voordelen van deze vernieuwende aanpak belicht. Hoewel in dit hoofdstuk een voorbeeld van een interne auditor wordt gebruikt, is het meenemen van integraal beschikbare gegevens in de steekproefevaluatie ook nuttig voor externe auditors, hetgeen in het volgende hoofdstuk wordt toegelicht.
Om de theorie achter het profiteren van integraal beschikbare gegevens bij de steekproefevaluatie te verduidelijken, wordt het volgende voorbeeld gebruikt. Een interne auditor controleert een populatie, bestaande uit duizend reiskostendeclaraties van werknemers. Volgens het beleid mogen reiskosten alleen worden gedeclareerd als de reisafstand meer dan 70 kilometer bedraagt en de declaratie goedgekeurd is door de leidinggevende met een handtekening. De auditor wil vaststellen welk percentage van de declaraties ongeldig is, bijvoorbeeld omdat deze geen geldige handtekening hebben. Hiervoor wordt een statistische steekproef van honderd declaraties getrokken, waarin de auditor drie ongeldige declaraties ontdekt.
Naast de steekproefgegevens beschikt de auditor voor alle duizend declaraties over het aantal gedeclareerde kilometers (reisafstand) en het aantal minuten tussen het indienen van de declaratie door de werknemer en het goedkeuren van de declaratie door de leidinggevende (verwerkingstijd). Figuur
Spreidingsdiagram van de reisafstand (in kilometers) en de verwerkingstijd (in minuten) voor de declaraties in de populatie (N = 1.000) van Voorbeeld 1. De waargenomen declaraties (n = 100) zijn weergegeven in groen (geldig) of rood (ongeldig), terwijl de ongeziene declaraties (n = 900) in grijs zijn weergegeven. De vijf gemarkeerde ongeziene declaraties komen overeen met de declaraties in Tabel
De auditor wil profiteren van de beschikbare gegevens over de reisafstand en verwerkingstijd bij de steekproefevaluatie. Een reden hiervoor kan bijvoorbeeld zijn om meer zekerheid te verkrijgen over het percentage ongeldige declaraties in de populatie, of om relevante inzichten op te doen over de kenmerken van ongeldige declaraties. Met andere woorden: de auditor wil deze integraal beschikbare gegevens meenemen in de statistische evaluatie van de steekproef om efficiënter te controleren of om beter geïnformeerde beslissingen te nemen.
Om een statistische steekproef te evalueren, moet de auditor een statistisch model specificeren. Dit model definieert een functionele relatie tussen gegevens k en een parameter θ. In dit voorbeeld geven de gegevens k aan of een declaratie fout is, terwijl de parameter θ de foutfractie in de populatie weergeeft. Het voordeel van een statistisch model is dat het met een kansverdeling expliciet maakt hoe fouten in de steekproef relateren aan de foutfractie in de populatie. Hierdoor kan de onzekerheid in de schatting van de foutfractie worden gekwantificeerd en het risico worden bepaald dat de werkelijke afwijking in de populatie de toelaatbare afwijking overschrijdt (
Bij het specificeren van een statistisch model kan de auditor kiezen tussen Bayesiaanse en frequentistische statistiek. Bayesiaanse statistiek biedt een aantal praktische voordelen ten opzichte van frequentistische statistiek (
Elk statistisch model is een vereenvoudiging van de werkelijkheid. Dit betekent dat de uitkomsten gebaseerd zijn op de aanname dat het model de werkelijkheid nauwkeurig weergeeft. De keuze van de auditor voor een statistisch model bepaalt daarom wat er wel of niet uit de steekproef geleerd kan worden. De volgende secties verduidelijken dit met drie verschillende modellen: het basismodel (traditionele methodiek) en twee uitbreidingen (met gebruik van integraal beschikbare gegevens) daarop.
Bij auditsteekproeven wordt de relatie tussen de gegevens k en de foutfractie θ doorgaans verondersteld een Bernoulliverdeling te zijn (
In een Bayesiaanse aanpak specificeert de auditor een prior-verdeling die de voorkennis over de foutfractie bevat en werkt deze bij met de informatie uit de steekproef om de posterior-verdeling te verkrijgen. Voor een uitgebreide uitleg van dit leerproces wordt verwezen naar
Na het controleren van de steekproef kan de auditor de posterior-verdeling voor θ berekenen en daarmee kansuitspraken doen over de foutfractie in de populatie. De modus van de posterior-verdeling geeft de meest waarschijnlijke foutfractie in de populatie, en het 95 procent geloofwaardigheidsinterval geeft aan tussen welke waarden de foutfractie met 95 procent waarschijnlijkheid ligt. De breedte van dit geloofwaardigheidsinterval geeft een indicatie van de onzekerheid in de schatting van de foutfractie. In dit voorbeeld is de meest waarschijnlijke foutfractie 3 procent, met een 95 procent geloofwaardigheidsinterval van 1,1 procent tot 8,4 procent. Daarnaast kan de auditor met de posterior-verdeling de foutkans voor elke ongeziene declaratie in de populatie schatten, zoals weergegeven in de vierde kolom van Tabel
De meest waarschijnlijke geschatte foutkansen (met 95 procent geloofwaardigheidsintervallen) voor vijf ongeziene declaraties in de populatie.*
| Declaratie (Fig. |
X 1 | X 2 | Model 1: Basis | Model 2: X1 | Model 3: X1 en X2 |
|---|---|---|---|---|---|
| 1 | 135 | 50 | 0,03 [0,011; 0,084] | 0,800 [0,123; 0,959] | 0,085 [0,024; 0,943] |
| 2 | 125 | 25 | 0,03 [0,011; 0,084] | 0,227 [0,068; 0,655] | 0,917 [0,221; 0,985] |
| 3 | 100 | 50 | 0,03 [0,011; 0,084] | 0,004 [0,001; 0,048] | 0,001 [0,000; 0,030] |
| 4 | 90 | 25 | 0,03 [0,011; 0,084] | 0,001 [0,000; 0,025] | 0,006 [0,000; 0,334] |
| 5 | 80 | 70 | 0,03 [0,011; 0,084] | 0,000 [0,000; 0,015] | 0,000 [0,000; 0,002] |
| … | … | … | … | … | … |
| Gemiddeld (populatie) | 0,03 [0,011; 0,084] | 0,025 [0,010; 0,071] | 0,022 [0,008; 0,066] | ||
| X 1 = Reisafstand (kilometers), X2 = Verwerkingstijd (minuten) | |||||
Volgens Tabel
Het basismodel kan worden uitgebreid met nieuwe parameters om extra informatie mee te nemen bij het schatten van de foutfractie. Om eenvoudig te beginnen, wordt eerst een uitgebreid model besproken dat alleen de gegevens over reisafstand gebruikt.
Een handige manier om het basismodel te specificeren is door het te herformuleren als logistisch regressiemodel via de getransformeerde parameter ξ = = logit(θ).
logit(θ) = α + β1 ∙ Reisafstand (1)
Omdat dit een Bayesiaans model is, moet er ook een prior-verdeling voor de parameter β1 worden gespecificeerd.
Tabel
| Model (R2) | Parameter | Effect | Modus | 95% Geloofwaardigheidsinterval | Exp(modus) | |
|---|---|---|---|---|---|---|
| Ondergrens | Bovengrens | |||||
| 1 (0,00) | Foutfractie (θ) | 0,030 | 0,011 | 0,084 | ||
| 2 (0,11) | Foutfractie (θ) | 0,025 | 0,010 | 0,071 | ||
| Intercept (α) | -4,225 | -7,427 | -2,988 | 0,015 | ||
| Reisafstand (β1) | + | 2,853 | 1,026 | 6,012 | 17,340 | |
| 3 (0,16) | Foutfractie (θ) | 0,022 | 0,008 | 0,066 | ||
| Intercept (α) | -5,253 | -8,802 | -3,441 | 0,005 | ||
| Reisafstand (β1) | + | 2,899 | 0,819 | 6,245 | 18,156 | |
| Verwerkingstijd (β2) | – | -2,196 | -5,577 | -0,419 | 0,111 | |
Met het logistische regressiemodel kan de auditor voor elke nog niet geobserveerde declaratie in de populatie een schatting maken van de foutkans. De vijfde kolom in Tabel
Om de gegevens over verwerkingstijd in het model op te nemen, kan er een derde parameter β2 worden toegevoegd aan het logistische regressiemodel (Vergelijking 2). Deze parameter kwantificeert de sterkte van de lineaire relatie tussen verwerkingstijd en log-odds van de foutkans bij gelijke reisafstand.
logit(θ) = α + β1 ∙ Reisafstand + β2 ∙ Verwerkingstijd (2)
Tabel
De laatste kolom in Tabel
Auditors kunnen integraal beschikbare gegevens meenemen in de steekproefevaluatie door deze op te nemen in een statistisch model. Zoals eerder vermeld, zijn de uitkomsten van een statistisch model gebaseerd op de aanname dat het model de werkelijkheid nauwkeurig weergeeft. Bovendien worden er inherent weinig fouten geconstateerd, wat de schattingen relatief onzeker maakt. Daarom is het belangrijk dat de auditor samen met een inhoudelijk expert beoordeelt of de uitkomsten van een uitgebreid model praktisch zinnig zijn, voordat deze worden gebruikt om conclusies te trekken. Deze inhoudelijk expert moet de kennis hebben om te kunnen beoordelen of de verbanden tussen bepaalde kenmerken en fouten logisch en plausibel zijn binnen de specifieke context van de organisatie. Bijvoorbeeld: als het model suggereert dat declaraties met een lange doorlooptijd meer fouten bevatten, moet de inhoudelijk expert kunnen beoordelen of dit verband logisch is, gegeven de operationele processen van de organisatie en eventuele eerdere ervaringen. Deze werkwijze komt het beste tot zijn recht als leercyclus, bestaande uit 1) een steekproef trekken; 2) deze analyseren en inzichten opdoen; en 3) de inzichten voorleggen aan een inhoudelijk expert om eventuele vervolgwerkzaamheden te sturen (zie Figuur
Diagram van het leerproces voor het meenemen van integraal beschikbare gegevens in de steekproefevaluatie. De auditor 1) trekt een steekproef, 2) analyseert deze en verkrijgt inzichten, en 3) legt deze inzichten voor aan een inhoudelijk expert om eventuele vervolgwerkzaamheden te sturen.
Het doorlopen van de leercyclus in Figuur
Allereerst levert een uitgebreid model vaak een nauwkeurigere schatting van de foutfractie in de populatie op dan het basismodel. Ter illustratie toont de onderste rij van Tabel
Een uitgebreid model maakt ook transparant wat fouten in de populatie kenmerkt. In het voorbeeld kan de auditor met de parameterschattingen in Tabel
Een uitgebreid model helpt de auditor om effectiever ongeziene fouten op te sporen. Als het model volgens de inhoudelijk expert zinnige resultaten oplevert, kan voor elke nog niet gecontroleerde declaratie een schatting van de foutkans worden gemaakt op basis van de kenmerken. Hierdoor kan de auditor eventuele vervolgwerkzaamheden richten op de declaraties met de hoogste geschatte foutkans. Hoe meer gegevens er in het model worden opgenomen, hoe fijnmaziger deze schattingen zijn en hoe gerichter de auditor kan zoeken. Ter illustratie, Tabel
De drie declaraties met een geschatte foutkans hoger dan onder het model met verwerkingstijd en reisafstand in Voorbeeld 1.*
| Declaratie | Reisafstand | Verwerkingstijd | Foutkans |
|---|---|---|---|
| 494 | 117,73 | 17,47 | 0,934 [0,147; 0,988] |
| 102 | 125,00 | 25,00 | 0,917 [0,221; 0,985] |
| 156 | 124,02 | 26,79 | 0,844 [0,189; 0,972] |
Door de drie risicovolle declaraties te controleren, kan de auditor de kwaliteit van de audit verbeteren. Als deze declaraties geldig blijken te zijn, kan de auditor namelijk meer zekerheid over de foutfractie in de populatie verkrijgen (evenveel als het controleren van tien extra declaraties met het basismodel). Aan de andere kant, als ze ongeldig blijken te zijn, heeft de auditor deze fouten ontdekt en kunnen deze gecorrigeerd worden. Na het controleren van deze declaraties en het updaten van de modeluitkomsten, kan de auditor samen met de inhoudelijk expert beoordelen of de nieuwe inzichten, verkregen door het controleren van de risicovolle declaraties, zinnig zijn en gebruikt kunnen worden om eventuele vervolgwerkzaamheden te sturen.
Al met al biedt het meenemen van integraal beschikbare gegevens in de steekproefevaluatie duidelijke praktische voordelen wanneer deze in een statistisch model worden opgenomen. Merk op dat deze voordelen alleen gelden als er fouten worden gevonden, omdat anders geen onderscheid tussen declaraties kan worden gemaakt. Dit zijn echter juist de gevallen waarin de geschetste voordelen het meest waardevol zijn. Ten slotte is het essentieel dat het statistische model vooraf wordt gespecificeerd aan de hand van de beschikbare gegevens en niet achteraf wordt bijgesteld op basis van de resultaten, om te voorkomen dat er naar de gewenste uitkomst wordt geredeneerd.
In dit hoofdstuk wordt de techniek uit het vorige hoofdstuk toegepast op twee praktijkvoorbeelden. Eerst wordt een casus besproken waarin een toezichthouder controleert of rekeninghouders correct zijn ingedeeld in risicocategorieën, waarbij gebruik wordt gemaakt van gegevens uit het banksysteem. Vervolgens wordt een casus behandeld van een monetaire steekproef op online verkooptransacties, waarbij een externe auditor toegang heeft tot gegevens uit het betaalsysteem. Deze voorbeelden tonen aan dat het gebruik van integraal beschikbare gegevens in de steekproeffase zowel realistisch als praktisch haalbaar is.
In dit voorbeeld controleert een auditor bij een toezichthoudende instantie de risicoclassificatie van bankklanten. Banken kennen elke rekeninghouder een integriteits-risicoscore toe, en de toezichthouder wil nagaan of de bank geen te lage integriteits-risicoscore heeft toegekend. De bank in dit voorbeeld heeft duizend rekeninghouders waarover een uitspraak moet worden gedaan. De auditor wil met een statistische steekproef van 200 willekeurige rekeninghouders toetsen of het percentage rekeninghouders met een te laag toegekende integriteits-risicoscore (de foutfractie) onder de toelaatbare 4 procent valt. In de steekproef bevinden zich vier fouten, oftewel vier rekeninghouders met een te laag toegekende integriteits-risicoscore.
Voor iedere rekeninghouder bevat het banksysteem gegevens over leeftijd (in jaren), huidige balans (in euro’s), kredietscore, aantal binnenlandse en buitenlandse betalingen dit jaar, en de totale som van deze betalingen (in euro’s). Deze gegevens zijn weergegeven in Figuur
Spreidingsdiagrammen voor de zes integraal beschikbare kenmerken (N = 1.000) in Voorbeeld 2. De gecontroleerde rekeninghouders (n = 200) zijn weergegeven in groen (correcte waarnemingen) of rood (foute waarnemingen), terwijl de ongeziene rekeninghouders (n = 800) in grijs zijn weergegeven.
Om de gegevens uit de bankdatabase in de steekproefevaluatie te gebruiken, stelt de auditor een logistisch regressiemodel op met zes β-parameters (Vergelijking 3). Elke β-parameter kwantificeert de relatie tussen een specifiek kenmerk van de rekeninghouders en de foutkans.
logit(θ) = α + β1 ∙ Leeftijd + β2 ∙ Balans + β3 ∙ Kredietscore + β4 ∙ Binnenlandse betalingen + β5 ∙ Buitenlandse betalingen + β6 ∙ Som van betalingen (3)
Het toepassen van dit model op de gegevens in Figuur
| Model (R2) | Parameter | Effect | Modus | 95% Geloofwaardigheidsinterval | |
|---|---|---|---|---|---|
| Ondergrens | Bovengrens | ||||
| Basis (0,00) | Foutfractie (θ) | 0,020 | 0,008 | 0,050 | |
| Uitgebreid (0,22) | Foutfractie (θ) | 0,011 | 0,005 | 0,034 | |
| Intercept (α) | -7,390 | -12,162 | -5,155 | ||
| Leeftijd (β1) | + | 0,118 | -2,525 | 2,770 | |
| Kredietscore (β2) | + | 2,615 | 0,504 | 6,282 | |
| Binnenlandse betalingen (β3) | – | -1,525 | -7,000 | 1,676 | |
| Buitenlandse betalingen (β4) | + | 1,665 | -2,911 | 7,018 | |
| Som van betalingen (β5) | + | 0,864 | -2,216 | 5,715 | |
| Balans (β6) | – | -0,047 | -2,635 | 2,657 | |
Daarnaast kan de auditor met het uitgebreide model waarschijnlijk maken wat fouten in de populatie kenmerkt. Uit Tabel
Als laatste kan de auditor eventuele vervolgwerkzaamheden richten op de rekeninghouders met de hoogste kans op een te lage integriteits-risicoscore. Daartoe kan de auditor bijvoorbeeld de vijf rekeninghouders met de hoogste geschatte foutkans achterhalen. In overeenstemming met Tabel
In dit laatste voorbeeld voert een externe auditor van een Big 4-firma de jaarrekeningcontrole uit van een webshop. Als onderdeel van de audit moet de juistheid van online verkooptransacties gecontroleerd worden. Het businessmodel van de webshop voorziet erin dat klanten online bestellingen kunnen plaatsen en deze ofwel in het magazijn kunnen ophalen, of thuis laten bezorgen. Gedurende het jaar hebben er duizend verkooptransacties plaatsgevonden met een totale waarde van € 154.910,50. De uitvoeringsmaterialiteit voor de populatie verkooptransacties is € 6.000. De auditor wil met een monetaire steekproef van 150 geldeenheden toetsen of het foutbedrag in de populatie lager is dan de uitvoeringsmaterialiteit. De steekproef bestaat uit 150 transacties, waarvan er drie een (gedeeltelijke) fout bevatten.
De auditor heeft toegang tot de betaalsystemen van de webshop, en daarmee tot de verwerkingstijd van elke verkooptransactie (in seconden), de afstand tussen het IP-adres van de koper en de webshop (in kilometer), en het verschil met de vorige betaling van dezelfde koper (in euro’s). Figuur
Spreidingsdiagrammen voor de drie integraal beschikbare kenmerken (N = 1.000) in Voorbeeld 3. De gecontroleerde transacties (n = 150) zijn weergegeven in groen (correcte waarnemingen) of rood (foute waarnemingen), terwijl de ongeziene transacties (n = 750) in grijs zijn weergegeven.
Om de foutfractie in de populatie te schatten, gebruikt de auditor een recent ontwikkeld statistisch model voor monetaire steekproeven: het hurdle model (
De parameters p0, p1 en p(0,1) kunnen worden herschreven met twee nieuwe parameters: p0 = 1 – p(0,1], p1 = p(0,1] ∙ p1|(0,1] en p(0,1) = p(0,1] ∙ (1 − p1|(0,1]). Hierin is p(0,1] de kans op een fout en p1|(0,1] de kans op een hele fout ten opzichte van een gedeeltelijke fout. De parameters p(0,1] en p1|(0,1] kunnen vervolgens, net als ϕ, gemodelleerd worden met een logistische regressievergelijking als functie van de verwerkingstijd, de afstand tussen IP-adressen en het verschil tussen betalingen (zie Vergelijking 4, waarbij γ elk van deze drie parameters representeert).
logit(γ) = αγ + β1,γ ∙ Verwerkingstijd + β2,γ ∙ Afstand + β3,γ ∙ Verschil (4)
Het toepassen van dit model op de gegevens in Figuur
| Model (R2) | Parameter | Effect | Modus | 95% Geloofwaardigheidsinterval | |
|---|---|---|---|---|---|
| Ondergrens | Bovengrens | ||||
| Stringer (0,00) | Foutfractie (θ) | 0,016 | 0,045 | ||
| Uitgebreid (0,51) | Foutfractie (θ) | 0,011 | 0,004 | 0,035 | |
| Intercept kans op fout | -5,239 | -8,784 | -3,633 | ||
| Verwerkingstijd | + | 0,066 | -1,931 | 2,538 | |
| Afstand | + | 0,626 | -0,869 | 2,388 | |
| Verschil vorige betaling | + | 2,379 | 0,418 | 5,897 | |
| Intercept kans op hele fout t.o.v. gedeeltelijke fout | 0,632 | -2,499 | 4,296 | ||
| Verwerkingstijd | – | -0,445 | -7,989 | 3,373 | |
| Afstand | – | -0,198 | -8,082 | 3,984 | |
| Verschil vorige betaling | – | -0,771 | -6,529 | 4,007 | |
| Intercept gemiddelde taint | 0,106 | -3,150 | 3,474 | ||
| Verwerkingstijd | – | -0,088 | -1,277 | 1,164 | |
| Afstand | + | 0,313 | -4,363 | 5,605 | |
| Verschil vorige betaling | + | 0,471 | -4,666 | 4,866 | |
De parameterschattingen bieden de auditor ook relevante inzichten. Uit Tabel
Op basis van de uitkomsten van het model kan de auditor eventuele vervolgwerkzaamheden richten op de verkooptransacties met de hoogste geschatte foutfractie. In overeenstemming met Tabel
Dit artikel toont aan dat statistische modellen kunnen worden gebruikt om integraal beschikbare gegevens te gebruiken in de steekproefevaluatie, wat drie praktische voordelen biedt voor auditors. Ten eerste kunnen auditors hierdoor nauwkeuriger de fout(fractie) in de populatie schatten, wat zorgt voor een efficiëntere controle. Ten tweede wordt het hierdoor transparant wat fouten in de populatie kenmerkt, doordat auditors de impact van deze gegevens statistisch kunnen onderbouwen. Ten derde kunnen auditors effectiever ongeziene fouten opsporen, omdat ze meer onderscheid kunnen maken tussen posten in de populatie. Belangrijk hierbij is dat de auditor zich niet volledig laat leiden door het statistische model, maar in een leerproces samen met een inhoudelijk expert beoordeelt of de uitkomsten zinnig zijn en gebruikt kunnen worden om vervolgwerkzaamheden te sturen. In het huidige tijdperk, waarin data centraal staan, gemakkelijk toegankelijk en goedkoop zijn, kan deze aanpak auditors helpen bij het voldoen aan de maatschappelijke verwachtingen met betrekking tot het gebruik van (big) data waarmee ze momenteel worden geconfronteerd. Het zelf toepassen van deze techniek in de praktijk hoeft niet moeilijk te zijn; de code en data om alle voorbeelden in dit artikel te reproduceren zijn beschikbaar in de online appendix op https://osf.io/bwrxs.
Het is belangrijk dat de auditor de voor- en nadelen van een uitgebreid statistisch model zorgvuldig afweegt. Hoewel het gebruik van zo’n model praktische voordelen biedt, is het moeilijker om op te zetten en kan het verkrijgen van integraal beschikbare gegevens soms tijd en geld kosten. Een uitgebreid model is bijvoorbeeld al snel de moeite waard als het evalueren van een grote steekproef duur is, of als er veel gegevens gemakkelijk digitaal te verkrijgen zijn. Zelfs als het toevoegen van deze gegevens de nauwkeurigheid van de schatting van de foutfractie niet verbetert, kan het weinig kwaad om ze in het model op te nemen, omdat de output van het statistische model zal onthullen wanneer de gegevens tevergeefs zijn opgenomen. Aan de andere kant, als het verzamelen van gegevens duur is of het evalueren van een grote steekproef goedkoop is, wegen de benodigde tijd en kosten van een uitgebreid model misschien niet op tegen de voordelen. In dat geval is het pragmatischer om een grotere steekproef te evalueren met het basismodel. Echter, omdat data steeds goedkoper en toegankelijker worden, zal het gebruik van uitgebreide modellen steeds aantrekkelijker worden.
Samenvattend biedt het meenemen van integraal beschikbare gegevens in de steekproefevaluatie praktische voordelen voor auditors en helpt het hen om te voldoen aan de maatschappelijke verwachtingen over de sturende rol van data in de audit. Als deze techniek voet aan de grond krijgt in de auditpraktijk en het accountancyonderwijs, is het waarschijnlijk dat auditors er in de nabije toekomst de vruchten van zullen plukken.
Dr. K. P. Derks – Koen is universitair docent bij Nyenrode Business Universiteit en lid van de Stuurgroep Statistical Auditing van het Limperg Instituut. Daarnaast ontwikkelt hij de modules voor auditing en machine learning in JASP, een gratis en open-source statistiekprogramma.
De auteur wil graag Ruud Wetzels bedanken voor de waardevolle feedback op dit artikel.
Het aggregeren van meerdere Bernoulli-verdeelde waarnemingen leidt tot een binomiale verdeling, een concept dat waarschijnlijk beter bekend is onder auditors (
Zie
Zie
De prior-verdeling voor de α-parameter is een logistische verdeling met een gemiddelde van 0 en een schaalparameter van 1, wat overeenkomt met een uniforme prior-verdeling tussen 0 en 1 op de ongetransformeerde schaal.
De Cauchy prior-verdeling met schaalparameter 2,5 is een standaardkeuze die de voorinformatie bevat dat extreem grote regressiecoëfficiënten onwaarschijnlijk zijn. Na het standaardiseren van elke predictor (zoals reisafstand), zodat deze een gemiddelde van nul hebben en een standaardafwijking van 0,5, impliceert deze prior-verdeling namelijk dat het absolute verschil in log-odds kleiner is dan vijf wanneer men voor elke predictor van één standaardafwijking onder het gemiddelde naar één standaardafwijking boven het gemiddelde gaat (
De verklaarde variantie wordt hier gemeten met een Bayesiaanse variant van R2, die een schatting geeft van de proportie van de variantie die naar verwachting in nieuwe data kan worden verklaard door de predictoren in het model (
Het 95 procent geloofwaardigheidsinterval voor deze regressiecoëfficiënt bevat de waarde 0 niet, wat aangeeft dat de kans dat de reisafstand een positieve relatie heeft met de foutkans meer dan 95 procent bedraagt. Dit kan worden geïnterpreteerd als een ruwe indicatie van de ‘significantie’ van de regressiecoëfficiënt, binnen de Bayesiaanse context.
Bij het uitvoeren van de code in de online appendix kunnen minimale verschillen optreden ten opzichte van de in dit artikel gepresenteerde resultaten, doordat de berekeningen worden uitgevoerd met een stochastisch algoritme (