Research Article |
Corresponding author: Koen Derks ( k.derks@nyenrode.nl ) Academic editor: Oscar van Leeuwen
© 2024 Koen Derks, Lotte Mensink, Jacques de Swart, Ruud Wetzels.
This is an open access article distributed under the terms of the Creative Commons Attribution License (CC BY-NC-ND 4.0), which permits to copy and distribute the article for non-commercial purposes, provided that the article is not altered or modified and the original author and source are credited.
Citation:
Derks K, Mensink L, de Swart J, Wetzels R (2024) Toepassing van Data-analyse om de Steekproef te Rationaliseren. Maandblad voor Accountancy en Bedrijfseconomie 98(4): 131-143. https://doi.org/10.5117/mab.98.124167
|
Data-analyse wordt steeds belangrijker in de audit. Hoewel het potentieel om de audit efficiënter te maken groot is, worstelen veel auditors met het integreren van de resultaten van deze analyses om daarmee de vervolgwerkzaamheden te verlichten. Dit artikel bespreekt de integratie van de resultaten van data-analyse in de steekproeffase middels Bayesiaanse statistiek, en beargumenteert dat dit kan leiden tot een verbetering van de efficiëntie en transparantie. Drie voorbeelden van regressie, classificatie en clustering illustreren deze aanpak. Het artikel sluit af met aanbevelingen voor de praktische toepassing van deze methodiek.
Steekproef, Bayesiaanse statistiek, data-analyse, machine learning, prior-verdeling
Data-analyse kan de audit efficiënter maken. Desondanks is het voor veel auditors een uitdaging om data-analyse te benutten voor efficiëntiewinst in de audit. In dit artikel worden aan de hand van drie voorbeelden de mogelijkheden van Bayesiaanse statistiek belicht, waarmee voortgebouwd kan worden op data-analyse om de steekproeffase te verkleinen.
Data-analyse wordt steeds vaker toegepast in de auditpraktijk (
Data-analyse kan in elke fase van de audit worden toegepast. Auditors kunnen bijvoorbeeld data-analyse gebruiken om inzicht te verkrijgen in de auditee en de controleomgeving. Een voorbeeld van een techniek die hierbij veel wordt gehanteerd, is trendanalyse. Hierbij worden data van eerdere perioden vergeleken met de huidige periode om inzicht te krijgen in seizoenspatronen, marge- en prijsontwikkelingen, nieuwe of vervallen geldstromen of pieken in omzet of kosten (
Het streven naar efficiëntiewinst is bijna altijd gericht op de steekproeffase van de audit. De gegevensgerichte controles die in deze fase worden uitgevoerd blijven namelijk een veelgebruikt onderdeel van het auditproces (
Het idee dat data-analyse op deze manier kan bijdragen aan auditcomfort en daarmee het werk in de steekproeffase kan verminderen lijkt intuïtief gezien een no-brainer. Echter, het kwantificeren van de impact van data-analyse op het werk in de steekproeffase is al lang een punt van discussie. In de praktijk worden verminderingen in de omvang van de steekproef vaak gerechtvaardigd door het gebruik van het auditrisicomodel. Dit model suggereert dat het risico op een onjuiste verklaring van de auditor het resultaat is van het inherente risico, het interne beheersingsrisico, het cijferanalyserisico, en het steekproefrisico (
Hoewel het auditrisicomodel in de praktijk veelvuldig wordt toegepast, werkt het vooral beperkend met betrekking tot de integratie van de resultaten van data-analyse in de steekproeffase. Dit komt omdat het raamwerk de auditor verplicht om de resultaten om te zetten naar de kans op een materiële fout in de populatie. Echter, de resultaten van data-analyse zijn vaak niet direct te koppelen aan de kans op een materiële fout. In het eerdergenoemde voorbeeld is het bijvoorbeeld onduidelijk hoe een afwijking van de voorspelde opbrengst gerelateerd is aan de kans op een materiële fout in de populatie huurbetalingen. Praktisch gezien leidt het gebrek aan verband tussen deze twee grootheden tot twee mogelijke vervolgstappen. Ten eerste kan het zijn dat de auditor subjectief te werk moet gaan om de link tussen de twee grootheden te leggen, wat de verantwoording van de risico-inschatting afzwakt. Ten tweede kan het ertoe leiden dat de resultaten van de data-analyse helemaal niet worden geïntegreerd, wat het reeds uitgevoerde auditwerk tenietdoet. Beide opties hebben negatieve gevolgen voor de kwaliteit of de efficiëntie van de audit.
Het is niet eenvoudig om informatie uit data-analyse die niet direct relateert aan de kans op een materiële fout in de populatie te integreren met traditionele (i.e., frequentistische) statistiek in de steekproeffase. Echter, het gebruik van Bayesiaanse statistiek biedt hiervoor een oplossing. In dit artikel laten we zien hoe de auditor middels deze vorm van statistiek kan voortbouwen op de uitkomsten van verschillende soorten data-analyse om de steekproeffase te verkleinen. Hiermee draagt het artikel bij aan de vraag naar de inzet van data-analyse om de efficiëntie van de audit te bevorderen (
Dit artikel is als volgt gestructureerd. In hoofdstuk 2 wordt de theorie achter de Bayesiaanse statistiek uitgelegd en wordt besproken hoe bestaande informatie over de foutfractie in de populatie kan worden geïntegreerd in de statistische analyse via de prior-verdeling. In hoofdstuk 3 worden drie voorbeelden besproken om een prior-verdeling te vormen op basis van verschillende soorten analyses, zoals regressie, classificatie en clusteranalyse. In dit hoofdstuk wordt tevens getoond hoe dit leidt tot een efficiëntiewinst die direct kan worden verantwoord door de resultaten van de analyse. In het laatste hoofdstuk worden de conclusies en aanbevelingen voor de praktijk gepresenteerd.
Binnen het vakgebied statistiek zijn er twee gangbare benaderingen: de frequentistische statistiek en de Bayesiaanse statistiek (
Om de Bayesiaanse manier van steekproefevaluatie nader uit te leggen, schetsen we een voorbeeld. Stel dat een auditor de taak heeft om de inkoopfacturen van een onderneming te controleren op overwaarderingen. De onderneming in kwestie heeft in enig jaar in totaal één miljoen euro aan boekingen op de betreffende grootboekrekening, waarvoor de auditor een uitvoeringsmaterialiteit van drie procent hanteert. Dat betekent dat van de één miljoen euro aan boekingen maximaal drie procent een fout mag bevatten. In plaats van alle boekingen te controleren op fouten, kan de auditor ervoor kiezen om een monetaire, statistische steekproef uit de boekingen te trekken en de daaruit verkregen informatie te extrapoleren naar de gehele populatie.
Bij het evalueren van een statistische steekproef streeft de auditor ernaar om een kansuitspraak te doen over een bepaalde eigenschap, θ, van de populatie. In dit voorbeeld vertegenwoordigt θ bijvoorbeeld de foutfractie in de geldwaarde van de boekingen op de grootboekrekening. Merk op dat θ soms de monetaire foutfractie aangeeft en soms de foutfractie in het aantal boekingen, afhankelijk van het feit of de auditor een monetaire steekproef neemt of niet. In dit artikel laten we beide de revue passeren. Omdat de auditor niet de hele populatie inspecteert, maar alleen de data, y, afkomstig van een steekproef van deze populatie, moet de informatie uit de steekproef worden geëxtrapoleerd naar de hele populatie met inachtneming van onzekerheid. Dat betekent dat de auditor een kansuitspraak moet doen over θ. De Bayesiaanse manier om deze kansuitspraak te maken, gegeven de data y, is via de posterior-verdeling p (θ | y). Deze verdeling wordt door de stelling van Bayes gedefinieerd als proportioneel aan het product van de prior-verdeling p (θ) en de aannemelijkheidsfunctie l (y | θ) (Vergelijking 1). Het symbool ∝ in Vergelijking 1 geeft aan dat de twee grootheden gelijk zijn aan elkaar, vermenigvuldigd met een schalingsfactor.
(1)
Zoals Vergelijking 1 aangeeft, bestaat een Bayesiaans model uit drie componenten: de prior-verdeling, de aannemelijkheid, en de posterior-verdeling. In de volgende secties worden deze drie componenten van een Bayesiaans model kort uitgelegd.
De prior-verdeling p (θ) representeert de bestaande auditinformatie over de foutfractie θ voordat er data uit een steekproef zijn gezien. De prior-verdeling is een kansverdeling, waarin aan elke mogelijke waarde van θ een relatieve plausibiliteit wordt toegekend, zodat deze integreert tot één. Een veelgebruikte prior-verdeling voor θ is een uniforme bèta(α = 1, β = 1) verdeling. Deze prior-verdeling, weergegeven in Figuur
De uniforme bèta(1, 1) prior-verdeling en de bèta(1, 99) posterior-verdeling na het zien van 98 foutloze waarnemingen. In het geval van de uniforme prior-verdeling is de posterior-verdeling gelijk aan de aannemelijkheidsfunctie. Het 95e percentiel van de posterior-verdeling ligt onder de uitvoeringsmaterialiteit van drie procent, wat betekent dat minder dan vijf procent van de kansmassa boven de uitvoeringsmaterialiteit ligt.
De aannemelijkheid representeert de informatie die de steekproefdata y over de foutfractie θ bevatten. De aannemelijkheidsfunctie l (y | θ) geeft de waarschijnlijkheid dat de steekproefdata zich voordoen onder specifieke waarden van θ (
In het voorbeeld besluit de auditor om een steekproef van n = 98 waarnemingen te trekken en ontdekt dat in deze steekproef k = 0 waarnemingen een fout bevatten. Het aannemen van de binomiale aannemelijkheid houdt in dat de data uit deze steekproef binomiaal(k = 0 | n = 98, θ) zijn verdeeld.
Door de stelling van Bayes toe te passen, kan de auditor de informatie in de prior-verdeling combineren met de informatie in de data om tot de posterior-verdeling p (θ | y) te komen. De stelling van Bayes impliceert dat waarden van de foutfractie θ die de steekproefdata relatief goed voorspellen, waarschijnlijker worden dan ze waren volgens de prior-verdeling, terwijl waarden van θ die de steekproefdata relatief slecht voorspellen, minder waarschijnlijk worden. De posterior-verdeling bevat dus de bijgewerkte kennis van de auditor over θ na het zien van de steekproefdata. Deze verdeling is dé bron van informatie voor de auditor, omdat het de informatie die de auditor had voor het nemen van de steekproef combineert met alle verkregen informatie uit de steekproef.
Net als de prior-verdeling is de posterior-verdeling een kansverdeling, waardoor de bijgewerkte kennis over θ kan worden samengevat met statistieken zoals het gemiddelde, de mediaan en de modus. Zo kan de auditor bijvoorbeeld een uitspraak doen over de meest waarschijnlijke fout door de modus van de posterior-verdeling te bepalen (oftewel, de waarde van θ met de hoogste waarschijnlijkheid). Evenzo kunnen percentielen van de posterior-verdeling worden geïnterpreteerd in termen van geloofwaardigheid (
Na het zien van de binomiaal verdeelde steekproef van n = 98 items met k = 0 fouten is de posterior-verdeling een bèta(α = 1 + k = 1, β = 1 + n – k = 99) verdeling, die is weergegeven in Figuur
De auditor dient de prior-verdeling te onderbouwen, aangezien deze de beschikbare informatie over de foutfractie in de populatie bevat. Een voorbeeld van hoe de prior-verdeling onderbouwd kan worden is het gebruik maken van de inschatting van de kans op een materiële fout in de populatie. Ter illustratie, stel dat de auditor voordat de steekproef wordt genomen het risico op een materiële fout heeft vastgesteld met behulp van het auditrisicomodel (Vergelijking 2).
(2)
In het voorbeeld heeft de auditor de effectiviteit van de interne beheersingsmaatregelen van de auditee beoordeeld, zoals de mate van functiescheiding en de kwaliteit van de computersystemen. De auditor heeft vastgesteld dat de interne beheersing voldoende effectief is om materiële fouten te voorkomen of te ontdekken. Omdat de interne beheersing effectief lijkt, wordt het interne beheersingsrisico als ‘laag’ beoordeeld. Volgens de auditgids van de auditor komt dit overeen met een kans van 40 procent op een materiële fout in de populatie die niet wordt opgemerkt als gevolg van de interne beheersing. De overige risico’s beoordeelt de auditor als ‘hoog’. Dit betekent dat de kans op een materiële fout in de populatie (Risk of Material Misstatement, RMM in Vergelijking 2) kan worden vastgesteld op 0,4, ofwel 40 procent. In de frequentistische aanpak zou de auditor vervolgens het steekproefrisico verhogen van vijf procent naar 0,05 ⁄ 0,4 = 0,125, ofwel 12,5 procent, en daarmee de steekproef uitvoeren. Dit resulteert in een minimale steekproefgrootte van 69 waarnemingen. Echter, in de Bayesiaanse benadering wordt de inschatting van het risico op een materiële fout direct in de prior-verdeling opgenomen.
Bij een verwachting van nul fouten kan de informatie over de kans op een materiële fout in de populatie worden opgenomen in de prior-verdeling door de β-parameter van de prior-verdeling in te stellen op (
De bèta(1; 30,083) prior-verdeling en de bèta(1; 99,083) posterior-verdeling weer na het zien van 69 foutloze waarnemingen. De prior-verdeling heeft 40 procent van de kansmassa boven de uitvoeringsmaterialiteit van drie procent. Het 95e percentiel van de posterior-verdeling ligt onder de uitvoeringsmaterialiteit van drie procent.
De integratie van deze informatie middels de prior-verdeling zorgt niet alleen voor efficiëntie, maar ook voor transparantie. Omdat zowel de risico-inschatting als het steekproefwerk relateren aan de foutfractie θ, wordt door het gebruik van de prior-verdeling namelijk duidelijk hoe de kans op een materiële fout het toekomstige werk beïnvloedt. Dat maakt de Bayesiaanse benadering bijzonder intuïtief en in lijn met de denkwijze van de auditor (
In dit hoofdstuk worden drie voorbeelden gepresenteerd waarin middels de Bayesiaanse statistiek wordt voortgebouwd op data-analyse. Ondanks dat het voorgaande hoofdstuk concludeerde met een methode om een prior-verdeling te formuleren aan de hand van het auditrisicomodel, is er geen standaardprocedure voor het integreren van informatie afkomstig uit data-analyse. Dit is te wijten aan het feit dat deze procedures sterk kunnen verschillen, afhankelijk van het soort informatie dat in de prior-verdeling wordt meegenomen. Het is daarom belangrijk om de data en veronderstellingen die in deze aanpak worden gebruikt, grondig te rechtvaardigen en zorgvuldig na te denken over hoe de resultaten in de prior-verdeling worden opgenomen. De volgende subsecties leggen uit hoe dit kan worden bereikt binnen de context van een regressieanalyse, een classificatieanalyse en een clusteranalyse.
De prior-verdeling kan worden opgebouwd aan de hand van de uitkomsten van een regressieanalyse (
De beschikbare informatie bestaat uit de gecontroleerde cijfers over de directe kosten C en de omzet R van n = 85 soortgelijke bedrijven in de sector waar de auditee in opereert. Deze geaudite en dus betrouwbare benchmarkdata zijn weergegeven in Figuur
De verhouding tussen de directe kosten en de omzet van 85 bedrijven uit dezelfde sector als de auditee. De rode stip staat voor de voorspelde omzet op basis van de benchmarkdata, terwijl de blauwe stip de daadwerkelijke omzet van de auditee weergeeft.
De relatie tussen de omzet R en de directe kosten C kan worden gemodelleerd met een lineaire vergelijking (Vergelijking 3). In Vergelijking 3 stelt β0 de gemiddelde omzet van de bedrijven bij geen directe kosten voor en representeert β1 de stijging in de omzet als de directe kosten met één stijgen. De term ϵ stelt de residuen voor, waarvan de auditor de standaardveronderstelling maakt dat deze normaal verdeeld zijn met gemiddelde nul en standaarddeviatie σϵ. Merk op dat er in dit voorbeeld een versimpeld model wordt gebruikt. In de praktijk is deze relatie vaak complexer dan hieronder is weergegeven en moet de auditor het regressiemodel zorgvuldig opstellen en evalueren.
R = β0 + β1 × C + ϵ (3)
De auditor schat de parameters in Vergelijking 3 met behulp van de klassieke methode voor Bayesiaanse regressie middels oneigenlijke
= € 16.089,27 + 1,026 × € 60.000 = € 77.649,27 (4)
Uitgaande van de veronderstelling dat de data representatief zijn voor de auditee, kan de auditor middels het regressiemodel in Vergelijking 3 de geaudite waarde van de omzet voorspellen en van hieruit een prior-verdeling opstellen voor de fractie overwaardering θ. Bij gebruik van uniforme prior-verdelingen voor de parameters is de verdeling die de onzekerheid van de verwachte omzet weergeeft een geschaalde t-verdeling met gemiddelde μ* = , standaardafwijking en n – 2 vrijheidsgraden. De prior-verdeling voor de fractie overwaardering θ kan worden gespecificeerd als deze verdeling, die de onzekerheid van de voorspelling van de omzet weergeeft, uitgedrukt als een percentage van de omzet. Voor de duidelijkheid kiezen we hier voor een benadering van deze prior-verdeling, hoewel er meer specifieke methoden bestaan om deze prior-verdeling te definiëren (e.g.,
Het gemiddelde van de prior-verdeling is de relatieve afwijking van de omzet in vergelijking met de meest waarschijnlijke verwachte omzet volgens de benchmarkdata, uitgedrukt als , oftewel 1,1 procent. De standaardafwijking van de prior-verdeling kan worden berekend als , oftewel 1,7 procent. Aangezien de auditor zich uitsluitend richt op overwaarderingen, wordt de prior-verdeling afgekapt op het interval [0; 1]. Dit resulteert in de getrunceerde geschaalde t-verdeling met gemiddelde μθ = 0,011, standaardafwijking σθ = 0,017, en 83 vrijheidsgraden als prior-verdeling voor θ, zoals weergegeven in Figuur
De getrunceerde geschaalde t prior-verdeling met parameters μ = 0,011, σ = 0,017 en 83 vrijheidsgraden en de posterior-verdeling na het zien van 54 foutloze waarnemingen. Het 95e percentiel van de posterior-verdeling ligt onder de uitvoeringsmaterialiteit van drie procent.
Intuïtief gezien heeft de auditor meer auditcomfort wanneer de omzet dicht bij de verwachte omzet ligt. Door de relatieve afwijking van de verwachte omzet op deze manier mee te nemen in de prior-verdeling, vertaalt de auditor op een statistisch verantwoorde manier dit extra auditcomfort naar een kleinere steekproef. Ter illustratie, door gebruik te maken van deze prior-verdeling zijn er nog slechts 54 foutloze waarnemingen nodig in plaats van 98 om tot een posterior-verdeling te komen waarvan het 95e percentiel onder de uitvoeringsmaterialiteit van drie procent ligt. Echter, de uitkomsten van deze regressieanalyse kunnen ook gecombineerd worden met de inschatting van een materiële fout middels het auditrisicomodel zoals beschreven in hoofdstuk 2.4. Doordat de auditor kan steunen op de interne beheersing kunnen de 29 waarnemingen die impliciet als correct zijn aangenomen van de vereiste steekproefgrootte worden afgetrokken. Dat betekent dat er nog slechts 54 – 29 = 25 foutloze waarnemingen nodig zijn om voldoende zekerheid te krijgen over de populatie.
Voor dit voorbeeld, evenals de volgende twee voorbeelden, kan het gebeuren dat de auditor fouten ontdekt in de gereduceerde steekproef, waardoor de vereiste zekerheid niet wordt behaald. De auditor kan hier op drie manieren mee omgaan:
Het is aan de auditor om te beoordelen welke manier de voorkeur heeft.
De prior-verdeling kan eveneens worden opgesteld aan de hand van de uitkomsten van een classificatieanalyse. In dit voorbeeld wordt een situatie besproken waarin een externe auditor de taak heeft om een populatie facturen te controleren op fouten. Gedurende het jaar heeft een interne auditor wekelijks een steekproef van tien facturen gecontroleerd. De interne auditor heeft hierbij expliciet geprobeerd fouten te ontdekken door relatief veel facturen met een hoog risico te controleren. Deze facturen representeren echter maar een klein deel van de populatie. De externe auditor wil voortbouwen op het werk van de interne auditor om zo de kosten voor de auditee te minimaliseren. Er zijn verschillende manieren om het werk gedaan door de interne auditor te verwerken in een prior-verdeling (e.g.,
In dit scenario heeft de externe auditor toegang tot data over de controle-intensiteit en verwerkingstijd van de facturen die door de interne auditor gecontroleerd zijn. Met behulp van een classificatieanalyse kan de auditor voor het huidige jaar een voorspelling doen over de correctheid van elke factuur in de nog te controleren populatie, gebaseerd op de controle-intensiteit en de verwerkingstijd. Deze twee kenmerken zijn voor de facturen in de te controleren populatie (n = 976) weergegeven in het rechter paneel in Figuur
De verwerkingstijd van de facturen tegenover de controle-intensiteit voor de ongeziene populatie (rechter paneel), de gebalanceerde trainingsset (linker paneel) en gebalanceerde testset (middelste paneel). In de trainings- en testset geven kleuren aan of de facturen fout (roze) of correct (groen) waren. Dezelfde kleuren worden in het rechter paneel gebruikt om de voorspellingen van het algoritme te visualiseren.
De belangrijkste aanname van een classificatieanalyse is het bestaan van een relatie, dat wil zeggen een functie f, tussen de verwerkingstijd V, de controle-intensiteit I en de uitkomst Y (een factuur die “Fout” of “Niet fout” is), zoals aangegeven in Vergelijking 5. In dit voorbeeld wordt opnieuw een vereenvoudigd model gebruikt, maar merk op dat deze relatie in de praktijk vaak complexer is dan hier wordt voorgesteld.
Y = f (V, I) + ϵ (5)
Indien de functie f bekend is, kan een voorspelling over de juistheid van een ongeziene factuur worden gemaakt op basis van de controle-intensiteit en de verwerkingstijd. Het is echter niet bekend hoe de kenmerken gerelateerd zijn aan de correctheid van een factuur, dus f is onbekend en deze functie moet uit de data geleerd worden. Hier kunnen verschillende soorten algoritmes voor worden gebruikt. In dit geval wordt het random forest-algoritme (
Om de functie f te leren, wordt het algoritme een deel van de beschikbare data getoond – de zogenoemde trainingsset (n = 420) – die zowel de kenmerken als de doelvariabele bevat, dat wil zeggen het door de interne auditor waargenomen resultaat “Fout” en “Niet fout”. Een mogelijk probleem bij het toepassen van classificatie in deze context is dat er waarschijnlijk meer correcte facturen in de beschikbare data voorkomen dan foute facturen. Als deze ongelijke verdeling in de trainingsset aanwezig is, kan het ertoe leiden dat het algoritme de voorkeur geeft aan de correcte facturen, simpelweg omdat deze vaker voorkomen in de trainingsset. Dit probleem kan worden aangepakt door een trainingsset te creëren waarin de verhouding tussen correcte facturen en foute facturen gelijk is. In dit specifieke geval heeft de externe auditor een aantal foute facturen uit de beschikbare data meerdere malen willekeurig geselecteerd, waardoor de verhouding in de trainingsset evenwichtig is. Dit heet oversampling en is een robuuste methode om de informatie in de trainingsset over de foute facturen te vergroten, terwijl het aantal foute en correcte facturen gelijk blijft (
Om te testen of de geleerde functie f goed generaliseert naar data die het algoritme nog niet eerder heeft gezien, krijgt het algoritme in de leerfase niet de zogenoemde testset te zien. Deze testset bestaat wederom uit een deel (n = 100) van de beschikbare data (middelste paneel in Figuur
De verwarringsmatrix voor de 100 facturen in de testset. De werkelijke foutclassificatie wordt vergeleken met de voorspelde foutclassificatie volgens het algoritme. De vier cellen tonen de echt positieven (TP), de foutpositieven (FP), de foutnegatieven (FN) en de echt negatieven (TN).
Werkelijk | |||
---|---|---|---|
Fout | Niet fout | ||
Voorspeld | Fout | 11 (TP) | 1 (FP) |
Niet fout | 4 (FN) | 84 (TN) |
Het is gebruikelijk om de minst voorkomende uitkomst te voorzien van het label “positief”. De meest voorkomende uitkomst heet dan “negatief”. In dit voorbeeld zijn de correcte facturen dus de negatieven, en de foute facturen de positieven. De verwarringsmatrix omvat de echt positieven, de foutpositieven, de echt negatieven en de foutnegatieven. De echt positieven (TP) zijn de 11 facturen in de testset die daadwerkelijk fout waren en door het algoritme correct als zodanig zijn voorspeld. De foutpositief (FP) is de factuur in de testset die in werkelijkheid correct was, maar door het algoritme onjuist als fout is voorspeld. De echt negatieven (TN) zijn de 84 facturen in de testset die daadwerkelijk correct waren en door het algoritme correct als zodanig zijn voorspeld. Ten slotte zijn de foutnegatieven (FN) de 4 facturen in de testset die daadwerkelijk fout waren, maar door het algoritme onjuist als correct zijn voorspeld.
De verwarringsmatrix maakt het mogelijk om verschillende maatstaven te berekenen voor de kwaliteit van het algoritme. Allereerst is de nauwkeurigheid (accuracy) van het algoritme gelijk aan . Daarnaast is de precisie (precision) van het algoritme gelijk aan . Bovendien is de gevoeligheid (recall) van het algoritme gelijk aan . Ten slotte kan de F1-score worden berekend als . Uit deze maatstaven concludeert de auditor dat het algoritme voldoende presteert om te worden ingezet voor het voorspellen van fouten in de nog te controleren populatie.
Na de evaluatie van de kwaliteit van het algoritme kan er voor de 976 facturen in de te controleren populatie een voorspelling worden gemaakt voor de foutkans van elke factuur. De 7 facturen die door het algoritme een voorspelde foutkans krijgen toegewezen die groter is dan 1/2 worden als fout bestempeld en worden vervolgens door de auditor integraal gecontroleerd. Op de 969 overgebleven facturen met een voorspelde foutkans lager dan 1/2 wil de auditor een steekproef doen. De frequentieverdeling van de voorspelde foutkansen van deze facturen wordt getoond in Figuur
De bèta(0,262; 5,267) prior-verdeling op basis van de voorspelde foutkansen per factuur in de populatie (histogram) en de bèta(0,262; 42,267) posterior-verdeling na het zien van 37 foutloze waarnemingen. Het 95e percentiel van de posterior-verdeling ligt onder het toelaatbare foutpercentage van drie procent.
Met deze prior-verdeling is het slechts nodig om een steekproef van 37 foutloze waarnemingen te zien in plaats van 98 om een posterior-verdeling te bereiken waarvan het 95e percentiel onder het toelaatbare foutpercentage van drie procent ligt. Echter, bij het combineren van de uitkomsten van deze classificatieanalyse met de inschatting van een materiële fout middels het auditrisicomodel zoals beschreven in hoofdstuk 2.4, zijn er nog slechts 37 – 29 = 8 foutloze waarnemingen nodig om voldoende zekerheid te krijgen over de overgebleven populatie facturen met een voorspelde foutkans lager dan 1/2.
In het laatste voorbeeld wordt clusteranalyse toegepast om een populatie te stratificeren en deze vervolgens efficiënt te analyseren met gebruik van de Bayesiaanse statistiek. Dit voorbeeld betreft een auditor die bij een toezichthoudende instantie werkt en de taak heeft om de risicoclassificatie van klanten door een financiële instelling te onderzoeken. Financiële instellingen geven al hun klanten een integriteits-risicoscore, en het doel van de auditor is om te controleren of de financiële instelling niet een te lage risicoscore aan de rekeninghouder heeft toegekend. De toelaatbare fout is in dit voorbeeld drie procent, wat betekent dat aan maximaal drie procent van de rekeninghouders een te lage risicoscore toegekend mag zijn.
De beschikbare data omvatten het aantal binnenlandse betalingen per rekeninghouder, het aantal buitenlandse betalingen, en de som van alle betalingen. In dit scenario past de auditor een clusteranalyse toe om de populatie te verdelen in verschillende clusters op basis van deze drie kenmerken, en zodoende het auditwerk te focussen op rekeninghouders die een hoger risico op fraude vertonen (
De som van de betalingen van de rekeningen in de te controleren populatie tegenover het aantal binnenlandse en buitenlandse betalingen gemaakt met deze rekeningen. De kleuren van de rekeningen zijn bepaald door een clusteranalyse met drie clusters. De eerste en grootste cluster (geel) bestaat uit 1053 rekeningen, de tweede cluster (blauw) bestaat uit 697 rekeningen en de derde en kleinste cluster (rood) bestaat uit 250 rekeningen.
Het eerste en grootste cluster (geel) bestaat uit 1053 rekeningen met relatief veel binnenlandse betalingen ten opzichte van buitenlandse betalingen en een totaalbedrag lager dan € 250.000. Het tweede cluster (blauw) bestaat uit 697 rekeningen met relatief veel buitenlandse betalingen ten opzichte van binnenlandse betalingen en een totaalbedrag lager dan € 250.000. Het derde en kleinste cluster (rood) bestaat uit 250 rekeningen met relatief weinig binnenlandse en buitenlandse betalingen ten opzichte van de andere twee clusters en een totaalbedrag hoger dan € 250.000. De auditor besluit de minimale steekproef van 98 waarnemingen die nodig is bij een toelaatbare fout van drie procent over de drie clusters te verdelen. Daarbij wenst de auditor het auditwerk te focussen op het derde cluster, omdat deze rekeningen volgens de auditor een relatief hoog frauderisico hebben. Daarom neemt de auditor in zowel het eerste als tweede cluster een steekproef van 25 waarnemingen, waarbij er in beide steekproeven geen te laag toegekende risico-integriteitsscores worden gevonden. In het derde cluster neemt de auditor een steekproef van 48 waarnemingen. Hieruit blijkt dat bij twee rekeningen de risico-integriteitsscore door de financiële instelling te laag is toegekend. De auditor wenst op basis van de resultaten van deze gestratificeerde steekproef een 95 procent zekere bovengrens voor de foutfractie (d.w.z. de fractie rekeninghouders met een te laag toegekende risico-integriteitsscore) in de populatie te berekenen.
De gebruikelijke manier om een gestratificeerde steekproef statistisch te evalueren is om de foutfracties in de drie clusters (i.e., strata) als onafhankelijk te beschouwen. Vanuit een Bayesiaans perspectief houdt dit in dat de foutfractie in elk cluster, θs, een onafhankelijke prior-verdeling toegewezen krijgt, in dit voorbeeld de bèta(1, 1) prior-verdeling. Om tot een representatieve schatting van de foutfractie θ op populatieniveau te komen, weegt de auditor de posterior-verdelingen naar het relatieve aandeel van de clusters in de populatie. Het beschouwen van de foutfracties in de clusters als onafhankelijk is echter niet optimaal, omdat het onwaarschijnlijk is dat de fracties van te lage risico-integriteitsscore in de drie clusters geheel onafhankelijk van elkaar zijn (
Eenzijdige schattingsintervallen en meest waarschijnlijke schattingen van de foutfracties θ voor het onafhankelijke model (zwart), het hiërarchische model (grijs) en het hiërarchische model met informatie uit het auditrisicomodel (oranje). Onder het hiërarchische model zijn de schattingen van de foutfracties efficiënter dan onder het onafhankelijke model.
Onder het onafhankelijke model is het 95e percentiel van de posterior-verdeling van θ gelijk aan 0,0842, ofwel 8,42 procent.
In dit artikel is beargumenteerd dat Bayesiaanse statistiek auditors helpt om de resultaten van data-analyse in de audit te integreren. Aan de hand van drie voorbeelden – regressie, classificatie en clustering – is geïllustreerd hoe de integratie van data-analyse op deze manier de efficiëntie van de audit kan verbeteren.
Om het voor auditors zo makkelijk mogelijk te maken om de in dit artikel behandelde technieken in de praktijk toe te passen, bieden we een aantal praktische handvatten om hiermee aan de slag te gaan. Zo zijn de benodigde datasets en de R code voor het reproduceren van de drie voorbeelden in dit artikel beschikbaar in de online bijlage op https://osf.io/2qawp/. Daarnaast hoeven de Bayesiaanse berekeningen niet door de auditor zelf te worden gedaan. Zodra de prior-verdeling is vastgesteld, kunnen vervolgberekeningen, zoals het bepalen van de posterior-verdeling, worden uitgevoerd met gebruiksvriendelijke, open-source software zoals JASP for Audit (
In de praktijk is het belangrijk om de voor- en nadelen van de Bayesiaanse aanpak goed af te wegen. De potentiële reductie van de steekproefgrootte gaat gepaard met de verantwoordelijkheid om aan te tonen dat de data-analyse geldig en relevant is voor de steekproef en dat de vertaling van de resultaten naar de prior-verdeling passend is. Of de voordelen van het integreren van data-analyse opwegen tegen deze nadelen hangt af van de tijd en moeite die het kost om een grotere steekproef te selecteren en te controleren. Als deze kosten de tijd en moeite om de data-analyse uit te voeren en daarmee een prior-verdeling op te zetten overschrijden, is het goedkoper om de data-analyse te integreren middels de prior-verdeling. Natuurlijk is het opstellen van een prior-verdeling op basis van data-analyse geen triviale taak en kan het aanzienlijke tijd en moeite kosten. Echter, omdat het controleren van steekproefwaarnemingen vaak veel tijd en geld kost, is het waarschijnlijk dat de mogelijke vermindering van de steekproefgrootte die wordt bereikt door de informatie uit de data-analyse te integreren opweegt tegen de tijd en moeite die gaat naar het specificeren van de prior-verdeling. Zelfs als de kosten voor een grotere steekproef klein zijn en de auditor daarom besluit dat het opstellen van de prior-verdeling de tijd en moeite niet waard is, kan deze terugvallen op een prior-verdeling die geen bestaande informatie bevat. De Bayesiaanse benadering biedt de auditor de flexibiliteit om één van deze opties te kiezen.
Al met al biedt het Bayesiaanse raamwerk een robuuste basis voor de toekomst. Sinds de opkomst van de risicogebaseerde audit is er een verschuiving naar het verkrijgen van zekerheid uit andere activiteiten dan detailcontroles. Het toenemende gebruik van data-analyse markeert slechts een volgende stap in deze ontwikkeling. In combinatie met de groeiende complexiteit van data betekent dit dat auditors een intuïtief raamwerk zullen moeten hebben om de informatie uit deze procedures te integreren, kwantificeren en interpreteren. Dit zal vooral het geval zijn als zij willen voldoen aan de constante vraag naar een efficiëntere audit. Aangezien het Bayesiaanse raamwerk de flexibiliteit biedt om verschillende soorten data-analyse in de statistische analyse te integreren, beweren wij dat dit raamwerk op de lange termijn nuttiger zal zijn voor de auditor dan de huidige frequentistische methoden. Het omarmen van dergelijke innovatieve technieken vereist lef van auditors, maar wordt door allerlei partijen aangemoedigd (
Dr. K. P. Derks – Koen is universitair docent bij Nyenrode Business Universiteit en lid van de stuurgroep statistical auditing van het Limperg Instituut. Daarnaast is hij softwareontwikkelaar bij JASP, een gratis en open-source statistiekprogramma, waarin hij de module voor auditing ontwikkelt.
L. Mensink MSc – Lotte is promovenda bij Nyenrode Business Universiteit waar zij onderzoek doet naar de toepassing van Bayesiaanse statistiek in de audit.
Prof. dr. J. J. B. de Swart MBA – Jacques is partner bij PwC Consulting, verantwoordelijk voor de data analytics groep. Daarnaast is hij hoogleraar Toegepaste Wiskunde aan Nyenrode Business Universiteit en voorzitter van de stuurgroep statistical auditing van het Limperg Instituut.
Prof. dr. R. Wetzels – Ruud is director Data Analytics bij PwC Consulting. Daarnaast is hij hoogleraar Data Science bij Nyenrode Business Universiteit en bestuurslid van stichting JASP.
Andersom heeft
Hoewel dit een monetaire steekproef is, gaan we er in dit voorbeeld van uit dat een boeking óf volledig fout is óf volledig correct. Er bestaan echter ook methoden om gedeeltelijke fouten te evalueren, zoals de Stringer bound (
Een oneigenlijke prior-verdeling integreert niet tot 1 en is daarom geen geldige kansverdeling. In dit voorbeeld verlenen de uniforme prior-verdelingen dezelfde plausibiliteit aan alle waarden van β0, β1 en log(σ) tussen min oneindig en oneindig. Deze verdelingen zijn oneigenlijk omdat ze integreren tot oneindig. Echter, na het zien van de data zijn de posterior-verdelingen in dit geval niet meer oneigenlijk en zijn het daarom geldige kansverdelingen.
De coefficiënten in Vergelijking 4 zijn afgerond ter illustratie, maar de verwachte omzet is berekend op basis van de niet-afgeronde coefficiënten.
De α-en β-parameters van de bèta-verdeling zijn gebaseerd op de niet-afgeronde gemiddelde en variantie.
Het is belangrijk om te benadrukken dat, anders dan in eerdere voorbeelden, de bovengrens in dit geval is vastgesteld op basis van een steekproef waarin twee fouten zijn gevonden, niet nul. Als de auditor deze steekproef zou analyseren zonder stratificatie, zou de bovengrens 6,2 procent zijn; dit is lager dan de 8,42 procent, maar dat is te wijten aan het feit dat de aanname van onafhankelijkheid tussen de strata nogal conservatief is.
Belangrijk om te vermelden hierbij is dat het meenemen van informatie uit data-analyse geen garantie biedt voor een efficientere steekproeffase. Als de informatie uit data-analyse wijst op een hoog risico op materiële fouten, is het vanzelfsprekend dat de auditor meer werk moet doen in de steekproeffase om nog goed te kunnen keuren. De data-analyses in de voorbeelden in dit artikel bevatten steeds informatie die wijst op een relatief laag risico op materiële fouten.