Corresponding author: Koen Derks (
Academic editor: Barbara Majoor
Bayesiaanse statistiek is een manier om efficiëntie en transparantie bij gestratificeerde steekproeven te vergroten. De reden hiervoor is dat Bayesiaanse statistiek de auditor dwingt om expliciet te maken welke informatie en kennis gebruikt wordt bij de evaluatie van de steekproef. In dit artikel worden twee belangrijke vormen van voorkennis beschreven die de auditor moet valideren. Vervolgens zijn deze vormen van voorkennis vertaald naar statistische modellen, die worden gebruikt bij het doen van een gestratificeerde steekproef. Afsluitend wordt gedemonstreerd hoe sommige van die modellen kunnen leiden tot nauwkeurigere foutschattingen en een transparantere audit.
Het stratificeren van steekproeven wordt in de auditpraktijk veelvuldig toegepast. In dit artikel is beschreven hoe twee vormen van voorkennis leiden tot statistische modellen voor de evaluatie van gestratificeerde steekproeven. Deze modellen kunnen resulteren in nauwkeurigere foutschattingen en meer transparantie. Auditors kunnen deze modellen zelf toepassen in de praktijk met behulp van de bijgeleverde R code in de online appendix (zie appendix bij dit artikel).
Stratificatie is het opdelen van een populatie in deelpopulaties, strata genaamd. Belangrijk bij het definiëren van de strata is dat ze elkaar niet overlappen, dat de data binnen een stratum zoveel mogelijk op elkaar lijken (homogeen zijn), en dat de data tussen de strata zo min mogelijk op elkaar lijken (heterogeen). Immers, als een heterogene populatie data in homogene(re) deelpopulaties opgedeeld kan worden, verhoogt stratificatie de nauwkeurigheid van de statistische foutschatting op populatieniveau (
Hoeveel efficiënter de steekproefevaluatie is door stratificatie toe te passen, hangt af van de bepaling van de strata. De kunst is om de strata zo in te richten dat deze binnen zichzelf zo homogeen mogelijk zijn en tussen de strata zo heterogeen mogelijk. Met andere woorden: het doel is de strata zo te definiëren dat de data binnen een stratum zoveel mogelijk op elkaar lijken, en zo min mogelijk lijken op de data in andere strata. Echter, het is onwaarschijnlijk dat de data tussen de strata op geen enkele manier op elkaar lijken; de strata komen immers uit dezelfde populatie. Desondanks houden de huidige methoden die binnen de audit worden gebruikt om gestratificeerde steekproeven te evalueren hier geen rekening mee. In de analyse van de data wordt aangenomen dat er geen enkele relatie bestaat tussen de verschillende strata. In veel situaties doet de auditor zichzelf hiermee tekort, want als de strata in enige mate hetzelfde zijn, kan er statistisch gezien informatie met betrekking tot de foutkans gedeeld worden tussen de strata.
In dit artikel wordt een hiërarchische aanpak beargumenteerd. Een onderliggende hiërarchische structuur in de data is bij uitstek relevant bij gestratificeerde steekproeven, waarbij een populatie bestaat uit een aantal strata en elk stratum uit een aantal posten. Er is dus een hiërarchie in de data, die we laten terugkomen in het statistische model. Bovendien kan op deze manier gelijktijdig een nauwkeurige schatting van de foutkans op populatieniveau worden gegeven, alsmede een nauwkeurige schatting van de foutkans op stratumniveau. In dit artikel wordt de totstandkoming van deze modellen besproken en de voorkennis die hieraan ten grondslag ligt.
De modellen in dit artikel worden toegepast in de context van de Bayesiaanse statistiek. Als alternatief voor de klassieke steekproef methodologie kan de Bayesiaanse statistiek voordelen hebben voor de auditpraktijk (
De opzet van dit artikel is als volgt. In hoofdstuk 2 worden de kernconcepten uit de Bayesiaanse statistiek besproken. In hoofdstuk 3 wordt verder ingegaan op twee vormen van voorkennis die van toepassing zijn op de evaluatie van gestratificeerde steekproeven en de statistische modellen die hieruit volgen. Om te illustreren welk voordeel te behalen valt met deze statistische modellen, worden in hoofdstuk 4 de schattingen van de modellen besproken middels een eenvoudig voorbeeld. In het laatste hoofdstuk worden conclusies en aanbevelingen aangereikt voor het gebruik van deze modellen in de praktijk.
Bij het evalueren van een steekproef is het doel van de auditor om een uitspraak te doen over een bepaald kenmerk van een populatie posten,
De Bayesiaanse manier om een kansuitspraak te doen over het populatiekenmerk
Het symbool ∝ geeft weer dat de expressie rechts van dit teken op schaling na gelijk is aan de kansverdeling links van dit teken. Zoals vergelijking 1 illustreert, houdt de stelling van Bayes in dat de informatie in de prior-verdeling wordt gecombineerd met de informatie uit de steekproefdata, om tot de posterior-verdeling te komen. In de volgende subsecties wordt kort ingegaan op deze drie fundamentele begrippen uit de Bayesiaanse statistiek: de prior-verdeling, de likelihood en de posterior-verdeling.
De prior-verdeling
De beta-prior-verdeling en posterior-verdeling (tevens de likelihood functie) na het zien van een steekproef van
De
De posterior-verdeling
Omdat de posterior-verdeling net als de prior-verdeling een kansverdeling is, kan de bijgewerkte kennis over de foutkans
In figuur 1 is de modus van de posterior-verdeling
In dit hoofdstuk wordt ingegaan op twee vormen van voorkennis die de auditor moet valideren voorafgaand aan het gestratificeerde steekproefonderzoek. De eerste vorm van voorkennis heeft betrekking op in hoeverre de foutkans voor elk stratum hetzelfde is en – gerelateerd daaraan – in hoeverre er dus informatie kan worden gedeeld tussen de verschillende strata. Bijvoorbeeld: in sommige gevallen heeft de auditor voorkennis dat er geen relatie bestaat tussen de data afkomstig uit de verschillende strata. In dat geval dient er geen informatie gedeeld te worden tussen de strata. In een ander geval kan het zijn dat de foutkansen in de verschillende strata niet helemaal op dezelfde manier tot stand komen. Bijvoorbeeld doordat de interne beheersingsmaatregelen per stratum verschillen, maar er wel een bepaalde relatie is tussen de strata (bijvoorbeeld omdat deze alle dezelfde soort transacties bevatten). In dat geval dient er informatie tussen de strata gedeeld te worden, maar dienen verschillen tussen de strata wel te worden gerespecteerd. Als laatste kan het ook zo zijn dat de strata niet van elkaar verschillen qua opbouw en foutkans. In dat geval kan de auditor alle informatie binnen alle strata in één keer analyseren. Figuur 2 illustreert deze drie verschillende smaken van voorkennis over in hoeverre informatie gedeeld kan worden tussen de strata.
Grafische weergave van de drie verschillende smaken van voorkennis over in hoeverre informatie gedeeld kan worden tussen de strata. Afgebeeld zijn drie strata met daarin elk vijf posten (cirkels) waarbij de afstand tussen de posten de overeenkomstigheid tussen de foutkansen representeert. Van links naar rechts zijn afgebeeld: 1) een populatie waarin strata een overeenkomende foutkans hebben en alle informatie met betrekking tot de foutkans gedeeld kan worden tussen de strata, 2) een populatie waarin strata een andere foutkans hebben en er geen informatie gedeeld kan worden tussen de strata, en 3) een populatie waarin strata deels dezelfde foutkans hebben en er informatie gedeeltelijk gedeeld wordt tussen strata.
Een tweede vorm van voorkennis die de auditor dient te evalueren is of het mogelijk is dat de auditor extra kennis toevoegt in de vorm van variabelen op stratumniveau, die gerelateerd zijn aan de foutkans in een stratum, zoals het aantal werknemers per filiaal, of de hoogte van de omzet per filiaal. Een modelmatige aanpak van stratificatie leent zich bij uitstek voor het toevoegen van dit soort extra kennis aan het statistische model en maakt de aannames van de auditor transparant. We onderscheiden hier voorkennis van extra kennis, omdat voorkennis in de prior-verdeling terechtkomt en extra kennis in het model terechtkomt.
Afhankelijk van de aanwezige voorkennis kan de auditor het statistisch model kiezen dat zo goed mogelijk overeenkomt met de beschikbare voorkennis. In dit hoofdstuk worden vier statistische modellen besproken en wordt aangegeven hoe ze zich verhouden tot de aanwezige voorkennis. Ook wordt behandeld welke voor- en nadelen deze modellen hebben.
In model 1 neemt de auditor aan dat de data uit alle strata uitwisselbaar zijn. Met andere woorden: de strata zijn eigenlijk overbodig, alle informatie uit de strata wordt samengevoegd en als één geheel geanalyseerd. Statistisch wil dat zeggen dat er één parameter geschat wordt,
Hierin stelt
Grafische weergave van een model om de foutkans θ in een populatie te schatten. Witte cirkels representeren niet geobserveerde continue parameters in het model en grijze vierkanten representeren geobserveerde discrete parameters.
Als we uitgaan van de beta(1, 1) prior-verdeling en de binomiale likelihood, kunnen de
Het eerste voordeel van dit model is dat het een erg eenvoudig model is en dus gemakkelijk te interpreteren. Het tweede voordeel is dat er in dit model maar één prior-verdeling gebruikt wordt om de foutkans in de populatie te schatten. Dit neemt niet weg dat er op basis van de beschikbare data alsnog de mogelijkheid is om de foutkans op stratumniveau te schatten (zie het hieropvolgende model 2). Een voorbeeld van een situatie waarin dit wenselijk kan zijn is in een group audit, waarin de strata componenten of werkmaatschappijen zijn met aparte auditors. In zo’n situatie kan deze aanpak passend zijn als de component auditors niet op de hoogte zijn van elkaars werk, maar de group auditor dit wel is. Het nadeel van dit model is dat de aanname dat alle foutkansen in alle strata gelijk worden geacht erg sterk is. Tot slot is een nadeel van deze methode dat het niet (eenvoudig) mogelijk is om extra kennis toe te voegen aan het model.
In model 2 neemt de auditor aan dat er geen relatie bestaat tussen de data afkomstig uit de verschillende strata. Dit resulteert in een statistisch model waarin geen informatie tussen strata wordt gedeeld: voor elk stratum
Grafische weergave van een model om de foutkansen θi in een aantal strata te schatten. De dubbele witte cirkel representeert
Gegeven de beta(1, 1) prior-verdeling en de binomiaal likelihood kunnen we de posterior-verdeling van
Zolang er geen voorkennis is over
Een voordeel van dit model is dat het leidt tot relatief eenvoudige statistische berekeningen: de parameters zijn gemakkelijk te schatten en te interpreteren. Het nadeel van dit model is dat de aanname dat alle foutkansen in de strata niet gerelateerd zijn aan elkaar, een erg restrictieve aanname is. Voor de momentenmethode geldt nog een ander nadeel: om te komen tot de kansverdeling voor de foutkans in de populatie
In model 1 neemt de auditor aan dat de strata niet van elkaar verschillen en in model 2 neemt de auditor aan dat er geen relatie bestaat tussen de data afkomstig uit de verschillende strata. In model 3 zit de auditor conceptueel tussen model 1 en model 2 in. De data afkomstig uit de verschillende strata zijn niet totaal verschillend van elkaar; er zijn gelijkenissen tussen de data in de verschillende strata. De sterke aanname dat de data binnen een stratum perfect homogeen zijn en dat de data tussen de strata perfect heterogeen zijn, is vaak niet realistisch. Een zekere mate van samenvoeging van deze aannames sluit dan beter aan op de aanwezige voorkennis.
Hiervoor kan de auditor een hiërarchisch model specificeren. Hiërarchische modellen worden toegepast in allerlei wetenschappelijke vakgebieden om rekening te houden met onderliggende relaties tussen parameters in een model (
Zoals in de eerdere twee modellen wordt er een prior-verdeling gedefinieerd voor de parameters die geschat worden. Omdat dit een hiërarchisch model is, zit er ook een hiërarchie in de constructie van de priors. De auditor kiest in dit geval een prior-verdeling voor de foutkans per stratum, waarbij de parameters van die prior zelf ook weer worden geschat (en dus ook een prior-verdeling nodig hebben, een zogenoemde hyperprior). In dit geval definiëren we een beta(
Grafische weergave van een hiërarchisch model om de foutkansen
Om tot een schatting voor de foutkans in de populatie
Een voordeel van dit model is dat de aanname dat de data afkomstig uit de verschillende strata bepaalde overeenkomsten kunnen hebben, vaak realistisch is. Dit type model sluit dus in veel gevallen beter aan bij de voorkennis van de auditor dan modellen zoals model 1 en model 2. Een nadeel van dit model is dat, door het introduceren van hiërarchie, de statistische modelstructuur complexer is dan bij de voorgaande modellen. Een ander nadeel is dat het definiëren van de hyperpriors niet triviaal is en betrokkenheid vergt van een statisticus die bekend is op dit vlak. In elk geval is het aan te bevelen om bij twijfel over de keuze van de hyperpriors verschillende prior-verdelingen te gebruiken en de daaruit volgende schatters ook te vergelijken. Door het effect van de hyperpriors in kaart te brengen, kan de auditor namelijk een uitspraak doen over de robuustheid van de schattingen. Als verschillende prior-verdelingen leiden tot dezelfde schattingen, kunnen de schattingen als robuust beschouwd worden en is de impact van de hyperprior dus verwaarloosbaar. Echter, als de hyperpriors cruciaal blijken te zijn voor de gevolgtrekking van de auditor, dan dient dit meegenomen te worden in de onderbouwing van de uiteindelijke prior-verdeling. In dit laatste geval is het aan te raden om verdere voorkennis te vergaren, die kan worden gebruikt om een meer informatieve hyperprior-verdeling te construeren.
Het opstellen van informatieve hyperpriors kan bijvoorbeeld door eerder vergaarde informatie (bijv. uit risico-inschattingen) mee te nemen in de prior-verdeling voor de gemiddelde fout in de populatie
Model 4 is qua aannames vergelijkbaar met model 3, met één belangrijk verschil: De auditor neemt nog extra informatie mee in het model. Om dit te doen beschouwen we een alternatieve parametrisering in termen van de log-odds van de foutkans middels een parameter
Zo komt bijvoorbeeld een foutkans van
De logistische (inverse logit) functie. De waarde voor de log-odds
Een groot voordeel van het formuleren van het probleem in termen van de log-odds is dat het gemakkelijk is om andere variabelen (op elk wenselijk niveau) toe te voegen aan het model (
Figuur 7 is een grafische weergave van het logistische model waarin informatie tussen strata gedeeltelijk wordt samengevoegd en er extra kennis per stratum
Grafische weergave van een hiërarchisch logistisch model om de log-odds
Een nadeel van dit model is dat er, net als in het vorige model, steeds meer complexiteit wordt toegevoegd. Dit wil zeggen dat de auditor goed dient samen te werken met een statisticus, zodat alle aannames en statistische uitwerkingen daarvan goed kunnen worden uitgelegd en verantwoord. Een voordeel van dit model is dat het veel mogelijkheden biedt aan de auditor om extra kennis toe te voegen aan het model. Dat zal de transparantie en efficiëntie ten goede komen, omdat de auditor dan op een transparante manier kan uitleggen welke impact extra kennis heeft op de uitkomsten. Het toevoegen van relevante extra kennis zal ook de schattingen van het model verbeteren, en dus de efficiëntie ten goede komen.
Om de voorgestelde modellen concreet te illustreren, wordt hier een voorbeeld behandeld van een audit van een organisatie, bestaande uit twintig filialen. De taak van de auditor is om 95 procent zekerheid te kunnen verschaffen over de foutkans in de populatie, bestaande uit twintig strata. In elk van de twintig filialen heeft een audit team een steekproef getrokken. Echter, in sommige filialen verwachtte de auditor meer fouten te vinden en heeft daarom bij deze filialen een grotere steekproef laten nemen dan in andere filialen. Het audit team rapporteert het aantal gevonden fouten per filiaal. Op het niveau van filiaal is ook extra kennis beschikbaar, in die zin dat de auditor verwacht dat het aantal werknemers binnen een filiaal dat verantwoordelijk is voor de administratie, de foutkans beïnvloedt. Tabel 1 geeft de beschikbare informatie en de steekproefuitkomsten per filiaal weer. Deze dataset wordt gebruikt om te illustreren hoe het samenvoegen van informatie kan helpen om nauwkeuriger te schatten.
Overzicht van de beschikbare data en de steekproefuitkomsten per filiaal.
Filiaal | Aantal werknemers | Aantal posten | Aantal steken | Aantal fouten |
---|---|---|---|---|
1 | 5 | 5000 | 300 | 21 |
2 | 4 | 5000 | 300 | 16 |
3 | 4 | 5000 | 300 | 15 |
4 | 3 | 5000 | 300 | 14 |
5 | 4 | 5000 | 300 | 16 |
6 | 3 | 5000 | 150 | 5 |
7 | 2 | 5000 | 150 | 4 |
8 | 2 | 5000 | 150 | 3 |
9 | 2 | 5000 | 150 | 4 |
10 | 3 | 5000 | 150 | 5 |
11 | 3 | 10000 | 50 | 2 |
12 | 5 | 10000 | 50 | 3 |
13 | 3 | 10000 | 50 | 2 |
14 | 2 | 10000 | 50 | 1 |
15 | 1 | 10000 | 50 | 0 |
16 | 1 | 10000 | 15 | 0 |
17 | 1 | 10000 | 15 | 0 |
18 | 1 | 10000 | 15 | 0 |
19 | 3 | 10000 | 15 | 1 |
20 | 5 | 4000 | 15 | 3 |
Figuur 8 op de volgende pagina toont de schattingen van de vier modellen. Het bovenste paneel toont, per model, de 95 procent geloofwaardigheidsintervallen voor de schatting (i.e., de 95 procent meest waarschijnlijke waardes van de posterior-verdeling) van de foutkans in de populatie. De onderste vier panelen tonen de 95 procent geloofwaardigheidsintervallen om de geschatte foutkansen per stratum.
Het bovenste paneel in figuur 8 laat zien dat het eerste model resulteert in een schatting van de foutkans van 3,56 procent en een bovengrens van 4,30 procent. Het geloofwaardigheidsinterval van deze schatting heeft een breedte van 1,40 procent. Het tweede model resulteert in een schatting voor de foutkans van 5,86 procent en een bovengrens van 8,10 procent. Het geloofwaardigheidsinterval heeft een breedte van 4,00 procent. Ten opzichte van het tweede model is het eerste model in dit geval
Posterior-verdelingen en 95 procent-geloofwaardigheidsintervallen voor de foutkansen in de populatie (bovenste paneel) en in de twintig strata (onderste panelen, posterior-verdelingen weggelaten) volgens de vier modellen. De zwarte lijnen tonen respectievelijk de gevonden foutfractie in de populatie (gestreepte lijn) en de gevonden foutfracties per stratum (stippellijn). Voor model 1 is in het bovenste paneel de gewogen methode gebruikt; voor model 2 de momentenmethode.
De onderste vier panelen tonen dat de schattingen van de foutkansen per stratum van eerste twee modellen minder nauwkeurig zijn dan die van het derde en het vierde model. De modellen 1 en 2 hebben elk een gemiddelde nauwkeurigheid van 10,94 procent per stratum. Ter vergelijking: model 3 heeft een gemiddelde nauwkeurigheid van 5,57 procent en model 4 heeft een gemiddelde nauwkeurigheid van 2,87 procent.
De panelen in de rechterkolom laten ook zien dat het samenvoegen van informatie als gevolg heeft dat de schattingen van de foutkansen in de strata naar het populatiegemiddelde getrokken worden, waardoor ze op elkaar gaan lijken. Dat gebeurt in grotere mate voor strata waar weinig is gestoken en in mindere mate voor strata waar veel steken zijn genomen. Neem bijvoorbeeld stratum 20 waarin 15 posten zijn gestoken en de auditor de ‘pech’ had om 3 fouten te vinden. Bij het gebruik van model 1 en model 2 zal de auditor moeten concluderen dat dit stratum een uitzonderlijk hoge foutkans heeft (
In dit artikel zijn twee vormen van voorkennis besproken, die de auditor moet valideren bij het doen van gestratificeerde steekproeven. We hebben daarbij laten zien dat, in vergelijking met huidige methoden, het gebruik van Bayesiaanse hiërarchische modellen kan bijdragen aan het verbeteren van de foutschatting op populatieniveau alsmede aan de schattingen op stratumniveau. Het gebruik van de Bayesiaanse logistische aanpak (model 4) biedt bovendien kansen voor auditors om nog efficiënter met informatie om te gaan, omdat zowel voorkennis als extra data meegenomen kunnen worden in de evaluatie van de steekproef.
Merk op dat in de toepassing van deze modellen veelal prior-verdelingen zijn ingezet die, a priori, alle mogelijke parameterwaardes even waarschijnlijk achten. Het voordeel van deze opzet is dat deze prior-verdelingen relatief gemakkelijk te begrijpen zijn, met als nadeel dat de schattingen voor de foutkansen hierdoor relatief onnauwkeurig en conservatief zijn. In de praktijk is het daarom aan te raden om voorkennis over de foutkans(en) te verzamelen en deze te verwerken in de prior-verdeling. In combinatie met de modelgebaseerde aanpak en de toevoeging van extra data kan zo de winst in efficiëntie volledig transparant gemaakt worden.
Onze hoop is dat, door deze methoden uiteindelijk beschikbaar te maken in de open-source software JASP for Audit (
We spreken hier bewust van voorkennis, omdat de steekproef volgens het audit risk model als gegevensgerichte controle het sluitstuk van de audit is (De Swart et al. 2013).
Het gemiddelde van de beta (α, β) verdeling is α / (α + β) en dus gelijk aan ϕ.
Immers, ν = α + β = 1 + k + 1 + n − k = n + 2.
Voor de schatting van de foutkans in de populatie bepaalt deze methode per stratum eerst een gewicht
waarin
Hierin is
Op basis van de posterior-verdeling met deze parameters kan bijvoorbeeld de meest waarschijnlijke fout in de populatie vastgesteld worden op (
De momentenmethode werkt als volgt. Het eerste moment
waarin
Wederom is hierin
en daarna de variantie voor de nieuwe verdeling als
Merk op dat de gewichten in vergelijking 11 gekwadrateerd worden vanwege
R code in de online appendix: