Corresponding author: Marcia Fissette ( m.fissette@gmail.com ) Academic editor: Chris Knoops
© 2018 Marcia Fissette, Bernard Veldkamp, Theo de Vries.
This is an open access article distributed under the terms of the Creative Commons Attribution License (CC BY-NC-ND 4.0), which permits to copy and distribute the article for non-commercial purposes, provided that the article is not altered or modified and the original author and source are credited.
Citation:
Fissette M, Veldkamp B, de Vries T (2018) Fraudedetectie door tekstanalyse van jaarverslagen. Maandblad Voor Accountancy en Bedrijfseconomie 92(5/6): 147-155. https://doi.org/10.5117/mab.92.25968
|
Innovatieve fraudedetectiemethoden zijn nodig om aanwijzingen van fraude op tijd te signaleren en verdere schade te voorkomen. De focus van fraudeonderzoek in jaarverslagen is vaak gericht op de numerieke informatie. Jaarverslagen bevatten tekstuele informatie die ook indicaties van fraude bevat. Dit artikel beschrijft het onderzoek naar een methode voor tekstanalyse die gebruik maakt van machine learning om jaarverslagen automatisch te classificeren in de twee categorieën ‘fraude’ en ‘geen fraude’.
Het effect van fraude in het jaarverslag is groot. Naast enorme financiële schade is er sprake van reputatieschade voor het bedrijf en worden andere partijen zoals de accountants, controllers, advocaten en wederpartijen meegezogen. Om schade in te perken of te voorkomen is het van belang om fraude op tijd te signaleren. Behalve numerieke informatie bevat een jaarverslag tekstuele informatie. Deze teksten alleen al kunnen met grote waarschijnlijkheid de aan- of afwezigheid van fraude in jaarverslagen signaleren. De hier beschreven methode is relevant omdat er geen aparte financiële analyse benodigd is. Pas als er vermoeden van fraude is zal die, indien nodig, moeten worden ingezet.
Fraude is een wereldwijd fenomeen dat kan voorkomen in alle soorten bedrijven. Zo waren er in het verleden grote schandalen bij energiebedrijf Enron in de VS, zuivel- en voedselproducent Parmalat in Italië en optica- en reprografiebedrijf Olympus in Japan. Hoewel de totale omvang van de kosten van fraude wereldwijd niet met voldoende precisie kan worden berekend, geven schattingen aan dat fraude resulteert in het verlies van 5% van de uitgaven van organisaties (
Om financiële fraude op te sporen zijn diverse methoden ontwikkeld. De focus ligt daarbij op kwantitatieve informatie en vooraf gedefinieerde risicofactoren. Een verscheidenheid aan financiële ratio’s is ontwikkeld om de financiële positie van een bedrijf te meten (
De afgelopen jaren is er in het wetenschappelijk onderzoek een verschuiving te zien van de focus op kwantitatieve informatie en risicofactoren naar de tekstuele informatie (
De toename van tekstuele informatie gaat hand in hand met de toename van computercapaciteit. Deze heeft de mogelijkheden voor geautomatiseerde tekstanalyse sterk verbeterd. Computers kunnen een veel hoger aantal jaarverslagen verwerken in kortere tijd dan mensen. Het handmatig analyseren van teksten is tijdrovend. Computers bieden daarom een uitkomst. Hoewel computers niet zoals mensen de tekst zullen begrijpen, zijn zij wel in staat om de abstracte taalkundige informatie te extraheren. Voor mensen is het juist moeilijk om de feitelijke inhoud van een tekst te negeren en alleen te focussen op hoe iets wordt gezegd (
Door de computercapaciteit, het belang van tekstuele informatie en de mogelijke toegevoegde waarde ten opzichte van de financiële gegevens, is het interessant om de mogelijkheden van tekstanalyse voor het detecteren van indicaties van fraude in jaarverslagen van bedrijven zo breed mogelijk, wereldwijd, te onderzoeken.
Paragraaf 2 geeft een overzicht van eerder onderzoek naar fraudedetectie in jaarverslagen en fraude en leugendetectie door middel van tekstanalyse. Paragraaf 3 beschrijft de onderzoeksmethode. De resultaten van het onderzoek worden weergegeven in paragraaf 4. Ten slotte geeft paragraaf 5 de conclusie en een discussie van de resultaten.
Modellen voor fraudedetectie zijn veelal gebaseerd op de prikkels en risicofactoren die zijn geïdentificeerd in fraudeonderzoeken.
Onderzoekers hebben de risicofactoren verwerkt in fraudedetectiemodellen. Dergelijke modellen bevatten bijvoorbeeld variabelen vanuit de jaarrekening die de financiële conditie meten (
De hoeveelheid tekst in het jaarverslag is de afgelopen decennia flink toegenomen (
De toename in de hoeveelheid tekst bevordert de mogelijkheid om tekst te gebruiken in fraudedetectieonderzoek. Voor de ontwikkeling van fraudedetectiemethoden die gebruik maken van tekst kan worden geprofiteerd van de kennis die is opgedaan in onderzoeken naar de detectie van leugens. Net als bij fraude is bij liegen sprake van een opzettelijke poging om anderen te misleiden.
Een mogelijk probleem bij het toepassen van methoden uit het leugendetectieonderzoek op financiële verslagen is dat dit type document door meerdere personen kan zijn geschreven waarbij mogelijk niet iedereen direct betrokken is bij de fraude. De schrijver van de verslagen is misschien niet altijd degene die bewust liegt. Desalniettemin hebben onderzoekers de technieken voor leugendetectie getest voor de detectie van fraude in 10-K jaarverslagen (
voor het onderzoek beschreven in dit artikel is een aantal text mining-modellen ontwikkeld. Een dergelijk model kan worden opgesplitst in drie delen. Het eerste deel is de dataset bestaande uit tekstuele documenten. De dataset voor dit onderzoek wordt beschreven in paragraaf 3.1. Ten tweede is een procedure nodig voor het omzetten van de tekst naar een gestructureerde representatie die een computer kan verwerken. Dit wordt feature extraction and selection genoemd. Paragraaf 3.2 gaat hier kort op in. Ten slotte kan de gestructureerde representatie aan een machine learning-algoritme worden gegeven die patronen kan leren. Op basis van de patronen kan een algoritme bepalen tot welke categorie een document behoort. Voor fraudedetectie worden twee categorieën onderscheiden: ‘fraude’ en ‘geen fraude’. In paragraaf 3.3 worden de machine learning-algoritmen die gebruikt zijn in dit onderzoek toegelicht.
De dataset bestaat uit jaarverslagen van bedrijven wereldwijd, alle Engelstalig, waarvan het merendeel jaarverslagen betreft van bedrijven die op Amerikaanse beurzen genoteerd zijn. Voor de ontwikkeling van een model dat jaarverslagen toekent aan de categorieën ‘fraude’ en ‘geen fraude’, zijn jaarverslagen nodig waarvan bekend is dat zij in een van deze categorieën vallen. Welke jaarverslagen fraude bevatten is bepaald op basis van nieuwsberichten en de Accounting and Auditing Enforcement Releases (AAER’s) die gepubliceerd worden door de Securities and Exchange Commission (SEC), de Amerikaanse beurswaakhond. Fraudezaken worden alleen geselecteerd uit nieuwsberichten wanneer deze worden beschreven in meerdere media en als onderzoek heeft aangetoond dat er sprake was van fraude. Zaken die nog worden onderzocht of waarbij de conclusie fraude niet kan worden getrokken worden niet meegenomen. De AAER’s bevatten alle sancties van de SEC, niet alleen die gerelateerd aan fraude. Voor het bepalen van frauduleuze jaarverslagen zijn alleen de AAER’s geselecteerd waarin het woord ‘fraud’ en een term die wijst op een jaarverslag, zoals ‘10-K’, ‘20-F’
Voor elk jaarverslag in de categorie ‘fraude’ zijn ten minste drie jaarverslagen verzameld van gelijksoortige bedrijven, waarvoor geen frauduleuze activiteiten bekend zijn. Wanneer fraude niet gedetecteerd is betekent dat niet dat er geen fraude heeft plaatsgevonden. In dit onderzoek wordt het principe ‘onschuldig tot het tegendeel bewezen is’ gevolgd. De ‘fraude’- en ‘geen fraude’-jaarverslagen worden gematcht op basis van het jaar waarop het jaarverslag betrekking heeft, de sector waarin het bedrijf werkzaam is en het aantal medewerkers als indicatie voor de omvang van het bedrijf. Vanwege de aanname dat er meer bedrijven niet betrokken zijn bij fraude dan wel, zijn voor elk frauduleus jaarverslag meerdere niet-frauduleuze jaarverslagen geselecteerd. Het totaal aantal jaarverslagen in de dataset is 1.727. Hiervan vallen er 402 in de categorie ‘fraude’ en 1.325 in de categorie ‘geen fraude’. De geselecteerde jaarverslagen gaan over de periode van 1999 tot en met 2011. Door de goede vastlegging en openbaar maken van sancties en jaarverslagen door de SEC bestaat het merendeel van de dataset uit jaarverslagen van Amerikaanse en niet-Amerikaanse bedrijven die op Amerikaanse beurzen genoteerd zijn.
Het onderzoek beschreven in dit artikel wordt uitgevoerd met de management discussion and analysis-sectie (MD&A) uit de jaarverslagen. Dit is het meest gelezen deel van het jaarverslag (
Een machine learning-model heeft een gestructureerde representatie van de data nodig om patronen in deze data te kunnen leren. Het omzetten van tekst naar een gestructureerde representatie die een computer kan begrijpen wordt feature extraction and selection genoemd. Er bestaat een verscheidenheid aan features die uit tekst kunnen worden bepaald. Voor het onderzoek beschreven in dit artikel zijn de features bepaald die in eerdere onderzoeken naar fraudedetectie in tekst en leugendetectie succesvol waren.
In essentie is tekst een aaneenschakeling van woorden. Het is daarom begrijpelijk dat de meest gebruikte feature in text mining gebaseerd is op het tellen van individuele woorden, ‘word unigrams’ genoemd (
Naast het tellen van de individuele woorden bestaan er features die gebaseerd zijn op formules of het tellen van woordcategorieën. De formules beschrijven de teksten op verschillende manieren. Zo bestaat er een formule die de lexicale diversiteit berekent. De lexicale diversiteit drukt uit hoeveel verschillende woorden gebruikt worden in de tekst. De tekstcomplexiteit kan gemeten worden aan de hand van de formules die bestaan uit de gemiddelde zinslengte, het percentage lange zinnen en het percentage complexe woorden dat voorkomt in de tekst. Formules voor leesbaarheid van de tekst berekenen veelal hoeveel jaar onderwijs iemand nodig heeft om de tekst te kunnen begrijpen. De grammaticale features vatten de soorten woordgroepen die voorkomen in de tekst of de constructie van de zinnen samen. De woordgroepen bestaan uit woorden met grammaticale kenmerken die overeenkomen. Voorbeelden hiervan zijn werkwoorden en zelfstandig naamwoorden. Ten slotte is er een categorie met psychologische features. Sinds het begin van psychologisch onderzoek bestaat het idee dat mensen gedachten en intenties uitdrukken via taal (
Machine learning is een computer science-methode en een breed onderzoeksveld binnen kunstmatige intelligentie dat zich bezig houdt met de ontwikkeling van algoritmen en technieken waarmee computers kunnen leren (Wikipedia). In dit onderzoek leert een machine learning-algoritme op basis van de features wanneer een jaarverslag aangemerkt kan worden als frauduleus of niet-frauduleus.
De ontwikkeling van een machine learning-model vereist twee datasets: een dataset voor het ontwikkelen van het model, de ontwikkelingsset, en een dataset waarop de prestaties van het model kunnen worden getest, de validatieset. Daarom wordt de totale dataset beschreven in paragraaf 3.1 willekeurig verdeeld in een ontwikkelingsset en een validatieset. De ontwikkelingsset omvat 70% van de gegevens, terwijl de resterende 30% bewaard wordt om de prestaties van het definitieve model te evalueren, nadat de ontwikkeling is voltooid.
Een machine learning-algoritme heeft features nodig als input. Voor dit onderzoek zijn op de ontwikkelingsset experimenten uitgevoerd met verschillende combinaties van de features zoals beschreven in paragraaf 3.2. Er ontstaan daardoor meerdere modellen. Het basismodel gebruikt alleen de word unigrams als input voor de machine learning-algoritmen. De andere categorieën features, ‘beschrijvend’, ‘tekstcomplexiteit’, ‘leesbaarheid’, ‘grammatica’ en ‘psychologisch’, worden hier om de beurt aan toegevoegd om vast te stellen of deze categorieën informatie toevoegen aan het basismodel dat alleen gebruik maakt van de unigrams. De beste resultaten in deze ontwikkelingsfase worden vervolgens getest op de validatieset.
Er bestaat een verscheidenheid aan machine learning-algoritmen. Voor dit onderzoek gebruiken we twee machine learning-algoritmen die in eerdere text mining-onderzoeken succesvol waren, te weten Naive Bayes (NB) en Support Vector Machine (SVM) (
Deze paragraaf beschrijft de resultaten van de machine learning-modellen. Ten eerste worden de prestatiematen toegelicht waarin de resultaten van de modellen worden uitgedrukt. Vervolgens worden de resultaten die zijn verkregen op de ontwikkelingsset gegeven. De machine learning-modellen die het beste presteerden op deze ontwikkelingsset, zijn vervolgens toegepast op de validatieset. De paragraaf eindigt met de resultaten die zijn behaald op deze validatieset. De betekenis van deze resultaten wordt verder besproken in paragraaf 5, de conclusie.
Voorbeeld van een eenvoudige Support Vector Machine (SVM) die twee categorieën van elkaar scheidt.
De prestaties van de modellen worden gemeten door middel van zes maten die uitdrukken hoe goed een machine learning-model de frauduleuze en niet-frauduleuze jaarverslagen kan detecteren. De meest gebruikte maat is nauwkeurigheid (‘accuracy’), die het percentage jaarverslagen dat wordt toegekend aan de juiste categorie aangeeft. De tweede en derde maten zijn ‘recall’ en ‘precision’. Recall geeft het percentage jaarverslagen dat toegewezen is aan de categorie ‘geen fraude’ waarbij ook daadwerkelijk sprake is van ‘geen fraude’. Precision is het percentage jaarverslagen toegewezen aan de categorie ‘fraude’ dat ook daadwerkelijk frauduleus is. Recall en precision zijn maten die aangeven in hoeverre op de uitkomst van het model kan worden vertrouwd. Een vierde maat, de F1-score, combineert recall en precision als één waarde die de betrouwbaarheid van het model weergeeft. De vijfde maat, ‘sensitivity’, berekent het percentage frauduleuze jaarverslagen dat door het model correct wordt aangemerkt als frauduleus. Op een vergelijkbare manier meet de zesde maat, ‘specificity’, het percentage jaarverslagen in de categorie ‘geen fraude’ dat het model correct classificeert.
Tijdens het onderzoek zijn meerdere machine learning-modellen ontwikkeld die gebruik maken van verschillende combinaties van features. De modellen die gebruik maken van het tellen van woorden (unigrams) vormen de basis. Deze modellen zijn vervolgens uitgebreid met de andere features onderverdeeld in de categorieën ‘beschrijvend’, ‘tekstcomplexiteit’, ‘leesbaarheid’, ‘grammatica’ en ‘psychologisch’. zoals genoemd in paragraaf 3.2. De beste resultaten op de ontwikkelingsset worden behaald door de modellen gebaseerd op unigrams en bigrams als features. Deze modellen maken dus alleen gebruik van het tellen van woorden. De andere features genoemd in paragraaf 3.2, zoals de features die de tekst beschrijven, de complexiteit en leesbaarheid meten of de grammaticale en psychologische informatie weergeven voegden geen informatie toe aan de modellen die alleen gebaseerd zijn op het tellen van woorden. De drie modellen die de beste resultaten behaalden tijdens de ontwikkeling zijn het NB-model met de top 10.000 unigrams, het SVM-model met de top 10.000 unigrams gecombineerd met de top 10.000 bigrams en een SVM-model met een top 30.000 van unigrams en bigrams. Deze drie modellen behaalden allen een accuracy van 89% op de ontwikkelingsset. De overige vijf prestatiematen varieerden voor de deze modellen. Het SVM-model met 30.000 features behaalde de hoogste ‘specificity’, ‘precision’ en F1-score, maar de laagste ‘sensitivity’ en ‘recall’. Het NB-model behaalde de hoogste ‘sensitivity’ en ‘recall, maar de laagste ‘precision’ en F1-score.
De drie modellen die de beste resultaten behaalden op de ontwikkelingsset zijn toegepast op de validatieset. Tabel
Overzicht van de resultaten op de validatieset voor de drie modellen met de beste resultaten op de ontwikkelingsset.
Model | Accuracy | Sensitivity | Specificity | Precision | Recall | F1 |
NB 10.000 | 0,89 | 0,72 | 0,95 | 0,81 | 0,92 | 0,86 |
SVM 20.000 | 0,90 | 0,60 | 0,99 | 0,95 | 0,89 | 0,92 |
SVM 30.000 | 0,87 | 0,45 | 1,00 | 0,98 | 0,86 | 0,91 |
De resultaten van het onderzoek laten zien dat het mogelijk is om indicaties van fraude in jaarverslagen te herkennen door middel van tekstanalyse. Deze paragraaf gaat eerst dieper in op de interpretatie van de uitkomsten van de prestatiematen. Vervolgens wordt het ontbreken van de toegevoegde waarde van de features die gebaseerd zijn op het tellen van woordcategorieën en formules besproken.
Het SVM-model met 20.000 unigrams en bigrams laat met de hoogste scores op accuracy, precision en de F1-score het beste resultaat zien op de validatieset. Het NB-model met 10.000 unigrams scoort echter hoger op sensitivity en recall. Een hogere sensitivity betekent dat het model goed is in het detecteren van de frauduleuze jaarverslagen. Een hoge recall geeft aan dat, als het model een jaarverslag toewijst aan de categorie ‘geen fraude’, dit resultaat betrouwbaar is. Als we ervoor kiezen om niet verder te gaan met het onderzoeken van jaarverslagen die door het NB-model worden toegewezen aan de categorie ‘geen fraude’, dan zouden we weinig fraudegevallen missen. De precision van het NB-model is echter iets lager. Het model wijst jaarverslagen toe aan de fraudecategorie die niet frauduleus zijn. Wanneer de keuze wordt gemaakt om de jaarverslagen die toegewezen zijn aan de categorie ‘fraude’ verder te onderzoeken worden ook deze niet-frauduleuze jaarverslagen onderworpen aan verder onderzoek, wat extra kosten met zich meebrengt. Dit maakt het NB-model wellicht niet het meest kosteneffectief, maar omdat het model het minste aantal fraudegevallen mist kan deze worden beschouwd als het meest veilige model om op te vertrouwen. Het SVM-model met 30.000 unigrams en bigrams als input heeft de laagste sensitivity en detecteert dus het minste aantal fraudegevallen. De hoge mate van precisie laat echter zien dat als dit model een jaarverslag classificeert als frauduleus het model het hoogstwaarschijnlijk bij het juiste eind heeft. Geen van de features die gebaseerd zijn op het tellen van woordcategorieën of formules voegt informatie toe aan de NB- of SVM-modellen voor het detecteren van fraude in jaarverslagen van bedrijven wereldwijd, hoewel deze taalkundige kenmerken in onderzoeken naar fraude of leugendetectie relevant zijn bevonden. Er zijn meerdere redenen waarom deze kenmerken het resultaat van de machine learning-modellen die gebruik maken van de unigrams niet verbeteren. Ten eerste kijken de eerdere onderzoeken naar statistische verschillen. Echter, features met statistische significantie hoeven niet relevant te zijn voor een machine learning-algoritme (
Wij willen er op wijzen dat voor geen van de modellen bekend is wat de door het machine learning-algoritme gevonden patronen en woorden zijn om te bepalen of een jaarverslag wordt geclassificeerd als ‘fraude’ of als ‘geen fraude’. Benadrukt moet worden dat de modellen beschreven in dit artikel geen definitieve conclusie geven in de vaststelling van fraude. De classificatiebeslissing van een model moet als, ‘red flag’, worden gebruikt om, in geval van fraude, een bedrijf en zijn jaarverslag verder te onderzoeken. De beschreven methode leent zich uitstekend voor het screenen van jaarverslagen in kort tijdsbestek. De ontwikkelde methode is geschikt om tools te ontwikkelen die in de praktijk snel inzetbaar zijn, ook indien jaarverslagen niet direct digitaal beschikbaar zijn. Kosten, verbonden aan het beoordelen van jaarverslagen, worden daardoor gereduceerd.
Dr. Marcia Fissette promoveerde aan de Universiteit Twente terwijl zij werkzaam was bij KPMG Forensic Technology. Het promotieonderzoek is gericht op fraudedetectie in jaarverslagen door middel van tekstanalyse.
Prof. dr. Bernard Veldkamp is hoogleraar onderzoeksmethodologie en data analytics aan de Universiteit Twente. Hij specialiseert zich in social data analytics en computerized assessment.
Prof. dr. T. de Vries is verbonden aan de Universiteit van Twente. Zijn belangstelling richt zich op het gebruik van nieuwe datatechnieken om fraude en gezondheidsaandoeningen te detecteren.
Dit artikel is gebaseerd op het proefschrift ‘Text mining to detect indications of fraud in annual reports worldwide’ geschreven door Marcia Fissette onder supervisie van Bernard Veldkamp en Theo de Vries. Het volledig proefschrift is te vinden op https://research.utwente.nl/en/publications/text-mining-to-detect-indications-of-fraud-in-annual-reports-worl.
Form10-K is het formulier waarop beursgenoteerde Amerikaanse bedrijven het jaarverslag rapporteren aan de beurswaakhond, de Securities and Exchange Commisson (SEC).
Form 20-F is het formulier waarop niet-Amerikaanse bedrijven die genoteerd zijn aan een Amerikaanse beurs het jaarverslag rapporteren aan de beurswaakhond, de Securities and Exchange Commission (SEC).