Handmatig financiële informatie uit miljoenen jaarverslagen per jaar halen kost een hoop tijd. Daar weten wij alles van. Automatiseren zou een enorme tijdswinst opleveren. Met behulp van AI bijvoorbeeld. Op deze case hebben 5 AI-studenten zich tijdens de Dutch Summer of AI gestort. Een win-winsituatie: voor de studenten een mooie manier om werkervaring op te doen en voor ons om nieuwe ideeën te genereren voor een concrete AI-uitdaging. Ondanks wat hobbels op de weg is deze opdracht meer dan geslaagd. De activa waarde kon in maar liefst 88% van de gevallen worden uitgelezen! Hoe zij dit hebben aangepakt? Dat lees je in deze blog.
De Dutch Summer of AI
Dit jaar werd de eerste editie van de Dutch Summer of AI georganiseerd door ABN AMRO en DEUS. Het doel van het event is om AI meer op de kaart te zetten in Nederland. Maar ook om studenten die een AI-gerelateerde opleiding volgen ervaring op te laten doen in het bedrijfsleven door coaching van ervaren data scientists. Company.info was een van de deelnemende bedrijven naast ABN AMRO, Shell, KPN en DSM. 7 weken lang hadden wij 5 studenten over de (werk)vloer. In die periode kregen zij een inkijkje in welke rol AI bij Company.info speelt. Door een workshop over de uitdagingen van AI modellen naar productie brengen te geven bijvoorbeeld. Maar ook door aan een opdracht te werken met veel, complexe data.
De opdracht
De opdracht waar de studenten bij Company.info aan werkten, luidde als volgt:
Haal met behulp van AI financiële informatie als de omzet, winst en het aantal medewerkers van een bedrijf uit een grote hoeveelheid jaarverslagen.
Deze informatie halen we nu vooral nog handmatig uit de genoemde documenten. Gemiddeld kost dit 2 minuten per document. Een tijdrovende klus dus als je weet dat we miljoenen van dit soort documenten per jaar moeten doorspitten. Een geautomatiseerde oplossing voor deze case was dus meer dan welkom!
Weinig uniformiteit maakte de opdracht lastig
Dat dit nog niet zo’n makkelijke opdracht was, werd snel duidelijk. De documenten waren weinig uniform:
De meeste documenten waren pdf-documenten, maar sommigen waren geëxporteerd als afbeelding.
De ene pdf had een tekst-layer waardoor tekst makkelijk kon worden uitlezen, de ander was een gescand document.
In het ene verslag waren tabellen opgenomen, in het andere alleen tekst.
In de verslagen waar tabellen in waren opgenomen waren getallen in het ene document direct te vinden, maar in het andere document moesten die nog vermenigvuldigd worden (x1000).
Veel issues dus, waardoor we besloten de opdracht wat makkelijker te maken. We verschoven de focus naar de meest voorkomende formaten. De studenten moesten hier met AI de activa uithalen.
Simpele en geavanceerde technieken?
Dit hebben de studenten stapsgewijs gedaan. Eerst keken zij naar verschillende OCR (optical character recognition), naar Python libraries en ze hebben de kwaliteit vergeleken. Zo konden zij gescande documenten omzetten naar tekst. Daarna hebben ze een classifier getraind om verschillende type verslagen van elkaar te kunnen onderscheiden op basis van tekstuele kenmerken. Hiermee konden ze de veel voorkomende formaten eruit pikken.
Daarna onderzochten zij op welke manier ze het beste de waarde uit de tekst konden halen. Hiervoor gebruikten zij simpele, maar ook enorm geavanceerde technieken. De deep-learning aanpak is daar een van. Die wordt vaak toegepast om producten en prijzen uit bonnetjes te halen. Helaas was er niet voldoende tijd om hiermee de diepte in te gaan.
De activa waarde kon in 88% van de gevallen worden vastgesteld
Terug naar ‘keep it simple’ dus. Op basis van een simpele methode hebben de studenten uiteindelijk een AI pijplijn gebouwd die identificeert waar in het document de activa waarde staat. Met de OCR technieken wordt die activa waarde er vervolgens uit gehaald. Dat lukte in maar liefst 88% van de gevallen! Een geslaagd project dus.
“Fantastisch om te zien hoe wij enerzijds deze groep ambitieuze studenten naar een volgend niveau hebben kunnen coachen en zij ons anderzijds geholpen hebben met een concrete business uitdaging!”
Een kleine, maar goede stap in de juiste richting
We zijn enorm trots dat de studenten dit resultaat hebben bereikt. Hun werk heeft ons laten zien wat we precies hebben aan data en dat hier zeker waarde in zit. Het is misschien een kleine stap, maar wel een goede in de juiste richting. In de toekomst zouden we dit kunnen uitbreiden om meer data uit verslagen te halen. En wellicht kunnen we met meer tijd, de meerwaarde van de meer geavanceerde methodes onderzoeken. Hoe we dit precies gaan inzetten moet nog blijken. Er is in ieder geval nog genoeg winst te behalen!