Artikel, Nieuws

AI-studenten verbeteren hun skills bij Company.info

Leestijd: 5 minuten

Handmatig financiële informatie uit miljoenen jaarverslagen per jaar halen kost een hoop tijd. Daar weten wij alles van. Automatiseren zou een enorme tijdswinst opleveren. Met behulp van AI bijvoorbeeld. Op deze case hebben 5 AI-studenten zich tijdens de Dutch Summer of AI gestort. Een win-winsituatie: voor de studenten een mooie manier om werkervaring op te doen en voor ons om nieuwe ideeën te genereren voor een concrete AI-uitdaging. Ondanks wat hobbels op de weg is deze opdracht meer dan geslaagd. De activa waarde kon in maar liefst 88% van de gevallen worden uitgelezen! Hoe zij dit hebben aangepakt? Dat lees je in deze blog.

De Dutch Summer of AI

Dit jaar werd de eerste editie van de Dutch Summer of AI georganiseerd door ABN AMRO en DEUS. Het doel van het event is om AI meer op de kaart te zetten in Nederland. Maar ook om studenten die een AI-gerelateerde opleiding volgen ervaring op te laten doen in het bedrijfsleven door coaching van ervaren data scientists. Company.info was een van de deelnemende bedrijven naast ABN AMRO, Shell, KPN en DSM. 7 weken lang hadden wij 5 studenten over de (werk)vloer. In die periode kregen zij een inkijkje in welke rol AI bij Company.info speelt. Door een workshop over de uitdagingen van AI modellen naar productie brengen te geven bijvoorbeeld. Maar ook door aan een opdracht te werken met veel, complexe data.

De opdracht

De opdracht waar de studenten bij Company.info aan werkten, luidde als volgt:

Haal met behulp van AI financiële informatie als de omzet, winst en het aantal medewerkers van een bedrijf uit een grote hoeveelheid jaarverslagen.

Deze informatie halen we nu vooral nog handmatig uit de genoemde documenten. Gemiddeld kost dit 2 minuten per document. Een tijdrovende klus dus als je weet dat we miljoenen van dit soort documenten per jaar moeten doorspitten. Een geautomatiseerde oplossing voor deze case was dus meer dan welkom!

Weinig uniformiteit maakte de opdracht lastig

Dat dit nog niet zo’n makkelijke opdracht was, werd snel duidelijk. De documenten waren weinig uniform:

  • De meeste documenten waren pdf-documenten, maar sommigen waren geëxporteerd als afbeelding.

  • De ene pdf had een tekst-layer waardoor tekst makkelijk kon worden uitlezen, de ander was een gescand document.

  • In het ene verslag waren tabellen opgenomen, in het andere alleen tekst.

  • In de verslagen waar tabellen in waren opgenomen waren getallen in het ene document direct te vinden, maar in het andere document moesten die nog vermenigvuldigd worden (x1000).

Veel issues dus, waardoor we besloten de opdracht wat makkelijker te maken. We verschoven de focus naar de meest voorkomende formaten. De studenten moesten hier met AI de activa uithalen.

Simpele en geavanceerde technieken?

Dit hebben de studenten stapsgewijs gedaan. Eerst keken zij naar verschillende OCR (optical character recognition), naar Python libraries en ze hebben de kwaliteit vergeleken. Zo konden zij gescande documenten omzetten naar tekst. Daarna hebben ze een classifier getraind om verschillende type verslagen van elkaar te kunnen onderscheiden op basis van tekstuele kenmerken. Hiermee konden ze de veel voorkomende formaten eruit pikken.

 

Daarna onderzochten zij op welke manier ze het beste de waarde uit de tekst konden halen. Hiervoor gebruikten zij simpele, maar ook enorm geavanceerde technieken. De deep-learning aanpak is daar een van. Die wordt vaak toegepast om producten en prijzen uit bonnetjes te halen. Helaas was er niet voldoende tijd om hiermee de diepte in te gaan.

De activa waarde kon in 88% van de gevallen worden vastgesteld

Terug naar ‘keep it simple’ dus. Op basis van een simpele methode hebben de studenten uiteindelijk een AI pijplijn gebouwd die identificeert waar in het document de activa waarde staat. Met de OCR technieken wordt die activa waarde er vervolgens uit gehaald. Dat lukte in maar liefst 88% van de gevallen! Een geslaagd project dus.

“Fantastisch om te zien hoe wij enerzijds deze groep ambitieuze studenten naar een volgend niveau hebben kunnen coachen en zij ons anderzijds geholpen hebben met een concrete business uitdaging!”

Henk Pijper
CTO bij Company.info

Een kleine, maar goede stap in de juiste richting

We zijn enorm trots dat de studenten dit resultaat hebben bereikt. Hun werk heeft ons laten zien wat we precies hebben aan data en dat hier zeker waarde in zit. Het is misschien een kleine stap, maar wel een goede in de juiste richting. In de toekomst zouden we dit kunnen uitbreiden om meer data uit verslagen te halen. En wellicht kunnen we met meer tijd, de meerwaarde van de meer geavanceerde methodes onderzoeken. Hoe we dit precies gaan inzetten moet nog blijken. Er is in ieder geval nog genoeg winst te behalen!

Volgend artikel

Compliance, Klantverhaal

Digitalisering in de haven zorgt voor enorme toegevoegde waarde

Portbase staat voor een veilige en digitale haven. De digitaliseringsslag in het controleproces bij de aanmeldprocedure voor het voormelden van een partij voor import of export heeft een enorme tijdswinst opgeleverd. De API’s van Company.info helpen hierbij. Portbase levert hiermee een toegevoegde waarde voor de hele haven community van maar liefst €375 miljoen. Martijn Hordijk, Sales Manager bij Portbase, vertelt over het proces en de resultaten.