Artificiële intelligentie

Het einde van de waarheid: AI moet zichzelf bewijzen (of niet)

Kan de wetenschap bewijzen dat AI-modellen de juiste dingen doen om tot uitkomsten te komen? En is dat eigenlijk wel nodig?

Nart Wielaard

In deze serie onderzoeken we de impact van rap opkomende AI op de betrouwbaarheid van informatie. Dat AI een grote invloed heeft op ons informatie-ecosysteem is wel duidelijk, zowel op 'publieksinformatie' op onder meer sociale media, als op professionele informatie. Dat de risico's op misinformatie door AI op zijn minst realistisch zijn, is eveneens geen geheim. Niet voor niets maken wetgevers en beleidsmakers overuren om de impact van AI in goede banen te leiden.

Beeld grafisch AI

Een van de vragen die daarbij opkomt is of (en hoe) we de onderliggende modellen kunnen vertrouwen. Specifieker: Of we kunnen bewijzen dat ze ons vertrouwen waard zijn. Deze vraag om statistische validatie komt op voor bekende Large Language Models (LLM) zoals ChatGPT en Bard. Zoals eerder betoogd in deze serie gaat het hier eigenlijk om niet meer dan 'eenvoudige' statistische tekstvoorspellers. De vraag speelt echter even goed voor AI-toepassingen die veel minder aandacht krijgen dan deze stevig gehypte LLM's.

Dun laagje chroom

Een categorie daarvan is de toepassing van AI in de accountantscontrole. Volgens criticasters in het accountantsvak gaat het hierbij al jaren om niet veel meer dan een dun laagje chroom, vooral bedacht door marketeers van de grote kantoren. Volgens anderen wordt er op de achtergrond wel degelijk serieus aan gewerkt. Voor dit artikel maakt het eigenlijk niet uit wie er gelijk heeft: In beide gevallen is het (nu of straks) nodig om te kunnen toetsen of de modellen wel valide informatie opleveren.

'Volgens criticasters in het accountantsvak gaat het hierbij al jaren om niet veel meer dan een dun laagje chroom.'

We kunnen daarbij verwijzen naar wetenschapsfilosoof Karl Popper, die met zijn falsificatietheorie stelt dat elk model toetsbaar en/of weerlegbaar moet zijn. Dat uitgangspunt zou ook moeten gelden voor de resultaten van AI-modellen: Deze moeten statistisch zijn te verantwoorden. Die statistische verantwoording is ook essentieel voor een goede uitlegbaarheid, een belangrijke pijler in nieuwe wet- en regelgeving rondom AI. Ook in de reacties op deze serie wordt er met enige regelmaat naar de noodzaak tot falsificatie verwezen. Een daarvan stelde vast: "Ook al is de AI-bullshit nog zo snel, de wetenschappelijke waarheid achterhaalt hem wel." In het Latijn spreken we van Quod erat demonstrandum en onder precies die titel geeft dit artikel een aardig inkijkje in de mogelijkheden.

Onderbouwing

Vanwege de complexiteit is de statistische onderbouwing en/of uitlegbaarheid bepaald geen walk in the park. Het is daarbij goed te beseffen dat de noodzaak voor bewijsvoering verschilt per categorie. De Europese AI Act werkt dan ook met een classificatie van AI toepassingen. Voor sommige toepassingen van AI ligt de lat niet zo hoog ten aanzien van toezicht of statistische validatie, omdat de risico’s niet zo groot zijn als het een keer misgaat. Voor meer kritieke toepassingen wordt de lat een stuk hoger gelegd.

'Voor meer kritieke toepassingen wordt de lat een stuk hoger gelegd.'

Specifiek voor de toepassing van AI in de accountantscontrole is hier sprake van een niet te onderschatten uitdaging: De modellen die worden gebruikt om tot een uitspraak over zekerheid te komen over een jaarrekening, vergen immers volgens de huidige vaktechnische standaarden wel een (statistische) onderbouwing; hoe groot is de kans dat een controle door een AI wel/niet dingen ziet?

Broos vertrouwen

Zowel externe toezichthouders als interne afdelingen vaktechniek zijn – zo blijkt uit gesprekken met wat insiders – hier nog voorzichtig. Het vertrouwen in de modellen is broos en er is behoefte aan 'bewijslast'. In het accountantsjargon: We hebben audit evidence nodig.

'Gaat het hierbij om een typisch geval van 'onbekend maakt onbemind'?'

Gaat het hierbij om een typisch geval van 'onbekend maakt onbemind'? Moeten we eerst (veel) ervaring hebben opgedaan voordat het wordt omarmd? Of is er echt een keiharde noodzaak om de statistische onderbouwing tiptop op orde te hebben? Het antwoord op die vraag vergt ook een analyse van hoe ons menselijk brein werkt. Hoe we vertrouwen geven. Vaak is dat niet op basis van informatie, maar op basis van ervaring. U koopt een pak melk en consumeert dat waarschijnlijk zonder u te verdiepen in de kwaliteitsprocessen rondom de productie en logistiek. U kijkt hooguit even naar de houdbaarheidsdatum.

Deurbel

In een column eind oktober op de website iBestuur maakt hoogleraar Sander Klous een intrigerende vergelijking met de historie van de opkomst van de elektrische deurbel, eind negentiende eeuw. We kunnen het ons nu niet voorstellen, maar destijds riep ook dat kritiek op. Want toen we als mens niet langer zelf 'onder de motorkap' konden zien hoe dat werkte zouden we ons eigen denk- en redeneervermogen weleens kunnen verliezen.

'Zou het kunnen dat ChatGPT de deurbel van de 21ste eeuw wordt?'

Niemand twijfelt nu nog aan de deurbel. Het betoog van Klous: "Niet omdat deze de theorie van Popper aankan, maar simpel omdat ervaring in het gebruik leert dat het werkt en vertrouwen oplevert. Zou het kunnen dat ChatGPT de deurbel van de 21ste eeuw wordt? En dat we eerst nog wat vaker belletje moeten lellen?"

Zou dat misschien ook kunnen gelden voor het gebruik van AI in de audit?

Dit is deel 9 van een reeks bijdragen waarin Nart Wielaard op zoek gaat naar waarheid in een digitale wereld en wat dat betekent voor de accountant. Op de komende Accountantsdag (23 november in Leusden) spreekt Nart tijdens twee sessies met experts over AI en het accountantsberoep.

Nart Wielaard werkt op het snijvlak van maatschappij, technologie en bedrijfsleven. Hij brengt complexe ontwikkelingen terug tot eenvoudige en begrijpelijke verhalen en doet dat in de rol van gespreksleider, adviseur en schrijver.

Gerelateerd

10 reacties

Ron Heinen

@Glenn Mungra 15 november 2023

Op de link

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

kun je een Elo-rating vinden van chatbots. Zo zijn er drie benchmarkstests uitgevoerd op 28 verschillende AI-gebaseerde chatbots.

In alle gevallen kwam GPT-4 van OpenAI als beste uit de tests, gevolgd door Claude V1, een chatbot gebaseerd op het Large Language Model van Anthropic.

Glenn Mungra

Ik realiseer mij dat ik door mijn enthousiasme bijna de plank missloeg, omdat het meer ging om de onderkenning dat niet in elke situatie de betrouwbaarheid van het AI hulpmiddel praktisch gezien nodig is.

Glenn Mungra

Dank Nart, voor de meesterlijke manier waarop je de problematiek aankaart van de 2 dimensies 'doen en de waarheid', rondom een houdbaar gebruik van AI in de accountantscontrole.

Ik ben je m.n. dankbaar voor de link naar het artikel 'quod erat demonstrandum'. Maar die zal ik wel nog een paar keer moeten lezen, want het lijkt wel of in elke alinea een verwijzing naar complete theorien en methodologien verscholen zit. Volgens mij gaat het in dat artikel in grote lijnen om een (model voor) systematische evaluatie van het AI systeem vanuit de uitkomsten ervan, waarbij de interne en externe context relevant is.

Voor AI in de accountantscontrole is de externe context misschien nog relevanter, omdat het om evaluatie van de validiteit binnen complexe sociale systemen gaat (met inherent dynamische processen, tijdsverloop en casuistiek.)

En het is niet altijd goed mogelijk om ondubbelzinnig retrospectief te kijken in de interne werking en (het lijkt mij) niet altijd goed mogelijk om achteraf de benodigde toestands-data en de onbetwiste redenenaties daartussen te vinden, en om vergelijkingsmateriaal bij te laten houden t.b.v. een bruikbare evaluatiebasis.

En zonder een onvervangbaar minimum niveau van de 'administratie' van deze 'verzameling data-assets voor de evaluatie van de waarde van de uitkomsten van het systeem' is de geverifieerde waarde van de uitkomsten van het systeem lastig te bepalen, tenzij het systeem zelf een betrouwbare en praktisch bruikbare administratie kan bijhouden.

Pieter de Kok

Hele waardevolle reflectie Nart, voorbij de #chatgpt hype kijken, dit is prachtige technologie, maar dit is natuurlijk niet de #AI waar we het al jaren over hebben.

Voor mij de eerste keer 1993, Hans Verkruijsse, iets over neurale netwerken in de audit. Geen idee destijds.

De hamvraag is mij betreft nog steeds: waar blijft de #AI die “audit als in audit taken” overneemt, de innovatie, de revolutie, waar we zogenaamd écht naar op zoek zijn?

Dit nog maar even los van mijn vraag of we deze vorm van #AI zelf in de audit echt nodig hebben (je gaat ook niet zweefvliegen met een F-16).

Dun laagje chroom. Begrijp deze zorgen wel.

Mijn voorzichtige observatie is dat er nu met verschillende vormen van supervised en unsupervised machine learning (ML) kleine stappen wordt gezet met vormen van ML in de audit.

Let op: Is nog geen #AI.

In hoeverre we “onder de motorkap moeten kijken” en “audit evidence” moeten verzamelen om #Ai weerstand te doorbreken, ben ik zelf meer van de school: met gezond verstand de output beoordelen en gaan proberen . Eerste kleine stapjes. Luxe probleem voor nu.

Nog belangrijker dan de vraag wat wij in de audit met #AI gaan doen is de vraag hoe gaan we de #AI systemen die onze cliënten ontwikkelen (denk aan geavanceerde dynamic pricing modellen) controleren.

Luister eens naar de recente podcast van Mona. Gaan we #AI op #AI zetten, wordt het #AI-algorithme audit en wie heeft die kennis?

En ja, de EU richtlijnen rondom transparantie by design van #AI , boeiend in context van “menselijk denken”.

Ofwel, mooi stuk weer Nart!

jules muis

Ik geloof best dat de wetenschap een nuttige bijdrage kan geven aan AI, niet zo veel nieuws onder de zon; eigenlijk een open deur ( Denk aan, zestig jaar lang, het leerzaam effect voor hen die er voor open staan/stonden, van "the Philosophy of Auditing" ( Mautz cs).

Het is allemaal terug te voeren op de cruciale gemeenplaats dat je deskundigheid, al dan niet verpakt in producten, kunt gebruiken of misbruiken. Voor de maker en/of de gebruiker.
En dat dat principieel niet zal veranderen.

AI is in dat kader geen paradigm shift. Wel een exponentiele, stroomvernellingsuitdaging, met diepere dalen en hogere bergen, om het goede te doen en het kwade te laten.

Met, in vergelijking met nu en gisteren, een exponentieel risk/reward plaatje.

Duidelijkheid via openbaarmaking ( zie reactie @Jan Bouwens) lijkt me een nuttige zij het niet heiligmakende veiligheidsklep.

Met als grote vraag: wat doet de gebruiker van de gebruiker met die informatie?

Troostprijs, 'never a boring day'.

Ron Heinen

Wat betreft de aangehaalde Karl Popper in het artikel met zijn falsificatietheorie hierbij nog een voorbeeld.

Sinds 2020 is het in Nederland verplicht dat beveiligde informatie beschermd is tegen aanvallen met (toekomstige) Quantum Computers via bijvoorbeeld "Store now, decrypt later" aanvallen.

https://www.agconnect.nl/maatschappij/security/overheid-zet-flink-in-op-databescherming-tegen-kwantumgeweld

geeft wat uitleg hierbij.

Het Ndax Quantum Systeem op de Ndix Internet Exchange van de
Universiteit Twente ondersteund onconditionele beveiliging. Op

https://www.ndax.eu/TnMjbSkq72-hHFbiE6be.7z

is hiervan een wiskundig veiligheidsbewijs te vinden.

Deze onconditionele beveiliging is onkraakbaar voor alle computers
nu en in de toekomst, dus ook toekomstige Quantum Computers.

Dit Ndax Quantum Systeem ondersteund ook de
universiteitsstandaard voor bestandsbeveiliging via het .7z bestandsformaat, zie

https://www.ndax.eu/tQ-KKEqK_QHenasPfSqq.pdf

Wat voorbeeld foto's van situaties waarin dit systeem operationeel
is zijn te vinden op

https://photos.app.goo.gl/XRcRX84H48EvhX9i9

Een voorbeeld van een beveiligd bestand kun je downloaden van de link

https://www.ndax.eu/UJd92H5wwuLEatvWUsAE.zip

De .zip file bevat een beveiligde .7z file volgens de universiteitsstandaard en een challenge.

Met de challenge kan een legitieme ontvanger het password van de
beveiligde .7z file genereren.

Conform de falsificatie theorie kan bewezen worden dat deze beveiliging niet werkt door het wachtwoord van de beveiligde .7z file terug te sturen, bijvoorbeeld als reaktie op dit artikel.

Arnout van Kempen

Volledig eens met Joris Joppe.

Daarnaast, een variatie op de insteek die ik bij de hele AI-discussie heb: je kan je druk maken over overschatten van AI, je kan ook ophouden de tegenhanger te overschatten.

Is AI intelligent, creatief, etc? Doe me een lol, alsof de mens zo intelligent en creatief is. Sinds ik ChatGPT een willekeur cartoon van Reddit heb zien analyseren en feilloos de humor heb zien verklaren, ben ik echt helemaal klaar met de narratief dat AI slechts een stochastische papegaai is. Echt, wie het niet wil zien, ziet het dan maar niet.

En als je AI niet zo wetenschappelijk vindt, en dan haal je juist accountantscontrole aan om dat mee te demonstreren, dan ben ik geneigd te testen of ChatGPT daar de humor ook van kan verklaren.

Lees COS 200 eens? Bekijk de realiteit van de accountantscontrole eens? Het is allemaal reuze wetenschappelijk hoor, op een klein detail na: de absolute basis is “professionele oordeelsvorming” van de accountant. Ja, ook die zogenaamd statistische onderbouwingen hangen van de professionele oordeelsvorming aan elkaar. Dat is niet erg, in tegendeel. Maar hou toch eens op met al die pretenties.

Ter illustratie: waar toetsen we met ons allen op? Of de risico-analyse van de accountant correct is opgevolgd. Waar gaan we in 99% van de gevallen compleet aan voorbij? Of die risico-analyse zelf wel deugt.

Maar nee, AI, dat is niks, een dun laagje chroom.

Ron Heinen

Een voorbeeld onderzoek bij het aangehaalde XAI (explainable AI) is ook te vinden op

https://photos.app.goo.gl/KS7b4ahXg5wRV86a9

AI zal steeds meer geintegreerd worden in ICT Systemen.

Het eerder door mij aangehaalde voorbeeld is het gebruik van een Chat interface op zoekmachines, zie ook

https://www.accountant.nl/discussie/opinie/2023/10/accountant-moet-niet-blindvaren-op-ai/

en de reacties daarop.

Zoals met alle informatie welke op je af komt dien je altijd het gezonde verstand te blijven gebruiken.

De wetenschap heeft zeer goede validatie methoden om de correctheid van modellen, zoals een AI-Systeem, te controleren, zie bijvoorbeeld ook

https://www.agconnect.nl/tech-en-toekomst/artificial-intelligence/de-vijf-zussen-van-sally

en de reactie hierop.

Jan Bouwens

Het zal erg moeilijk zijn om wetenschappelijk zeker te zijn van de vraag of AI tot gewenste beslissingen leidt.
Er zijn twee ingrepen nodig om de kans op ongelukken te voorkomen.

In de eerste plaats dienen we voor voldoende aanbieders zorg te dragen. Het voordeel is hiervan dat de AI aanbieders zichzelf moeten reguleren en een “eerlijke” regulering ligt meer voor de hand bij eerlijke concurrentie dan in gevallen van monopolie.

In de tweede plaats ligt er een enorme verantwoordelijkheid bij de gebruiker. Deze zal zich zoals ik al eerder schreef, moeten verantwoorden voor zijn/haar gebruik van AI. Als een beslissing op basis van AI werd genomen dient de beslisser hier transparant over te zijn. Tevens dien deze aan te kunnen tonen waarom hij/zij meent dat de beslissing maatschappelijk verantwoord is.

Joris Joppe

Ik ben ervan overtuigd dat we iets vaker de deurbel moeten gebruiken en als de deur maar vaak genoeg open gaat, dat het vertrouwen dan vanzelf komt.
Verder doe je denk ik de techniek tekort als je het als dun laagje chroom betitelt. Audit is tenslotte niet alleen data-analyse op grote bestanden. Het is ook complexe regelgeving snappen, overtuigende management letters schrijven, contracten interpreteren, etc. Dit zijn allemaal zaken waar je Gen AI je een voorsprong kan geven en ik denk dat de gemiddelde beginnend asssistent dat ook al doet (zo niet, dan is hij/zij wellicht niet ondernemend genoeg). Zeker met de recent door OpenAI geintroduceerde zelf trainbare GPTs, heb je in een handomdraai een bot die getraind is op IFRS of in jouw stijl een management letter schrijft (omdat je de GPT namelijk kunt trainen met je eigen documentatie (en dat alles voor 2 tientjes in de maand). Als je die vruchten niet plukt, doe je de accountancy en jezelf denk ik onrecht aan (al is het onder het mom van vakmanschap).
Dus ja, vaker de deurbel gebruiken alsjeblieft.

Reageren op een artikel kan tot drie maanden na plaatsing. Reageren op dit artikel is daarom niet meer mogelijk.

Aanmelden nieuwsbrief

Ontvang elke werkdag (maandag t/m vrijdag) de laatste nieuwsberichten, opinies en artikelen in uw mailbox.

Bent u NBA-lid? Dan kunt u zich ook aanmelden via uw ledenprofiel op MijnNBA.nl.