Artificiële intelligentie 13 november 2023

Het einde van de waarheid: AI moet zichzelf bewijzen (of niet)

Leestijd van ongeveer 4 minuten 0 reacties

Kan de wetenschap bewijzen dat AI-modellen de juiste dingen doen om tot uitkomsten te komen? En is dat eigenlijk wel nodig?

Nart Wielaard

In deze serie onderzoeken we de impact van rap opkomende AI op de betrouwbaarheid van informatie. Dat AI een grote invloed heeft op ons informatie-ecosysteem is wel duidelijk, zowel op 'publieksinformatie' op onder meer sociale media, als op professionele informatie. Dat de risico's op misinformatie door AI op zijn minst realistisch zijn, is eveneens geen geheim. Niet voor niets maken wetgevers en beleidsmakers overuren om de impact van AI in goede banen te leiden.

Beeld grafisch AI

Een van de vragen die daarbij opkomt is of (en hoe) we de onderliggende modellen kunnen vertrouwen. Specifieker: Of we kunnen bewijzen dat ze ons vertrouwen waard zijn. Deze vraag om statistische validatie komt op voor bekende Large Language Models (LLM) zoals ChatGPT en Bard. Zoals eerder betoogd in deze serie gaat het hier eigenlijk om niet meer dan 'eenvoudige' statistische tekstvoorspellers. De vraag speelt echter even goed voor AI-toepassingen die veel minder aandacht krijgen dan deze stevig gehypte LLM's.

Dun laagje chroom

Een categorie daarvan is de toepassing van AI in de accountantscontrole. Volgens criticasters in het accountantsvak gaat het hierbij al jaren om niet veel meer dan een dun laagje chroom, vooral bedacht door marketeers van de grote kantoren. Volgens anderen wordt er op de achtergrond wel degelijk serieus aan gewerkt. Voor dit artikel maakt het eigenlijk niet uit wie er gelijk heeft: In beide gevallen is het (nu of straks) nodig om te kunnen toetsen of de modellen wel valide informatie opleveren.

'Volgens criticasters in het accountantsvak gaat het hierbij al jaren om niet veel meer dan een dun laagje chroom.'

We kunnen daarbij verwijzen naar wetenschapsfilosoof Karl Popper, die met zijn falsificatietheorie stelt dat elk model toetsbaar en/of weerlegbaar moet zijn. Dat uitgangspunt zou ook moeten gelden voor de resultaten van AI-modellen: Deze moeten statistisch zijn te verantwoorden. Die statistische verantwoording is ook essentieel voor een goede uitlegbaarheid, een belangrijke pijler in nieuwe wet- en regelgeving rondom AI. Ook in de reacties op deze serie wordt er met enige regelmaat naar de noodzaak tot falsificatie verwezen. Een daarvan stelde vast: "Ook al is de AI-bullshit nog zo snel, de wetenschappelijke waarheid achterhaalt hem wel." In het Latijn spreken we van Quod erat demonstrandum en onder precies die titel geeft dit artikel een aardig inkijkje in de mogelijkheden.

Onderbouwing

Vanwege de complexiteit is de statistische onderbouwing en/of uitlegbaarheid bepaald geen walk in the park. Het is daarbij goed te beseffen dat de noodzaak voor bewijsvoering verschilt per categorie. De Europese AI Act werkt dan ook met een classificatie van AI toepassingen. Voor sommige toepassingen van AI ligt de lat niet zo hoog ten aanzien van toezicht of statistische validatie, omdat de risico’s niet zo groot zijn als het een keer misgaat. Voor meer kritieke toepassingen wordt de lat een stuk hoger gelegd.

'Voor meer kritieke toepassingen wordt de lat een stuk hoger gelegd.'

Specifiek voor de toepassing van AI in de accountantscontrole is hier sprake van een niet te onderschatten uitdaging: De modellen die worden gebruikt om tot een uitspraak over zekerheid te komen over een jaarrekening, vergen immers volgens de huidige vaktechnische standaarden wel een (statistische) onderbouwing; hoe groot is de kans dat een controle door een AI wel/niet dingen ziet?

Broos vertrouwen

Zowel externe toezichthouders als interne afdelingen vaktechniek zijn – zo blijkt uit gesprekken met wat insiders – hier nog voorzichtig. Het vertrouwen in de modellen is broos en er is behoefte aan 'bewijslast'. In het accountantsjargon: We hebben audit evidence nodig.

'Gaat het hierbij om een typisch geval van 'onbekend maakt onbemind'?'

Gaat het hierbij om een typisch geval van 'onbekend maakt onbemind'? Moeten we eerst (veel) ervaring hebben opgedaan voordat het wordt omarmd? Of is er echt een keiharde noodzaak om de statistische onderbouwing tiptop op orde te hebben? Het antwoord op die vraag vergt ook een analyse van hoe ons menselijk brein werkt. Hoe we vertrouwen geven. Vaak is dat niet op basis van informatie, maar op basis van ervaring. U koopt een pak melk en consumeert dat waarschijnlijk zonder u te verdiepen in de kwaliteitsprocessen rondom de productie en logistiek. U kijkt hooguit even naar de houdbaarheidsdatum.

Deurbel

In een column eind oktober op de website iBestuur maakt hoogleraar Sander Klous een intrigerende vergelijking met de historie van de opkomst van de elektrische deurbel, eind negentiende eeuw. We kunnen het ons nu niet voorstellen, maar destijds riep ook dat kritiek op. Want toen we als mens niet langer zelf 'onder de motorkap' konden zien hoe dat werkte zouden we ons eigen denk- en redeneervermogen weleens kunnen verliezen.

'Zou het kunnen dat ChatGPT de deurbel van de 21ste eeuw wordt?'

Niemand twijfelt nu nog aan de deurbel. Het betoog van Klous: "Niet omdat deze de theorie van Popper aankan, maar simpel omdat ervaring in het gebruik leert dat het werkt en vertrouwen oplevert. Zou het kunnen dat ChatGPT de deurbel van de 21ste eeuw wordt? En dat we eerst nog wat vaker belletje moeten lellen?"

Zou dat misschien ook kunnen gelden voor het gebruik van AI in de audit?

Dit is deel 9 van een reeks bijdragen waarin Nart Wielaard op zoek gaat naar waarheid in een digitale wereld en wat dat betekent voor de accountant. Op de komende Accountantsdag (23 november in Leusden) spreekt Nart tijdens twee sessies met experts over AI en het accountantsberoep.

Reageer

Nart Wielaard werkt op het snijvlak van maatschappij, technologie en bedrijfsleven. Hij brengt complexe ontwikkelingen terug tot eenvoudige en begrijpelijke verhalen en doet dat in de rol van gespreksleider, adviseur en schrijver.

Gerelateerd

Nieuws 25 juli 2024

Snelle opkomst AI vraagt om waakzaamheid

Kunstmatige intelligentie (AI) maakt een stormachtige ontwikkeling door, maar staat als technologie deels nog in de kinderschoenen. De beheersing van de risico’s...

De schaal van Elliott 10 juni 2024

SmartBooqing zet slimme turbo op boekhoudwerk

Het automatiseren van boekhoudingen is misschien niet het meest sexy onderwerp. Maar er is met wat slimme systemen wel flinke productiviteitswinst te halen. SmartBooqing...

Nieuws 05 juni 2024

AI-personeel bezorgd over slecht toezicht AI-bedrijven

Grote AI-bedrijven zoals OpenAI en Google Deepmind zijn niet transparant genoeg over de risico's van kunstmatige intelligentie. Financiële belangen dwarsbomen effectief...

Nieuws 22 mei 2024

Eerste nieuwe Europese AI-regels over halfjaar van kracht

De nieuwe EU-regels voor kunstmatige intelligentie (AI) gaan dit jaar niet meer in. De verboden op de gevaarlijkste toepassingen worden begin 2025 van kracht, verwacht...

De schaal van Elliott 08 mei 2024

MindBridge, oudgediende in AI-land

Nart Wielaard gaat in een reeks artikelen op zoek naar innovatie in de accountancy. Hij houdt tools, initiatieven, startups en gevestigde partijen tegen het licht....