Toch niet zo intelligent?

Zelfs na een week in Japan kom je niet verder dan het herkennen van een bepaalde combinatie van twee of drie tekens op de deuren van een taxi. (JahnmitJa/Flickr CC BY SA 2.0)

Het wonderlijke artificiële-intelligentieprogramma ChatGPT doet flink wat stof opwaaien, maar voldoet het aan onze verwachtingen? En wat mogen we er wel en niet van verwachten?

Ik herinner me mijn eerste reis naar Japan in de jaren 90. Ik had voordien overal in Europa gewerkt, en omdat ik het geluk had enkele talen machtig te zijn, kon ik meestal toch wel iets opmaken uit opschriften, menu’s en reclameborden. Mijn Britse collega's daarentegen hadden doorgaans geen flauw benul of we nu in Portugal, Oostenrijk, Italië of Zweden waren. Maar in Tokio ontdekte ik al snel hoe zij zich moeten hebben gevoeld. Zelfs na een week was ik niet verder gekomen dan het herkennen van een bepaalde combinatie van twee of drie tekens op de deuren van bestelwagens en taxi's. Maar wat ze precies betekenden, daarvan had ik niet het minste idee.

Ik was als een nietsvermoedende deelnemer in een levensecht Chinese-kamerexperiment (zij het dan in Japan). In dit gedachte-experiment, bedacht door de filosoof John Searle, figureert een computerprogramma dat zich gedraagt alsof het Chinees begrijpt: het beantwoordt een reeks Chinese letters als input met een nieuwe reeks Chinese tekens als output, op zo'n manier dat het slaagt in de Turing-test. Dit wil zeggen dat wat het produceert niet te onderscheiden is van wat een echtemens zou doen). Een persoon kan dan de instructies van dat computerprogramma gebruiken om op dezelfde manier te reageren op een reeks Chinese lettertekens met een andere reeks Chinese letters. Ook al lijkt het alsof het computerprogramma, of de persoon die het gebruikt, Chinees kent, is dat voor geen van beide echt het geval, aldus Searle. Als ik lang genoeg in Japan was gebleven om via Japanse kranten en boeken veel meer van dergelijke patronen van geschreven tekens te leren, was ik misschien ook in staat geweest regels te construeren net als die van de computer, en had ik zo ook kennis van het Japans kunnen voorwenden.

Zo makkelijk is het (te veinzen) Chinees te kennen. (YouTube)

Intelligente bullshit

John Searle, die de Chinese kamer beschreef in 1980, had wellicht nooit verwacht dat hij in zijn leven dat soort computerprogramma nog daadwerkelijk zou meemaken. Maar we zijn er inderdaad: ChatGPT, de "intelligente chatbot" die eind 2022 werd gelanceerd, heeft voor veel belangstelling en commotie gezorgd. (Als je het nog niet hebt uitgeprobeerd, doe het dan beslist – het is werkelijk spectaculair, en het converseert zelfs in heel behoorlijk Nederlands).

Enkel vermelden dat het coherente antwoorden geeft op allerlei vragen zou het geen recht doen. Het is geestig (het vertelt grappen en schrijft humoristische teksten), deskundig (het verklaart complexe concepten uit zowat elk wetenschappelijk domein), creatief (het produceert lijsten met ideeën en schrijft teksten in de stijl van bestaande artiesten) en intelligent (het slaagde voor verschillende examens).

Het heeft ook wel enkele gebreken, maar je moet al een kniesoor zijn om daarmee aan te komen over een kunstmatig-intelligentieprogramma dat zo menselijk is dat je je werkelijk genoodzaakt voelt om "alsjeblieft" en "dank je wel" te zeggen wanneer je ermee praat. Als het menselijk is om zich af en toe te vergissen, moeten we dat voorrecht dan ook niet toekennen aan chatbots met kunstmatige intelligentie?

Misschien toch niet. Ik vroeg het waarom sommige talen twee grammaticale geslachten hebben en andere drie. Het antwoord was dat het Frans er drie heeft: mannelijk, vrouwelijk en onzijdig. Geïntrigeerd vroeg ik om enkele voorbeelden van het laatste en het produceerde l'oeuf, le soleil, la pluie, le bonheur, l'amour. (Mocht je geen Frans spreken: geen van deze woorden is onzijdig, omdat dit geslacht niet bestaat in het Frans). “Waarom heeft het onzijdige woord soleil dan het mannelijke lidwoord le?”, vroeg ik. ChatGPT had meteen een antwoord klaar: "Het woord 'soleil' is een mannelijk zelfstandig naamwoord omdat het eindigt op '-il'." Deze regel is natuurlijk volslagen onzin.

De technische term voor wat ChatGPT hier produceerde, is bullshit. De filosoof Harry Frankfurt schreef er een prachtig boekje over, waarin hij bullshit en bullshitten vergelijkt met leugens en liegen. Bij het laatste gaat het om het opzettelijk onwaarheden verkondigen. Bij het eerste is er gewoon geen oog voor de waarheid: "Het is precies dit gebrek aan zorg voor de waarheid – die onverschilligheid voor hoe de dingen werkelijk zijn – dat ik beschouw als de essentie van bullshit", schrijft Frankfurt. Hij legt zelfs de vinger op de reden waarom ChatGPT niet anders kan dan bullshitten: "Bullshit is onvermijdelijk wanneer de omstandigheden vereisen dat iemand praat zonder te weten waar hij het over heeft". Een mens kan weliswaar motieven hebben om te bullshitten, die ChatGPT niet heeft – indruk willen maken op anderen, of zich verplicht voelen een mening te uiten, bijvoorbeeld. ChatGPT bullshit simpelweg omdat het de waarheid niet kent, en niet kan kennen.

Gedoemd tot bullshitten

ChatGPT ontleent wat voor kennis doorgaat aan zijn training. De econoom David Smerdon legt het proces uit in een Twitterdraadje. Het programma is gebouwd op een zogenaamd Large Language Model, een computerprogramma dat de meest waarschijnlijke woorden voorspelt die volgen op een gegeven reeks, op basis van miljoenen teksten die ChatGPT heeft 'gelezen'. Het dus is in feite niet meer dan een (zeer slimme en zeer snelle) autocomplete functie, zoals je die in je smartphone vindt.

Maar de meest waarschijnlijke woorden geven niet noodzakelijk de waarheid weer. Smerdon beschrijft hoe ChatGPT de meest geciteerde economische paper aller tijden compleet uit zijn duim zuigt – net zoals het de regel verzon die bepaalt of een Frans zelfstandig naamwoord mannelijk is. Het begint met het voorspellen van de meest waarschijnlijke titel, en vervolgens de meest waarschijnlijke auteur voor een paper met deze titel (en de meest waarschijnlijke co-auteur), en komt vervolgens op de proppen met een niet-bestaande paper, en beweert dat het meer dan 30.000 keer geciteerd werd volgens Google Scholar.

De makers van ChatGPT kondigden onlangs aan dat de nieuwste versie meer betrouwbare feiten produceert. Maar tenzij men het vertelt, over elk denkbaar feit waarnaar het zou kunnen verwijzen, of het waar is of niet, heeft het uiteindelijk geen idee. We mogen dus niet verwachten dat het ons correcte, objectieve informatie geeft. Misschien doet het dat best wel vaak, maar het probleem is dat we niet kunnen bepalen wanneer het de waarheid spreekt en wanneer het aan het bullshitten is.

Een pasteitje is dessert, maar niet wanneer het een varkenspasteitje is, domoor! (Drew McLellan/Flickr CC BY NC 2.0)

Als mensen met elkaar praten, is er een gedachte in de geest van persoon A die wordt omgezet in taal, en doorgegeven aan persoon B (waar dat weer wordt omgezet in een gedachte). Bij ChatGPT ontbreekt die eerste stap: er is geen gedachte, en zelfs geen geest om zich in te bevinden. De betekenis van de zinnen die het produceert, is uitsluitend het resultaat van de probabilistische voorspelling van de opeenvolgende woorden. ChatGPT heeft zelf geen begrip van realiteit of waarheid. Bovendien kan het ook enkel tekstuele context gebruiken om zijn antwoorden te genereren, en kan het niet afgaan op situationele context. Zo vroeg ik het waarom mijn vriend ontevreden was toen ik hem na de hoofdmaaltijd een varkenspasteitje als dessert serveerde. Ik kreeg verschillende technisch mogelijke verklaringen (hij hield niet van pasteitjes, had geen honger, was allergisch voor gluten), maar wat ik niet te zien kreeg, was dat een varkenspasteitje, ook al is het een pasteitje, normaal gesproken niet als een dessert wordt beschouwd.

Een vergelijking van ChatGPT met Music LM, het model van Google dat muziek genereert uit tekstbeschrijvingen, is best leerzaam. De afwezigheid van enige initiële gedachte (buiten de instructie van de gebruiker) bij het genereren van muziek is overduidelijk, en hoe minder formulaïsch de gewenste output, hoe slechter de melodische, harmonische en ritmische kwaliteit. Het is werkelijk het muzikale equivalent van bullshit. Hoe komt het dat we die muzikale bullshit zoveel sneller opmerken dan de bullshit-tekst van ChatGPT? Misschien is het omdat muziek niet bedoeld is om waarheid over te brengen, maar emotie. Het is gemakkelijker om de waarheid te faken met aannemelijke teksten, dan om emotie te faken. Als er van bij het begin al geen echte emotie is, dan wordt de bullshit al snel duidelijk.

Wat het wel en niet voor ons kan doen

Midden de jaren 60 maakte computerwetenschapper Joseph Weizenbaum Eliza een programma dat natuurlijke taal kon ontleden en produceren, en een empathische psychotherapeut simuleerde. De antwoorden herhaalden simpelweg wat de gebruiker zei en leken door te vragen ("Ik voel me verdrietig" – "Wat is het precies waardoor je je verdrietig voelt?"). Zijn bedoeling was om te illustreren hoe oppervlakkig communicatie tussen mensen kon zijn, maar de illusie was zo krachtig dat nogal wat mensen het serieus namen. Zestig jaar later is ChatGPT veel krachtiger, maar uiteindelijk net zo goed niet meer dan een illusie van intelligent denken. Misschien vertelt het ons onbedoeld hoeveel oppervlakkige bullshit wij mensen de hele dag produceren en te lezen krijgen.

Niettemin kunnen hulpmiddelen als ChatGPT erg nuttig zijn, zolang we de beperkingen ervan maar erkennen. Ethan Mollick, een professor innovatie en ondernemerschap aan de universiteit van Pennsylvania, is een enthousiast experimentator met de nieuwste AI-tools. Hij documenteert hoe ze ons kunnen helpen dingen te schrijven, ideeën te bedenken, computerprogramma's te maken, vaardigheden te leren, en afbeeldingen en video's te maken.

Maar één gebied waar ChatGPT veel onrust heeft veroorzaakt, is het onderwijs: het is immers heel gemakkelijk om er een aannemelijk uitziende verhandeling over zowat elk onderwerp mee te maken (pas alleen op voor verzonnen bronnen!). Moeten we ons daar echt zorgen om maken? Ja, zeker als de opdrachten van studenten gemakkelijk door dergelijke modellen kunnen worden geschreven. Hier ligt dan ook het probleem: als we de lat voor verhandelingen, examens en artikels zo laag leggen dat bullshitten goed genoeg is, dan zal ChatGPT studenten zeker in staat stellen te sjoemelen – en toch zal het "lijken op het soort antwoorden dat studenten geven als ze niet hebben gestudeerd en maar wat raak lullen". De uitdaging voor docenten en professoren is de opdrachten die ze geven te hertekenen, en ervoor te zorgen dat ze het denkvermogen van de studenten aanspreken, en niet hun vermogen (of dat van de chatbot die ze gebruiken) om woorden op een plausibele manier aan elkaar te rijgen.

Menselijke kennis is niet, en zeker niet enkel, in woorden te vangen. Toch is dat alles wat ChatGPT aankan. Als het menselijk trekjes vertoont, dan is dat omdat het kan bullshitten als de beste onder ons (en wellicht een stuk beter), meer niet.

Wat het in elk geval al voor ons heeft gedaan, is ons een referentie voor bullshit bezorgen. Als wat we produceren niet beter is dan wat ChatGPT zou doen, zijn we gewoon aan het bullshitten. Van onszelf mogen we best wel beter verwachten.

Koen Smets is een deskundige op het gebied van organisatie-ontwikkeling, met een fascinatie voor menselijk gedrag op de grens tussen het rationele en het irrationele.

Lees alle artikels van Koen Smets

1 REACTIE

Frank Van Maroey — 03-02-2023 16:28:39

Ik heb een paar simpele integraal berekeningen aan chatGPT voorgelegd. Het systeem gaf met veel show en zgn. achterliggende uitleg een totaal verkeerd resultaat. Als er één ding universeel is het toch wiskunde. Blijkbaar kan chatGPT dit niet aan: inderdaad veel bullshit en gelul.

Intelligente bullshit

Gedoemd tot bullshitten

Wat het wel en niet voor ons kan doen

Marcus du Sautoy: 'Snel denken kan ook de juiste oplossing bieden'

Zagen aan de poten van de menselijke troon

Moordmachines, overal plastic en de donkere geschiedenis van Michelin