Kunnen generatieve AI-toepassingen als ChatGPT wel tekst begrijpen?

Critici van generatieve toepassingen als ChatGPT typeren deze applicaties vaak als “stochastic parrots”. Volgens Anil Ananthaswamy is het de vraag of je deze typering op basis van recent onderzoek overeind kunt houden.

mage of a stochastic parrot, designed to reflect a realistic photo style.
DALL-E: mage of a stochastic parrot, designed to reflect a realistic photo style.

De term “stochastic parrots” wordt gebruikt om te benadrukken dat grote taalmodellen, ook al zijn ze goed in het genereren van overtuigende taal, de betekenis van de verwerkte taal niet echt begrijpen (bron: Wikipedia).

Zo typeert Neil Selwyn ChatGPT als een applicatie die bestaande tekstfragmenten van het internet op een statistisch waarschijnlijke manier assembleert en herschikt, zonder ‘begrip’ of ‘kennis’ van wat de output betekent.

Grote taalmodellen (Large Language Models; LLM’s) die door applicaties zoals Google Bard en ChatGPT worden gebruikt, krijgen aanzienlijke invloed binnen onze samenleving. Daarom moeten we volgens onder meer Geoff Hinton weten of ze taal en betekenis begrijpen. Onderzoek van Sanjeev Arora en Anirudh Goyal laat volgens Ananthaswamy zien dat grotere LLM’s, met meer gegevens, individuele taalvaardigheden verbeteren en nieuwe vaardigheden ontwikkelen door vaardigheden te combineren. Dit zou wijzen op een vorm van begrip. Ananthaswamy schrijft dat hun theorie, die op een wiskundige manier aantoont hoe LLM’s veelzijdige vaardigheden ontwikkelen, experts zoals Geoff Hinton al heeft overtuigd.

Deze taalmodellen vertonen onverwachte en diverse vaardigheden die niet direct voortkomen uit de manieren waarop ze worden getraind. LLM’s zijn grote neurale netwerken waarbij training bestaat uit het voorspellen van woorden in zinnen. Ondanks vergelijkbare trainingsmethoden, tonen grotere modellen vaardigheden die kleinere modellen missen. Bijvoorbeeld: vragen beantwoorden over wat er in de hoofden van anderen omgaat.

Arora en Goyal gebruikten zogenaamde willekeurige grafieken. Willekeurige grafieken geven aanleiding tot onverwacht gedrag nadat ze bepaalde drempels hebben bereikt. Dit zou een manier kunnen zijn om het gedrag van LLM’s te modelleren. Hun model maakt gebruik van zogenaamde bipartiete grafieken, met tekststukken en benodigde vaardigheden als knooppunten. Arora en Goyal wilden LLM’s begrijpen vanuit het perspectief van de vaardigheden die nodig kunnen zijn om één tekst te begrijpen. Een verbinding tussen een vaardigheidsknooppunt en een tekstknooppunt, of tussen meerdere vaardigheidsknooppunten en een tekstknooppunt, betekent dat de LLM die vaardigheden nodig heeft om de tekst in dat knooppunt te begrijpen.

Zij zien dit als bewijs dat de grootste LLM’s niet alleen vertrouwen op combinaties van vaardigheden die ze in hun trainingsgegevens hebben gezien. Taken uitvoeren door vier van duizend vaardigheden te combineren, impliceert generalisatie. Een stochastische papegaai doet dat niet. Daarnaast ontwikkelden ze een methode om het vermogen van een LLM om meerdere vaardigheden te gebruiken om tekst te genereren, te evalueren. Ze ontdekten dat GPT-4 tekst kan genereren die het onmogelijk in de trainingsgegevens had kunnen zien. Het model was in staat om bouwstenen samen te voegen die nog nooit samengevoegd waren. Dit is een vorm van creativiteit.

Deze onderzoekers stellen dus dat grotere taalmodellen vaardigheden effectiever combineren en tekst genereren die niet in de trainingsdata aanwezig was. Dit duidt op generalisatie en creativiteit, en niet enkel op nabootsing. Zij toonden in hun analyse aan dat modellen zoals GPT-4 tekst konden genereren met meerdere vaardigheden. Ze herhalen dus niet alleen trainingsdata. Zij wijzen ook op het feit dat GPT-4 hier veel beter in is dan GPT-3.5.

Ondanks deze bevindingen merkt Ananthaswamy op dat de nauwkeurigheid van wat LLM’s schrijven nog steeds een aandachtspunt is. Hij schrijft wel dat volgens Hinton dit onderzoek dus bewijst dat LLM’s meer zijn dan stochastische papegaaien.

Als dit klopt, dan is het al helemaal de vraag wat de toekomst brengen zal. Als de opvolgers van de huidige versies van Claude, Google Bard en ChatGPT op termijn vragen nagenoeg foutloos kunnen beantwoorden en niet meer hallucineren, wat betekent dat dan voor wat en hoe we gaan leren?

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.

This content is published under the Attribution 3.0 Unported license.

Delen

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.