Kan AI een paper schrijven waarvoor je een voldoende krijgt?

Volgens een Amerikaans experiment wel. Dit experiment laat zien dat natural language processing (een aspect van artificiële intelligentie) steeds geavanceerder wordt. Machines worden steeds beter in het verwerken van taal, terwijl dit tot nu toe als een menselijke eigenschap werd beschouwd.

ZDNet doet verslag van een (kleinschalig) experiment met GPT-3. Dit is een model waarmee je voorspellingen kunt doen met betrekking tot deep learning op het gebied van taal. GPT-3 is een toepassing die ontwikkeld is door OpenAI, dat weer een initiatief is van Elon Musk. Deze toepassing is bedoeld om content te ontwikkelen waarvan de taalstructuur meer menselijk is. Tot nu toe zijn machines namelijk slecht in staat om ook te begrijpen wat zij schrijven.

Het experiment

Een groep docenten heeft een schrijfopdracht rond verschillende onderwerpen gegeven aan in totaal twaalf studenten en aan GPT-3. Zowel de studenten als de AI-toepassing hebben op basis van de opdracht een paper geschreven. De output van GPT-3 is een beetje bewerkt (herhalingen zijn er onder meer uit gehaald). De docenten hebben de papers anoniem beoordeeld en een vragenlijst over de papers ingevuld.

Resultaten

GPT-3 haalde gemiddeld een voldoende (‘C’) bij vier onderwerpen en een onvoldoende bij één onderwerp. De hoogste score werd behaald op het gebied van geschiedenis en rechten.
GPT-3 scoorde bij de opdracht over COVID-19 beter dan een student van vlees en bloed.
GPT-3 scoorde een zware onvoldoende bij de opdracht rond creatief schrijven.
GPT-3 was in staat menselijke teksten na te bootsen op het gebied van grammatica, zinsbouw en woordfrequentie. De teksten kwamen wel enigszins technisch over. De papers waren meer oppervlakkig, en minder beschrijvend.
De studenten besteedden gemiddeld drie dagen aan een paper. GPT-3 tussen de drie en twintig minuten.
De papers van GPT-3 ontvingen ongeveer dezelfde feedback als de papers die door de studenten zijn geschreven.

Mijn opmerkingen

AI is steeds beter in staat om realistische teksten te produceren. Als deze ontwikkeling doorzet, en als toepassingen rond natural language processing ook voor andere talen kunnen worden gebruikt, heeft dit grote gevolgen voor ‘kenniswerkers’. Zij zullen dan vooral teksten nog moeten controleren en verbijzonderen. AI is namelijk niet goed in creatief schrijven, zoals het schrijven van columns. Relatief zakelijk geschreven teksten zullen vaker door een machine worden geproduceerd.

Op basis van dit experiment kun je nog geen harde conclusies trekken. Er zullen meer grootschalige experimenten worden toegepast die moeten leiden tot bevestiging van de uitkomsten van dit kleinschalige experiment.

Daarnaast zal het onderwijs zich moeten beraden op de aard van papers die worden gebruikt als summatieve beoordeling. Ik ben ook benieuwd of teksten rond schrijfopdrachten die via natural language processing worden geschreven, sterk op elkaar lijken. Plagiaat wordt dan gepleegd door software.

Geef een reactie