ChatGPT voor feedback en de mogelijke impact op sociale interacties (twee onderzoeken)

In deze blogpost bespreek ik twee onderzoeken over het gebruik van ChatGPT voor leren. Het eerste onderzoek kijkt naar de mogelijke gevolgen van het gebruik van toepassingen zoals ChatGPT op sociale interacties. Het tweede onderzoek heeft betrekking op de kwaliteit van feedback die door ChatGPT wordt gegenereerd. Ik plaats aan het eind ook opmerkingen hierbij. Verder bevat deze bijdrage links naar eenentwintig bijdragen over generatieve AI.

DALL-E: A conceptual artwork depicting two types of artificial intelligence in learning and development (L&D).

Student Chatbot Use ‘Could Be Increasing Loneliness’

Inside Higher Ed besteedt aandacht aan een Australisch onderzoek naar de effecten van het gebruik van ChatGPT en andere AI-chatbots door studenten op hun sociale interacties en gevoel van verbondenheid. Het hoofddoel van deze studie was het onderzoeken van het effect van dergelijks chatbots op waargenomen sociale steun, het gevoel erbij te horen erbij horen en eenzaamheid, in vergelijking met menselijke interacties.

Het onderzoek laat zien dat studenten die AI vaker gebruiken zich meer sociaal gesteund voelen door de chatbot. Dit is opvallend omdat eerder onderzoek concludeerde dat mensen de voorkeur geven aan functionele AI-toepassingen boven sociale. Studenten die minder vrienden hebben, zoeken overigens mogelijk vaker toenadering tot AI. Dit kan wijzen op een gebrek aan sociale steun in hun persoonlijke leven. Zij zouden volgens de onderzoekers weleens afhankelijk kunnen worden van AI. Studenten met sterke sociale steun door AI voelden zich juist minder ondersteund door andere mensen. Dit zou volgens de onderzoekers ook kunnen wijzen op een illusie van kameraadschap. Zij stellen dat, hoewel bepaalde gebruikers AI zien als een sociale metgezel, het twijfelachtig is of dit menselijke contact echt kan vervangen. Studenten die zich gesteund voelen door vrienden en familie presteren namelijk beter, zijn minder eenzaam en hebben een groter gevoel van verbondenheid. Dit zijn sleutelfactoren voor welbevinden en studiesucces.

Als het gaat om studieresultaten constateren de onderzoekers een divers beeld. Het gebruik van AI kon niet direct verbonden worden met studie-uitval. Wel signaleren de onderzoekers een link tussen AI-gebruik en verminderde cijfers als er sprake is van ervaren sociale steun van de chatbot. Er is dan ook sprake van een complexe verhouding tussen AI-gebruik en studie succes.

Het gebruik van ChatGPT en andere AI-chatbots voor studietaken kan volgens de onderzoekers leiden tot gevoelens van eenzaamheid en een verminderd gevoel van verbondenheid bij studenten. Ondanks voordelen, is er volgens de onderzoekers sprake van een netto negatief effect is wanneer aspecten als sociale ondersteuning, psychologisch welzijn, eenzaamheid en gevoel van verbondenheid worden meegenomen. Studenten die meer op ChatGPT vertrouwden, voelden zich weliswaar sociaal ondersteund door de AI, maar dit ging ten koste van menselijke relaties.

Onderwijsinstellingen zouden volgens de onderzoekers daarom terughoudend moeten zijn bij het uitbesteden van taken aan AI. Als studenten hulp van AI gebruiken in plaats ondersteuning door bibliothecarissen, studentenadviseurs en counselors, dan kan dit negatieve gevolgen hebben.
De resultaten tonen nadrukkelijk ook aan dat studenten die ondersteuning van vrienden en familie kregen minder eenzaamheid ervoeren, betere cijfers haalden en minder geneigd waren om de universiteit te verlaten dan degenen die sociaal ondersteund werden door AI. De onderzoekers benadrukken dat het nog niet helemaal duidelijk is of het gebruik van AI leidt tot lagere prestaties, of dat studenten die lager presteren vaker naar AI grijpen. Onderwijsinstellingen zouden peer-netwerken, sociale mogelijkheden voor studenten en andere manieren om sociale connecties op te bouwen, moeten bevorderen als bescherming tegen negatieve effecten van AI-gebruik.

Comparing the quality of human and ChatGPT feedback of students’ writing

Formatieve feedback op schrijfwerk is effectief voor de ontwikkeling van schrijfvaardigheden. Generatieve AI-toepassingen zoals ChatGPT zouden gebruikt kunnen worden als geautomatiseerd hulpmiddel hiervoor. Lerenden zouden daardoor meer feedback kunnen krijgen. Docenten zouden ook minder vaak feedback hoeven te geven aan grote groepen lerenden. Een groep Amerikaanse onderzoekers heeft daarom een studie uitgevoerd naar het vermogen van ChatGPT om formatieve feedback te geven. Zij hebben de kwaliteit van menselijke feedback en feedback door ChatGPT met elkaar vergeleken door de feedback te scoren die beiden gaven op essays van middelbare scholieren. Zij hebben gekeken naar ChatGPT 3.5 omdat deze versie toegankelijk is voor scholieren. ChatGPT 4 is voor veel jongeren te duur. De onderzoekers keken naar de volgende aspecten van feedback: (a) gebaseerd op criteria, (b) duidelijke aanwijzingen voor verbetering, (c) nauwkeurigheid, (d) prioriteit aan essentiële kenmerken en (e) het gebruik van een ondersteunende toon. Zij hebben 200 exemplaren van door menselijk gegenereerde formatieve feedback onderzocht en 200 exemplaren van AI-gegenereerde formatieve feedback voor dezelfde essays.

De onderzoekers ontdekten dat goed getrainde menselijke beoordelaars weliswaar beter presteren dan ChatGPT op het gebied van kwalitatieve feedback, maar dat de verschillen soms klein zijn. ChatGPT blijkt, zonder enige training, redelijk in de buurt te komen van menselijke feedback, als het gaat om de kwaliteit. Eerdere studies naar geautomatiseerde feedback wijzen volgens de onderzoekers op de betrekkelijk lage kwaliteit van de feedback. De prompts, die je geeft, zijn ook van invloed op de kwaliteit van de feedback. In het onderzoek zijn betrekkelijk korte prompts gebruikt.

Een menselijke beoordelaar identificeerde bijvoorbeeld correct een fout van een leerling, terwijl ChatGPT deze over het hoofd zag. ChatGPT ‘begrijpt’ de tekst niet echt. Daarom moeten lerenden en docenten de gegenereerde feedback altijd kritisch beoordelen. Docenten zouden lerenden hierbij moeten begeleiden, stellen de onderzoekers.

De onderzoekers merken ook op dat er geen significant verschil was in de kwaliteit van feedback aan leerlingen waarvan Engels de moedertaal was, door mensen of ChatGPT. Er waren wel verschillen in de kwaliteit van de feedback op essays van verschillende niveaus. Zowel ChatGPT als menselijke beoordelaars hadden moeite met het geven van goede feedback op essays van hogere kwaliteit.

ChatGPT bleek consistenter in feedback gebaseerd op criteria, ongeacht het niveau van het essay. Dit in tegenstelling tot menselijke feedback, die bijna even goed was voor zowel hoogwaardige als kwalitatief mindere essays. ChatGPT had echter moeite met het geven van accurate feedback op hoogwaardige essays en het behouden van een ondersteunende toon bij kwalitatief mindere essays.

De onderzoekers schrijven ook dat ChatGPT, ondanks beperkingen, veelbelovend lijkt voor schrijfonderwijs. Het gebruik ervan vereist wel expertise op het gebied van het gebruik van AI bij lerenden en docenten. Door het gebruik van AI-tools te begrijpen en passend te gebruiken, kunnen ze een nuttige aanvulling zijn op het reguliere schrijfonderwijs. Docenten kunnen bijvoorbeeld AI-gebaseerde feedback combineren met menselijke feedback voor latere of definitieve versies van een opdracht.

Daar komt volgens de onderzoekers bij dat menselijke feedback kostbaar is in termen van tijd en middelen, terwijl toepassingen zoals ChatGPT, onmiddellijk en specifiek feedback kan genereren. En tijdige feedback blijkt effectiever te zijn. De onderzoekers wijzen ook op de doorontwikkeling en toenemende kracht van generatieve AI.

Door toepassingen als ChatGPT te gebruiken, houden docenten volgens de onderzoekers meer tijd over voor individuele feedback of gedifferentieerde schrijfinstructie. ChatGPT kan nuttig zijn in de vroege fasen van het schrijfproces voor snelle feedback op ruwe versies. Het is geen vervanging van meer accurate en persoonlijke feedback van docenten. AI-gegenereerde feedback kan ook het proces van herziening van teksten versnellen. Dit is met name belangrijk voor lerenden die Engels niet als eerste taal hebben. ChatGPT is bruikbaar in verschillende genres en contexten, maar moet nog verder getest worden.

Mijn opmerkingen

Het valt mij op dat onderzoekers vaak kijken naar het vervangen van menselijke arbeid door generatieve AI. Ze zetten menselijke arbeid af tegen generatieve AI. Terwijl je volgens mij vooral moet kijken naar de wijze waarop generatieve AI kan helpen bij het cognitief versoepelen van werkzaamheden en het versterken van werkzaamheden door onder meer die taken over te nemen waar generatieve AI beter in is. Bijvoorbeeld door hulp te vragen aan AI als menselijke hulp niet beschikbaar is. Het tweede artikel wijst daar op. Typisch is wel dat de onderzoekers eerst menselijke feedback vergelijken ten opzichte van feedback door ChatGPT om vervolgens te concluderen dat ze elkaar aanvullen. Waarom niet op voorhand onderzoeken of een combi niet tot de beste resultaten leidt?

Het valt mij verder op dat onderzoekers ervan uit gaan dat feedback door mensen en menselijke sociale interacties van hoogwaardige kwaliteit zijn. Binnen het feedback-onderzoek hadden de betrokken docenten inderdaad veel expertise op dit terrein. Ik waag echter te betwijfelen of altijd sprake is van hoogwaardige kwaliteit. Bovendien is het een feit dat lang niet alle lerenden bijvoorbeeld beschikken over een krachtig sociaal netwerk dat hen kan ondersteunen bij het studeren.

Verder worden minder goede resultaten door generatieve AI m.i. vooral bepaald door de wijze waarop generatieve AI wordt gebruikt. Dat blijkt volgens mij ook uit het onderzoek naar feedback. Binnen het onderzoek naar feedback hadden de docenten van vlees en bloed ook veel expertise op het gebied van feedback, terwijl de onderzoekers korte prompts bij ChatGPT gebruikten. Je vergelijkt dus al snel appels en peren. Vergelijk het met onderzoek face-to-face leren versus online leren. Dergelijke onderzoeken zijn vrij zinloos omdat er heel veel condities in het geding zijn die de effectiviteit beïnvloeden. Bij onderzoek naar prestaties van mensen versus generatieve AI is dat volgens mij ook het geval.

Bij het bestuderen van wetenschappelijke publicaties over generatieve AI valt het me tenslotte op hoe slecht de workflow van wetenschappelijk onderzoek zich verhoudt tot de ontwikkeling van generatieve AI. Het onderzoek zelf is vaak maanden oud, op het moment dat het artikel/paper hierover wordt gepubliceerd. Terwijl de kracht van generatieve AI in die periode weer is toegenomen. Bij conceptuele publicaties hoeft dat geen probleem te zijn. Als je echter uitspraken wilt doen over effectiviteit, dan is dat wel een beperking.

Andere bronnen over generatieve AI

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.

Geef een reactie