AI bij beoordelen en feedback: over mogelijkheden en de noodzaak tot veranderen

De discussie over de gevolgen van (generatieve) AI op de wijze waarop we lerenden beoordelen en feedback geven zet zich voort en is voorlopig nog niet ten einde. In deze blogpost besteed ik aandacht aan twee bijdragen over dit onderwerp.

3D render of black female student who assesses a white male student using data on a light green background, digital artIsabel Fischer benadrukt in Get students on board with AI for marking and feedback de mogelijkheden van AI-toepassingen om het beoordelingsproces efficiënter en persoonlijker te maken. Voorwaarde is volgens haar dat docenten zorgvuldig te werk gaan en lerenden daarbij actief betrekken.

AI-toepassingen blijken volgens haar vooral nuttig te zijn bij formatieve, laagdrempelige feedback. Hierbij geven AI-toepassingen snel persoonlijke suggesties waardoor lerenden zich beter kunnen ontwikkelen. Bij summatieve beoordelingen, waar cijfers en daarmee loopbaanperspectieven afhangen, is echter voorzichtigheid geboden, meent Fischer. Hierbij kan het inzetten van autonome ‘AI’ leiden tot zorgen over betrouwbaarheid en mogelijke vooroordelen. Daarom is het volgens haar verstandig om AI-toepassingen in eerste instantie vooral ondersteunend in te zetten, naast menselijke beoordeling.

Zij stelt voor dat summatieve beoordelingen eerst volledig door de docent worden gedaan, inclusief de feedback naar de lerende. Daarna kunnen AI-systemen aanvullende suggesties geven. Dit gebeurt met expliciete toestemming van lerenden, zodat zij betrokken zijn bij het experiment en hun ervaringen kunnen delen. Op deze wijze ervaren lerenden en docenten de meerwaarde van AI, terwijl de menselijke controle en transparantie behouden blijven.

Niet alle AI-modellen zijn volgens Fischer even geschikt voor feedback op hoger onderwijsniveau. Algemene generatieve tools zoals ChatGPT bieden vaak generieke feedback zonder voldoende vakinhoudelijke diepgang. Betere resultaten worden bereikt met Retrieval-Augmented Generation (RAG), waarbij eerdere documenten en voorbeelden worden geïntegreerd in de feedback. Zo kunnen AI-toepassingen relevante informatie gebruiken uit eerdere opdrachten, waardoor lerenden beter gerichte adviezen ontvangen. Voor een nog nauwkeurigere afstemming kan een AI-model specifiek getraind worden met gegevens die aansluiten bij de onderwijscontext of het vakgebied.

Docenten hoeven overigens zelf geen AI-systemen te bouwen. Het uploaden van eigen onderwijsmateriaal naar bestaande systemen kan al voldoende zijn om bruikbare, gerichte feedback te genereren. Dit verlaagt de drempel voor docenten om zelfstandig met AI aan de slag te gaan, zonder complexe ondersteuning van ICT-afdelingen.

De auteur besteedt ook aandacht aan privacy en gegevensbescherming. Doordat aangepaste AI-systemen uitsluitend gebruikmaken van vooraf goedgekeurde, eigen gegevens van een onderwijsinstelling, blijft het risico volgens haar beperkt. Dit is een belangrijke factor om het vertrouwen van lerenden en docenten in AI-ondersteuning te vergroten.

Fischer schrijft dat weerstand en zorgen op dit terrein manifest blijven, vooral rondom eerlijkheid en mogelijke vermindering van menselijke interactie. Daarom benadrukt zij het belang om lerenden en collega’s actief te betrekken bij discussies over de rol en beperkingen van AI-toepassingen. Transparantie en het benadrukken van menselijke controle zijn belangrijk. Door experimenten buiten reguliere beoordelingsprocessen te organiseren, kunnen docenten en lerenden vertrouwen opbouwen en kritische feedback geven op het gebruik van AI.

In AI: Cheating Matters, but Redrawing Assessment ‘Matters Most’ komt Phillip Dawson aan het woord. Hij pleit voor een bredere herziening van het gehele beoordelingssysteem, mede als gevolg van de adoptie van AI-technologieën. Hij stelt onder meer:

But assessing what we mean to assess is the thing that matters the most. That’s really what validity is … We need to address it, but cheating is not necessarily the most useful frame.

Dawson betoogt dat het onrealistisch is om “discursieve” maatregelen te introduceren die het AI-gebruik beperken, waarbij docenten instructies geven over hoe AI al dan niet gebruikt mag worden. In plaats daarvan zijn er volgens hem “structurele veranderingen” nodig voor beoordelingen.

Het probleem van AI-toepassingen bij beoordelen kan niet alleen door gesprekken worden aangepakt. Er zijn volgens hem concrete acties en structurele aanpassingen van beoordelingen nodig, niet slechts een systeem dat lerenden vertelt wanneer ze AI mogen gebruiken voor bewerken maar niet voor schrijven. Dawson meent dat we moeten accepteren dat lerenden AI-toepassingen gebruiken zonder toezicht. We kunnen niet doen alsof richtlijnen voor lerenden effectief zullen zijn om beoordelingen veilig te stellen. Zonder toezicht kunnen we immers niet zeker weten hoe ‘AI’ wel of niet is gebruikt.

Dawson schetst drie mogelijke gevolgen voor beoordelingen naarmate AI-toepassingen zich verder ontwikkelen:

  1. Cijferinflatie: lerenden kunnen meer presteren volgens huidige standaarden.
  2. Normreferentie: lerenden worden beoordeeld in vergelijking met andere lerenden.
  3. Standaardinflatie: we moeten de standaarden blijven verhogen omdat wat een lerende met AI-technologie kan doen steeds beter wordt.

Phillip Dawson verkiest de derde optie. Hij concludeert dat de impact van AI op beoordelingen fundamenteel is: “De tijden waarin we beoordelen wat mensen weten, zijn voorbij.”

Mijn opmerkingen

Toetsen en beoordelen moet in het teken staan van het bereiken van leerdoelen of leeruitkomsten. Die leerdoelen en leeruitkomsten hebben -als het goed is- niet zo zeer te maken met het niveau van het ‘weten’ of ‘kennen’, maar vooral op het kunnen toepassen van kennis (laten zien, doen). Checken wat lerende weten, vindt dan vooral formatief plaats. Daarbij is het m.i. van belang dat lerenden weten waarom zij kennis moeten hebben, hoe zij het beste kunnen leren en hoe zij het beste AI-toepassingen kunnen gebruiken om te leren (en wanneer ook niet). Een AI Assessment Scale is m.i. voor dit laatste van belang. Als onderwijsinstelling moet je je dan vooral  richten op wat werkelijk waardevol is om te beoordelen, en niet op taken die ‘AI’ eenvoudig kan uitvoeren.

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.

This content is published under the Attribution 3.0 Unported license.

Delen

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *