Hoe waarheidsgetrouw is big data over de ontwikkeling van lerenden?

Een van de uitdagingen op het gebied van big data in het onderwijs heeft te maken met de juistheid, de ‘waarheidsgetrouwheid’ van de bronnen doe we gebruiken bij het analyseren van big data in het onderwijs. De potentie van big data voor meer authentiek beoordelen is groot, maar er is nog een lange weg te gaan.

Digital transformation — Foto: geralt, Pixabay

Big Data Analysis in Higher Education: Promises and Pitfalls van Chris Dede, Andrew Ho en Piotr Mitros staan al bijna een maand op mijn leeslijst. In deze bijdrage stellen de auteurs dat we weliswaar over rijke data sets beschikken, maar nog niet over de middelen om deze data te vertalen in bruikbare informatie voor lerenden, docenten en het brede publiek.

Big data wordt steeds vaker binnen het hoger onderwijs gebruikt voor het nemen van beslissingen, maar de toepassing ervan binnen het onderwijs zelf komt niet vaak voor. De redenen hiervoor zijn:

Het ontbreekt aan ICT-infrastructuur, tools en expertise om op een effectieve manier omvangrijke sets aan data te verzamelen, op te schonen, te analyseren en te distribueren.
Onderwijsinstellingen hebben te maken met hogere eisen op het gebied van privacy, veiligheid en beveiliging.
Onderwijsinstellingen hebben te maken met lange termijn doelen en moeilijk meetbare doelen, die in korte termijn analyses niet gemeten kunnen worden. Denk aan werkgelegenheid of academische vaardigheden zoals kritisch denken.

Toch is het volgens de auteurs de moeite waard om meer grip te krijgen op het verwerken en begrijpen van grote hoeveelheden aan rijke data. Volgens hen heeft big data dan te maken met volume, snelheid van produceren en analyseren (velocity), variëteit en juistheid (diverse kwaliteit aan bronnen; veracity).

Juist als het gaat om deze ‘veracity’ hebben onderwijsinstellingen te maken met beloftes en valkuilen. Volgens Dede, Ho en Mitros bevatten MOOCs bijvoorbeeld een scala aan data die de potentie hebben om het leren van studenten te verbeteren, bijvoorbeeld door individuele leerpaden te helpen creëren of om gerichte interventies te plegen. Volgens de auteurs kunnen we dankzij data en tools de prestaties van studenten op het gebied van meer authentieke taken -zoals ontwerpvraagstukken- beter meten. Hierdoor meet je veel beter wat je wilt meten, en ben je beter in staat om individuele feedback te geven. Je hebt ook meer mogelijkheden om interacties tussen lerenden te meten waardoor je bekwaamheden als probleem oplossen kunt beoordelen. Daar is echter wel wat voor nodig:

Fulfilling this promise requires finding ways to analyze complex data from heterogeneous sources to extract such measurements, parallel to similar advances already taking place in the sciences and engineering.

Op dit moment bevatten massive open online courses al dikwijls complexe beoordelingen die gebruik maken van het automatisch toetsen van meer complexe opdrachten zoals het maken vergelijkingen of beschrijvingen. Daarnaast kunnen onderzoekers fijnmazige data verzamelen over acties van individuele lerenden. Je ziet dan bijvoorbeeld hoe ervaren en minder ervaren lerenden aan de slag gaan met het oplossen van problemen, bijvoorbeeld door te analyseren hoe deze lerenden navigeren door een omgeving.

Verder kun je bijvoorbeeld data analyseren over hoe lerenden zich binnen een online groep gedragen. MOOCs bieden tenslotte ook de mogelijkheid om gedrag van lerenden cursusoverstijgend te verzamelen en analyseren. Open analytics architecturen, zoals TinCan, bieden een opslagplaats van alle online leeractiviteiten van een lerende die binnen nieuwe contexten zoals een serious game of MOOC, gecreëerd worden.

Volgens de auteurs ontmoedigt dit luie generalisaties en valse vergelijkingen. MOOCs zijn immers a-typische leeractiviteiten vanwege de diversiteit aan doelgroepen, intenties, wijzen van deelname, enzovoorts. Met andere woorden; de analyses van MOOC-participaties zijn niet zo maar generaliseerbaar voor andere cursussen. Je moet dus heel goed rekening houden met de context waarbinnen data gegenereerd worden. Big data onderzoek kan vaak maar moeilijk gerepliceerd worden binnen andere contexten.

Dede cs gaan ook in op de complexiteit van de voorspellende waarde van big data voor leren. Je wilt eigenlijk dat voorspellingen niet uitkomen. Bijvoorbeeld als data voorspelt dat een lerende uitvalt. Je wilt dat dit alleen voorkomt als een interventie ontbreekt. Maar kun je het maken om de studenten te laten uitvallen, zodat je kunt aantonen dat een bepaalde interventie werkt?

Dede, Ho en Mitros stellen dat veel onderwijsdoelen niet gemakkelijk kunnen worden gemeten. Toch menen zij dat data science op het gebied van hoger onderwijs kan leiden tot beter begrip van de doelen die daardoor wel gemeten kunnen worden. Onderwijsinstellingen beschikken over data in de breedte en in de diepte. In feite beschik je volgens de auteurs over een microscoop en een telescoop om naar je onderwijs te kijken. Data worden gebruikt in authentieke situaties als mensen en machines samen te snel werken om snel en nauwkeurig te kunnen beoordelen en feedback te geven. Bovendien hebben deze data betrekking op tal van aspecten van de ontwikkeling van een lerende, en niet alleen op feitenkennis. Helaas zijn de betreffende technologieën hiervoor nog onvolwassen. De eindconclusie van Dede cs luidt daarom:

The grand challenge in data-intensive research and analysis in higher education is to find the means to extract such knowledge from the extremely rich data sets being generated today and to integrate these understandings into a coherent picture of our students, campuses, instructors, and curricular designs.

Dede, Ho en Mitros wijzen terecht op de complexiteit van waarheidsgetrouwe data analyses. Zij vestigen terecht aandacht op de verschillende contexten waarbinnen data wordt verzameld. Dat betekent dat het heel lastig is om bijvoorbeeld aanbevelingen ten aanzien van het ontwerp van cursussen te formuleren, die ook daadwerkelijk voor andere online cursussen gelden. Daarnaast meten we ook maar een deel van het leergedrag. Lerenden maken waarschijnlijk niet alleen gebruik van een online leeromgeving, maar ook van fysieke gesprekken en van bijvoorbeeld papieren boeken. Bovendien kun je wel over meerdere online leeractiviteiten leergedrag in kaart brengen, maar je kunt niet rekening houden met de enorme diversiteit aan voorkennis (tenzij je dit bij de start uitvoerig meet).

Uiteraard was dit ook het geval toen we nog geen gebruik maakten van analyses van big data. Alleen: als we steeds uitvoeriger data op basis van gedrag analyseren, dan wordt het belangrijk om zo veel mogelijk relevant gedrag in kaart te brengen. Het feit dat we daarbij nog niet kunnen beschikken over geschikte tooling is m.i. meer dan een praktisch probleem.

Geef een reactie