Wat mis kan gaan bij het analyseren van big data? | WilfredRubens.com over leren en ICT

Binnen tal van sectoren gebruiken beslissers analyses van grote hoeveelheden data om belangrijke beslissingen te nemen. Op het gebied van onderwijs en opleiden hebben we het dan over learning analytics. Wat kan het onderwijs en de L&D-functie leren van ervaringen van andere sectoren met big data-analyse?

Volgens Gary Eastwood kan het gebruik maken van analyses van big data grote waarde hebben voor het nemen van slimme besluiten. Waak er echter voor, schrijft hij, dat de data de gebruiker aan sturen in plaats van dat de gebruiker de data onder controle heeft. Eastwood wijst op “de drie meest voorkomende onderliggende oorzaken voor problemen met big data”:

Er is sprake van fantoomdata. Dat wil zeggen dat de ingevoerde data bevatten fouten omdat ze handmatig zijn ingevoerd. Je moet dus data controleren op het moment dat ze in een systeem komen. Eastwood wijst hierbij op cijfers over voorraden in de retail. Denk echter ook aan inlog-tijden, cijfers of aanwezigheidsregistraties. Deze data hoeven niet altijd correct te zijn, bijvoorbeeld omdat een lerende zichzelf als aanwezig registreert maar niet deelneemt aan leeractiviteiten. Of omdat een groep lerenden binnen een online omgeving klikt zonder te leren, omdat zij weten dat zij gemonitord worden. Op het gebied van onderwijs en opleiden moeten we ook niet vergeten dat we lang niet alle leeractiviteiten registreren.
Er is sprake van een blind geloof in cijfers. Kwantitatieve gegevens vertellen niet het hele verhaal. Nuances of kwalitatieve toelichtingen ontbreken, bijvoorbeeld bij uitschieters. Gary Eastwood geeft het voorbeeld van evaluaties van werkprestaties. Ook op het gebied van onderwijs en opleiden is het zaak om geen blind geloof in cijfers te hebben, en bovendien kritisch na te denken over welke data relevant zijn en bijvoorbeeld geen betrekking hebben op sociale wenselijkheid.
Eastwood wijst in dit verband ook op het fenomeen dat dalende scores op een toelatingstest werden veroorzaakt doordat het aantal kinderen uit achtergestelde posities in toenemende mate deze test deden.
Voorkom hierbij ook dat je conclusies trekt die lijken op: hoe vaker mensen naar een ziekenhuis gaan, des te eerder sterven ze.
Eastwood noemt ook beperkingen van statistisch hergebruik van data. Hij geeft echter aan dat deze oorzaak vooral bij kleine datasets voorkomt. Bij het gebruik van daadwerkelijke ‘big data’ komt dit probleem minder snel voor. En daar hebben we het hier natuurlijk over. Wat wel speelt is dat we kleine datasets ten onrechte kunnen bestempelen als ‘big data’.

Eastwood adviseert daarom vooral na te gaan hoe data zijn verzameld en hoe analyses zijn uitgevoerd.

This content is published under the Attribution 3.0 Unported license.

Geef een reactie