AI kan video’s maken op basis van audio | WilfredRubens.com over leren en ICT

Het ontwikkelen van video ten behoeve van online leren is een arbeidsintensieve aangelegenheid. Onderzoekers van Udacity investeren daarom in een machine learning framework waarmee je automatisch video’s kunt produceren, op basis van geluidsfragmenten. Bij deze toepassing moet je op dit moment nog vooral kijken naar de potentie voor de toekomst.

Kyle Wiggers schrijft over een paper dat de Udacity-onderzoekers hebben gepubliceerd over het AI-systeem LumièreNet. Dit systeem

can synthesize footage of any length by directly mapping between audio and corresponding visuals.

Hiermee zou “agile video content development” mogelijk gemaakt moeten worden. Daarbij gebruikt men afbeeldingen van een presenterende docent.

Het model van de onderzoekers schat een lichaamshouding in, en stelt een video van de docent samen, op basis van afbeeldingen van het lichaam afkomstig uit video’s in een trainingsdataset. Daarbij kijkt het systeem met name naar belangrijke lichaamspunten om gedetailleerde, op het oppervlak gebaseerde, menselijke representaties van het lichaam te creëren. Een tweede module in het model – een bi-directioneel terugkerend lange termijn geheugen (BLSTM) netwerk dat gegevens verwerkt in volgorde- neemt als input audio-eigenschappen en probeert om de relatie tussen audio en visuele elementen te analyseren.

De onderzoekers hebben LumièreNet getest op basis van 8 uur aan opnames. De resultaten kun je zelf bekijken (hier en hier).

Kijk naar de potentie

De lichaamsbewegingen en het haar zijn levensecht, maar toch zie je dat sprake is van een soort computermodel. De ogen van de spreker kijken vaak een verschillende richting uit, de handen zijn vaag en de spreker knippert nooit met de ogen.

Het AI-systeem is echter nog niet uitgeleerd. Dus wie weet wat de toekomst zal brengen. Daarnaast wijzen de onderzoekers op mogelijk misbruik en op commerciële toepassingen.

Ik vind dit op zich een interessante ontwikkeling. Het resultaat is vanuit didactisch oogpunt echter niet spannend. Je ziet uitsluitend een sprekende docent. Ten opzichte van de gesproken bijdrage voegt dat weinig toe.

Het wordt anders als je op basis van geluidsbestanden het gesprokene ook daadwerkelijk kunt illustreren. Als je bijvoorbeeld een concept als zwaartekracht, dat wordt uitgelegd, kunt tonen.

Net als bij heel veel nieuwe technologische toepassingen moet je daarom ook nu niet kijken naar wat de technologie op dit moment kan, maar hoe deze technologie zich kan gaan ontwikkelen.

Geef een reactie