Van webcamera naar real-time 3D model

Hoe maak je van een tweedimensionaal beeld van een webcamera een driedimensionale weergave én voeg je er ook nog eens eigenschappen aan toe? Een internationale groep onderzoekers is het gelukt met behulp van een 'convolutional neural network'.

Het wordt voor veel toepassingen steeds belangrijker om de bewegingen van hand en vingers binnen milliseconden te bepalen. Dat begint via virtual reality via mens-machine-interactie tot en met Industrie 4.0. Tot nu toe was daar een grote technische inspanning voor nodig, wat weer de toepasbaarheid beperkte. Informatici van het Max-Planck-Institut für Informatik in Saarbrücken hebben een softwaresysteem ontwikkeld, dat op grond van het samenspel van verschillende kunstmatige neuronale netwerken voldoende heeft aan de ingebouwde camera van een laptop.

Webcamera in laptop

Als informatica-specialiste Franziska Müller haar hand voor de camera van haar laptop houdt, verschijnt een virtuele weergave daarvan op het beeldscherm. Daar wordt direct een bonte virtuele weergave van de botten overheen gelegd. Welke bewegingen de hand in het echt voor de webcamera ook maakt, de gekleurde 'botten' van het model doen het ook.

MPI real time camera VR 1023

De software is ontwikkeld door onderzoekers van het Max-Planck-Institut für Informatik in Saarbrücken, Stanford University in de Verenigde Staten en de Universidad Rey Juan Carlos in Madrid. Tot nu toe kon geen andere software volstaan met zo'n goedkope camera. Omdat de software in nagenoeg elke soort gefilmde scène functioneert, is deze overal te gebruiken en overtreft daarmee de tot nu hoe gebezigde benaderingen die een dieptecamera of meerdere camera's nodig hebben.

CNN

De rekenmethode waarmee de software de tweedimensionale informatie van het videobeeld real-time omzet in het driedimensionale bewegingsmodel van de botten, is gebaseerd op een speciaal soort neuronaal netwerk, 'convolutional neural network', afgekort CNN (what's in a name). De onderzoekers hebben het netwerk er op getraind botten in de hand te bepalen. De daarvoor noodzakelijke trainingsdata hebben ze gegenereerd met een tweede kunstmatig neuronaal netwerk.

Het resultaat is dat de software in milliseconden de exacte 3D-posities van de botten berekend. Zelfs als een daarvan door een in de hand gehouden appel wordt verborgen, beïnvloedt dat de software niet. Alleen meerdere samenwerkende handen verwarren de software nog. Het volgende doel van de onderzoekers is om dat op te lossen.

(foto: Oliver Dietze)