Waarom neurale netwerken optische illusies niet snappen

Visionsystemen zijn inmiddels zeer bedreven in gezichtsherkenning. Ze kunnen zelfs realistische synthetische gezichten creëren. Maar onderzoekers hebben ontdekt dat dezelfde systemen geen optische illusies kunnen herkennen. Ze kunnen daarom ook geen optische illusies creëren.

Het menselijke gezichtsvermogen is een waardevol en buitengewoon bijzondere ding. Hoewel het zich in de loop van vele miljoenen jaren in specifieke omgevingen heeft ontwikkeld om om te gaan met specifieke omstandigheden, is ons visiesysteem in staat om taken uit te voeren die het pas relatief kort voor de neus kreeg. Lezen is een goed voorbeeld, evenals het identificeren van kunstmatige objecten zoals auto's, vliegtuigen en verkeersborden.

Waarnemingsgrenzen onderzoeken

Ons eigen visiesysteem heeft ook een aantal bekende tekortkomingen die we als optische illusies ervaren. Het leid onder andere tot heftige discussies op het internet over de kleur van jurken. Goud wit of zwart blauw? Al sinds lange tijd buigen onderzoekers zich over het fenomeen en hebben inmiddels een redelijk beeld waarom deze illusies ervoor zorgen dat mensen kleur, grootte, uitlijning en beweging verkeerd inschatten. De illusies zelf zijn interessant omdat ze inzicht geven in de aard van het visuele systemen en waarneming. Dus manieren om nieuwe illusies te vinden die deze grenzen verkennen zouden enorm nuttig zijn. Dit is waar deep learning om de hoek komt kijken. In de afgelopen jaren hebben machines geleerd om objecten en gezichten in beelden te herkennen en vervolgens zelf soortgelijke beelden te maken. Het is dus geen rare gedachte dat een machinevisionsysteem in staat zou moeten zijn om illusies te leren herkennen en vervolgens zijn eigen illusies te creëren. Helaas is dat nog niet zo eenvoudig, ondervonden ook Robert Williams en Roman Yampolskiy van de Universiteit van Louisville in Kentucky. Zij komen tot de conclusie dat de huidige machine learning systemen nog geen eigen optische illusies kunnen genereren. Althans, nog niet. Maar waarom niet?

Generative Adversial Networks

Eerst wat achtergrond. De recente ontwikkelingen op het gebied van deep learning zijn gebaseerd op twee ontwikkelingen. De eerste is de beschikbaarheid van krachtige neurale netwerken en één of twee programmeertrucs die hen tot voorbeeldige studenten maken. De tweede is het creëren van enorme geannoteerde databases waar machines van kunnen leren. Het aanleren van een machine om gezichten te herkennen bijvoorbeeld, vereist vele tienduizenden afbeeldingen met gezichten die duidelijk gelabeld zijn. Met die informatie kan een neurale netwerk leren om karakteristieke gezichtspatronen te herkennen: het vindt twee ogen, een neus en een mond. Gaan we een stap verder dan kunnen op basis van deze gezichtspunten en hun onderlinge afstanden zelfs personen worden herkend. Nog indrukwekkender wordt het wanneer dit soort netwerken van elkaar gaan leren in een zogenoemd General Adversial Network. In dat geval zijn systemen in staat om volledig synthetische fictieve gezichten te creëren die nauwelijks van echte te onderscheiden zijn.

flat 3252983 960 720

Heel weinig voorbeelden

Williams en Yampolskiy gingen op zoek naar een neuraal netwerk dat op een vergelijkbare manier optische illusies te kon identificeren. Nu was er gemakkelijk voldoende rekenkracht te vinden. De benodigde databases waren er echter niet. Dus de eerste taak van de onderzoekers was dus om een database van optische illusies voor trainingsdoeleinden te maken. En toen werd het lastig. “Het aantal statische voorbeelden van optische illusies dat we konden vinden, ligt in de orde van grootte van enkele duizenden illusies. Het aantal unieke soorten illusies ligt nog veel lager. Hier heb je het over tientallen”, aldus de onderzoekers. Helaas is dat aantal te beperkt, waardoor Williams en Yampolskiy zich voor een lastige kip-ei-uitdaging gesteld zagen. Een Generative Adversial Network gebruiken om meer illusies te creëren? Een Escherwaardige illusie op zich.
Een mogelijke oplossing was misschien wel om een model te creëren dat zelfs van een zeer beperkte dataset kon leren. Een dergelijk model zou een enorme sprong voorwaarts betekenen in generatieve modellen en begrip van het menselijke visiesysteem.

Menselijke feedback

Williams en Yampolskiy gingen aan de slag. Ze stelden een database samen met beelden van meer dan 6.000 optische illusies en trainden vervolgens een neuraal netwerk om ze te herkennen. Vervolgens bouwden ze een Generative Adversial Network om zelf optische illusies te creëren. De resultaten waren teleurstellend. "Na 7 uur training op een Nvidia Tesla K80 had het systeem nog niets van waarde gecreëerd", concluderen de onderzoekers, die hun database beschikbaar hebben gemaakt voor anderen om te gebruiken. Toch is in dit geval ook geen resultaat een interessant resultaat. "De enige optische illusies die de mens kent, zijn gecreëerd door evolutie – denk aan oogpatronen in vlindervleugels - of door menselijke kunstenaars. In beide gevallen spelen mensen een cruciale rol door waardevolle feedback te leveren – zij kunnen de illusie zien. De huidige machinevisionsystemen kunnen dat niet. Het lijkt ons daarom onwaarschijnlijk dat een Generative Adversial Network de menselijke waarneming voor de gek kan houden, zonder de principes achter deze illusies te begrijpen," aldus Williams en Yampolskiy.

Een illusietest?

Er zijn cruciale verschillen tussen machinevisionsystemen en het menselijke visiesysteem. Wel proberen legio onderzoekers neurale netwerken te ontwikkelen die het menselijke visuele systeem steeds dichter benaderen. Wellicht kan de illusietest een soort Turingtest zijn die laat zien in hoeverre ze hier in geslaagd zijn. Vooralsnog zijn Williams en Yampolskiy echter niet optimistisch. "Het lijkt erop dat een zelfs een rijkelijk gevulde database met illusiebeelden niet voldoende is om nieuwe illusies te creëren," zeggen ze. Dat maakt optische illusies op dit moment nog tot een onneembare vesting van menselijke ervaringen die nog ver buiten het bereik van machines liggen.

Dit artikel verscheen eerder in Vision + Robtics
Afbeeldingen: Pixabay