Nvidia’s GauGAN verandert schetsen in fotorealistische afbeeldingen

Nvidia heeft de AI-gebaseerde GauGAN-software ontwikkelt, die een schets verandert in een fotorealistisch landschap. GauGAN maakt daarvoor gebruik van zogeheten ‘generative adversarial networks’ (GAN) en is een demonstratie van de mogelijkheden van Nvidia’s neurale netwerkplatformen.

Nvidia onthulde de oplossing maandag tijdens zijn Graphics Technology Conference 2019 in Silicon Valley. GauGAN is in staat om een eenvoudige schets in een paar seconden te veranderen in een realistische foto. TechCrunch vergelijkt de software met MS Paint, maar dan in een AI-jasje.

GauGAN beschikt over drie tools: een verfemmer, pen en potlood. Onderaan het scherm bevindt zich een reeks objecten. Door bijvoorbeeld op ‘cloud’ te klikken en een paar lijnen te schetsen, produceert de software enkele fotorealistische wolken. Het gaat niet zomaar om sjablonen, de resultaten worden in realtime gecreëerd op basis van de input.

Zo is het bijvoorbeeld mogelijk om door het schetsen van een paar lijnen, de afbeelding te veranderen in een zonsondergang bij een bergtop of een rechte lijn met daarop een bol te veranderen in een boom. Teken een circel en vul die met de verfemmer, en de software maakt er wolken van. Bovendien is de software zo slim, dat als gras verandert in sneeuw, de lucht automatisch de juiste kleurtoon krijgt. Daarnaast verdwijnen de blaadjes van de takken, als je aangeeft dat het herfst is en weerspiegelt een boom in het water, als er een vijver getekend is.

Multimodaal

Nvidia heeft het neurale netwerk getraind met ruim een miljoen foto’s. De meeste foto’s waren afkomstig van Flickrs Creative Commons en afbeeldingen zouden dan ook alleen met toestemming zijn gebruikt. Nvidia stelt dat de software honderdduizenden objecten en hun relatie met andere objecten in de echte wereld kan synthetiseren. Daarbij is GauGAN ook multimodaal. Als twee gebruikers dezelfde schets maken met exact dezelfde instellingen, zorgen willekeurig getallen in de software ervoor dat er toch twee verschillende resultaten uitrollen.

Om zijn realtime resultaten te realiseren, draait GauGAN op een Tensor-computingplatform. Tijdens een demonstratie op de conferentie gebruikte Nvidia een RDX Titan GPU-platform. Toch stelt Bryan Catanzaro, vice-president van Applied Deep Learning Research, dat GauGAN met enkele aanpassingen op vrijwel elk platform kan draaien, inclusief cpu’s, al zou het dan wel een paar seconden in beslag nemen om resultaten te tonen.

Ontwikkeling neurale netwerken

Volgens Nvidia moet er nog wel het een en ander worden gefinetuned, zoals het verfijnen van de grens waar twee getekende objecten samenkomen. Het verder ontwikkelen van GauGAN zou ook bijdragen aan de ontwikkeling van neurale netwerken in het algemeen.

Catanzaro hoopt dat de software na de nodige aanpassingen beschikbaar wordt op Nvidia’s nieuwe AI Playground. Plannen om de software te commercialiseren zijn er niet.