Wat is deepfake en hoe herken je nepvideo's?
Van foto’s is algemeen bekend dat ze eenvoudig te manipuleren zijn. Voor bewegend beeld was dat altijd lastiger. Toch is het dankzij deep learning, neurale netwerken en toenemende rekenkracht tegenwoordig relatief eenvoudig om iemands hoofd op een ander persoon te monteren, zelfs met beweging. Wat is deepfake en kunnen we videobeelden überhaupt nog wel vertrouwen?
Wellicht ken je de smartphone-apps FaceApp en FaceSwap wel. De eerste, die onder meer een oudere versie van een persoon kan genereren, was onlangs in het nieuws omdat het gezichtskenmerken op Russische servers zou opslaan. De tweede is een app waarmee je gezichten kunt wisselen – dus bijvoorbeeld dat van je buurman op dat van jou en andersom. Dat laatste kan ook al jaren met Snapchat, dat zich tevens heeft gespecialiseerd in allerlei andere effecten, zoals het opzetten van een hippe virtuele bril of de achtergrond die verandert in een tropisch eiland.
Processors zijn tegenwoordig zo krachtig dat vrijwel elke smartphone realtime dergelijke videobeelden kan genereren. Het effect is leuk en zo is het ook bedoeld. En hoewel het soms indrukwekkende resultaten biedt, is het meestal overduidelijk nep.
Bij deepfake-video’s is dat niet meer vanzelfsprekend het geval. Het resultaat ziet er akelig realistisch uit en is soms met het blote oog niet van echt te onderscheiden. In Hollywoodfilms wordt deze techniek al langer gebruikt, maar tot voor kort waren daar zeer dure en krachtige workstations voor nodig, evenals complexe software. Zo zagen we in Terminator Genisys een oude en nieuwe versie van Arnold Schwarzenegger (oftewel de T-800) tegen elkaar vechten. Een 67-jarige Arnold tegen de 37-jarige Arnold uit 1984 dus. Die laatste was natuurlijk niet echt, maar digitaal gerenderd op basis van de originele beelden uit de eerste Terminator-film. In de film Gemini Man zien we vrijwel exact dezelfde situatie: Will Smith loopt een jongere versie van zichzelf tegen het lijf die zijn vijand blijkt.
Digitaal spelen met leeftijden is echter een trend. Eerder zagen we ook al een 25 jaar jongere Samuel L. Jackson als ‘jonge’ Nick Fury in Captain Marvel, en in The Irishman kregen Al Pacino en Robert de Niro een digitale verjongingskuur omdat ze te oud waren voor hun rollen. Deze beelden werden gegenereerd met behulp deep learning, oftewel deepfake.
Het begrip deepfake is een samenvoeging van twee Engelse begrippen: deep learning en fake. Deep learning is onderdeel van machine learning, dat is gebaseerd op kunstmatige neurale netwerken. De werking van deze kunstmatige intelligentie (of AI: artificial intelligence) lijkt op de manier waarop onze eigen hersenen werken op basis van zenuwcellen oftewel neuronen. Deze AI kan zichzelf trainen aan de hand van data, waardoor de vaardigheden toenemen.
Die data kunnen bijvoorbeeld bestaan uit foto’s of video’s van een persoon, waarbij speciale software de gelaatskenmerken analyseert. Door die vanuit verschillende hoeken te analyseren ontstaat een 3D-model van het gezicht. Niet alleen van de positie van de ogen, neus en mond, maar ook die van andere kenmerken (inclusief de bijbehorende kleuren) zoals wenkbrauwen, haar en bijvoorbeeld littekens. Ook de manier van praten en bewegen wordt opgeslagen.
Als er genoeg bronmateriaal is geanalyseerd, kan er met behulp van CGI (computer-generated imagery) een 3D-computeranimatie worden gemaakt. In principe is het mogelijk een volledig 3D-model te construeren, eventueel inclusief bewegingen. Bij deepfake-video’s zien we vaak dat slechts een gedeelte van een persoon wordt vervangen, bijvoorbeeld alleen de gelaatstrekken van een hoofd zoals ogen, neus en mond.
Dat scheelt niet alleen kostbare rekenkracht, het is ook beduidend minder complex omdat bijvoorbeeld niet al het haar, het lichaam, de kleding en de achtergrond hoeven te worden vervangen. Een faceswap is tegenwoordig zo eenvoudig dat praktisch elke consumentencomputer het kan. Er bestaat zelfs kant-en-klare opensource-software voor.
Beroemdheden en porno
Eind 2017 dook de term deepfake voor het eerst op. Een Reddit-gebruiker genaamd ‘deepfakes’ plaatste video’s van beroemdheden op de site. Het ging alleen niet om echte video’s, maar nepbeelden. In de meer onschuldige beelden werd het gezicht van acteur Nicolas Cage gemonteerd op dat van andere acteurs in films waar hij niet in had gespeeld. Later verschenen er pornovideo’s waarin het hoofd van beroemde vrouwelijke sterren op dat van pornoactrices was gemonteerd. Door rekening te houden met het figuur en de kleur haar van beide actrices, was het resultaat vaak levensecht.
Het gevolg was dat de video’s zich snel over het internet verspreidden en onder meer op sites als Pornhub terechtkwamen. Dat leidde vervolgens tot serieuze reputatieschade voor de sterren – zij moesten zich verweren tegen nepvideo’s en startten talloze procedures om de beelden weer van websites af te krijgen. Het ging onder meer om Daisy Ridley, Emma Watson, Katy Perry, Taylor Swift en Scarlett Johansson. In augustus dit jaar overkwam voormalig NOS-nieuwslezeres Dionne Stax hetzelfde.
©PXimport
In juni dit jaar dook er zogenaamde DeepNude-software voor Windows en Linux op, zowel een gratis als een betaalde variant (50 dollar). Het laat zich raden wat de software deed: het stripte de kleding weg op basis van deep learning en genereerde met behulp van een uitgebreide dataset een bijpassend lichaam. De resultaten zagen er behoorlijk overtuigend uit, al werkte het ‘t best als de dame is kwestie al schaars gekleed was.
De makers kregen extreem veel kritiek te verduren omdat het vrouwen kwetsbaar maakt, bijvoorbeeld voor wraakporno. De verspreiding van DeepNude werd gestopt, maar inmiddels zijn er talloze soortgelijke programma’s die hetzelfde kunstje flikken.
Technische verbetering
Bij de eerste deepfake-video’s kon een oplettende kijker nog wel zien dat er iets niet klopte. Er waren glitches zichtbaar, bijvoorbeeld bij snelle bewegingen waarbij het 3D-model sneller of langzamer dat het echte hoofd bewoog en dus los in beeld stond. Ook waren er regelmatig foutjes te zien op het gebied van belichting en bij de overgang van het nep- naar het echte gezicht. En soms paste de gezichtskenmerken gewoon totaal niet bij de persoon waar deze op geprojecteerd werden.
Toch is er in korte tijd veel veranderd. Onder meer de Reddit-community hielp actief mee om onnauwkeurigheden in de deepfake-video’s weg te poetsen door de software-algoritmen te optimaliseren. Er werd zelfs software gedeeld waarmee een enkele foto al voldoende was voor een deepfake-video; dat was een kwestie van twee klikken, al zag het er wel minder overtuigend uit. Om de software te trainen werd deze ‘gevoed’ met foto’s en video’s van beroemdheden, waardoor meer ervaring kon worden opgedaan met verschillende gezichtskenmerken, maar ook expressies en bewegingen tijdens het praten.
Deepfake-video’s zijn daardoor steeds realistischer geworden en voor een leek bijna niet meer te herkennen, tenzij er bewust iets geks is gedaan – zoals het gezicht van een man op dat van een vrouw. Oneffenheden komen minder vaak voor, het werkt met verschillende huidskleuren en het is ook prima mogelijk om gezichtskenmerken naadloos te integreren op een doelpersoon met een baard of een andere haarkleur.
Nepvideo’s in de praktijk
Net als luchtige, satirische ‘nieuwsberichten’ zoals die van De Speld kun je met deepfake-video’s komische dingen doen, bijvoorbeeld in tv-programma’s en films, maar ook tijdens een speech op een bruiloft. In films is de techniek bovendien nuttig gebleken door niet alleen jongere of oudere versies van mensen te produceren, maar ook door overleden mensen weer tot leven te brengen.
Toch kun je er ook minder vrolijke dingen mee doen. In mei dit jaar werd een speech van democratisch leider Nancy Pelosi zo bewerkt dat het net leek alsof ze dronken was en lastig uit haar woorden kwam. De nepvideo werd daarna uitgezonden door Fox News, dat er vermoedelijk van uitging dat de video echt was. Ook Donald Trump retweette de video. Het probleem is dat opvallend nieuws zich razendsnel kan verspreiden, in tegenstelling tot rectificaties en factchecks.
In april 2018 werd een nepvideo gepubliceerd als waarschuwing van wat er mogelijk is met deepfake-technologie. Komiek Jordan Peele deed zich voor als Obama en deed uitspraken als ‘Trump is a total dipshit’, om er aan toe te voegen dat hij dat in het echt natuurlijk nooit zou zeggen, waarna Peele in een split screen verscheen. Door middel van lipsync bewoog Obama’s mond op exacte dezelfde manier als die van Peele, waardoor Obama dus zelf leek te spreken.
Om de beelden overtuigender te maken, maakte Obama tijdens het praten bewegingen met zijn hoofd en handen, en knipperde hij ook natuurlijk met z’n ogen. Een computer had 50 uur nodig om de video te perfectioneren met behulp van Adobe AfterEffects en FakeApp.
Spraaksynthese
Nepvideo’s van een bekend persoon zijn vaak te herkennen aan de spraak die niet helemaal overeenkomt met die van de geportretteerde. Bij een simpele deepfake-video, waar alleen de gezichtskenmerken van een ander over die van een bestaand persoon worden geprojecteerd, is de spraak nog steeds die van de oorspronkelijke persoon. Voor de oplettende luisteraar valt dat al snel op: er klopt iets niet. Wie dat wil perfectioneren kan drie dingen doen.
Optie 1: een stemacteur inhuren die de spraak van de bewuste persoon goed kan nadoen, zoals het eerdergenoemde voorbeeld met oud-president Obama. Optie 2: eerdere uitspraken van de bewuste persoon knippen, plakken en woorden ertussen plaatsen, al klinkt dat vaak erg nep. Optie 3: spraaksynthese gebruiken.
In 2016 demonstreerde Adobe de tool Voco Audio Manipulator. Spraakbewerking is tegenwoordig al erg geavanceerd en laat je eenvoudig woorden uit een zin knippen, maar spraaksynthese gaat nog een flinke stap verder. Je kunt een persoon namelijk woorden laten uitspreken die hij nog nooit eerder heeft gezegd. Net als bij deepfake-video’s moet de software eerst worden gevoed met spraakvoorbeelden, zoals audiofragmenten. Circa 10 tot 20 minuten aan spraak is al voldoende.
©PXimport
Wanneer het systeem weet hoe iemand bepaalde klanken uitspreekt, kunnen er nieuwe spraakelementen worden toegevoegd door deze domweg als tekst in te voeren. Op basis van de uitspraak van een combinatie van letters kan dat voor nieuwe woorden worden gebruikt. Ook de intonatie kan worden veranderd en het is zelfs mogelijk dat een ander persoon de woorden met een bepaalde intonatie of stemverheffing uitspreekt, waarna de software alles vervolgens omzet in de stem van de doelpersoon.
De demo’s die Adobe heeft vrijgegeven zijn indrukwekkend. Tegelijkertijd is het ook beangstigend, want je kunt mensen in feite alles laten zeggen. Dat kan worden misbruikt in rechtszaken, chantagemateriaal en propaganda.
Toekomst
Het blijft niet bij faceswaps en spraaksynthese, maar het is ook al mogelijk om een persoon bewegingen te laten maken met het hele lichaam. Ook daarvoor geldt weer dat er voldoende data beschikbaar moet zijn, waarbij het lichaam vanuit meerdere punten te zien is. Op basis van de beweging van een andere bron, zoals een danser of kungfu-expert, kan een persoon de bewegingen overnemen.
Het is elk geval duidelijk dat het aantal mogelijkheden om video’s te manipuleren in korte tijd enorm is gegroeid. Het lijkt slechts een kwestie van tijd voordat dit kan op basis van een aantal foto’s of korte video met enkel en alleen een app. Het gebruik ervan – of dat nu komisch bedoeld is of in de vorm van misbruik – is niet te voorkomen, dus we kunnen ons er maar beter van bewust zijn dat ook bewegend beeld niet altijd te vertrouwen is.
Tekst:Jeroen Horlings