ID.nl logo
De technologie achter deepfake en synthetische media
© Reshift Digital
Huis

De technologie achter deepfake en synthetische media

Je eigen gezicht op een filmpersonage plakken is geestig en vrij onschuldig, een politicus iets laten zeggen wat hij of zij nooit gezegd heeft is al van een andere orde. We hebben het uiteraard over deepfakes. Hoe werkt de technologie achter synthetische media?

Een belangrijk containerbegrip waar deepfakes onder vallen is ‘synthetische media’. Dat staat voor content die niet door mensen is gemaakt, maar door computers gegenereerd. Het gaat bijvoorbeeld om foto’s of video’s die niet echt zijn, maar er wel heel echt uitzien. Maar het kan ook gaan om audio, teksten of virtuele objecten. De content wordt geproduceerd door een algoritme op basis van kunstmatige intelligentie (AI, artificial intelligence). 

Deze AI wordt gevoed en getraind door data, zoals foto’s met verschillende gezichtskenmerken, bewegende beelden van een persoon, teksten, muziek of het interieur van huizen. Hoe groter de dataset, des te beter de vaardigheden van het algoritme worden. Software heeft ten opzichte van mensen het voordeel dat het content met hoge snelheid en op oneindige schaal kan produceren.

Een algoritme kan op basis van een dataset met bijvoorbeeld foto’s van tienduizenden personen de gelaatskenmerken analyseren, zoals de positie en kenmerken van de ogen, neus en mond, wenkbrauwen, haar en bijvoorbeeld moedervlekken. Door die vanuit verschillende hoeken te analyseren ontstaat een 3D-model van het gezicht. 

Op basis daarvan, en de overeenkomsten en verschillen tussen mensen in de dataset, kan het algoritme zelf mensen ‘maken’. Wanneer beelden gecombineerd worden van echte mensen wordt dit een deepfake genoemd. Maar het kan ook op basis van random noise, oftewel pixels.

©PXimport

Face swappen

Een onderdeel dat vaak in het nieuws komt, is een zogenoemde deepfake-video of -foto. Hierbij wordt een persoon gedeeltelijk vervangen door een andere persoon – bijvoorbeeld door het gezicht te verwisselen. Het begrip ‘deepfake’ is een samenvoeging van twee Engelse woorden: ‘deep learning’ en ‘fake’. Deep learning is een onderdeel van ‘machine learning’, dat gebaseerd is op kunstmatige neurale netwerken. Het wordt gebruikt om bestaande afbeeldingen en video te combineren, en delen ervan te integreren. 

Bij veel deepfake-video’s wordt meestal alleen een klein deel van een persoon vervangen: het gezicht. Dit heet een ‘faceswap’. Dit scheelt kostbare rekenkracht en het is beduidend minder complex omdat niet al het haar, lichaam, kleding en de achtergrond hoeft te worden vervangen. In de praktijk worden vaak alleen de gelaatstrekken van een hoofd overgenomen, zoals de ogen, neus, wenkbrauwen, gezichtshaar en mond. Deze worden wel zo aangepast dat de kleur en de belichting van het gezicht overeenkomt met het origineel. 

Het resultaat ziet er vaak verrassend echt uit, zeker wanneer het personen betreft die qua bouw een beetje op elkaar lijken. Een bekend voorbeeld is een scène van Arnold Schwarzenegger in Terminator 2, waarbij het gezicht is vervangen door aartsrivaal Sylvester Stallone. Een faceswap is tegenwoordig zo eenvoudig dat iedere consumentencomputer het kan: er bestaat kant-en-klare opensource-software voor. Ook smartphones zijn krachtig genoeg en er zijn talloze apps, zoals Reface.

Hoe werkt deepfake?

Het manipuleren van bestaande beelden of een faceswap werkt door eerst het bronbeeld uitvoerig te analyseren: de positie en de bewegingen van alle onderdelen van het gezicht worden uitvoerig ontleedt, evenals het licht en de hoek van het gezicht. Alle individuele frames worden apart opgeslagen. Vervolgens gebeurt hetzelfde met het doelbeeld, waarbij de gezichten over elkaar worden gelegd. Hoe groter de dataset aan beelden is, des te beter is het eindresultaat.

Het produceren van een compleet nieuw beeld door een algoritme werkt anders. Dit gebeurt met een techniek die bekend staat als GAN (Generative Adversarial Network). Dit is een klasse van algoritmen voor ongecontroleerd leren. Het werkt door middel van een soort spelscenario waarbij twee neurale netwerken tegen elkaar strijden en samenwerken. 

Het eerste netwerk is de generator, die een beeld genereert (maar het kan ook een tekst of audiofragment zijn). Het tweede netwerk is de discriminator, die is getraind op een grote database van voorbeelden en probeert te detecteren of het beeld echt is, of gefabriceerd door de generator. Dit proces gaat net zo lang door tot het door het eerste netwerk geproduceerde beeld zo goed is, dat het aangemerkt wordt als echt. Het netwerk van de generator traint zichzelf dus als het ware omdat het telkens anticipeert op de afwijzingen van de discriminator. 

Een GAN die op foto’s is getraind, kan zelf beelden genereren die niet van echt te onderscheiden zijn. Deze foto’s of video’s zijn dus niet samengesteld uit echte beelden, zoals bij deepfake, maar volledig op basis van nieuwe pixels gegenereerd. Het gaat dan dus om mensen die in werkelijkheid niet bestaan, maar er wel levensecht uitzien. Voorbeelden zijn te zien op sites als thispersondoesnotexist.com. Voor katten, huiskamers en landschappen bestaat deze techniek ook.

Hollywood

De techniek worden steeds vaker toegepast in Hollywoodfilms. In Terminator Genisys, Captain Marvel, Tron: Legacy, The Irishman en Gemini werden hoofdrolspelers tientallen jaren jonger gemaakt. In 2016 zagen we een jonge Carrie Fisher als prinses Leia in Star Wars: Rogue One en in Episode IX figureerde zij zelfs na haar dood.

Amerikaanse filmmakers overwegen zelfs de in 1955 overleden acteur James Dean, te laten figureren in een nieuwe Vietnamfilm, omdat ze zijn persoon zo goed bij de rol vinden passen. Ook voor tv en op YouTube worden steeds vaker deepfakes gebruikt. Zo zond het Britse tv-netwerk Channel 4 beelden van Koningin Elizabeth uit waarbij ze een TikTok-dans deed. 

In Zondag met Lubach ontkrachtte Gerry Baudet uitspraken die door zijn ‘broertje’ waren gedaan. In december 2020 publiceerde YouTube-kanaal Sassy Justice, van de makers van South Park, een zogenaamd kerstverhaal van President Trump waarin twee rendieren onderling ruzie krijgen over de uitslag van de verkiezingen. De opname lijkt verrassend echt, inclusief de bewegingen, handgebaren, gelaatstrekken en de stem van Trump. 

Tenslotte ontstond onlangs veel reuring nadat De Correspondent een gemanipuleerd filmpje van Mark Rutte online zette, waarin het leek alsof de VVD-politicus ineens wel erg begaan was met het klimaat. Op de stem na zou je het zo geloven! 

Tekst: Jeroen Horlings

▼ Volgende artikel
Nieuwe FromSoftware-game The Duskbloods komt echt alleen naar Switch 2
Huis

Nieuwe FromSoftware-game The Duskbloods komt echt alleen naar Switch 2

The Duskbloods, de nieuwe game van Elden Ring- en Dark Souls-ontwikkelaar FromSoftware, zal echt alleen op Nintendo Switch 2 uitkomen.

Dat heeft de ontwikkelaar benadrukt bij het bekendmaken van zijn kwartaalcijfers (via VGC). Daarbij werd ook nog eens benadrukt dat The Duskbloods nog altijd gepland staat om ergens dit jaar uit te komen, net zoals de Switch 2-versie van Elden Ring.

Over de exclusieve Switch 2-release van The Duskbloods: "Het wordt verkocht via een samenwerking met Nintendo, met verkoopverantwoordelijkheden verdeeld per regio. De game komt alleen voor Nintendo Switch 2 beschikbaar." Daarmee is dus duidelijk gemaakt dat Nintendo een nauwe samenwerking met FromSoftware is aangegaan voor de game en dat het spel niet zomaar op andere platforms uit zal komen.

Over The Duskbloods

The Duskbloods werd begin vorig jaar aangekondigd in een speciale Nintendo Direct waarin de eerste Switch 2-games werden getoond, maar sindsdien zijn er geen nieuwe beelden van het spel uitgebracht. Zoals gezegd is de game ontwikkeld door FromSoftware, het Japanse bedrijf dat naam voor zichzelf heeft gemaakt met enorm uitdagende spellen, waaronder de Dark Souls-serie en Bloodborne. Met de openwereldgame Elden Ring scoorde de ontwikkelaar enkele jaren geleden nog een megahit.

Watch on YouTube

The Duskbloods wordt een PvPvE-game, waarbij spelers het dus tegen elkaar en tegen computergestuurde vijanden opnemen. Maximaal acht spelers doen aan potjes mee. Na het kiezen van een personage in een hub-gebied wordt men naar een gebied getransporteerd waar er met andere spelers en vijanden gevochten wordt, al kan men soms ook samenwerken om vijanden te verslaan.

Spelers besturen een 'Bloodsworn', wezens die dankzij een speciaal bloed dat in hun lichaam zit meer krachten tot hun beschikking hebben dan reguliere mensen. Ondertussen is het einde van de mensheid nabij, en bestaat de wereld uit verschillende tijdperken, wat voor een mengelmoes van stijlen zorgt.

▼ Volgende artikel
Beeldverversing versus pixels: waarom soepel gamen beter is dan scherp
© Gorodenkoff Productions OU
Huis

Beeldverversing versus pixels: waarom soepel gamen beter is dan scherp

Resolutie is marketing, refreshrate is beleving. Waar 4K zorgt voor een mooi plaatje, zorgt een hoge verversing (Hz) ervoor dat je daadwerkelijk wint. Hieronder lees je waarom snelheid in feite de échte koning is in gaming.

Veel gamers staren zich blind op 4K-resolutie. Ze kopen een duur scherm, zetten de settings op Ultra en vragen zich vervolgens af waarom hun spel stroperig aanvoelt. De misvatting is dat 'mooier' gelijkstaat aan 'beter'. In werkelijkheid is de vloeibaarheid van het beeld – de refreshrate, oftewel verversingssnelheid – veel bepalender voor hoe direct en responsief een game aanvoelt. Aan het eind van dit artikel weet je precies of jij moet kiezen voor pixels of snelheid.

Hoe je ogen bedrogen worden door Hertz

Stel je voor dat je snel met je muis over je bureaublad beweegt. Op een standaard 60Hz-scherm zie je de cursor in schokjes over het beeld springen; je hersenen vullen de gaten in. Op een 144Hz- of 240Hz-gaming-monitor verdwijnen die gaten.

Het technische verschil zit hem in de verversingssnelheid: het aantal keren per seconde dat het beeld wordt vernieuwd. Bij 60 Hz krijg je elke 16,6 milliseconden een nieuw beeld. Bij 144 Hz is dat elke 6,9 milliseconden. Dat klinkt als een klein verschil, maar je voelt het direct. Het gestotter dat je onbewust gewend bent verdwijnt. Bewegingen voelen boterzacht aan, alsof de cursor (of je crosshair) aan je hand vastgeplakt zit in plaats van er achteraan zwemt. Dit effect wordt motion clarity genoemd: objecten blijven scherp, zelfs als ze snel door het beeld bewegen.

©Framestock

De winst in shooters en snelle actie

Wanneer werkt dit in je voordeel? Vooral in competitieve shooters zoals Call of Duty, Counter-Strike of Valorant. In dit soort games telt elke milliseconde. Een hogere refreshrate vermindert de input lag, oftewel de tijd tussen jouw klik en de actie op het scherm.

Stel, je draait je personage snel om. Bij een lage refreshrate wordt de vijand een fractie later getoond en zie je veel bewegingsonscherpte (motion blur). Met een hoge refreshrate zie je de vijand eerder en scherper, waardoor je sneller kunt reageren. Je hebt letterlijk actuelere informatie dan je tegenstander. Om dat te bereiken heb je wel een krachtige videokaart nodig die genoeg beelden per seconde (FPS) kan genereren om je snelle scherm bij te houden.

Wanneer resolutie het toch wint van snelheid

Is snelheid altijd heilig? Nee. Als je vooral tragere, meer verhalende games speelt (zoals Cyberpunk 2077 in de 'sightseeing' modus), Microsoft Flight Simulator of grafische RPG's, dan voegt 240 Hz weinig toe. In deze titels kijk je vaak naar stilstaande of langzaam bewegende omgevingen.

In dat geval wil je juist de texturen van de bomen, de reflecties in het water en de details in gezichten zien. Een 4K-monitor op 60 of 120 Hz is dan een logischer keuze dan een onscherp 1080p-scherm op 360 Hz. De visuele pracht weegt hier zwaarder dan de milliseconden reactietijd. Ook voor console-gamers die op de bank zitten, is een goede televisie met 4K en HDR vaak indrukwekkender dan puur de hoogste framerates.

Situaties waarin een hoge refreshrate zinloos is

Er zijn momenten dat investeren in een snel scherm weggegooid geld is. Dat gebeurt bijvoorbeeld als je hardware de snelheid niet kan leveren; als je videokaart maar 50 frames per seconde kan leveren, heeft een 144Hz-scherm geen nut omdat het scherm wacht op de computer. Daarnaast beperken oude kabels je bandbreedte, waardoor je monitor soms terugvalt naar 60 Hz zonder dat je het doorhebt. Ook op oudere consoles zoals de Nintendo Switch of de standaard PS4 heb je niets aan snelle schermen, omdat deze hardware fysiek gelimiteerd is op 60 Hz of lager.

Bepaal wat jouw setup aankan

Kijk dus kritisch naar je huidige situatie voordat je naar de winkel rent. Heb je een high-end pc die makkelijk 120+ FPS haalt in jouw favoriete games? Dan is een upgrade naar een 144- of 165Hz-monitor de grootste sprong in spelplezier die je kunt maken. Speel je op een PlayStation 5 of Xbox Series X? Zoek dan specifiek naar een scherm met HDMI 2.1-ondersteuning om 120 Hz op 4K mogelijk te maken. Zit je ver van je scherm af en speel je relaxed? Investeer dan liever in resolutie en kleurdiepte.

©Proxima Studio

Kortom: snelheid is de sleutel tot succes!

Verversingssnelheid is belangrijker dan resolutie voor iedereen die actie- of competitieve games speelt. Het zorgt voor een vloeiender beeld, minder input lag en betere motion clarity, wat je direct een voordeel geeft in het spel. Resolutie is vooral luxe voor het oog, maar refreshrate is pure prestatie voor de speler.