Dall-E of SDXL: wie maakt betere plaatjes?
Online diensten om beelden en plaatjes te maken met behulp van Artificial Intelligence (AI) zijn inmiddels voor iedereen toegankelijk. We bekijken de twee populairste die je hiervoor kunt gebruiken: Dall-E 3 en Stable Diffusion XL (SDXL). Duik mee in de titanenstrijd der plaatjesmakers.
In dit artikel bekijken we welke dienst er beter is in het generern van afbeeldingen op basis van prompts. Daarbij kijken we naar:
- Welke woorden staan er op de zwarte lijst?
- Hoe gaan ze om met stijlen en materialen?
- Hoe coherent (kloppend) zijn de plaatjes?
- Wat zijn de eigenaardigheden van beide systemen?
Ook interessant: Stable Doodle maakt van jou een kunstenaar in de dop
De afgelopen jaren heeft het maken van plaatjes op basis van een tekst (een prompt) met kunstmatige intelligentie een enorme vlucht genomen. Inmiddels kan iedereen er gratis mee aan de slag en zijn de AI-modellen in verbluffend tempo beter geworden. Vaak maken ze exact wat je vraagt. Vaak, maar zeker niet altijd. We zijn benieuwd wat de twee populairste gratis modellen, Dall-E 3 en Stable Diffusion XL (SDXL), wel en niet goed doen. Overigens zijn deze diensten niet de enige opties als je zelf beeld wilt creëren. Voor andere populaire diensten, zoals Midjourney, moet je alleen wel je portemonnee trekken.
Wil je meer weten over Midjourney, lees dan deze artikelen: MidJourney: wat is het en hoe gebruik je het? en Met Midjourney kun je de mooiste beelden maken, hoe ver reikt jouw fantasie?
Dall-E 3
Sinds Microsoft flink heeft geïnvesteerd in OpenAI kunnen gebruikers van Bing volop gratis gebruikmaken van de twee blikvangers van het bedrijf: ChatGPT en plaatjesmaker Dall-E, die inmiddels aan versie 3 toe is.
Voor Dall-E ga je naar www.bing.com, daar kies je voor Afbeeldingen. Vervolgens klik je op Maken en dan kun je aan de slag. Je moet wel over een Microsoft-account beschikken, maar die heeft natuurlijk elke Windows-gebruiker.
Op dit moment krijg je dagelijks vijftien zogenoemde boosts. Dit zijn gratis muntjes om plaatjes sneller te kunnen genereren. Dat creëren gebeurt in principe met vier tegelijk, tenzij het systeem plaatjes afwijst (zie de paragraaf ‘Veiligheid’). Zijn je dagelijkse muntjes op, dan hangt de snelheid af van de belasting van het systeem. Bij piekdrukte kan het vele minuten duren, maar ook als je de browser sluit, worden de resultaten aan je collectie toegevoegd.
Heb je toegang tot Microsoft Designer, dan kun je ook daar plaatjes maken met Dall-E 3. Het standaardaantal varieert van twee tot vier, afhankelijk van de drukte. Het opslaan is wat omslachtiger, maar het systeem is vooralsnog wel lekker vlot. Wij geven toch de voorkeur aan Bing.
SDXL
Omdat SDXL opensource is kun je deze dienst op vele manieren gebruiken. Zo kun je het lokaal installeren als je over de juiste hardware beschikt. Je bent dan helemaal vrij in het gebruik, maar het kost wat moeite en stroom. Er zijn ook veel online aanbieders die je toegang geven tot SDXL. Daarmee ben je niet afhankelijk meer van hardware, maar wel van de regels van het platform.
Een optie is Nightcafe. Na het maken van een gratis account krijg je dagelijks een handvol credits om plaatjes te maken met SDXL, of een van de daarvan afgeleide modellen. Meer credits kun je verdienen of kopen. Het oudere Stable Diffusion 1.5 kun je hier onbeperkt gratis gebruiken.
Alhoewel het een prettig platform is, zijn we toch nog meer onder de indruk van Playground AI. Na het maken van een account kun je hier dagelijks gratis vijfhonderd plaatjes maken en meer, zoals afbeeldingen vergroten.
Taal
De AI-modellen die plaatjes kunnen maken, zijn getraind op afbeeldingen en een Engelse beschrijving. Dat betekent dat ze het best reageren op Engelse prompts. Beide modellen kun je ook in het Nederlands toespreken. Daarbij lijkt de geautomatiseerde AI-vertaling die Dall-E gebruikt het sterkst. Alhoewel handig, heeft het toch niet onze voorkeur. Bij een vertaling gaat er altijd nuance verloren. Is je Engels niet geweldig of kun je niet op een woord komen, dan is het wel een goed alternatief.
Veiligheid
Voordat we eindelijk plaatjes gaan maken, moeten we het nog even hebben over veiligheid. Microsoft hanteert bij zowel Bing als Designer een zwarte lijst met woorden, maar die verschilt vreemd genoeg voor beide. Zo wilden we architectuurplaatjes maken in de stijlen Russian Avant-garde en Ukrainian Baroque. Dat weigerde Designer. Dat gold trouwens ook voor het gebruik van de naam van de fotograaf Julius Shulman. Het gebruik van zo’n naam kan je plaatjes net wat realistischer maken.
Beide modellen weigerden ook namen van bekende personen en woorden die wellicht ongewenste inhoud opleveren. Dat is iets wat Nightcafe ook doet. Daarmee kun je bij geen van deze diensten een prompt als vulva cathedral gebruiken, terwijl die fraai en totaal niet aanstootgevend beeld kan opleveren. Bij Playground AI hebben we nog geen belemmeringen vooraf gevonden.
Is een plaatje eenmaal klaar, dan beoordeelt AI bij alle diensten of het door de beugel kan, waarbij de één wat puriteinser is dan de ander. Daarbij lijkt het vooral om zichtbare geslachtskenmerken te gaan en bijvoorbeeld niet om de gruwelijkheden van de Dag des Oordeels.
Stijlen en materialen
De AI-modellen zijn getraind op het maken van zo veel mogelijk beelden. Daarbij zijn ze gevoed met stijlen, technieken en materialen. Beide modellen scoren goed als het gaat om kennis van stijlen. Denk aan kunststromingen, soorten fotofilm, de stijl van individuele kunstenaars en kunstzinnige begrippen. Ook de kennis van technieken mag er zijn; bijvoorbeeld over olieverf, ets en krijttekening.
Bij de vele honderden begrippen die we hebben getest viel wel op dat Dall-E vaker complexere en meer gedetailleerde resultaten bood. Al zijn er ook begrippen die SDXL wat beter lijkt weer te geven. Waar Dall-E écht een voorsprong heeft, is in het kunnen weergeven van materialen, al dan niet gefingeerd. Een prompt, zoals een danspaar gemaakt van honing, wordt door SDXL beslist minder overtuigend neergezet. Bij meer bizar materiaal, zoals antimaterie, komt Dall-E nog altijd met een esthetisch verantwoord plaatje waar een zekere logica in zit. SDXL werkelijk heeft geen flauw idee wat het ermee aan moet.
Coherentie
Bij het maken van beeld door middel van AI wordt de term coherentie gebruikt om aan te geven in hoeverre een plaatje klopt. Een jaar geleden zag je nog meteen of iets door AI gemaakt was. Dat herkende je onder meer aan duidelijke fouten in gezichten, te veel of te weinig ledematen en andere vreemde verschijnselen.
Dit komt nog altijd voor. Het vooral SDXL die hieraan lijdt. Let maar op de hand van de man die de krant vasthoudt. Bij Dall-E zijn dergelijke fouten niet zeldzamer, maar wel veel subtieler. Vraag je bijvoorbeeld om een interieur, dan zie je soms onlogisch geplaatste objecten of een bizarre hoeveelheid schemerlampen.
Oplossingen
Beide systemen hebben zo hun eigen mogelijkheden om dit soort problemen te lijf te gaan. Bij Dall-E zijn deze beperkt tot de prompt. In de nieuwste versie kun je namelijk zeer lange en gedetailleerde prompts geven. Dat biedt weliswaar geen garantie, maar is toch indrukwekkend.
Lees ook: Haal betere resultaten uit ChatGPT met slimme prompts
Een lange prompt levert in SDXL aanmerkelijk minder goede resultaten op. Het systeem levert wel veel meer functionaliteit dan Dall-E. Zo kun je een echt of eerder door AI gemaakt plaatje als startpunt gebruiken en met een prompt verfijnen. Wij kregen een resultaat, maar daarbij verloren we wel het winterlandschap en de open haard en ook de voeten kloppen niet. Maar met meer experimenteren kom je vaak een eind.
Bij SDXL kun je ook hetzelfde plaatje (seed) opnieuw maken met gewijzigde instellingen of een iets gewijzigde prompt. Dall-E geeft geen toegang geeft tot dergelijke instellingen. Tot slot zijn er gespecialiseerde van SDXL afgeleide modellen voor specifieke genres.
Resolutie
Zowel Dall-E als SDXL produceren standaardplaatjes in een resolutie van 1024 × 1024 pixels. Bij Dall-E kun je daar niets aan veranderen. Gebruik je SDXL in Nightcafe dan kun je ook voor een beeldverhouding van 4:3 of 3:4 kiezen (1152 × 896, of omgekeerd) of voor 16:9 of 9:16 (1344 × 768, of omgekeerd). De kans op fouten aan de randen van zulke afbeeldingen neemt daarbij wel toe.
Playground AI voorkomt dit door een maximale hoogte of breedte van 1024 aan te houden. Met schuifjes kun je hoogte en breedte dan op een kleinere waarde zetten, bijvoorbeeld 1024 × 768 voor een plaatje met verhouding 4:3.
Eigenaardigheden
Zowel SDXL als Dall-E hebben zo hun eigenaardigheden. SDXL reageert vaak veel sterker op de namen van allerlei kunstenaars dan Dall-E. Dat heeft als voordeel dat je meer stijlen kunt nabootsen of met elkaar kunt combineren. Alleen is soms de invloed van een naam zo overheersend dat er van het onderwerp van je prompt weinig overblijft.
Dall-E is wat dat betreft subtieler, maar die bootst weer minder (recente) kunstenaars na. Ook heeft deze AI de neiging om in veel buitenscènes spontaan vogels te plaatsen en het kan lastig zijn om straatscènes niet vanuit een hoog standpunt te genereren.
Interessant is dat Dall-E duidelijk put uit bestaand werk. Zo verwijst de op Van Gogh gebaseerde duidelijk naar het beroemde schilderij American Gothic van Grant Wood zonder dat we dat hebben genoemd.
Conclusie
De verschillen tussen Dall-E 3 en SDXL doen nog het meest denken aan die tussen iOS en Android. Waar de eerste buitengewoon gelikt is, kun je als gebruiker totaal niet onder de motorkap rommelen. Bij SDXL heb je juist heel veel opties, maar kost het ook meer moeite om vergelijkbare kwaliteit te krijgen.
Overigens is Dall-E nieuwer, dus bij de volgende versie van SDXL heeft deze ongetwijfeld een inhaalslag gemaakt.
Toe aan een nieuwe laptop?
Voor elke toepassing, voor elk budget