Achtergrond

StableDiffusion: afbeeldingen uit tekstinvoer

David Lee
23/9/2022
Vertaling: machinaal vertaald

Beeldgeneratie met kunstmatige intelligentie boekt vooruitgang. StableDiffusion verricht geen wonderen, maar het is een grijpstuiver. En net als ik kun je het zelf uitproberen.

StableDiffusion is een beeldgenerator: je typt een tekst in, en de kunstmatige intelligentie (AI) genereert er een beeld bij. Zo werken andere AI-generatoren, zoals Dall-E 2. Maar terwijl Dall-E 2 momenteel alleen beschikbaar is voor geselecteerde mensen en alleen tegen betaling, kan StableDiffusion door iedereen gratis gebruikt worden. DiffusionBee voor de Mac maakt het bijzonder gemakkelijk: de normaal nogal ingewikkelde installatie gebeurt met een simpele drag and drop in de programmamap.

Altijd anders

Ik begin met het intypen van "cheesy giraffe skiën in de Zwitserse bergen met een koptelefoon op". Met andere woorden, een giraffe die in de Zwitserse bergen skiet met een koptelefoon op. De tekstinvoer werkt het best in het Engels, omdat het datamateriaal dat gebruikt wordt om StableDiffusion te trainen voornamelijk in het Engels is.

Elke keer dat StableDiffusion een beeld genereert, komt er iets anders uit. Zelfs met dezelfde tekst en instellingen. Met de parameter "Begeleiding" kun je aangeven hoe dicht de AI zich bij de standaard tekst moet houden. Standaard staat hij bijna op de maximale waarde - maar zelfs dan variëren de resultaten sterk.

Wilde mengsels leveren chabis op

Het voorbeeld van de giraffe brengt verschillende dingen samen die normaal gesproken niet bij elkaar horen. Zulke tekstinputs zijn natuurlijk erg aantrekkelijk - maar tegelijkertijd erg moeilijk voor de AI. Want er zijn geen foto's, waarschijnlijk zelfs geen tekeningen, om het weer te geven. En de AI wordt getraind aan de hand van echte foto's.

Het probleem blijkt ook uit de tekst "John Oliver trouwt met een kool".

De in de tekst genoemde elementen komen weliswaar op de foto's voor - maar niet in de beschreven vorm. Nergens trouwt John Oliver met een kool. Waarom verzin ik eigenlijk zulke onzin? Want in een John Oliver video probeerde iemand hetzelfde met de beeldgenerator Midjourney. Midjourney faalt net als StableDiffusion.

Omdat de AI echte sjablonen nodig heeft voor goede resultaten, trouwde John Oliver expres met een kool. Men helpt immers waar men kan.

Nachsitzen für die KI: Die reale Vorlage.
Nachsitzen für die KI: Die reale Vorlage.

Wat gaat goed en wat gaat minder

Je hebt waarschijnlijk de groteske ogen van John Oliver opgemerkt. Ogen staan vaak scheef. Menselijke lichamen zijn soms grotesk vervormd. StableDiffusion heeft ook moeite met het tekenen van rechte lijnen
.

Drei Versuche zu «large building with straight geometry».
Drei Versuche zu «large building with straight geometry».

Dit is bij fotorealistische afbeeldingen storender dan bij schilderijen. Hoe dan ook, de sterke punten van StableDiffusion lijken te liggen op het gebied van fantasiebeelden. De site arthub.ai geeft daarvan een goede indruk.

Hier zijn wat plaatjes bij de tekst "een prachtig kasteel naast een waterval in het bos, fantasie schilderij".

Bij zes van de tien pogingen schilderde StableDiffusion twee kastelen - de AI maakt geen strikt onderscheid tussen enkelvoud en meervoud. Dit kan erg irritant zijn. Het is voor ieder mens duidelijk dat er typisch maar één John Oliver trouwt op een John Oliver bruiloft. Een AI als StableDiffusion of Midjourney is zich nergens van bewust - hij heeft geen achtergrondkennis om input correct te interpreteren. Dienovereenkomstig schept het beelden van twee John Olivers die met elkaar trouwen.

Die KI versteht nicht, was sie da hinmalt.
Die KI versteht nicht, was sie da hinmalt.

StableDiffusion heeft ook weinig aan vage abstracte termen. De meest ongepaste afbeelding in mijn hele experiment met enkele honderden afbeeldingen kwam uit bij het onderwerp "Geluk": het drukt zo'n beetje het tegenovergestelde uit.

Happiness gemäss StableDiffusion.
Happiness gemäss StableDiffusion.

StableDiffusion werd getraind met Laion 5B, een database van 5,85 miljard tekst-beeld paren. Het kan online worden opgezocht. In de zoeken op "giraffe" zijn de meeste zoekresultaten geen foto's van echte giraffen, maar tekeningen of foto's van speelgoed. Dit is het geval voor veel termen en een mogelijke verklaring waarom StableDiffusion fotorealistische voorstellingen niet zo goed doet. Het trainingsmateriaal bevat ook veel memes en andere plaatjes met tekst, waardoor StableDiffusion graag tekst opspoort - zonder echt te kunnen schrijven.

Bild zu «average online commenter raging and hating on everything».
Bild zu «average online commenter raging and hating on everything».

Top 20: De beste illustraties voor songtitels

StableDiffusion is verslavend. Het aantrekkelijke is dat je nooit weet wat er uit gaat komen. Omdat je voor elk beeld een paar seconden tot minuten moet wachten, neemt de spanning toe. Op een gegeven moment kwam ik op het idee om songtitels in te voeren. Terwijl ik wachtte op een foto, bedacht ik nog verschillende titels die ik heel graag wilde uitproberen. Als ik eenmaal begonnen ben, is het moeilijk om te stoppen. Hoe dan ook, hier is mijn persoonlijke top 20:

20: Dr Funkenstein (George Clinton)

19: Dancing Queen (ABBA)

18: Cosmic Girl (Jamiroquai)

17: Breakfast in America (Supertramp)

16: Shelter From The Storm (Bob Dylan)

15: Gele Rivier (Christie)

14: Jailhouse Rock (Elvis Presley)

13: Diamonds on the Soles of Her Shoes (Paul Simon)

12: Sexy Motherfucker (Prince)

11: Shine On You Crazy Diamond (Pink Floyd)

10: Material Girl (Madonna)

9: Kiss My Ass (Wolfgang Amadeus Mozart)

8: Sex Machine (James Brown)

7: I Am the Walrus (Beatles)

6: Bad Guy (Billie Eilish)

5: Sultans of Swing (Dire Straits)

4: The Boy in the Bubble (Paul Simon)

3: Highway to Hell (AC/DC)

2: Lucy In The Sky With Diamonds (Beatles)

1: Shiny Happy People (R.E.M.)

29 mensen vinden dit artikel leuk


Deze artikelen kunnen je ook interesseren

  • Achtergrond

    Wat je kunt doen met de nieuwe AI-functies van Adobe in Lightroom

    van Samuel Buchmann

  • Achtergrond

    Bureauopstellingen van de redactie Deel 6: Flos kabelbeheer uit de hel

    van Florian Bodoky

  • Achtergrond

    Ik heb geprobeerd mooiere beelden te ontwikkelen dan NASA en dat is niet gelukt

    van Samuel Buchmann

Opmerkingen

Avatar