Hur kan AI skapa bilder?

March 10, 2024  •  1 Comment

Det här är mitt första inlägg i en serie om AI som konstnärligt verktyg.

AI-program som genererar bilder är ett av de verktyg som jag använder för att skapa min konst. De här programmen kallas bland annat även AI-bildgenererare, AI-konstappar, AI-konstplattformar och AI-bildverktyg.

AI-bildverktygen är i grunden mycket enkla att använda. Man matar in en text som beskriver motivet man vill få fram, och så får AI tolka och generera bilder utifrån detta. Beskrivningen – som kallas prompt – kan bestå av några få ord eller vara hur lång och detaljerad som helst. Man kan t.ex. ange önskat bildformat, perspektiv, färgskala, konststil (t.ex. renässansen) och många andra parametrar. 

Här följer ett exempel med två prompter som jag har matat in i AI-bildverktygtet Midjourney (v6) – en kortfattad och en lite mer beskrivande:

  1. A squirrel on roller skates at Brandenburger Gate
  2. A cute, smiling albino squirrel on roller skates at Brandenburger Gate, wearing i Gucci motorcycle helmet, summer, blue sky, cumulus clouds, 1960’s esthetics, portrait lighting, pastel colors, many details, epic wide shot, surreal mood, award-winning image, flickr

Resultaten:

Midjourney, ekorre 1 Midjourney ekorre 2

Detaljerade prompter och uppladdade bilder är dock ingen garanti för att man får exakt det resultat man önskar sig, vilket framgår om man jämför ekorr-prompt 2 med ekorrbild 2 ovan. AI ”tänker” trots allt (ännu) inte fullt ut som vi människor och har vare sig våra allmänmänskliga eller personliga referensramar. Hur detaljerade prompter vi än tycker att vi skriver är de inte alltid exakta nog för appen helt ska förstå vad vi är ute efter. Jag tror till exempel inte den riktigt begrep ”Gucci motorcycle helmet” i prompt 2.

Att AI:n ibland tycks ha väldigt svårt att förstå mina beskrivningar (även om jag bemödar mig om att vara så tydlig som möjligt) är ibland rejält frustrerande, men det kan också resultera i fascinerande, helt oväntade tolkningar som inte sällan trotsar en eller annan naturlag, eller åtminstone vår mänskliga uppfattning om hur saker och ting bör te sig. För för mig personligen, som dras till det oväntade, det surrealistiska, drömska och inte alltid helt ”naturliga” är det här naturligtvis ofta en charmerande fördel.

 

Hur blir AI-bilder till?

AI-bildverktyg bygger på maskininlärning. Det är ett område inom artificiell intelligens som handlar om att maskiner själva ”lär sig” att utföra olika uppgifter, utan att man behöver programmera dem specifikt för just dessa uppgifter. Inlärningen sker med hjälp av stora mängder data och algoritmer (systematiska procedurer som i ett antal steg anger hur man löser olika problem). Den ”kunskap” maskinerna tillägnar sig använder de för att göra förutsägelser och ta självständiga beslut.  

När det gäller AI-bildverktyg specifikt lär de sig genom att dela upp enorma mängder bildmaterial (t.ex. målningar, foton och 3D-modeller) och texter (beskrivningar av bilder i textform) i småbitar, hitta mönster i materialet och sedan skapa nya bilder utifrån informationen de har analyserat.

En av modelltyperna som flera välkända AI-bildverktyg bygger på (t.ex. Midjourney, DALL-E 2 och Stable diffusion) kallas diffusionsmodeller. De tränas på att avlägsna brus som lagts till en bild och att fylla tomrummet efter bruset med det som de tror saknas. Först adderar man så mycket brus till en bild att man inte längre kan se vad den föreställer (tänk ”Myrornas krig” på teve). En ”brusindikator” får sedan analysera hur mycket brus som lagts till originalbilden, och bruset avlägsnas därefter i flera steg, varpå modellen via ens prompt fyller på det innehåll som den tror saknas, med syftet att ”hitta tillbaka” till originalbilden. I det här skedet hämtar modellen ”inspiration” från andra bilder som den har tränats på. 

När modellen är ”färdigutbildad” och ska användas som bildverktyg för att generera nya skapelser utgår den från en helt ny bild, som bara innehåller slumpmässigt brus, och en prompt. Den får sedan arbeta med att ta bort bruset och fylla i med detaljer tills den har genererat en bild som den ”tycker” överensstämmer med användarens prompt.

Över till själva prompten: detta är alltså textbeskrivningen av motivet man vill få fram, och den översätts till en kod som modellen använder för att förstå våra mänskliga ord (så kallade textinbäddningar). Med den här tekniken placeras ord tillsammans med andra ord som har liknande betydelser.

Ett exempel på hur det kan fungera: användaren skriver in prompten ”grön katt”. Den delas upp i inbäddningarna ”grön” och ”katt”. Modellen söker genom alla bilder den har tillgång till som innehåller de här inbäddningarna och använder dem som input när den genererar den nya bilden. I varje steg av processen där bruset avlägsnas från bilden avgör ”grön” och ”katt” vilka detaljer som kommer att fylla tomrummet efter det borttagna bruset.

Annie Weibull, mars 2024 (här på bild både med och utan brus)

 

 


Comments

Tullio(non-registered)
cool Annie. will follow along. stay inspired!
No comments posted.
Loading...

Archive
January February March April May (2) June July August September October November December
January February (1) March April May June July August (1) September October November December
January February March April May June July (1) August September October November December
January February March April (1) May (1) June (2) July August September (1) October November December
January February March (1) April May (1) June (1) July (1) August (1) September (1) October November (1) December
January February (1) March (2) April (1) May June July August September October November December