Diskussion om AI-genererade bilder

Status
Not open for further replies.

EvilSpook

Tämligen dålig överlag.
Joined
15 Oct 2008
Messages
2,154
Location
Off grid
Den som har satt ihop detta har lyssnat på texten och musiken, fått en stämning och bild i huvudet, skrivit ett flertal prompter och sedan valt och kombinerat bilder i en sekvens som matchar musiken. Det är både ett kreativt och analytiskt arbete.
Yes. Misstänker att de också kanske kört med nån Warhammer tag för att snylta på deras speciella grafiska stil!?

//EvilSpook
 

EvilSpook

Tämligen dålig överlag.
Joined
15 Oct 2008
Messages
2,154
Location
Off grid
Fler kommentarer till Sabatonvideon hintar också om att de får "Uncanny valley"-känslor.
Intressant att till och med en serie så pass "abstrakta landskap" framkallar såna.

//EvilSpook
 

Genesis

Ni dés ni maître
Joined
17 Aug 2000
Messages
15,605
Location
Göteborg
En stor mängd målningar i en gemensam stil av ganska hög kvalitet, till ett överkomligt pris.
"Ganska hög kvalitet" är väl kanske en överdrift. De är ju fulla med huvuden på fel ställen, saker som smälter ihop och underliga oformligheter. Men det är intressant hur AI-bilderna får en helt annan dimension när det gäller kvalitet. Saker som skuggning, ljuskällor, reflektioner, färgsättning som är svårt för en människa att fixa, är simpelt för en AI. Däremot saker som "Hur många huvuden har en häst?" är ju ganska ovanligt att en mänsklig konstnär misstar sig på, men en AI-bild av sämre kvalitet lätt kan missa.
 

CapnZapp

Myrmidon
Joined
3 Apr 2008
Messages
4,015
"Ganska hög kvalitet" är väl kanske en överdrift. De är ju fulla med huvuden på fel ställen, saker som smälter ihop och underliga oformligheter. Men det är intressant hur AI-bilderna får en helt annan dimension när det gäller kvalitet. Saker som skuggning, ljuskällor, reflektioner, färgsättning som är svårt för en människa att fixa, är simpelt för en AI. Däremot saker som "Hur många huvuden har en häst?" är ju ganska ovanligt att en mänsklig konstnär misstar sig på, men en AI-bild av sämre kvalitet lätt kan missa.
Jag inbillar mig att sådant som antal huvud på en häst är trivialt att fixa. Vi talar om en teknologi som vi började tala om för några månader sedan.
 

Genesis

Ni dés ni maître
Joined
17 Aug 2000
Messages
15,605
Location
Göteborg
Jag inbillar mig att sådant som antal huvud på en häst är trivialt att fixa. Vi talar om en teknologi som vi började tala om för några månader sedan.
Säkert. Jag talade bara om just bilderna i videon.
 

Genesis

Ni dés ni maître
Joined
17 Aug 2000
Messages
15,605
Location
Göteborg
Vet inte om ni redan sett det, men AI kan nu också göra 3D-modeller. Här är en kortare video på engelska:


Och här är en längre med mer förklaringar på spanska (pratar också om videor):


Det som är imponerande med detta är att modellen inte har tränats på 3D-modeller, utan bara på 2D-bilder. Ändå kan den generera 3D-modeller. Riktigt ballt.
 

Rickard

Urverk speldesign
Joined
15 Oct 2000
Messages
18,397
Location
Helsingborg
Stable Diffusion model 1.5 är nu tillgänglig, om man registrerar ett konto. Inpainting-verktyget som man får ladda ned separat är helt otrolig, när den nu är mycket bättre på att ta omgivningen i beaktning. Videon går också igenom ett trick att lägga in "git pull" varje gång man startar web-ui så att man alltid får de senaste uppdateringarna.



Här nedan är vardera försök att göra en alvkvinna som spelar harpa och skapar en portal i harpan som en hjort kommer ut ifrån. Var i princip omöjligt i 1.4 men efter många inpaintings med 1.5 fick jag fram ett ... OK resultat. I 1.4 fick jag lägga in en mask för ansiktet bara för att jag aldrig fick ansiktet bra, trots att jag kör face restore på bilden.
 

Attachments

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,663
Nu har jag upptäckt ett problem med AI-bilder.

Jag håller på och genererar lite bilder till min fantasyvärld, och behövde en överväxt ruinstad i djungel. Så, jag satte datorn på att generera några tusen sådana, i hopp om att några skulle bli bra. Well, typ 80-90% blev riktigt bra, och dessutom höll de en konsistent stil. De är så bra att man nästan kan lukta djungeln och ruinerna när man tittar på dem. Så, det som var tänkt att bli en bild som illustration till en text på ett par sidor har istället fått mig att fundera på att göra en hel bok om ruinstaden, bara för att jag vill använda bilderna...

Prompten (i Stable Duffusion): (Ancient ruin city), jungle, overgrown, abandoned, volumetric light, fantasy art, digital art, highly detailed, realistic, trending on artstation, wallpaper

Typ allting efter fantasy art är för att få fler detaljer.
 

Rickard

Urverk speldesign
Joined
15 Oct 2000
Messages
18,397
Location
Helsingborg
Verkligen en störtskön "Vad är rollspel"-bild.

Satt på bussen och funderade på att man skulle kunna göra en webb-version av rollpersonsporträtt som man kan generera ut (med fasta prompter) och sedan även träna AI:n med specifika folkslag, typ "lejonfolket", "sköldpaddsfolket", "blodsalver", så att spelgrupper kan generera porträtt till sina rollpersoner/spelledarpersoner.
 

Lemur

Chatbot som låtsas vara en lemur
Joined
7 Sep 2015
Messages
2,634
Verkligen en störtskön "Vad är rollspel"-bild.

Satt på bussen och funderade på att man skulle kunna göra en webb-version av rollpersonsporträtt som man kan generera ut (med fasta prompter) och sedan även träna AI:n med specifika folkslag, typ "lejonfolket", "sköldpaddsfolket", "blodsalver", så att spelgrupper kan generera porträtt till sina rollpersoner/spelledarpersoner.
Isf måste du döpa den till GANdalf.
 
Last edited:

Rickard

Urverk speldesign
Joined
15 Oct 2000
Messages
18,397
Location
Helsingborg
Det där är dock en bearbetning av en bild och är därmed olagligt (att sprida publikt) utan upphovsmannens tillstånd.

Tror inte serieskaparen varken kan upphovsrätt eller hur AI-bildgenerering fungerar.

Däremot finns image to image, där man utgår från en bild för att generera en ny. Nu kan jag inte svära på det, men ett perspektiv skulle kunna vara att det fortfarande är en bearbetning. Att jag kör ett photoshopfilter och gör ett känt konstverk till sepia-färger är bara en bearbetning, exempelvis. Skulle jag köra ett filter som gör ett landskap till att ha samma färger som i Mona Lisa är det däremot en annan sak.
 
Last edited:

CapnZapp

Myrmidon
Joined
3 Apr 2008
Messages
4,015
Jag använde Voldy Retard Guide och fick det till slut att fungera.

a) I Steg 3, följ länken till fler modeller så hittar du magnet-länken för version 1.5
b) När den i Steg 6 säger "change COMMANDLINE_ARGS= to COMMANDLINE_ARGS=--medvram" vad den egentligen menar är: "lägg till en rad i kommandofilen med texten "set COMMANDLINE_ARGS=--medvram"
c) Du ska inte skriva vare sig https eller http för att nå webb-gränssnittet. Bara "127.0.0.1:7860" exempelvis.
d) Får du bara svarta bilder, kolla vilket grafikkort du har och om de stödjer "halv precision". För mitt GTX 1660 behövdes "--precision full --no-half".
e) Trots att mitt grafikkort säger sig ha 6 GB videominne fick jag out of memory errors tills jag körde " --lowvram --always-batch-cond-uncond --opt-split-attention". Ingen aning varför jag måste köra med inställningar avsedda för 2 GB grafikkort.
f) Får du fortfarande bara svarta bilder som svar, har det överkänsliga NSFW-filtret antagligen vägrat ge dig några bilder, oavsett hur oskyldiga prompts du provar.

Det tar ca 3 minuter att generera en batch på fyra bilder, alla andra inställningar lämnade på default.
 
Last edited:

CapnZapp

Myrmidon
Joined
3 Apr 2008
Messages
4,015
När kommer versionen som klarar allt av följande... måste vi vänta ända tills jul?? :cool:

 

CapnZapp

Myrmidon
Joined
3 Apr 2008
Messages
4,015
Kan inte lägga in detta i mitt tidigare inlägg:

Man måste ha ett NVidia kort. AMD kort har inte "CUDA kärnor" som är vad Stable Diffusion är programmerad att använda.

Mer videominne är bättre. Även om SD fungerar med så lite som 2 GB är 4 GB bättre, 6 GB ännu bättre, men egentligen vill programmet ha 12 GB. Ett grafikkort med 12 GB VRAM är dock inte direkt billigt.

Tyvärr har jag ett grafikkort i 1600-serien som inte klarar "halv precision" vilket jag tror förenklat betyder att minnet kan användas dubbelt så effektivt. Med andra ord, mitt korts 6 GB VRAM motsvarar i praktiken ett 3 GB kort... vilket också motsvarar mina observationer; jag behöver exempelvis köra med "--lowvram" och inte "--medvram", som om jag hade mindre än 4 GB VRAM.

(Jag blev nyfiken på vad det skulle kosta att bygga bort begränsningen, nu hösten -22. Men eftersom svaret är "minst 6000 kronor, helst 12000 kronor" får jag nöja mig med att leka med det jag har)
 

zo0ok

Rollspelsamatör
Joined
13 Sep 2020
Messages
2,790
Man måste ha ett NVidia kort. AMD kort har inte "CUDA kärnor" som är vad Stable Diffusion är programmerad att använda.
Ja. Men som jag skrev ovan så kommer man en bit med CPU-only också.
Om man, som i mitt fall, har 16GB RAM eller mer (och en i7 8th gen), så var CPU-only i huvudsak bättre än att köra på ett 1660-kort med 4GB VRAM.
 

CapnZapp

Myrmidon
Joined
3 Apr 2008
Messages
4,015
Ja. Men som jag skrev ovan så kommer man en bit med CPU-only också.
Om man, som i mitt fall, har 16GB RAM eller mer (och en i7 8th gen), så var CPU-only i huvudsak bättre än att köra på ett 1660-kort med 4GB VRAM.
Ska jag gissa du avser följande post?

Jag kröp till korset och provade CPU-only på en dator jag har utan Nvidia-GPU.
Till min förvåning går det lika fort... som att köra på min Laptop med Nvidia GPU (GForce GTX 1650 4GB).

Så ni som har hyggligt modern dator men inte så mycket GPU, misströsta inte för det går bra att experimentera i CPU-läge.

Allt jag behövde för att komma igång fanns här:
Kan du prova ta tiden för deras referensgenerering? Alltså 512x512 med 50 sampling steg (gissningsvis med defaultmetoden "Euler a")?



Jag tror på dig när du säger du får det att fungera, men det är fortfarande stor skillnad mellan att alls få några resultat, och att kunna använda systemet praktiskt.

På min maskin (alltså med 1660GTX grafik) tar det ca 22* sekunder generera en sådan bild (alltså Huggingface's standardinställningar förutom att antal steg ökats från 20 till 50; jag använde prompten "masterpiece, best quality, asuka langley sitting cross legged on a chair" om det har någon betydelse.)

*att jämföra med de 4 till 80 du ser i grafen. Detta med --medvram. Med --lowvram tar det 116 sekunder, alltså betydligt mer.

Jag frågar naturligtvis för att ta reda på hur stor skillnaden egentligen är.

Eller så ger du mig ledtråden jag behöver ändra mina inställningar för att jag borde få helt andra hastigheter! :)

Edit: Det var precis det du gjorde - stort tack. (Hela dagen igår körde jag med ---lowvram för att det var enda sättet kunna skapa batchar. Men skillnaden mellan "batch count" och "batch size" verkar vara obefintlig?!?)
 
Last edited:
Status
Not open for further replies.
Top