Diskussion om AI-genererade bilder

Oldtimer · 28 Jul 2022

Jag har ett svagt minne av en SF-novell där en dator kunde skriva Shakespeare. Men den rättade monologen ur Hamlet till "ta till vapen mot en här av kval", eftersom man inte kan slåss mot ett hav. Logik kontra känsla.

Oscar Silferstjerna · 28 Jul 2022

Oldtimer said:
Jag har ett svagt minne av en SF-novell där en dator kunde skriva Shakespeare. Men den rättade monologen ur Hamlet till "ta till vapen mot en här av kval", eftersom man inte kan slåss mot ett hav. Logik kontra känsla.

Men poängen blir då, utifrån ett nutida perspektiv på AI, att även sådant som vi uppfattar som känsla kan förstås algoritmiskt. Koncept och begrepp som känsla och litterär kvalitet är också delar beräkningsbara system. De är bara väldigt komplexa och omfattande. I längden tror jag mest att det handlar om datorkapacitet.

Herr Grönstedt · 28 Jul 2022

Vi har i vår forskargrupp pratat om att den här typen av teknologi kan användas för att generera alternativ, vilka sedan kan värderas. Det gör denna att man kan identifiera vilka kvalitetsdimensioner som är viktiga i aktuell situation. Alternativen som genereras kan också fungera som inspiration eller råmaterial. Föreställ er att man komponerar en hel bild med massor av den typ av promtar ni gett här, men på ett mer kontrollerat sätt för att det ska bli som man vill.

Oldtimer · 28 Jul 2022

Oscar Silferstjerna said:
I längden tror jag mest att det handlar om datorkapacitet.

Kanske... kanske inte.
https://en.wikipedia.org/wiki/P_versus_NP_problem

Oscar Silferstjerna · 28 Jul 2022

Oldtimer said:
Kanske... kanske inte.
https://en.wikipedia.org/wiki/P_versus_NP_problem

Jag tror att du behöver sätta in detta antagande i den större kontext som AI idag är.

Oldtimer · 28 Jul 2022

Oscar Silferstjerna said:
Jag tror att du behöver sätta in detta antagande i den större kontext som AI idag är.

Nu blir jag lite osäker på vad du menar. P vs NP är fortfarande relevant idag.

Oscar Silferstjerna · 28 Jul 2022

Oldtimer said:
Nu blir jag lite osäker på vad du menar. P vs NP är fortfarande relevant idag.

Säkert. Vad jag funderar på är vad som kan göras med AI - både på kort och lång sikt. Har du läst något av Nick Boström? Sim du kanske också vet är han en av världens mest meriterade forskare inom AI-fältet. Det betyder inte att han alltid har rätt, men jag tycker att hans perspektiv, visioner och farhågor är välgrundade.

Oldtimer · 28 Jul 2022

Oscar Silferstjerna said:
Säkert. Vad jag funderar på är vad som kan göras med AI - både på kort och lång sikt. Har du läst något av Nick Boström? Han är en av världens mest meriterade forskare inom AI-fältet. Det betyder inte att han alltid har rätt, men jag tycker att hans perspektiv, visioner och farhågor är välgrundade.

Jag har arbetat som systemutvecklare och systemarkitekt i över fyra årtionden. Även om jag inte är specialiserad inom just AI, följer jag med det mesta som händer inom IT. AI har funnits som begrepp inom datavetenskap sedan 50-talet och jag ser det inte som en revolution i sig, utan bara en evolution. Dvs inget som förändrar grundläggande teorem.

Snackar vi kvantdatorer däremot...

Sedan ser jag personligen Nick Boström mer som en filosof än en forskare inom AI. Men visst är det kul att läsa hans tankar.

Oscar Silferstjerna · 28 Jul 2022

Oldtimer said:
Jag har arbetat som systemutvecklare och systemarkitekt i över fyra årtionden. Även om jag inte är specialiserad inom just AI, följer jag med det mesta som händer inom IT. AI har funnits som begrepp inom datavetenskap sedan 50-talet och jag ser det inte som en revolution i sig, utan bara en evolution. Dvs inget som förändrar grundläggande teorem.

Snackar vi kvantdatorer däremot...

Sedan ser jag personligen Nick Boström mer som en filosof än en forskare inom AI. Men visst är det kul att läsa hans tankar.

Boström är filosof, men AI-fältet är tvärvetenskapligt. Själv har jag närmat mig detta område via det nya och likaledes tvärvetenskapliga forskningsfältet digital humaniora. Big data, data mining och distant reading är några av fältets nyckelbegrepp.

Herr Grönstedt · 28 Jul 2022

Oscar Silferstjerna said:
Säkert. Vad jag funderar på är vad som kan göras med AI - både på kort och lång sikt. Har du läst något av Nick Boström? Sim du kanske också vet är han en av världens mest meriterade forskare inom AI-fältet. Det betyder inte att han alltid har rätt, men jag tycker att hans perspektiv, visioner och farhågor är välgrundade.

Nick Boström är precis som Kurzweil tämligen sensationalistisk. Han för en argumentation baserat på att man drar utvecklingen i tangentens riktning. Men det säljer väl böcker. Den utgår också från premissen att medvetande är beräkningsbart, men man kommer inte undan Searles kinesiska rum ( https://en.m.wikipedia.org/wiki/Chinese_room ). För en mer sansad beskrivning av vad datorer kan och inte kan rekommenderar jag Brian Cantwell Smiths book The Promise of Artificial Intelligence som är både välgrundad, välskriven och läsvärd: https://mitpress.mit.edu/books/promise-artificial-intelligence

Brian hade kontoret bredvid mig när han var gäst hos oss och jag tror inte att jag träffat en så klipsk människa i hela mitt liv.

Oscar Silferstjerna · 28 Jul 2022

Herr Grönstedt said:
Nick Boström är precis som Kurzweil tämligen sensationalistisk. Han för en argumentation baserat på att man drar utvecklingen i tangentens riktning. Men det säljer väl böcker. Den utgår också från premissen att medvetande är beräkningsbart, men man kommer inte undan Searles kinesiska rum ( https://en.m.wikipedia.org/wiki/Chinese_room ). För en mer sansad beskrivning av vad datorer kan och inte kan rekommenderar jag Brian Cantwell Smiths book The Promise of Artificial Intelligence som är både välgrundad, välskriven och läsvärd: https://mitpress.mit.edu/books/promise-artificial-intelligence

Brian hade kontoret bredvid mig när han var gäst hos oss och jag tror inte att jag träffat en så klipsk människa i hela mitt liv.

Ja, som i de flesta (alla?) akademiska fält finns det idémässig friktion och en del som kan uttrycka sig på ett för utomstående mer tillgängligt vis. Jag tycker att Boström är intressant, även om han, som sagt, inte måste ha rätt i allt han säger. Just idén om det beräkningsbara medvetandet är ju omstridd. Att det finns kontroverser inom ett visst fält är i mina ögon dock mest ett hälsotecken. Friktion leder ofta utvecklingen framåt, även om personstrider kan vara tröttande.

Rickard · 28 Jul 2022

För att prata om Midjourney. Man kan ställa in kvalitet (egentligen "detaljrikedom") genom att skriva exempelvis --quality 3 efter sin prompt. --quality 1 är grundläget. Nackdelen är att quality 3 tar tre gånger så lång tid att generera.

Kvalitet 1

Kvalitet 3

Så med andra ord kan man få variationer på samma bild, åtminstone om man lägger till samma seed (nummer).

clarence redd · 28 Jul 2022

Quality och Stylize är nya parametrar som verkar vara väldigt kraftfulla. Men även default-läget har blivit bättre. Men det är lätt att glömma av att vissa bilder blir bättre med färre detaljer.

krank · 28 Jul 2022

Herr Grönstedt said:
men man kommer inte undan Searles kinesiska rum ( https://en.m.wikipedia.org/wiki/Chinese_room ).

Vad är det som är så svårt att komma undan med det? Det är ju mest semantiska dumheter, som utgår från att man redan bestämt sig för att det ska finnas något en människohjärna gör som inte går att göras på annat sätt. Är man inte redan övertygad om det så är ju heller inte det kinesiska rummet speciellt övertygande.

Jag har läst ganska många argument i frågan, men jag har hittills inte sett något argument för att AI inte skulle kunna få ett medvetande som inte också precis lika gärna kan användas för att ifrågasätta människors medvetande.

JohanL · 28 Jul 2022

krank said:
Vad är det som är så svårt att komma undan med det? Det är ju mest semantiska dumheter, som utgår från att man redan bestämt sig för att det ska finnas något en människohjärna gör som inte går att göras på annat sätt. Är man inte redan övertygad om det så är ju heller inte det kinesiska rummet speciellt övertygande.

Jag skrev en B-uppsats på det där. Det finns flera fatala resonemangsfel i det. Det mest uppenbara är förstås att det inte är operatören utan systemet som är vad som skulle förstå kinesiska, vilket gör att hela resonemanget faller platt till marken - operatören förstår inte kinesiska; vad systemet förstår eller ej är inte uppenbart.

Oscar Silferstjerna · 28 Jul 2022

Intressant diskussion om kinesiska rummet! Men den kanske kan föras i en separat tråd? Med tanke på att antalet AI-genererade bilder inte lär minska med tiden, så föreslår jag att vi håller oss hyfsat till ämnet. Jag är väl medveten om att jag själv har syndat och skrivit flera off topic-inlägg i denna tråd (sorry).

Herr Grönstedt · 28 Jul 2022

krank said:
Vad är det som är så svårt att komma undan med det? Det är ju mest semantiska dumheter,

Att kalla en av 1900-talets främsta filosofers arbete för dumheter är kanske lite starkt.

Det här svaret blir off-topic. Och jag går inte vidare i en filosofidiskussion bortom det utan hänvisar istället till litteraturen, eller kurser i medvetandefilosofi och hela utbildningsprogram i kognitionsvetenskap.

Grunden av argumentet är att bara manipulera symboler endast kan ge intrycket av förståelse utan att ha riktig förståelse. Det kan bara imitera ett intelligent medvetande, eftersom mening uppträder för en organism i relation till sin omgivning i samspel med andra organismer. Det relaterar till det som kallas "the grounding problem". Alltså hur symboler/representationer kan få betydelse och referera till något i världen. Anyhow, att förklara det kan nog andra göra bättre än jag.

Argumentet bakom kinesiska rummet kan sammanfattas på följande sätt:

Låt oss säga att det finns ett program för att konversera flytande på kinesiska och ett beräkningssystem, mänskligt eller artificiellt, som kan köra det programmet. (1) För att stark AI (dvs att datorn verkligen förstår, är medveten) ska vara sant så finns det ett program som gör så att vilket beräkningssystem som än kör programmet kommer att förstå kinesiska. (2) Jag kunde köra ett program för kinesiska utan att faktiskt förstå kinesiska. (3) Därför är stark AI falskt.

Det finns tre huvudsakliga svar som förts fram. (1) Systemsvaret - Även om mannen i rummet inte förstår kinesiska så förstår systemet som mannen i rummet är en del av. (2) Robotsvaret - Om det kinesiska rummet gavs en robotkropp, eller om det simulerade hela hjärnan neuron för neuron så skulle den förstå. (3) Premisserna är fel - Mannen i rummet förstår visst, eller det beror på hur vi definierar "förstå", eller som Krank hänvisar till att vi baserat på argumentet inte heller kan säga att människor förstår. Searle kallar detta “The Other Minds Reply”. Hans svar på det beskrivs bra i artikeln på ämnet i Stanford Encyclopedia of Philosophy: https://plato.stanford.edu/entries/chinese-room/#OtheMindRepl

Som sagt off-topic och därför släpper jag det nu.

Oscar Silferstjerna · 29 Jul 2022

clarence redd said:
Jag har testat Dall E och Midjourney ett tag nu och de är riktigt, riktigt bra! Dall E drar mer åt det fotografiska hållet, medan Midjourney har matats med konst och illustrationer, vilket gör att den hanterar fantastik bättre.

Dall E ser bättre ut vid första (och ofta andra) anblicken. Men Midjourney uppgraderar sin generator oftare och v3, som släpptes för några dagar sedan, är betydligt bättre på korrekt anatomi till exempel.

Intressant nog verkar många illustratörer mer positiva till AI idag än för, säg, två år sedan. Anledningen tror jag är att många har upptäckt att AI:n funkar för snabba skisser, för research och som idégenerator. Även om AI-bilden i sig aldrig används, så kan illustratören snabbt få fram alternativa kompositioner och ljussättningar till exempel.

Dessutom har både Midjourney och Dall E börjat ta betalt per bild. Att göra en halvbra bild är inte så dyrt, men en professionell illustration kan kosta en del att få fram. Inte så mycket som en ”riktig” illustration, men ändå tillräckligt för att de flesta icke-konstnärer antagligen bara testar några gånger på kul. AI:n blir i första hand ett verktyg för proffs. För tillfället iallafall.

Här är ett porträtt till Odd Soot (helt utan bearbetning, direkt från Dall E) och en rymdscen från Midjourney (som jag jobbat vidare på i Photoshop).

View attachment 9317

View attachment 9318

Jag har alltså inte börjat använda någon av dessa tjänster ännu, men lär testa så småningom. Blir nyfiken på vad det innebär att tjänsterna har matats med olika sorters bilder. Om jag skulle vilja göra, för att nu bara ta ett exempel, en fiktiv ”fotobok” om 50-talets New York, vad skulle krävas då? Vad behöver matas in för att det ska se trovärdigt ut? Det är ju redan en ganska väl dokumenterad miljö, som det finns många foton från.

Som jämförelse tänker jag mig också en annan ”fotobok” om Columbus resa till Karibien 1492. Det finns ju minst en spelfilm och förmodligen en del annat möjligt referensmaterial (skepp, miljöer, personer), men inte alls lika mycket som för 50-talets New York, antar jag. Hur enkelt skulle det vara att göra något hyfsat trovärdigt av detta?

clarence redd · 29 Jul 2022

Bra frågor! Google skriver någonstans att Dall E är väldigt detaljerat inom vissa områden, men helt blankt på andra. Och det stämmer bra. På ”Alien starship interior” fick jag tidigare i veckan en perfekt bild på första försöket. Men ”Medieval outlaw standing at the edge of a forest” har varit hopplös att få till.

Dall E vet heller inte vem Tintin är, medan Midjourney har superkoll.

Men spontant skulle jag rekommendera Dall E för dina två projekt. Ju mer fantastik och ”digital drawing” dina projekt innehåller, desto större chans att Midjourney funkar bättre.

Oscar Silferstjerna · 29 Jul 2022

clarence redd said:
Bra frågor! Google skriver någonstans att Dall E är väldigt detaljerat inom vissa områden, men helt blankt på andra. Och det stämmer bra. På ”Alien starship interior” fick jag tidigare i veckan en perfekt bild på första försöket. Men ”Medieval outlaw standing at the edge of a forest” har varit hopplös att få till.

Dall E vet heller inte vem Tintin är, medan Midjourney har superkoll.

Men spontant skulle jag rekommendera Dall E för dina två projekt. Ju mer fantastik och ”digital drawing” dina projekt innehåller, desto större chans att Midjourney funkar bättre.

Tack för bra svar! Det var visserligen bara två hypotetiska exempel, men jag hade gärna undersökt dem närmre. Kan man alltså göra en tjänst bättre genom att själv mata in bilder i systemet? Om jag exempelvis vill ha bilder från Norrköping, kan jag själv då göra tjänsten bra på just det?

Jag är alltså intresserad av att undersöka var gränserna går för mer trovärdig och pseudo-fotografiskt understödd fiktion.

Diskussion om AI-genererade bilder

Slava Ukraini!

Ett moln i byxor

Swordsman

Slava Ukraini!

Ett moln i byxor

Slava Ukraini!

Ett moln i byxor

Slava Ukraini!

Ett moln i byxor

Swordsman

Ett moln i byxor

Urverk speldesign

FrostByte Books

Lättkränkt cancelkultur-kommunist

Champion

Ett moln i byxor

Swordsman

Ett moln i byxor

FrostByte Books

Ett moln i byxor