Diskussion om AI-genererade bilder

zo0ok · 2 Sep 2022

Möller said:
@Lemur kanske vet, eller nån annan, men visst måste bilderna som matas in i en AI också få en tillhörande beskrivning så datorn lär sig vad bilderna föreställer? Trålar datorn bara slumpvis över internet och hittar tusentals bilder kan den väl inte lära sig vilken bild som föreställer en gråhårig paladin med en stridshammare och vilken bild som föreställer ett träd som växer upp ur en gammal stövel storlek 43? Det måste en människa tala om för AIn - sen kan AIn skapa bilder med träd som växer upp ur en gråhårig paladin. Eller?

När du loggar in på någon site, och den frågar dig - vilka rutor innehåller trafikljus - och du får 5 sådan frågor... vad tror du de håller på med?

Troberg · 2 Sep 2022

Möller said:
@Lemur kanske vet, eller nån annan, men visst måste bilderna som matas in i en AI också få en tillhörande beskrivning så datorn lär sig vad bilderna föreställer? Trålar datorn bara slumpvis över internet och hittar tusentals bilder kan den väl inte lära sig vilken bild som föreställer en gråhårig paladin med en stridshammare och vilken bild som föreställer ett träd som växer upp ur en gammal stövel storlek 43? Det måste en människa tala om för AIn - sen kan AIn skapa bilder med träd som växer upp ur en gråhårig paladin. Eller?

De började med att bygga en AI som kan tolka bilderna.

Möller · 2 Sep 2022

zo0ok said:
När du loggar in på någon site, och den frågar dig - vilka rutor innehåller trafikljus - och du får 5 sådan frågor... vad tror du de håller på med?

Styr bilar. Live.

Troberg said:
De började med att bygga en AI som kan tolka bilderna.

Jag har fortfarande svårt att förstå hur man kan översätta text till bild eller vice versa och man bara behöver en enorm databas med bilder men inte en enorm databas med text.

Magnus Seter · 2 Sep 2022

zo0ok said:
När du loggar in på någon site, och den frågar dig - vilka rutor innehåller trafikljus - och du får 5 sådan frågor... vad tror du de håller på med?

Jag har alltid trott att de har ett gäng bilder där en människa sagt "de här innehåller trafikljus" och så taggar man dem och så blir det en rätt enkel sak att kolla om någon klickar rätt.

Har faktiskt inte ens tänkt tanken att det skulle vara AI bakom.

Ram · 2 Sep 2022

Undrar om det finns någon fuzzyness i den rena mängden bilder som jag tänker mig att AI:n konsumerar... Att det oberoende av inmatad sträng blir extremt svårt att påvisa påverkan av en enskild bild?

Eller skall man se det som binärt? Att det är en maskin som matats med bilden och därför är den automatiskt använd?

Lemur · 2 Sep 2022

Möller said:
@Lemur kanske vet, eller nån annan, men visst måste bilderna som matas in i en AI också få en tillhörande beskrivning så datorn lär sig vad bilderna föreställer? Trålar datorn bara slumpvis över internet och hittar tusentals bilder kan den väl inte lära sig vilken bild som föreställer en gråhårig paladin med en stridshammare och vilken bild som föreställer ett träd som växer upp ur en gammal stövel storlek 43? Det måste en människa tala om för AIn - sen kan AIn skapa bilder med träd som växer upp ur en gråhårig paladin. Eller?

Precis, att ha noggrannt annoterade bilder är nyckeln. Det stämmer som @Troberg skrev att dom har byggt en extra AI som hjälper till med det, men människor är det viktigaste. Att slumpvis plocka bilder från Instagram hade både varit uselt att träna med samt dataintrång. Har faktiskt inte lyckats hitta var Dalle och MJ får tag på sina bilder men jag vet att många företag som exempelvis iStock Photo gör stora pengar nuförtiden eftersom att dom just sitter på rättigheter till färdigt annoterade bildbanker.

Edit: har någon läst det finstilta för använarkonton på Artstation? Tror inte att det är en slump att mycket MJ-bilder har den känslan.

zo0ok · 2 Sep 2022

Magnus Seter said:
Jag har alltid trott att de har ett gäng bilder där en människa sagt "de här innehåller trafikljus" och så taggar man dem och så blir det en rätt enkel sak att kolla om någon klickar rätt.

Har faktiskt inte ens tänkt tanken att det skulle vara AI bakom.

Du TRÄNAR AIn när du svarar på frågorna.
Om du svarar samma som någon annan stackare före dig, så släpper de in dig (precis som du trodde).
Och AIn lär sig känna igen trafikljus.

zo0ok · 2 Sep 2022

Möller said:
bara behöver en enorm databas med bilder men inte en enorm databas med text

men så är det (nog) inte

Man börjar med 1000 000 bilder.
1000 av dem innehåller katter. De andra 999 000 bilderna innehåller inga katter.

Så tränar man ett neuralt nät att känna igen bilder med katter.
Det neurala nätet är ingen databas, innehåller inga bilder, inga katter, och inte ordet katt (typ).

Sedan gör man en bild av brus. Och så frågar man det neurala nätet om det är en katt. Och det är det (med största sannolikhet) inte.
Så då ändrar man slumpartat på bruset, och frågar nätet om det är mer som en katt, eller mindre som en katt, än tidigare.
Om det är mer som en katt, så upprepar man med den "nya" brus-bilden, annars upprepar man med den gamla "brus-bilden".
Så gör man så, om och om igen, tills det neurala nätet säger att det där är absolut en katt.
Och då är det ganska stor chans att det faktiskt ser ut som en katt.

krank · 2 Sep 2022

zo0ok said:
Och då är det ganska stor chans att det faktiskt ser ut som en katt.

Som då till exempel den här katten.

(Jag är otroligt tacksam över att den sajten slutat försöka producera katter med kroppar. Det här med att få till rätt antal ben, och på rätt plats, är svåra grejer…)

Ram · 2 Sep 2022

Det borde kanske rimligen vara en stadig trave neurala nätverk och andra algoritmer som interagerar, eller? Typ specialiserade AI för vissa grundformer, andra för end touch up och sedan ett antal valideringsditon som säger att bilder inte duger inte olika stegen? Eller?

zo0ok · 2 Sep 2022

krank said:
Som då till exempel den här katten.

(Jag är otroligt tacksam över att den sajten slutat försöka producera katter med kroppar. Det här med att få till rätt antal ben, och på rätt plats, är svåra grejer…)

Vet du om de genereras i realtid (vilket skulle förvåna mig mycket), eller om de bara har generat bilder i förväg och lagt på hög?
EDIT: Man får samma katter, om och om igen, eller hur? Så de har antagligen kunnat kasta bort bilder som inte ser ut som katter också.

Ram said:
Det borde kanske rimligen vara en stadig trave neurala nätverk och andra algoritmer som interagerar, eller?

Ja - det tror jag du kan räkna med!

krank · 2 Sep 2022

zo0ok said:
Vet du om de genereras i realtid (vilket skulle förvåna mig mycket), eller om de bara har generat bilder i förväg och lagt på hög?
EDIT: Man får samma katter, om och om igen, eller hur? Så de har antagligen kunnat kasta bort bilder som inte ser ut som katter också.

Jag är för dålig på att komma ihåg kattutseenden för att avgöra om man får samma om och om igen, men jag tror absolut att de förhands-genereras snarare än skapas on the fly. Generering tenderar ju att ta lite tid.

Däremot vet jag inte om de nödvändigtvis människo-filtrerar bilderna på förhand. Det finns säkert en möjlighet, men jag ser ingen anledning att anta det.

Genesis · 2 Sep 2022

krank said:
Som då till exempel den här katten.

(Jag är otroligt tacksam över att den sajten slutat försöka producera katter med kroppar. Det här med att få till rätt antal ben, och på rätt plats, är svåra grejer…)

Om man antar att det där är samma grej som thispersondoesntexist så använder den StyleGAN, som fungerar annorlunda. Den börjar inte med brus, utan börjar med en 2x2-pixelbild, sedan skalar upp den i varje steg (4x4, 16x16 …). Dessutom tar den inte prompter, tror jag. Istället så jobbar den med två AI-nätverk, där en genererar bilden och den andra försöker lista ut om den är fejk eller ett riktigt foto.

Men StyleGAN är ju ganska gammal teknik, så vet inte om någon nuvarande AI använder den?

Lemur · 2 Sep 2022

Genesis said:
Men StyleGAN är ju ganska gammal teknik, så vet inte om någon nuvarande AI använder den?

Den utvecklas fortfarande och vissa har börjat kombinera den med Clip, som Dalle använder för träning. Men det är ju diffusion som är det hippa just nu.

zo0ok · 2 Sep 2022

Genesis said:
Den börjar inte med brus, utan börjar med en 2x2-pixelbild, sedan skalar upp den i varje steg (4x4, 16x16 …).

Det där med att ska upp den, istället för att börja med en stor bild, det är mer en ganska enkel och självklar optimering, snarare än en annan algoritm... tänker jag.

JohanL · 2 Sep 2022

Måns said:
ROBOTAR ÄR OCKSÅ MÄNNISKOR!

”I am a person, and so are you. That much is beyond doubt. I am a human being, and probably you are too. If you take offense at the 'probably' you stand accused of a sort of racism, for what is important about us is not that we are of the same biological species, but that we are both persons, and I have not cast doubt on that.”
—Daniel Dennett, Brainstorms (1981)

JohanL · 2 Sep 2022

clarence redd said:
(Eller är det egentligen superenkelt? Om en bildskapares verk används för att träna en AI, så borde det räknas som ”användning” av bilderna - ungefär som att använda dem i en bok. Alltså uppstår en förhandling om ersättning till bildskaparen).

Nä, inte mer än om du tittar noga på en målning för att förstå tekniken men sedan gör något annat och eget.

Genesis · 2 Sep 2022

zo0ok said:
Det där med att ska upp den, istället för att börja med en stor bild, det är mer en ganska enkel och självklar optimering, snarare än en annan algoritm... tänker jag.

Fast uppskalningstekniken är alltså typ tre år gammal, medan brusgrejen är ny och hipp. Jag menade mest att kranks kattlänk inte var ett exempel på den teknik som Lemur beskrev.

Magnus Seter · 2 Sep 2022

Okej det här kanske är en dum fråga.

Måste inte en människa någon gång i början säga till AI:n att "det här är en katt"? En referens, en definition eller vad man kallar det.

För AI:n kan väl inte själv komma på att det är en katt?

zo0ok · 2 Sep 2022

Magnus Seter said:
Måste inte en människa någon gång i början säga till AI:n att "det här är en katt"? En referens, en definition eller vad man kallar det.

Precis. Den får det genom att den får se många bilder, och att den får reda på för varje bild om det finns en katt eller inte på bilden.

Diskussion om AI-genererade bilder

Rollspelsamatör

Sinister eater

Hubert Hortlax

Ansvarig utgivare

Skev

Chatbot som låtsas vara en lemur

Rollspelsamatör

Rollspelsamatör

Lättkränkt cancelkultur-kommunist

Skev

Rollspelsamatör

Lättkränkt cancelkultur-kommunist

Ni dés ni maître

Chatbot som låtsas vara en lemur

Rollspelsamatör

Champion

Champion

Ni dés ni maître

Ansvarig utgivare

Rollspelsamatör