bara behöver en enorm databas med bilder men inte en enorm databas med text
men så är det (nog) inte
Man börjar med 1000 000 bilder.
1000 av dem innehåller katter. De andra 999 000 bilderna innehåller inga katter.
Så tränar man ett neuralt nät att känna igen bilder med katter.
Det neurala nätet är ingen databas, innehåller inga bilder, inga katter, och inte ordet katt (typ).
Sedan gör man en bild av brus. Och så frågar man det neurala nätet om det är en katt. Och det är det (med största sannolikhet) inte.
Så då ändrar man slumpartat på bruset, och frågar nätet om det är mer som en katt, eller mindre som en katt, än tidigare.
Om det är mer som en katt, så upprepar man med den "nya" brus-bilden, annars upprepar man med den gamla "brus-bilden".
Så gör man så, om och om igen, tills det neurala nätet säger att det där är absolut en katt.
Och då är det ganska stor chans att det faktiskt ser ut som en katt.