Hjälp mig hitta integritetssäkra lösningar

lupmet

Swordsman
Joined
19 Feb 2014
Messages
742
Location
Göborg
Jag gjorde för länge sedan ett program för att hitta "logiska dubletter" av bilder, dvs samma bild, men in annan skala, annat format, med logos/watermarks tillagda osv. Jag tog helt enkelt ett fingeravtryck på ett antal pixlar i bilden, tätare mot mitten, glesare mot kanterna, och sedan jämförde jag skillnader på dem, med kvadraten på skillnaden. Små skillnader hade nästan ingen effekt alls, stora skillnader slår ut hårt. Jag hade en skillnad i jämförelsevärdena på typ 500 gånger på samma bild jämfört med olika, men snarlika bilder (säg två frames efter varandra i en långsam filmscen). Var det helt olika bilder så var det en fator på flera 10 000 som skiljde mellan "olika bilder" och "manipulerade lika bilder".

Det är inte ens komplicerat att göra, och NN är overkill. Gamla hederliga minsta kvadratmetoden med lite smart applicering är mer än tillräckligt.
När du beräknar minstakvadratmetoden behöver du bilden du vill veta är en kopia av en äcklig bild samt den äckliga bilden (referensbilden). Därefter behöver du pixel för pixel (om det är utåt ifrån mitten i en spiral eller annan geometrisk figur spelar ingen roll) beräkna skillnaden (i kvadrat). Det är så jag tolkar dig, är det korrekt? Eller är det så att du menar att du beräknade ett värde på respektive bild och sedan räknade ut skillnaden (i kvadrat) mellan dessa två värden?

Det första fallet kommer kräva att antingen referensbilderna laddas ned till mobilen för att jämföras (vilket inte är ett alternativ) eller bilden du har i mobilen måste laddas upp för att jämföras emot biblioteket. Det senare skulle kunna gå att göra automatiskt för dem som använder iCloud för fotoarkiv men alldeles för lätt att gå runt. Att ladda upp alla bilder för analys tror jag inte heller är genomförbart.

I det senare fallet behöver du inte tillgång till referensbilden utan bara dess fingeravtryck/hash-värde.

Hur menar du att fingeravtrycket skulle beräknas? Jag tolkar dig som att du i princip tar pixelvärdet på de pixlar du har valt som referenspixlar, dvs för en helt blå bild blir sifferserien (i RGB) 255, 255, 255, ..., eller? Det ger ett fingeravtryck som är mycket intolerant emot Photoshop (t.ex. kapa 50 pixlar i högerkant och ovankant så att bildens centrum flyttas relativt motivet).

Hur stor är risken att det finns två bilder som ger samma fingeravtryck? Med tanke på ämnet är kostnaden för en falsk positiv eller en falsk negativ milt uttryckt enorm. En bild på ett par badande barn skall inte flaggas lika lite som en "riktig" bild skall missas för att de photoshoppats lite. Det betyder att fingeravtrycket måste vara mycket komplext och kunna vara tolerant emot förändrade bilder. Utan att kunna så mycket om bildbehandling (för tydlighetens skull: jag har en civ.ing. Datateknik-examen) vill jag ändå påstå att minstakvadratmetoden inte kommer vara tillräckligt robust för att vara en bra lösning. Den blir för beroende av fingeravtrycket och det blir i sin tur för lättpåverkat av photoshop.

Jag har mycket svårt att tro att Apple valt en överkomplex lösning, just för att det tekniska problemet är svårt och ett misslyckade skulle stå dem dyrt (pengamässigt, PR, ...). Är det något som Apple är bra på så är det att förenkla/minska komplexitet och tänka igenom sina lösningar ordentligt.

Du får gärna bekräfta/dementera mina antaganden om vad du menar ovan, men jag tänkte inte ge mig in i en matematisk-teknisk diskussion om bästa algoritmen för bildjämförelse. Dels för att jag inte kan tillräckligt för det och dels för att det är inte vad den här tråden handlar om...
 

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,663
När du beräknar minstakvadratmetoden behöver du bilden du vill veta är en kopia av en äcklig bild samt den äckliga bilden (referensbilden). Därefter behöver du pixel för pixel (om det är utåt ifrån mitten i en spiral eller annan geometrisk figur spelar ingen roll) beräkna skillnaden (i kvadrat). Det är så jag tolkar dig, är det korrekt? Eller är det så att du menar att du beräknade ett värde på respektive bild och sedan räknade ut skillnaden (i kvadrat) mellan dessa två värden?
Jag gjorde faktiskt ganska exakt vad du beskriver först. Jag lagrade värdet på ett antal pixlar i spiralform (efter att ha skalat om bilden till fast storlek i kvadratiskt format), om jag minns rätt 255 pixlar. Lagrade några andra värden också (medelvärde för varje färgkanal och lite sånt), för att kunna göra en grovsortering i SQL först. Sedan jämförde jag detta fingeravtryck mellan olika bilder.

Det ger ett fingeravtryck som är mycket intolerant emot Photoshop (t.ex. kapa 50 pixlar i högerkant och ovankant så att bildens centrum flyttas relativt motivet).
Japp, det var det största problemet med min algoritm. Det var dock inte ett problem i mitt användningsfall, och jag är ganska säker på att det skulle gå att komma runt genom att tex söka ut en gemensam punkt som center enligt någon modell baserad på innehållet.

Den hade dock en möjlighet att detektera svartvita varianter av ett färgfoto, så ramar/marginaler var det enda större problemet jag stötte på.

Hur stor är risken att det finns två bilder som ger samma fingeravtryck?
Mycket, mycket liten. Om jag tex tog en bild, gjorde om från en skarp PNG till en massivt komprimerad JPG med en logo, så fick jag ett skillnadsvärde på kanske 100 (kommer inte ihåg skalan, så bara ett exempel). Tog jag två frames efter varandra från en långsam scen i en film, som för ögat var identiska, så fick jag ett skillnadsvärde på 50 000. Var det helt olika bilder så kunde det ligga på 500 000 eller mer. Så, väldigt robust för småändringar, väldigt känslig för om det var en annan bild.

Dock, algoritmen kunde bara säga "den här bilden är samma som den här", den kunde inte säga "det här är en katt" eller "det här är barnporr". Jag behövde bara rensa vad jag kallar "logiska dubletter", dvs, olika varianter av sammabild, oavsett om det är annat format eller om mindre bearbetning gjorts.
 

lupmet

Swordsman
Joined
19 Feb 2014
Messages
742
Location
Göborg
Japp, det var det största problemet med min algoritm. Det var dock inte ett problem i mitt användningsfall, och jag är ganska säker på att det skulle gå att komma runt genom att tex söka ut en gemensam punkt som center enligt någon modell baserad på innehållet.
Och däri ligger en stor fälla. Många miljoner ingenjörstimmar har plöjts ned i projekt för att komma run en smärre detalj... :ROFLMAO:
Min poäng med detta är att den energi som läggs ned på att hitta gemensamma punkter (dvs. hantera panorerade bilder), hantera färgskiftningar (allt mörkblått är utbytt emot ljusblått i ett viss område) och så vidare för att Den Valda Lösningen (minstakvadratmetoden) skall fungera riskerar att snabbt närma sig vad det skulle kosta att implementera en komplexare algoritm som den som Apple valt. Gårdagens lösningar är ofta dagens problem och många har sagt "ge mig en vecka så har jag hanterat det specialfallet".

Mycket, mycket liten.
Tvärt om, mycket mycket stor. Om du har en bild på 100 gånger 100 punkter och väljer 200 punkter för ditt värde finns det 9800 punkter som kan ha vilket värde som helst och bilderna kommer ändå anses vara samma. De som vill ha dessa bilder men inte bli upptäckta kommer såklart satsa mycket på att ta reda på vilka punkter din algoritm väljer och förr eller senare kommer det att läcka. Då kommer de anpassa färgvärdet på dessa punkter, säg alltid svarta färg där. De som tittar på dessa bilder kommer antagligen acceptera att det finns svarta punkter lite överallt eftersom det betyder att de kan fortsätta titta på dessa bilder utan att bli påkomna. Detta går att komma runt genom att med jämna mellanrum byta vilka punkter som ingår i datamängden, men egentligen kommer vi då till samma kommentar som ovan: Är det verkligen en bra och robust lösning eller skall vi välja en annan?

Och omvänt: det finns ju ett intresse bland dessa ... personer att skapa en massa falska positiva. Det är ju mycket attraktivt att skapa någon form av virus som ändrar alla bilder i en offers mobil så att de punkter din algoritm väljer får värden som skapar falska positiva. Apples folk som sitter och dubbelkontrollerar innan de ringer närmsta poliskontor kommer då få oändliga mängder med bilder att gå igenom. Återigen, det går att lösa med mer intelligenta filter på deras sida, men då är vi tillbaka: är det verkligen en bra och robust lösning eller skall vi välja en annan?

Slutsats: Det är tekniskt ett mycket svårt problem med många aspekter och konsekvenserna för varje möjligt utfall är stora.
 

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,663
Tvärt om, mycket mycket stor.
Låt mig säga så här: Den hittade inte en enda falsk positiv matchning på över 10 miljoner bilder.

Sure, det går att lura algoritmen, det går alltid, men det går med en mer komplicerad algoritm. Den här slängde jag ihop på några timmar, jag är övertygad om att man inte behöver mycket mer tid för att göra en som är mycket svårare att lura.

Jag kan inte gissa varför Apple gör som de gör. På det hela taget, stora organisationer har sin egen logik, som inte alltid är logisk.
 

Dilandau

Myrmidon
Joined
27 Sep 2000
Messages
4,920
Location
Stockholm
Jag kan inte gissa varför Apple gör som de gör. På det hela taget, stora organisationer har sin egen logik, som inte alltid är logisk.
Det kanske är en bråkdels öre billigare per ”körning” än andra alternativ?
 

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,663
Det kanske är en bråkdels öre billigare per ”körning” än andra alternativ?
Typ, eller så ville någon chef att de skulle använda det där nya buzzwordet som han hört men inte förstod vad det är...
 

lupmet

Swordsman
Joined
19 Feb 2014
Messages
742
Location
Göborg
Här är en "nyhet" som låter jättebra, men som inte är det.
För den som vill läsa in sig lite: Bruce Schneiers blogg är väl värd att läsa och han har samlat ett flertal länkar till välskriven kritik (nej, jag har – ännu – inte läst en enda av dem): Apple Adds a Backdoor to iMesssage and iCloud Storage Jag litar generellt på Schneiers omdöme och han är kritisk.
 

Tant Ragnar

Gamle usling
Joined
23 Jun 2016
Messages
2,495
Lånar den här tråden för att få råd om möjliga ersättare till två produkter:

-Google photos
-Google drive

Såhär använder jag produkterna idag:

  • Google Photos
    • Synkar automatiskt bilder från mobilen
    • Skapar (digitala) album av utvalda bilder
    • Söker bland gamla bilder (datum, plats eller motiv)
    • Dela bilder/album med andra på enklast möjliga sätt
    • Access via dator och mobilapp
  • Google Drive
    • Fillagring (behöver ca 100-200 GB)
    • Dela filer med andra
    • Editera dokument, i dagsläget google sheets och google docs
      • Både från mobil och dator
      • Andra format är helt OK så länge de har samma grundläggande funktion som sheets/docs (excel/word funkar, open office är ok osv)
    • Access via dator och mobilapp
Randvillkor:
  • Lättanvänt
    • Exv Proton Drive, där jag måste ladda ned excelfiler innan jag editerar dem. Går bort.
  • Fungera på IOS.
  • Åtkomligt via (windows) dator.
  • Inte kosta mer än max en hundring i månaden.
  • Inte Google
 

Genesis

Ni dés ni maître
Joined
17 Aug 2000
Messages
15,596
Location
Göteborg
Dropbox känns ju som det enklaste alternativet. Vet att den synkar mina foton automatiskt varje gång jag kopplar in mobilen (iPhone i Mac). Men jag gör inte så mycket med mina foton, så jag vet inte hur det funkar med album och så. Vill du redigera Excelfiler utan att behöva ladda ned dem är det väl annars OneDrive som gäller.
 

Tant Ragnar

Gamle usling
Joined
23 Jun 2016
Messages
2,495
Dropbox känns ju som det enklaste alternativet. Vet att den synkar mina foton automatiskt varje gång jag kopplar in mobilen (iPhone i Mac). Men jag gör inte så mycket med mina foton, så jag vet inte hur det funkar med album och så. Vill du redigera Excelfiler utan att behöva ladda ned dem är det väl annars OneDrive som gäller.
Går det att ställa in så att den synkar bilder till molnet direkt från mobilen utan att behöva koppla in den i en dator?
 

Genesis

Ni dés ni maître
Joined
17 Aug 2000
Messages
15,596
Location
Göteborg
Går det att ställa in så att den synkar bilder till molnet direkt från mobilen utan att behöva koppla in den i en dator?
Verkar som det. Den klagar på att jag inte ger appen full tillgång till mitt fotobibliotek, i alla fall. Jag provade just att ge den den tillgången, och den började synka direkt. Så kan man välja om det ska ske över mobiluppkoppling eller bara vid wifi.

Andra grejer jag inte utnyttjar är någon form av dokumentredigerare som heter Dropbox Papers, en dold och låst mapp som heter Vault, och en lösenordshanterare. Plus att man kan synka hela datorn med Dropbox, tror jag.
 

Tant Ragnar

Gamle usling
Joined
23 Jun 2016
Messages
2,495
Right. Dropbox är med på listan. Jag överväger även Onedrive. Kanske inte optimalt ur privacy/security perspektiv men ett steg i rätt riktning?
 

anth

Vetefan
Joined
24 Feb 2003
Messages
10,271
Location
Fjollträsk
Right. Dropbox är med på listan. Jag överväger även Onedrive. Kanske inte optimalt ur privacy/security perspektiv men ett steg i rätt riktning?
Google Docs, Onedrive, Droppox, iCloud (och antagligen något från Amazon) har alla det gemensamt att de hostas av stora "elaka" företag.
Man väljer det företag man tycker är minst ondskefullt. :)

Vill man inte att något storföretag ska ha tillgång till ens data är alternativet att installera Next Cloud på en egen webbserver.
Next Cloud är en jättetrevlig lösning, men är tyvärr inte för vanliga människor:
Dels måste man kunna sätta upp en egen webbserver (inte webbsida, utan webbserver). Det är inte jättesvårt, men man måste sätta upp en Linuxmaskin, installera en webbserver (Apache), installera PHP, installera en Databas (MariaDB), installera Next Cloud.
Sedan måste man se till att det går att nå webbservern från nätet. Man kan hitta företag som erbjuder virtuella servrar för ett par hundra kr i månaden.
 

lupmet

Swordsman
Joined
19 Feb 2014
Messages
742
Location
Göborg
För att organisera foton tror jag att jag skulle rekommendera Mylio, den har inte ett eget moln ("eget moln" är i dag nästan alltid samma sak som att företaget har hyrt in sig i AWS/S3, dvs. Amazon, som lyckats med konststycket att vara mer creepy än Facebook) men låter dig ha filerna på flertalet molndiskar.

Ett alternativ till att köpa plats på en molntjänst är att göra en variant på vad @anth säger: skaffa en NAS som tål att exponeras för Onda Internet.

Något att fundera över: måste du ha alla foton tillgängliga var och när som helst eller ett urval du styr? Det kan spara plats och kan påverka möjliga lösningar.
 

chrull

Stockholm Kartell
Joined
17 May 2000
Messages
8,421
Lånar den här tråden för att få råd om möjliga ersättare till två produkter:

-Google photos
-Google drive
Jag kör apples lösningar. Det är inte optimalt, men gör allt du ber om utom dokumentredigeringen som du behöver hitta en annan lösning för.
Fast jag är inte helt säker på hur bra Windows-apparna är.
 

Genesis

Ni dés ni maître
Joined
17 Aug 2000
Messages
15,596
Location
Göteborg
Google Docs, Onedrive, Droppox, iCloud (och antagligen något från Amazon) har alla det gemensamt att de hostas av stora "elaka" företag.
Man väljer det företag man tycker är minst ondskefullt.
Jag tycker nog att det är rätt stor skillnad på olika företags affärsmodeller och datahantering. Google och Facebook bygger hela sina affärsmodeller på insamling av uppgifter om sina användare. Amazon bygger till viss del på detta, medan Apple och Dropbox inte alls har detta som inkomstdrivare.
 

anth

Vetefan
Joined
24 Feb 2003
Messages
10,271
Location
Fjollträsk
För en tid sen dömdes protonmail att lämna ut ip-adressen för en användare.

Jag säger inte att protonmail är dåligt (för det är det inte), jag ville visa att man inte kan lita på andra om man vill vara 100 % säker.
Om jag förstod rätt är protonmail fortfarande krypterad, viket är något som protonmail inte kan göra något åt.
 

chrull

Stockholm Kartell
Joined
17 May 2000
Messages
8,421
Ja, den här tråden är inte till för att hitta lösningar för att undgå lagen, så även om det är tråkigt så känner jag att jag hellre har min mail på ett ställe som följer lagen och står kvar där det finns, istället för att bli ett tillhåll för … pedofiler, gängkriminella, terrorister, och sen stormas i gryningen av europol och sen är alla mina mail borta.
 

lupmet

Swordsman
Joined
19 Feb 2014
Messages
742
Location
Göborg
Ja, den här tråden är inte till för att hitta lösningar för att undgå lagen, så även om det är tråkigt så känner jag att jag hellre har min mail på ett ställe som följer lagen och står kvar där det finns, istället för att bli ett tillhåll för … pedofiler, gängkriminella, terrorister, och sen stormas i gryningen av europol och sen är alla mina mail borta.
Jag tycker det där är en mycket bra poäng. Vad jag har sett verkar det finnas en grupp ultraliberaler (säkert fel begrepp men får funka för stunden) som vill ha absolut, garanterat insynsskyddat meddelandesystem där de kan säga precis vad som helst och ingen skall ens kunna ta reda på att de använder tjänsten. De är i min mening extremister som snart sitter på samma servrar som Trumpister, paranoida konspirationsteoretiker samt kriminella av den grövre sorten.

Jag har inget problem med att polisen kan begära ut min mail och mina loggar ifrån mitt webbhotell (det är där jag har min mail för tillfället, av en ren händelse ett amerikanskt bolag), om det är så att de regelmässigt vill läsa igenom den efter skumiteter så är det inte mitt webbhotell jag skall klaga på utan ge mig in i samhällsdebatten och försöka få fram politiker som driver frågan i vad jag anser vara rätt riktning. (Att den frågan är i stort sett politiskt död är en annan fråga och passar i en annan tråd på annat forum än WRNU imrm.)

Det är inte det som jag tolkade den här tråden handlar om (och antyder inte att någon annan tror annorlunda), om bepansrade maillådor, utan hur undvika att mailbolaget inte läser mailen och säljer vidare informationen i kommersiella syften (dvs. bort ifrån Google och Facebook). Mail är per definition som vykort och enda sättet att skydda dem är att kryptera mailen i sig, vilket är ett 🤬 meckel att få att fungera och fungerar bara med andra som ställt in det (t.ex. skaffat GPG/PGP). Det verkar som om mobiloperatörerna i USA gör grova pengar på att sälja vidare data om sina abonnenter till datamäklare (vilken GPS-position hade du när du surfade till Julas hemsida och vad var klockan?). När operatören säljer det vidare har du absolut noll chans att skydda dig, de kan triangulera dig om din mobil inte hostar ur sig sin GPS-position och de har fullständig kontroll över trafiken om du inte kör VPN (vilket de kan blockera). (Läste att på ett öppet fält går det att triangulera med en halvmeters onoggrannhet, det är tillräckligt för att avgöra vem i ett par som går till vänster och vem som går till höger. Jag vet inte vad onoggrannheten är på en normal svensk stadsgata men det är nog inte många meter.)
 

lupmet

Swordsman
Joined
19 Feb 2014
Messages
742
Location
Göborg
Top