Nekromanti "Nedräkning" i böcker???

Troberg · 13 Nov 2013

Jag håller på med ett hobbyprojekt som går ut på att formatera om en shitload e-böcker till .txt, med vettigt format och metadata. Än så länge har jag bara gjort en bit över 2000 (och hunnit halvvägs genom C på författarna), men det tickar på. Jag har gjort mig ett program som gör grovjobbet och stöttar mig bra med de manuella bitarna. (Frivilliga för att göra obetalt, monotont apjobb för att främja litteraturen kan ju skicka ett PM...)

Dock, en sak undrar jag över. På den sidan som copyrightinfon står, så står det ofta en rad med en "nedräkning", tex "10 9 8 7 6 5 4 3 2 1". Varför finns den där och vad innebär den?

wilper · 13 Nov 2013

Den visar vilken tryckning det är.

För varje nytryck suddar man bort en av siffrorna.

anth · 13 Nov 2013

Att googla på
"10 9 8 7 6 5 4 3 2 1 in books"
gav
Printer's key
Det har alltså att göra med vilken tryckning det är.
10 9 8 7 6 5 4 3 betyder tredje tryckningen.

Troberg · 13 Nov 2013

wilper said:
Den visar vilken tryckning det är.

För varje nytryck suddar man bort en av siffrorna.

Och då poppar programmeraren i mig upp med några frågor:

* Varför har man inte bara "Tryckning: 1" och räknar upp siffran?
* Vad gör man om man får slut på siffror?

anth · 13 Nov 2013

Troberg said:
wilper said:

Den visar vilken tryckning det är.

För varje nytryck suddar man bort en av siffrorna.

Click to expand...

Och då poppar programmeraren i mig upp med några frågor:

* Varför har man inte bara "Tryckning: 1" och räknar upp siffran?
* Vad gör man om man får slut på siffror?

Wikipedia said:
Why numbers are removed rather than added
With each successive reprint, the publisher needs to instruct the printer to change the impression number, and the theory is that the printer is less likely to make a mistake if they are only removing the lowest number rather than introducing a new number each time.

Krille · 13 Nov 2013

Troberg said:
* Varför har man inte bara "Tryckning: 1" och räknar upp siffran?

För att på den gamla goda tiden när man hade tryckplåtar så måste man sätta om plåten för att räkna upp. För att räkna ner behöver man bara platta till plåten där siffran finns.

* Vad gör man om man får slut på siffror?

Sätter om plåten.

Hans E Magnusson · 13 Nov 2013

Troberg said:
Jag håller på med ett hobbyprojekt som går ut på att formatera om en shitload e-böcker till .txt, med vettigt format och metadata.

Nu har du ju fått svar så då ställer jag en fråga, vad är problemet med e-böcker och varför vill "man" hellre ha de som .txt? Har noll koll...

Arfert · 13 Nov 2013

Krille said:
Troberg said:

* Varför har man inte bara "Tryckning: 1" och räknar upp siffran?

Click to expand...

För att på den gamla goda tiden när man hade tryckplåtar så måste man sätta om plåten för att räkna upp. För att räkna ner behöver man bara platta till plåten där siffran finns.

* Vad gör man om man får slut på siffror?

Click to expand...

Sätter om plåten.

Och har man offset-negfilmer så är det bara att täcka över den siffran man villl ha bort med rödfärg, till exempel.

Troberg · 13 Nov 2013

Hans E Magnusson said:
Troberg said:

Jag håller på med ett hobbyprojekt som går ut på att formatera om en shitload e-böcker till .txt, med vettigt format och metadata.

Click to expand...

Nu har du ju fått svar så då ställer jag en fråga, vad är problemet med e-böcker och varför vill "man" hellre ha de som .txt? Har noll koll...

* .txt kommer alltid att vara läsligt. Även när PDF, DOC, MOBI, RTF och alla de andra är föråldrade så kommer rå TXT att vara läslig. Det är minsta gemensamma nämnaren. Det är därför som tex Projekt Gutenberg valt det formatet. Det är arkivbeständigt. Prova tex att öppna en gammal Word Perfect-fil idag, och kom ihåg att för sådär 25 år sedan så totaldominerade WP ordbehandlingsmarknaden...

* Läsaren får välja den layout han gillar. De flesta e-boksläsare värda namnet har inställningar för hur text ska visas, med färger, storlek, typsnitt, marginalare, radavstånd och så vidare. På det sättet får läsaren den bästa läsupplevelsen för just honom.

* Rå text är enklare för folk med funktionsnedsättningar. Man kan använda enorma typsnitt, text-to-speech funkar bättre, man kan använda punktskriftsskärmar osv. Böcker är för alla!

* Text flödar om bättre på olika skärmstorlekar/pappersstorlekar. Sidorienterade format, tex PDF, funkar betydligt sämre där, och kräver ofta massor av zoomning/panorering.

* Text lämpar sig bättre för automatisk hantering, som exempelvis fulltextsökning, indexering och vidarebearbetning.

* Text är det i särklass enklaste formatet att konvertera till andra format.

* Filerna är små. Man kan lätt ha ett gargantuöst bibliotek, till och med på en pekplatta. Alla borde ha ett gargantuöst bibliotek.

Så, för mig som vill skapa ett bestående arkiv för SF, fantasy och skräck (och lite annat stuff som råkar slinka med), så är text det naturliga formatet. Med det programmet jag gjort så tar det 1-15 minuter per bok (de flesta är kanske 2-4 minuter), beroende på kvalitet på källmaterialet (en kasst scannad bok med sidhuvud/sidfot insprängda i texten är rena pesten...).

Sedan väntar jag bara på att lagstiftningen ändras, så att hela världen kan ta del av biblioteket, och vi kommer in i en ny intellektuell guldålder!

Hans E Magnusson · 13 Nov 2013

Troberg said:
Hans E Magnusson said:

Troberg said:

Jag håller på med ett hobbyprojekt som går ut på att formatera om en shitload e-böcker till .txt, med vettigt format och metadata.

Click to expand...

Nu har du ju fått svar så då ställer jag en fråga, vad är problemet med e-böcker och varför vill "man" hellre ha de som .txt? Har noll koll...

Click to expand...

* .txt kommer alltid att vara läsligt. Även när PDF, DOC, MOBI, RTF och alla de andra är föråldrade så kommer rå TXT att vara läslig. Det är minsta gemensamma nämnaren. Det är därför som tex Projekt Gutenberg valt det formatet. Det är arkivbeständigt. Prova tex att öppna en gammal Word Perfect-fil idag, och kom ihåg att för sådär 25 år sedan så totaldominerade WP ordbehandlingsmarknaden...

* Läsaren får välja den layout han gillar. De flesta e-boksläsare värda namnet har inställningar för hur text ska visas, med färger, storlek, typsnitt, marginalare, radavstånd och så vidare. På det sättet får läsaren den bästa läsupplevelsen för just honom.

* Rå text är enklare för folk med funktionsnedsättningar. Man kan använda enorma typsnitt, text-to-speech funkar bättre, man kan använda punktskriftsskärmar osv. Böcker är för alla!

* Text flödar om bättre på olika skärmstorlekar/pappersstorlekar. Sidorienterade format, tex PDF, funkar betydligt sämre där, och kräver ofta massor av zoomning/panorering.

* Text lämpar sig bättre för automatisk hantering, som exempelvis fulltextsökning, indexering och vidarebearbetning.

* Text är det i särklass enklaste formatet att konvertera till andra format.

* Filerna är små. Man kan lätt ha ett gargantuöst bibliotek, till och med på en pekplatta. Alla borde ha ett gargantuöst bibliotek.

Så, för mig som vill skapa ett bestående arkiv för SF, fantasy och skräck (och lite annat stuff som råkar slinka med), så är text det naturliga formatet. Med det programmet jag gjort så tar det 1-15 minuter per bok (de flesta är kanske 2-4 minuter), beroende på kvalitet på källmaterialet (en kasst scannad bok med sidhuvud/sidfot insprängda i texten är rena pesten...).

Sedan väntar jag bara på att lagstiftningen ändras, så att hela världen kan ta del av biblioteket, och vi kommer in i en ny intellektuell guldålder!

Koolt, jag är omvänd :gremsmile:

Tack, vill åxå ha ett gargantuöst bibliotek

Arfert · 13 Nov 2013

Skicka rubbet till mig också! Vill ha! :gremsmile:

Troberg · 13 Nov 2013

En fråga till

Varför slutar vissa ISBN på X (jagf har tex 0-441-58103-X framför mig nu)?

Det är ganska vanligt, är det helt enkelt så att förlaget inte orkat räkna ut checksiffran?

Hans E Magnusson · 13 Nov 2013

Re: En fråga till

Troberg said:
Varför slutar vissa ISBN på X (jagf har tex 0-441-58103-X framför mig nu)?

Det är ganska vanligt, är det helt enkelt så att förlaget inte orkat räkna ut checksiffran?

X=10

Max Raven · 13 Nov 2013

Re: En fråga till

Vad jag har märkt så är det inte fruktansvärt vanligt, men jag har mest hållit på med att lägga in svenska ungdomsböcker. Kanske har något med saken att göra, men vem vet? :gremsmile:

Troberg · 13 Nov 2013

Arfert said:
Skicka rubbet till mig också! Vill ha!

Jag skulle gärna göra det (hela syftet är att sprida kultur, då jag tror att kultur frodas när den konsumeras), men eftersom legaliteten i det i dagsläget eventuellt är ifrågasättningsbar om jag tar det utanför personligt bruk, så är det något jag föredrar att prata om i ett mindre publikt forum. Med andra ord, inte här...

Detsamma gäller om någon har lust att hjälpa till med projektet.

krank · 13 Nov 2013

Troberg said:
* .txt kommer alltid att vara läsligt. Även när PDF, DOC, MOBI, RTF och alla de andra är föråldrade så kommer rå TXT att vara läslig. Det är minsta gemensamma nämnaren. Det är därför som tex Projekt Gutenberg valt det formatet. Det är arkivbeständigt. Prova tex att öppna en gammal Word Perfect-fil idag, och kom ihåg att för sådär 25 år sedan så totaldominerade WP ordbehandlingsmarknaden...

Variant:

Jag betraktar HTML eller liknande (Markdown?) som ett bättre val, eftersom det å ena sidan är läsligt med mycket små medel, å andra sidan bibehåller information om rubriknivåer, emfas och annat som faktiskt kan behövas.

En del verk har också bilder som är svåra eller omöjliga att på ett adekvat sätt omvandla till ASCII-konst, och som är viktiga för förståelsen av boken. Idealiskt vore väl där SVG perfekt, givet att det är förhållandevis läsbart eller åtminstone rätt lätt att avläsa maskinellt.

I teorin gillar jag ePub. HTML-filer med tydlig och bra metadata sparad i XML, med möjlighet till bilder och annat. Nackdelen är såklart att det är beroende av zipalgoritmen, vilket gör att formatet inte är rakt av human readable.

Troberg · 13 Nov 2013

krank said:
Jag betraktar HTML eller liknande (Markdown?) som ett bättre val, eftersom det å ena sidan är läsligt med mycket små medel, å andra sidan bibehåller information om rubriknivåer, emfas och annat som faktiskt kan behövas.

Fast det är inte bestående format. Titta bara på hur mycket HTML har ändrats de senaste 20 åren.

Det är inte heller lika lätt att göra exempelvis fulltextsökningar och sånt.

Nu kan det dessutom vara värt att nämna att de böcker jag jobbar med är skönlitteratur. De har sällan något som kräver specialhantering.

krank said:
En del verk har också bilder som är svåra eller omöjliga att på ett adekvat sätt omvandla till ASCII-konst, och som är viktiga för förståelsen av boken. Idealiskt vore väl där SVG perfekt, givet att det är förhållandevis läsbart eller åtminstone rätt lätt att avläsa maskinellt.

Det format som betraktas som arkivsäkert när det gäller bilder är TIFF, eftersom den i princip är bilden pixel för pixel, utan någon kodning.

Vi har ett digitalt arkiv i vår produktflora på jobbet, så jag har kollat upp vad som gäller med den som är produktansvarig för den produkten. Då pratar vi om arkiveringskraven som gäller för myndighetsutövande.

krank said:
I teorin gillar jag ePub. HTML-filer med tydlig och bra metadata sparad i XML, med möjlighet till bilder och annat. Nackdelen är såklart att det är beroende av zipalgoritmen, vilket gör att formatet inte är rakt av human readable.

Fast då har vi flera framtidsosäkra format. HTML har avhandlats. XML lär inte vara i evighet, titta bara på hur ett antal äldre dataformat försvunnit. Zip är redan omkörd av tex RAR och 7Z (och ACE, för den delen), så den kommer definitivt att dö ut så småningom. Hur lätt är det att packa upp en LHA, LZH eller ACE idag? Hur lätt är det om 20 år?

Grejen är att jag gör ett stort jobb nu. Jag vill inte göra om det om 10-20 år. Därför är jag hardcore på formatens beständighet.

Organ · 13 Nov 2013

Re: En fråga till

Troberg said:
Varför slutar vissa ISBN på X (jagf har tex 0-441-58103-X framför mig nu)?

Det är ganska vanligt, är det helt enkelt så att förlaget inte orkat räkna ut checksiffran?

Jag vet inte. Vad jag vet däremot är att det endast förekommer i den äldre sortens ISBN-nummer, de med tio siffror, och aldrig i de nya, trettonsiffriga.

/Anders

Organ · 13 Nov 2013

Spring fort som faaaan!!!!

Boken känner av att den blivit piratad och har omvandlat trycksvärtan till trotyl och nu räknar den ner! :gremshocked:

/Anders

krank · 13 Nov 2013

Troberg said:
Grejen är att jag gör ett stort jobb nu. Jag vill inte göra om det om 10-20 år. Därför är jag hardcore på formatens beständighet.

Även om HTML gått igenom förändringar så är det human-readable. Det betyder att det egentligen inte spelar någon roll huruvida framtidens program kan läsa formatet; framtidens människor kan läsa formatet - förutsatt att de kan läsa plantext skriven i vad du nu valt för teckenkodning.

Samma sak med XML. Det spelar ingen roll om formaten blir ickestandard om formaten kan läsas av människor. Problemen med de format du kritiserat är ju att de är binära och därmed inte går att läsa eller tolka av människor - dvs det blir ett svårt jobb att skriva ett program för att läsa dem. XML är byggt specifikt just för att vara framtidssäkert genom att vara människoläsligt. Kan vi inte läsa XML så kan vi inte längre läsa plaintext.

Markdown är samma sak, fast ännu bättre för ändamålet. För Markdown ÄR plaintext. Bara att du har ett standardiserat sätt att markera rubriker.

Så även om hela världen skulle glömma hur man läser Markdown så kan formatet läsas som plaintext - och en någorlunda händig person kan återskapa saker som kapitelindelning, just eftersom man markerat kapitelrubrikerna på ett standardiserat sätt.

Exempel:

<div class="ubbcode-block"><div class="ubbcode-header">Code:</div><div class="ubbcode-body ubbcode-pre" ><pre>
Rubrik 1
========

Rubrik 2
--------

1 Numrerad
2 Lista

*emfas*
</pre></div></div>

Det är med andra ord lika framtidssäkert som plaintext, men slänger inte bort lika mycket information.

Menmen, jag skiter väl i ärlighetens namn i hur du gör med dina böcker. Lite trist om du väljer bort framtidssäkra plaintextformat som behåller data till förmån för framtidssäkra plaintextformat som inte gör det, bara.

Nekromanti "Nedräkning" i böcker???

Sinister eater

Gubevars en rätt produktiv människa.

Vetefan

Sinister eater

Vetefan

Super Moderator

CAPS LOCK

Facit

Sinister eater

CAPS LOCK

Facit

Sinister eater

CAPS LOCK

T12-kultist

Sinister eater

Lättkränkt cancelkultur-kommunist

Sinister eater

Out of time, out of mind

Out of time, out of mind

Lättkränkt cancelkultur-kommunist