Nekromanti "Nedräkning" i böcker???

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,659
Jag håller på med ett hobbyprojekt som går ut på att formatera om en shitload e-böcker till .txt, med vettigt format och metadata. Än så länge har jag bara gjort en bit över 2000 (och hunnit halvvägs genom C på författarna), men det tickar på. Jag har gjort mig ett program som gör grovjobbet och stöttar mig bra med de manuella bitarna. (Frivilliga för att göra obetalt, monotont apjobb för att främja litteraturen kan ju skicka ett PM...)

Dock, en sak undrar jag över. På den sidan som copyrightinfon står, så står det ofta en rad med en "nedräkning", tex "10 9 8 7 6 5 4 3 2 1". Varför finns den där och vad innebär den?
 

wilper

Gubevars en rätt produktiv människa.
Joined
19 May 2000
Messages
8,078
Location
Nordnordost
Den visar vilken tryckning det är.

För varje nytryck suddar man bort en av siffrorna.
 

anth

Vetefan
Joined
24 Feb 2003
Messages
10,271
Location
Fjollträsk
Att googla på
"10 9 8 7 6 5 4 3 2 1 in books"
gav
Printer's key
Det har alltså att göra med vilken tryckning det är.
10 9 8 7 6 5 4 3 betyder tredje tryckningen.
 

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,659
wilper said:
Den visar vilken tryckning det är.

För varje nytryck suddar man bort en av siffrorna.
Och då poppar programmeraren i mig upp med några frågor:

* Varför har man inte bara "Tryckning: 1" och räknar upp siffran?
* Vad gör man om man får slut på siffror?
 

anth

Vetefan
Joined
24 Feb 2003
Messages
10,271
Location
Fjollträsk
Troberg said:
wilper said:
Den visar vilken tryckning det är.

För varje nytryck suddar man bort en av siffrorna.
Och då poppar programmeraren i mig upp med några frågor:

* Varför har man inte bara "Tryckning: 1" och räknar upp siffran?
* Vad gör man om man får slut på siffror?
Wikipedia said:
Why numbers are removed rather than added
With each successive reprint, the publisher needs to instruct the printer to change the impression number, and the theory is that the printer is less likely to make a mistake if they are only removing the lowest number rather than introducing a new number each time.
 

Krille

Super Moderator
Joined
7 Feb 2000
Messages
29,540
Location
Mölndal, Sverige
Troberg said:
* Varför har man inte bara "Tryckning: 1" och räknar upp siffran?
För att på den gamla goda tiden när man hade tryckplåtar så måste man sätta om plåten för att räkna upp. För att räkna ner behöver man bara platta till plåten där siffran finns.

* Vad gör man om man får slut på siffror?
Sätter om plåten.
 

Hans E Magnusson

CAPS LOCK
Joined
18 Jun 2008
Messages
2,420
Location
Umeå
Troberg said:
Jag håller på med ett hobbyprojekt som går ut på att formatera om en shitload e-böcker till .txt, med vettigt format och metadata.
Nu har du ju fått svar så då ställer jag en fråga, vad är problemet med e-böcker och varför vill "man" hellre ha de som .txt? Har noll koll...
 

Arfert

Facit
Joined
9 Sep 2004
Messages
15,729
Location
Stockholm
Krille said:
Troberg said:
* Varför har man inte bara "Tryckning: 1" och räknar upp siffran?
För att på den gamla goda tiden när man hade tryckplåtar så måste man sätta om plåten för att räkna upp. För att räkna ner behöver man bara platta till plåten där siffran finns.

* Vad gör man om man får slut på siffror?
Sätter om plåten.
Och har man offset-negfilmer så är det bara att täcka över den siffran man villl ha bort med rödfärg, till exempel.
 

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,659
Hans E Magnusson said:
Troberg said:
Jag håller på med ett hobbyprojekt som går ut på att formatera om en shitload e-böcker till .txt, med vettigt format och metadata.
Nu har du ju fått svar så då ställer jag en fråga, vad är problemet med e-böcker och varför vill "man" hellre ha de som .txt? Har noll koll...
* .txt kommer alltid att vara läsligt. Även när PDF, DOC, MOBI, RTF och alla de andra är föråldrade så kommer rå TXT att vara läslig. Det är minsta gemensamma nämnaren. Det är därför som tex Projekt Gutenberg valt det formatet. Det är arkivbeständigt. Prova tex att öppna en gammal Word Perfect-fil idag, och kom ihåg att för sådär 25 år sedan så totaldominerade WP ordbehandlingsmarknaden...

* Läsaren får välja den layout han gillar. De flesta e-boksläsare värda namnet har inställningar för hur text ska visas, med färger, storlek, typsnitt, marginalare, radavstånd och så vidare. På det sättet får läsaren den bästa läsupplevelsen för just honom.

* Rå text är enklare för folk med funktionsnedsättningar. Man kan använda enorma typsnitt, text-to-speech funkar bättre, man kan använda punktskriftsskärmar osv. Böcker är för alla!

* Text flödar om bättre på olika skärmstorlekar/pappersstorlekar. Sidorienterade format, tex PDF, funkar betydligt sämre där, och kräver ofta massor av zoomning/panorering.

* Text lämpar sig bättre för automatisk hantering, som exempelvis fulltextsökning, indexering och vidarebearbetning.

* Text är det i särklass enklaste formatet att konvertera till andra format.

* Filerna är små. Man kan lätt ha ett gargantuöst bibliotek, till och med på en pekplatta. Alla borde ha ett gargantuöst bibliotek.

Så, för mig som vill skapa ett bestående arkiv för SF, fantasy och skräck (och lite annat stuff som råkar slinka med), så är text det naturliga formatet. Med det programmet jag gjort så tar det 1-15 minuter per bok (de flesta är kanske 2-4 minuter), beroende på kvalitet på källmaterialet (en kasst scannad bok med sidhuvud/sidfot insprängda i texten är rena pesten...).

Sedan väntar jag bara på att lagstiftningen ändras, så att hela världen kan ta del av biblioteket, och vi kommer in i en ny intellektuell guldålder!
 

Hans E Magnusson

CAPS LOCK
Joined
18 Jun 2008
Messages
2,420
Location
Umeå
Troberg said:
Hans E Magnusson said:
Troberg said:
Jag håller på med ett hobbyprojekt som går ut på att formatera om en shitload e-böcker till .txt, med vettigt format och metadata.
Nu har du ju fått svar så då ställer jag en fråga, vad är problemet med e-böcker och varför vill "man" hellre ha de som .txt? Har noll koll...
* .txt kommer alltid att vara läsligt. Även när PDF, DOC, MOBI, RTF och alla de andra är föråldrade så kommer rå TXT att vara läslig. Det är minsta gemensamma nämnaren. Det är därför som tex Projekt Gutenberg valt det formatet. Det är arkivbeständigt. Prova tex att öppna en gammal Word Perfect-fil idag, och kom ihåg att för sådär 25 år sedan så totaldominerade WP ordbehandlingsmarknaden...

* Läsaren får välja den layout han gillar. De flesta e-boksläsare värda namnet har inställningar för hur text ska visas, med färger, storlek, typsnitt, marginalare, radavstånd och så vidare. På det sättet får läsaren den bästa läsupplevelsen för just honom.

* Rå text är enklare för folk med funktionsnedsättningar. Man kan använda enorma typsnitt, text-to-speech funkar bättre, man kan använda punktskriftsskärmar osv. Böcker är för alla!

* Text flödar om bättre på olika skärmstorlekar/pappersstorlekar. Sidorienterade format, tex PDF, funkar betydligt sämre där, och kräver ofta massor av zoomning/panorering.

* Text lämpar sig bättre för automatisk hantering, som exempelvis fulltextsökning, indexering och vidarebearbetning.

* Text är det i särklass enklaste formatet att konvertera till andra format.

* Filerna är små. Man kan lätt ha ett gargantuöst bibliotek, till och med på en pekplatta. Alla borde ha ett gargantuöst bibliotek.

Så, för mig som vill skapa ett bestående arkiv för SF, fantasy och skräck (och lite annat stuff som råkar slinka med), så är text det naturliga formatet. Med det programmet jag gjort så tar det 1-15 minuter per bok (de flesta är kanske 2-4 minuter), beroende på kvalitet på källmaterialet (en kasst scannad bok med sidhuvud/sidfot insprängda i texten är rena pesten...).

Sedan väntar jag bara på att lagstiftningen ändras, så att hela världen kan ta del av biblioteket, och vi kommer in i en ny intellektuell guldålder!
Koolt, jag är omvänd :gremsmile:
Tack, vill åxå ha ett gargantuöst bibliotek
 

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,659
En fråga till

Varför slutar vissa ISBN på X (jagf har tex 0-441-58103-X framför mig nu)?

Det är ganska vanligt, är det helt enkelt så att förlaget inte orkat räkna ut checksiffran?
 

Hans E Magnusson

CAPS LOCK
Joined
18 Jun 2008
Messages
2,420
Location
Umeå
Re: En fråga till

Troberg said:
Varför slutar vissa ISBN på X (jagf har tex 0-441-58103-X framför mig nu)?

Det är ganska vanligt, är det helt enkelt så att förlaget inte orkat räkna ut checksiffran?
X=10
 

Max Raven

T12-kultist
Joined
20 Oct 2009
Messages
4,346
Location
Malmö
Re: En fråga till

Vad jag har märkt så är det inte fruktansvärt vanligt, men jag har mest hållit på med att lägga in svenska ungdomsböcker. Kanske har något med saken att göra, men vem vet? :gremsmile:
 

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,659
Arfert said:
Skicka rubbet till mig också! Vill ha! :gremsmile:
Jag skulle gärna göra det (hela syftet är att sprida kultur, då jag tror att kultur frodas när den konsumeras), men eftersom legaliteten i det i dagsläget eventuellt är ifrågasättningsbar om jag tar det utanför personligt bruk, så är det något jag föredrar att prata om i ett mindre publikt forum. Med andra ord, inte här...

Detsamma gäller om någon har lust att hjälpa till med projektet.
 

krank

Lättkränkt cancelkultur-kommunist
Joined
28 Dec 2002
Messages
36,186
Location
Rissne
Troberg said:
* .txt kommer alltid att vara läsligt. Även när PDF, DOC, MOBI, RTF och alla de andra är föråldrade så kommer rå TXT att vara läslig. Det är minsta gemensamma nämnaren. Det är därför som tex Projekt Gutenberg valt det formatet. Det är arkivbeständigt. Prova tex att öppna en gammal Word Perfect-fil idag, och kom ihåg att för sådär 25 år sedan så totaldominerade WP ordbehandlingsmarknaden...
Variant:

Jag betraktar HTML eller liknande (Markdown?) som ett bättre val, eftersom det å ena sidan är läsligt med mycket små medel, å andra sidan bibehåller information om rubriknivåer, emfas och annat som faktiskt kan behövas.

En del verk har också bilder som är svåra eller omöjliga att på ett adekvat sätt omvandla till ASCII-konst, och som är viktiga för förståelsen av boken. Idealiskt vore väl där SVG perfekt, givet att det är förhållandevis läsbart eller åtminstone rätt lätt att avläsa maskinellt.

I teorin gillar jag ePub. HTML-filer med tydlig och bra metadata sparad i XML, med möjlighet till bilder och annat. Nackdelen är såklart att det är beroende av zipalgoritmen, vilket gör att formatet inte är rakt av human readable.
 

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,659
krank said:
Jag betraktar HTML eller liknande (Markdown?) som ett bättre val, eftersom det å ena sidan är läsligt med mycket små medel, å andra sidan bibehåller information om rubriknivåer, emfas och annat som faktiskt kan behövas.
Fast det är inte bestående format. Titta bara på hur mycket HTML har ändrats de senaste 20 åren.

Det är inte heller lika lätt att göra exempelvis fulltextsökningar och sånt.

Nu kan det dessutom vara värt att nämna att de böcker jag jobbar med är skönlitteratur. De har sällan något som kräver specialhantering.

krank said:
En del verk har också bilder som är svåra eller omöjliga att på ett adekvat sätt omvandla till ASCII-konst, och som är viktiga för förståelsen av boken. Idealiskt vore väl där SVG perfekt, givet att det är förhållandevis läsbart eller åtminstone rätt lätt att avläsa maskinellt.
Det format som betraktas som arkivsäkert när det gäller bilder är TIFF, eftersom den i princip är bilden pixel för pixel, utan någon kodning.

Vi har ett digitalt arkiv i vår produktflora på jobbet, så jag har kollat upp vad som gäller med den som är produktansvarig för den produkten. Då pratar vi om arkiveringskraven som gäller för myndighetsutövande.

krank said:
I teorin gillar jag ePub. HTML-filer med tydlig och bra metadata sparad i XML, med möjlighet till bilder och annat. Nackdelen är såklart att det är beroende av zipalgoritmen, vilket gör att formatet inte är rakt av human readable.
Fast då har vi flera framtidsosäkra format. HTML har avhandlats. XML lär inte vara i evighet, titta bara på hur ett antal äldre dataformat försvunnit. Zip är redan omkörd av tex RAR och 7Z (och ACE, för den delen), så den kommer definitivt att dö ut så småningom. Hur lätt är det att packa upp en LHA, LZH eller ACE idag? Hur lätt är det om 20 år?

Grejen är att jag gör ett stort jobb nu. Jag vill inte göra om det om 10-20 år. Därför är jag hardcore på formatens beständighet.
 

Organ

Out of time, out of mind
Joined
6 Jun 2001
Messages
5,638
Location
En mälarö
Re: En fråga till

Troberg said:
Varför slutar vissa ISBN på X (jagf har tex 0-441-58103-X framför mig nu)?

Det är ganska vanligt, är det helt enkelt så att förlaget inte orkat räkna ut checksiffran?
Jag vet inte. Vad jag vet däremot är att det endast förekommer i den äldre sortens ISBN-nummer, de med tio siffror, och aldrig i de nya, trettonsiffriga.

/Anders
 

Organ

Out of time, out of mind
Joined
6 Jun 2001
Messages
5,638
Location
En mälarö
Spring fort som faaaan!!!!

Boken känner av att den blivit piratad och har omvandlat trycksvärtan till trotyl och nu räknar den ner! :gremshocked:

/Anders
 

krank

Lättkränkt cancelkultur-kommunist
Joined
28 Dec 2002
Messages
36,186
Location
Rissne
Troberg said:
Grejen är att jag gör ett stort jobb nu. Jag vill inte göra om det om 10-20 år. Därför är jag hardcore på formatens beständighet.
Även om HTML gått igenom förändringar så är det human-readable. Det betyder att det egentligen inte spelar någon roll huruvida framtidens program kan läsa formatet; framtidens människor kan läsa formatet - förutsatt att de kan läsa plantext skriven i vad du nu valt för teckenkodning.

Samma sak med XML. Det spelar ingen roll om formaten blir ickestandard om formaten kan läsas av människor. Problemen med de format du kritiserat är ju att de är binära och därmed inte går att läsa eller tolka av människor - dvs det blir ett svårt jobb att skriva ett program för att läsa dem. XML är byggt specifikt just för att vara framtidssäkert genom att vara människoläsligt. Kan vi inte läsa XML så kan vi inte längre läsa plaintext.



Markdown är samma sak, fast ännu bättre för ändamålet. För Markdown ÄR plaintext. Bara att du har ett standardiserat sätt att markera rubriker.

Så även om hela världen skulle glömma hur man läser Markdown så kan formatet läsas som plaintext - och en någorlunda händig person kan återskapa saker som kapitelindelning, just eftersom man markerat kapitelrubrikerna på ett standardiserat sätt.

Exempel:

<div class="ubbcode-block"><div class="ubbcode-header">Code:</div><div class="ubbcode-body ubbcode-pre" ><pre>
Rubrik 1
========

Rubrik 2
--------

1 Numrerad
2 Lista

*emfas*
</pre></div></div>

Det är med andra ord lika framtidssäkert som plaintext, men slänger inte bort lika mycket information.

Menmen, jag skiter väl i ärlighetens namn i hur du gör med dina böcker. Lite trist om du väljer bort framtidssäkra plaintextformat som behåller data till förmån för framtidssäkra plaintextformat som inte gör det, bara.
 
Top