Lyhyt digitointiopas

16.4.2012 | Artikkelit

Sosialismi.netin kirjastossa julkaistaan työväenliikkeen teoreettisia ja poliittisia klassikoita. Julkaisutoiminnallaan Sosialismi.net ottaa osaa maailmanlaajuiseen liikkeeseen, jonka tuloksia on nähtävissä mm. 1990-luvulla aloittaneessa Marxist Internet Archivessa (MIA).

Tarkoitus on julkaista työväenliikkeen piirissä tuotettua materiaalia laajasti, ei esimerkiksi keskittyen ainoastaan marxilaisen työväenliikkeen julkaisuihin; siten myös esimerkiksi anarkisteilla, brittiläisen työväenliikkeen suuntauksilla ja vaikkapa amerikansuomalaisten syndikalismilla on kirjastossa tasa-arvoinen paikkansa näitä yleisempien suuntausten rinnalla. Emme myöskään pyri julkaisemaan vain mielestämme “hyvää” materiaalia, tai sellaista materiaalia, jota pidämme “oikeana”.

Käytännössä rajoituksia asettaa kuitenkin suomennetun materiaalin saatavuus. Historiallisista syistä aineistoa on eniten saatavilla marxilaistaustaisen (sosiaalidemokraattisen ja kommunistisen) työväenliikkeen piiristä, mikä epäilemättä heijastuu kirjaston tosiasiallisessa sisällössä.

Sosialismi.net tai kukaan tästä uudelleenjulkaisutyöstä osallinen ei hyödy julkaisutoiminnasta penniäkään, vaan kaikki materiaali on vapaasti ja maksutta jokaisen saatavilla epäkaupallisiin tarkoituksiin. Toivon mukaan sillä on suomalaisen työväenliikkeen historiatietoisuutta kasvattava vaikutus.

Digitointi käytännössä

Kirjojen valmistaminen julkaisukuntoon kysyy huomattavasti työtä, ja toivomme innostavamme ainakin muutamia henkilöitä mukaan laatimalla lyhyen kuvauksen ja ohjeen siitä, miten toimintaan voi osallistua. Lisäksi on täysin mahdollista tarjoutua tekemään vain osa viisiportaisesta digitointiprosessista jonkin teoksen julkaisemiseksi, omien mahdollisuuksien ja taipumuksien mukaan. Jos olet kiinnostunut osallistumaan, ota yhteyttä toimitukseen!

Digitointi onnistuu esimerkiksi seuraavilla ohjelmilla, jotka ovat saatavilla ilmaiseksi.

  • XSane -- skannausohjelma (Linux/Windows/Mac)
  • Scan Tailor -- skannattujen sivujen muokkausohjelma (Linux/Windows)
  • Tesseract 3.0 ja VietOCR-- OCR-ohjelma ja sen graafinen käyttöliittymä (Linux/Windows/Mac)
  • jokin tekstieditori tai teksinkäsittelyohjelma
  • Scribus -- taitto-ohjelma (Linux/Windows/Mac)

Aluksi

Digitoinnissa on viisi vaihetta:

  1. skannaus
  2. kuvatiedostojen käsittely
  3. OCR
  4. oikoluku
  5. taitto (pdf:ksi tai html:ksi).

Näistä helpointa on osallistua ensimmäiseen ja neljänteen vaiheeseen; muiden edellytykset ovat vaativampia. Skannausvaihe vaatii skannausohjelman käytön hallintaa sekä itse skannerin, joita saa käytettynä muutamalla kympillä).[1] Oikoluku puolestaan ei vaadi lukutaidon lisäksi muuta kuin kärsivällisyyttä ja huolellisuutta.

Kohdat 2, 3 ja 5 vaativatkin sitten jo syvällisempää perehtymistä kyseisissä vaiheissa tarvittavien ohjelmien käyttöön. Kohtien 2 ja 3 hajottaminen eri henkilöiden tehtäväksi ei ole mielekästä, sillä käytännössä automatisoitujen vaiheiden  erottaminen toisistaan lähinnä vain kasvattaisi niihin tarvittavan työn määrää. Vaiheisiin sisältyvä kynnys liittyy OCR-ohjelman asentamiseen: Tesseract 3.00 on saatavilla ainoastaan lähdekoodina, josta se on osattava kääntää tietokoneella ajettavaan muotoon. Aiemman, ajettavassa muodossa saatavilla olevan version (2.04) käyttö on mahdollista, mutta jälki ei ole yhtä hyvää, sillä versio ei tue suomen kieltä. (Mutta esim. saksankielisiä asetuksia käyttämällä ainakin ääkköset saa näkyviin.)

Mahdotonta kolmosversion asentaminen ei tietenkään ole, mutta ei kuulu tietokoneenkäyttäjän perustaitoihin; myös taitto-ohjelman käyttö vaati perehtymistä, jotta lopputulos olisi siisti ja korkeatasoinen. Näiden syiden vuoksi emme käsittele mainittuja näkökohtia tässä lyhyessä oppaassa.

1. vaihe: skannaus

Kun on valittu digitoitava teos, on sen skannaaminen kuvatiedostoiksi edessä ensimmäisenä. Skannaus on suhteellisen helppoa, sillä se koostuu vain muutamasta vaiheesta, joita toistetaan 50-200 kertaa kunnes koko kirja on siirretty tietokoneelle. Tarvitaan vain skanneri ja ohjelma, joista tässä ohjeessa esitellään XSane. Skanneriin mahtuu aukeama kerrallaan, ja harmaasävyisen skannauksen tarkkuudeksi 200-300 dpi on hyvä. Kuvat on syytä tallentaa pakkaamattomassa tiff-muodossa.

Ensimmäisen skannauksen nimeksi kannattaa filename-kenttään kirjoittaa jotain tyyliin kirjannimi0002.tiff; XSane päivittää nimen sisältämän numeron jatkossa automaattisesti haluttua lukemaa suuremmaksi, jolloin vältytään turhalta kirjoittamiselta skannauksen aikana. Lukeman muutos voidaan asettaa vasemmassa laidassa olevaa kengänkuvaa klikkaamalla, joten jos skannataan aukeama kerrallaan, tähän kannattaa valita +2.

Kirja asetellaan skannerin pedille mahdollisimman suoraan kohdeaukeama alaspäin. Kansi suljetaan, ja mieluiten kannen päälle pannaan vielä jokin paino litistämään kirjaa mahdollisimman tiiviisti alustaa vasten. Etenkin paksujen kirjojen kohdalla tämä tuottaa olennaista etua, sillä muutoin vasemman sivun oikean reunan ja oikean sivun vasemman reunan teksti häviää helposti liitoskohdan varjoihin. Se taas teettää turhaa lisätyötä oikolukuvaiheessa.

Valitse XSanesta Preview Scan. Sen valmistuttua merkkaa kehyksellä lopullisesti skannattava alue. Kannattaa ympäröidä kehyksellä molempien sivujen tekstiä sisältävät osuudet, se nopeuttaa operaatiota lähes puolella. Jos sijoittaa kirjan aina täsmälleen samaan kohtaan skanneripedille ja valitsee skannattavaan alueeseen sentin-parin marginaalit, ei Preview Scan -vaihetta alun jälkeen enää tarvita, vaan uuden aukeaman voi skannata suoraan Scan-nappia painamalla. Lopullisen skannauksen valmistuttua kuva kannattaa keikauttaa 90⁰ (=suoristaa) ennen tallentamista.

Skannaamisen kuluessa on hyvä pitää silmällä, että skannatun aukeaman vasemman sivun sivunnumero pitää yhtä aukeaman tiedostonnimen kanssa; epäsuhta paljastaa, että yksi tai useampia aukeamia on vahingossa jäänyt välistä.

200-sivuisen kirjan skannaamiseen menee yhtä soittoa parisen tuntia tuntia, jos skannataan aukeama kerrallaan.

2. vaihe: kuvatiedostojen käsittely

Skannatut sivut kannattaa tallentaa samaan hakemistoon, josta ne voi tuoda Scan Tailor -ohjelmaan yhdellä toiminnolla. Scan Tailorin avulla on mahdollista automaattisesti

  1. pilkkoa aukeamat yksittäisiksi sivuiksi;
  2. suoristaa ykkösvaiheessa syntyneet yksittäiset sivut;
  3. rajata kultakin sivulta tarpeettomat reunukset pois;
  4. säätää tarkkuus ja kontrasti.

Käynnistettyäsi Scan Tailorin valitse New Project sekä kansiot, joista toisesta ohjelma hakee syötteen (skannatut aukeamat) ja toiseen se tallentaa käsitellyt sivut. Jos sivut on suoristettu jo skannausvaiheessa, ensimmäinen vaihe (Fix Orientation) voidaan jättää väliin ja siirtyä suoraan toiseen kohtaan, Split Pages. Painamalla sen yhteydessä olevaa “play“-merkkiä ohjelma pilkkoo kaikki syötekansion sisältämät aukeamat kahtia.

Pilkkomisen valmistuttua valitse seuraava kohta, Deskew, ja paina sen vieressä olevaa play-nappia. Ohjelma suoristaa edellisessä kohdassa syntyneet yksittäiset sivut.

Seuraavaksi valitse Select Content ja paina play. Ohjelma rajaa sivuilta tekstin ulkopuoliset osuudet pois. Tämä vähentää OCR-vaiheessa syntyvän “roskan” määrää.

Marginaalien asettamisen voi jättää väliin, jos lopputuote on tarkoitettu OCR:ttäväksi. Jos kuitenkin ollaan aikeissa tehdä skannatuista sivuista suoraan pdf, marginaalit on hyvä asettaa. Koska tällainen pdf on kuitenkin kooltaan paljon suurempi eikä tekstihakutoimintoa voi käyttää, emme julkaise näin valmistettuja tekstejä Sosialismi.netin kirjastossa.

Seuraavaksi Output. Valitse Output Resolutioniksi 600dpi. Muita kohtia (Mode ym.) ei tarvitse muuttaa, jolloin ohjelma poistaa harmaan sävyt ja tekee sivusta täysin mustavalkoisen.

Kun Output-vaihe on käyty läpi, output-kansiosta löytyy yhtä monta tif-tiedostoa kuin skannatussa kirjassa on sivuja (Outputin tulosta ei tarvitse tallentaa enää erikseen; huomaa myös että muokattujen tiedostojen pääte on yhtä f:ää lyhyempi: tif). Ne kannattaa kopioida yhdeksi monisivuiseksi tiff-tiedostoksi komennolla[2]

tiffcp *.* kaikkisivut.tiff

Näin syntynyt tiedosto voidaan nyt ottaa Tesseractin käsittelyyn.

3. vaihe: OCR

OCR tulee sanoista optical character recognition, ja sen avulla kuvatiedostoiksi skannatut sivut muutetaan tekstimuotoon. Jos lukija on onnistunut asentamaan Tesseractin tarpeistoineen sekä VietOCR:n, oletamme ettei hän tarvitse opastusta ohjelmien käytössä, joten lyhyt kuvaus tästä vaiheesta riittänee yleiskuvan luomiseksi.

Edellisessä vaiheessa valmistetty monisivuinen tiff-tiedosto voidaan syöttää VietOCR:ään, jossa OCR-prosessin käynnistäminen onnistuu yhdellä komennolla. Fraktuuralla painetut tekstit voi OCR:ätä valitsemalla kieliasetukseksi German fraktur. 200-sivuisen kirjan OCR:ääminen kestää noin 15 minuuttia, ja lopputuote voidaan kopioida VietOCR:n ikkunasta tekstieditoriin ja tallentaa txt-tiedostoksi oikoluvun aloittamista varten.

Tesseract antaa tulokseksi parhaimmillaan täysin virheetöntä tekstiä, jolloin oikolukuvaiheessa riittää enimmäkseen pelkkä läpiluku ja rivinvaihtojen poistaminen. Useimmiten mukana on kuitenkin virheitä, monesti paljonkin, jos esim. alaviitteiden teksti on ollut kovin pientä ja/tai alkuperäinen painojälki huonoa.

Alla kaksi esimerkkisivua, toinen Lev Trotskin teoksesta Terrorismi ja Kommunismi (vasemmalla) ja toinen Karl Marxin teoksesta Luokkataistelut Ranskassa 1850-1852 (oikealla).

Vasemmanpuoleinen on esimerkki vaikeasta tekstistä, jonka OCR:ääminen tuottaa paljon virheitä. Alkuperäinen skannaus on tumma, sillä kirjan paperi on kellertävää, painomuste haalistunutta, ja kirjainten välissä on paljon ylimääräistä “roskaa”, jonka OCR-ohjelma helposti tulkitsee kirjaimiksi. Pahimmillaan koko sivu on kirjoitettava käsin uudestaan, mutta tämä on onneksi harvinaista.

Oikeanpuoleisen esimerkkisivun OCR:ääminen puolestaan tuottaa hyvälaatuista, lähes virheetöntä tekstiä. Kuten esimerkeistä näkyy, kursiivia OCR ei tunnista, vaan se on lisättävä taittovaiheessa käsin -- ei kuitenkaan käyttämällä tekstinkäsittelyohjelman kursiivitoimintoa, vaan merkkaamalla se käsin <i>näin</i>. Tämä on välttämätöntä, jotta kursiivit näkyvät vielä taittovaiheessakin, jossa tekstinkäsittelyohjelmalla tehdyt tyylit yleensä jossain vaiheessa häviävät.

4. Oikoluku

Oikoluku on prosessin teknisesti helpoin mutta samalla työläin ja eniten aikaa vielä osio, sillä koko teksti on luettava huolellisesti läpi alkutekstiin koko ajan vertaillen kirjoitusvirheiden poistamiseksi. Tekstieditorin löydä ja korvaa -toimintoa kannattaa käyttää hyödyksi ja korvata jo alkuvaiheessa tyypillisiä virheitä, kuten esim. lı = h, ã = ä, í = i, >> = » jne. Tyypilliset virheet riippuvat digitoitavan kirjan kirjasimesta ja painojäljestä, ja kymmenisen sivua oikoluettuaan osannee kokemuksen perusteella jo päätellä kyseisen tekstin tyyppitapaukset.

Jos ei omista alkuperäisteosta johon verrata, voidaan oikoluku suorittaa pitämällä oikoluettavaa tekstiä auki yhdessä ikkunassa ja kyseisestä sivusta skannattua kuvatiedostoa toisessa ikkunassa.

Ei voida kyllin painottaa sitä, että teksti todellakin on luettava läpi alkutekstiin koko ajan verraten. Toisinaan OCR nimittäin syystä tai toisesta pudottaa yhden sanan välistä (tilalle tulee ylimääräinen välilyönti), tai heittää satunnaisen rivin sivun keskeltä sivun loppuun. Pelkkä tekstinkäsittelyohjelman oikolukutoimintokaan, vaikka onkin myös tässä työssä hyödyllinen, ei pysty havaitsemaan tätä, kuten ei myöskään muodollisesti oikeita mutta asiayhteydessään virheellisiä sanoja (esim. “Pietarissa 1920 elettiin pelossa” vs. “Pietarissa 1920 elettiin pellossa”). Varsinkin sanojen poisputoaminen -- vaikka onkin onneksi harvinaista -- on helpoimmin havaittavissa raakatekstin ensimmäisessä oikoluennassa, joten nimenomaan tässä vaiheessa vaaditaan erityistä huolellisuutta ja jatkuvaa vertaamista alkutekstiin.

Oikoluku on hyvä tehdä ainakin kaksi kertaa. Ensimmäisellä kerralla korjattaessa OCR:n tuottamaa raakatekstiä haaviin jää suurin osa virheistä (tässä kohtaa tekstinkäsittelyohjelman oikolukutoiminto on hyvä apu), mutta teksti on välttämätöntä käydä läpi vielä ainakin toisen kerran lukemalla se ajatuksen kanssa läpi; tekstiin on kuitenkin jäänyt virheitä.

Taittovaiheessa tekstiä silmäillään vielä kolmannen kerran, mutta taittajalle mennessään tekstin tulisi jo olla kunnossa. Taulukot ym. selvästi tavallisesta tekstistä poikkeavat osat kannattaa jättää kokonaan taittajan huoleksi ja sen sijaan varustaa kyisenen kohta esim. merkinnällä “[taulukko, s. 123.]” (Taittaja tietysti tarvitsee kuvatiedostot kyseisistä sivuista, ellei omista alkuperäisteosta.)

Skannausta Sosialismi.netin laboratorioissa.

[1] Muitakin vaihtoehtoja on. Sosialismi.netin käytössä on vuodesta 2012 lähtien itse tehty, kahteen digitaalikameraan perustuva kirjaskanneri, jonka avulla skannaus on monta kertaluokkaa nopeampaa kuin tasoskannerilla: Karl Kautskyn 200-sivuisen Yhteiskunnallisen vallankumouksen skannaus vie vain 15 minuuttia, mikä on 8 kertaa nopeampaa kuin tasoskannerilla. Jos olet kiinnostunut rakentamiseen liittyvistä kysymyksistä, ota yhteys Sosialismi.netin toimitukseen. Aiheesta lisää myös täällä.

[2] tiffcp on ilmaisohjelma, joka on saatavissa sekä Windowsille että Linuxille.

Avainsanat: , , , , , , , , , , , , , , , , , , , , ,

Yksi kommentti
Kommentoi »

  1. Kiitos hyvistä neuvoista. Nykyään tuohon voisi kenties lisätä vielä seuraavan vaiheen:

    6) pdf:n konvertointi e-kirjaksi.

    Kuutosvaihe onnistuu nappia painamalla esimerkiksi Mobipocket -ohjelman avulla. Olen itsekseni kokeillut, ja hyvin toimii. Latasin netistä kokeeksi Pääoman pdf:nä (englanninkielisenä tosin) ja konvertoin sen e-kirjaksi, ja nyt voin lukea sitä Kindlelläni. :) Mobipocket -ohjelma on ladattavissa ilmaiseksi netistä. http://www.mobipocket.com/en/downloadsoft/productdetailscreator.asp

    Tuollaisia e-kirjoja voi sitten laittaa jakeluun vaikkapa Amazonin kautta. Kindlen avulla on kiva lukea kirjoja. Ennenkaikkea on kiva pystyä kuljettamaan mukanaan monen sadan kirjan kirjastoa lukulaitteessa, joka on pokkaria pienempi. (Esimerkiksi Kindle, kts. http://www.amazon.com/gp/product/B007HCCOD0/)

    Tässä esimerkki tarjonnasta, jota jo on: Communist Manifesto, hinta $0.00. Luulisi menevän kaupaksi, minä ainakin jo ostin… http://www.amazon.com/The-Communist-Manifesto-ebook/dp/B0084BMGCM/

Kommentoi