Mikrofilmidigitoinnin valmiit ratkaisut

Digiwiki
Loikkaa: valikkoon, hakuun

Seuraavassa läpikäydään isoa julkisesti 7.6.2010 asti EU-kilpailutettua massadigitointihanketta, jonka pisteytyksen KAR Oy voitti, ja mikä ajallisesti ajoittui (touko)heinä-marras(maalis)kuulle 2010. Sen sijaan, että tämä teksti olisi pelkkä neutraalin suppea tapauskuvaus – case-esimerkki –, laajennan ajatuksiani pidemmälle, jotta mahdollisimman moni voisi hyötyä kokemuksistani ja oppimastani. Yritän tarkastella asiaa laajemmin ja soveltuvin osin niin toimittajan kuin tilaajankin kannalta, vaikka itse pääosin edustan ensinmainittua.

Tavaraa tuli lopulta niin paljon, että tämän juttu on jaettu erillisiin artikkeleihin.

Miksi digitoida?

Kaikki lähtee liikkeelle kolmen koplasta: miksi, mitä, miten. Näihin kysymyksiin kun osaa vastata, kaikki ongelmat ratkeavat. Eikö vain?

Mikrofilmirullia on maailma pullollaan, Suomikin. Kannattaako niitä digitoida?

Mitä jos tilanne olisi näin:

  • informaatio on katoamassa: alkuperäisaineisto (siis ne mikrofilmit!) on fyysisesti huonossa kunnossa ajan hampaan / kuluman vuoksi
  • alkuperäisaineisto on ns. huonolaatuista - sitä halutaan "ehostaa" / parantaa
  • aineisto kuluu käytössä (mikrofilmirullien käyttökopiot naarmuuttuvat käytössä), ja jatkuva aineiston uudistaminen maksaa joka kerran
  • aineiston katselu on hankalaa - vaatii erikoislaitteet (mikrofilmilukijan)
  • aineiston jakaminen on hankalaa / maksaa rahaa (rullan / ruudun kopiointi filmiltä filmille ei ole ilmaista)

Tai voidaanhan tämä ilmaista näinkin: "Digitaalisessa muodossa olevilla teksteillä on monia etuja. Niitä on helppo kopioida ja niitä voidaan helposti siirtää ja muokata.", katso Digiwikin Digitoinnin suunnittelu -artikkeli.

Siis jos ajatellaan, että digitaalisella aineistolla katselu – "tietokone on jokaisella" – ja tiedonsiirto – "joka niemen nokkaan laajakaista, ja valtio maksakoon" – kustannukset ovat ilmaiset, niin..

.. lienee selvää, että digitointi on järkevää.

Mitä pitäisi tehdä?

290720107538.jpg

Mikrofilmi on vanha keksintö, ensimmäinen patentti sille myönnettiin 1859. Suomessa ahkeroitiin vuosina 1948-1956 kirkonkirjojen parissa, kun Genealogical Society of Utahin (GSU) rahoittamana kuvattiin suurin osa kirkonkirjoista vuoteen 1860. Nämä 35-millimetriset "mormonifilmit" ovat täynnä tavaraa, ja niiden reilusta 13000 rullasta n. 5700 on varsinaista kirkonkirja-aineistoa, luokkaa 5.0 miljoonaa otosta.

GSU:n silloiselle Valtionarkistolle luovuttamat filmit ovat nähdäkseni 1. sukupolven kopioita alkuperäisistä kamerafilmeistä, sävyrikkaita diapositiiveja, eivät lainkaan niitä nykyajan mustavalkonegatiivejä, joissa on vain mustaa ja valkoista (kuten tekstiä sisältävän mikrofilmin tulisi olla hyvän luettavuuden vuoksi). Haastavaksi digitoinnin tekee sen, että diarullat ovat huonokuntoisia (tallefilmeinäkin ne ovat lähes loppuunajettu - miten tämä on mahdollista?!), reunoiltaan ja tosinaankin muualtakin kovin tummia. Tuolloin keikkakuvaajat kuvasivat kirkkojen tiloissa vanhoja kirkonkirjoja jne. eikä valoitus aina (siis kovinkaan usein) mennyt ihan nappiin.

Mitä nämä mikrofilmit oikeastaan ovatkaan miten niitä tulisi käsitellä?

Pari helppoa kysymystä

Muutama kysymys tähän väliin, kun tuli tuossa ohimennen mieleen.

  • Kauanko kestää 5 miljoonan kuvan skannaus? - Paljonko se (saisi) maksaa? Kuka (kuinka monta työntekijää) tämän tekee?
  • Vai että aineisto on kovin hankalaa. - Voisiko näiden ei-niin-hyvin valoitettujen tallefilmien luettavuutta parantaa digitaalisesti?
  • Kauanko kestää 5 miljoonan kuvan säätäminen Photoshopilla?
  • Onko aineisto tasalaatuista? - Jos vaikka optista tekstintunnista käyttäisi apuna
  • Mitenkäs se metadata? Onko se kovin yksilöllistä vai aina sama per satsi? - Kuinka paljon metadatan lisäyksessä voidaan käyttää automatiikkaa (automaattisia menetelmiä tietokoneella)?

Miten? Laitteisto: mikrofilmiskannerit

Massadigitoinnin tekee haastavaksi suuri "otosten" määrä, joka yleensä pitäisi saada tehdyksi minimaalisessa ajassa, usein vieläpä kovin halvalla hinnalla. Tämä siis tarkoittaa, että

  • koska ihmistyö (=palkat) ovat merkittäviä (länsimaissa ainakin), tulisi työtä automatisoida maailman tappiin, siis automaatio- ja tietotekninen osaaminen on huipussaan
  • laitteille asetetaan suuria laatu- ja kestävyysvaatimuksia, elikkä laitteet eivät ole halpoja, ja silti:
  • yleensä tulee kiire, ja kiireessä tehdään virheitä (vaikka TIETOkonehan on erehtymätön, toisin kuin sen käyttäjä)

Mikrofilmidigitoinnin yleisistä haasteista ja automaattisesta tekstintunnistuksesta

280620106761.jpg
280620106763.jpg

Voisiko mikrofilmejä digitoida muilla kuin varta vasten tehdyillä skannereilla? Kysymystä pähkäillään tässä ketjussa, ja onkin aivan selvää, että jos filmirullassa on tuhatkunta ruutua digitoitavana, ja rullia on PALJON, ei hommasta tule pelkästään ajankäytön näkökulmasta muulla kuin varten vasten suunnitellulla laitteella.

Mikrofilmiskannerit, käsittääkseni kaikki, ovat CCD-linjaskannuskamera (CCD-line scan camera) -tyyppisiä sovelluksia. Näissä digitoidaan materiaalia viiva kerrallaan, siten että filmimateriaalia siirretään synkronissa eteenpäin, ja kamera lukee juova (viiva) kerrallaan tavaraa. Kaikki tapahtuu hyvin nopeassa tahdissa, niin että parhaimmillaan päästään jopa useamman sadan filmiruudun minuuttivauhtiin, resoluutiosta ja filmin fyysisestä koosta riippuen.

Ideaalinen mikrofilmi sisältää mustaa (koneella kirjoitettua) tekstiä valkoisella taustalla, minkä digitointi on varsin suoraviivaista. Kuitenkin, mikrofilmeillä voi olla vaikka mitä aineistoa (esim. vanhoja sävykkäitä käsin kirjoitettuja kirkonkirjoja), ja erityisesti koska mikrofilmejähän voidaan myös tulostaa suoraan digitaalisesti (ns. COM-tulostus, computer output microfilm), ei tämä mikrofilmien digitointi olekaan välttämättä ihan pala kakkua.

Värimikrofilmiskannereita ei juurikaan (vielä) ole, yhtä poikkeusta lukuun ottamatta, sillä onhan värimikrofilmien kuvaus / tulostaminen vielä nykyisin (06/2011) luokkaa 10 kertaa mustavalkoista kalliimpaa. Nykyisin vielä liikutaan 8-bittisissä (256) harmaasävyissä, tosin nextScanin nextStart HD filminauhaskannaussofta esittääkin, että se pystyy tekemään 12-bittisiä (4096) harmaasävyjä. Valmistajan mukaan tämä tekee terää tekstintunnistukselle eli OCR:lle, mutta itse tohtisin omia testejä tehteenä väittää, että sävyjen kasvattaminen saattaisikin vai tehdä lisää ongelmia: automaattisessa tekstintunnistuksella tärkeintä on piirteiden muodollinen erilaisuus. Toisin sanoen raakadataa ei saa pakata millään tavalla, edes LZW:llä, kuvatiedoston tulee olla "terävä" (hyvin fokusoitu skannatessa), ja siinä tulee olla riittävästi resoluutiota (siis pikseleitä) ja tekstin taustan ei tule olla kovin epätasainen valoisuuden kannalta - mitä enemmän sävyjä, sitä hankalampaa tekstintunnistamiselle.

Käytin toista kuukautta, pitkää päivää, näiden sivujen automaattiseen tunnistukseen, kunnes selvisi, että ei se käytännössä toimisi kuitenkaan. Nimitaulut eivät ole kaikki samanlaisia, ja lopulta tunnistus oli laskennallisesti liian raskasta: paljon koodia roskiin..

Kaupalliset mikrofilmiskannerit todellisessa tuotantokäytössä

Skannerin = raudan kanssa käsi kädessä kulkee ohjelmisto = softa, joka määrää lopulta kokonaisuuden käytettävyyden. Nämä järjestelmät ovat tehty spesifeiksi, juuri sopiviksi vain tiettyyn käyttöön, ja muuhun ne eivät sitten sovellukaan. Luonnollisesti laitevalmistajat pyrkivät suurta panostaan suojatakseen ja tulonsa maksimoidakseen, salaamaan kaiken mahdollisen omista laitteistaan. Toisin sanoen, älä ylläty jos olet hankkimassa 100 000 euron (alv 0 %, totta kai) mikrofilmiskanneria, etkä silti saa kuin 2-sivuisen PDF-esitteen imettyä netistä, ja muutamat kehut valmistajan verkkosivuilta ("success stories") joltain institutionaaliselta käyttäjältä, miten hieno värkki onkaan kyseessä. Voi käydä jopa niin, että edes laitteen mukana ei tule manuaalia lainkaan, vaan siihen pitää ostaa käyttökoulutusta (esim. nextScanin kohdalla). Miksiköhän auto on paljon halvempi, ja siihen tulee sentään manuaali.. jaa silti, eipä niitä nykyajan autoja pääse itse paljon pissapoikaa ja bensatankin täyttöä enempää huoltamaankaan..?

Mikrofilmiskannereita on jokusia markkinoilla, kuten valmistajia (sekalaisessa järjestyksessä):

Onhan näitä, pääosin 8-bit harmaasävyjä tuottavia, mutta millä on käyttöä isossa hankkeessa / todellisessa tuotantokäytössä? Paljon asiaa selvittämänä, eipä tuosta joukosta laatunsa/kestävyytensä/käytettävyytensä/toimivuutensa puolesta erotu kuin kaksi ensimmäistä (nextScan ja Mekel), joista nextScan lienee tunnetuin ja eniten käytetty, vaikka kyllähän niidenkin koneita saa itsekin parannella.. ,)

FlexScan (nextScanin tekemä) ja Sunrisen tietyt mallit ovat ns. modulaarisia, siten että samaan runkoon saadaan joko rullafilmiadapteri tai mikrokortti(fiche)adapteri kiinni (joka palikka maksaa tietysti erikseen). Näin ollen kone ei toimi huippuhienosti kummallakaan adapterilla, mutta lopputulos voi silti olla tyydyttävä molemmissa tapauksissa, ja toki lompakkoakin vähän säästyy.

Mitä on ribbon scanning eli filminauhaskannaus?

Ennen vanhaan, siis vielä 2000-luvun alussa, mikrofilmiruudut skannattiin s.e. softa tulkkasi lennossa, missä se ruutu mahtaa olla (kunhan ruutujako oli ensin määritelty softalle), ja pilkkoi dataa CCD:sta tämän mukaan. Jos filmissä oli vähänkin "röpöä", skanneri saattoi kelata filmiä ei-synkronissa, ja niinpä koko rulla, tuhatkunta otosta täynnä, saattoi mennä ruvelle, jos tätä ei havaittu ajoissa.

Nykyään on keksitty ns. ribbon scanning eli filminauhaskannaus, missä koko (esim. 30-metrinen 35 mm) filmi ajetaan yhtäsoittoa samaan pakettiin (joka koostuu yhdestä 25 GB tiedosta ja muutamasta pienemmästä, n. 50 GB yhteispaketista, 8-bit TIFF 600 ppi resoluutiolla nextScanissa), joka sitten myöhemmin "auditoidaan" eli pilkotaan puoliautomaattisesti yksittäisiin kuvatiedostoihin kera jälkikäsittelyin (rotaatio, terävöitys, JPG:t).

Linkit

Videoita youtubessa

  • filminauhaskannauksesta flexScanilla video
  • filmin auditoinnista (kuvien pilkkomisesta ja muusta jälkikäsittelystä nextScanin laitteilla video ja toinen video
  • Mekel MACH V rullafilmiskanneri auditointeineen video
  • mikrokorttien (aperature card) digitointia flexScanilla video
  • Mikrokorttien massadigitointilaite flexScanin Titan video

Yleisiä linkkejä mikrofilmidigitointiin liittyen