Tekstien digitointi

Digiwiki
Loikkaa: valikkoon, hakuun

Alla oleva teksti käsittelee osa-alueensa digitoinnin teknistä puolta. Katso myös yleisesti digitointiin ja pitkäaikaissäilytykseen liittyvät artikkelit:

Mitä on tekstimuotoinen aineisto?

Digitoitava materiaali

Mitä sitten tarkoitetaan tekstillä tässä yhteydessä eli mitä on se materiaali, joka on tarkoitus digitoida? Digitoitavana aineistona voi olla kirja, aikakaus- tai sanomalehti, pergamenttilehti, kirje, nuotti- tai muu käsikirjoitus, muistiinpano tai jokin muu dokumentti. Aineisto voi olla monenlaisessa muodossa: erilaatuisilla papereilla, pergamentilla, kankaalla, mikrofilmillä. Se voi vaihdella kunnoltaan ja vaatia esimerkiksi restaurointia tai muita erityistoimia ennen digitointia. Se voidaan digitoida kuvana, jolloin alkuperäinen ulkonäkö säilytetään, tai siihen voidaan kohdistaa tekstintunnistus, jolloin saadaan talteen asiasisältö.

Aineistojen valinta

Alkuvaiheen digitointihankkeissa tavattiin poimia poimia digitoitavaksi erityisen kiinnostavia historiallisia dokumentteja. Näin oli mahdollista saada nopeasti verkkoon sellaisia keskeisiä ja mahdollisimman näyttäviä asiakirjoja, joiden saatettiin katsoa olevan eduksi palvelun imagolle ja siten myös tarvittavalle rahoitukselle. Tällaisella sattumanvaraisesti verkkoon siirretyllä asiakirja-aineistolla on etupäässä vain psykologista ja kulttuuripoliittista arvoa. Lisäksi on mahdotonta asettaa historiallisia dokumentteja kiistattomaan arvojärjestykseen, sillä mikä tahansa dokumentti saattaa tarjota tärkeää tutkimuksellista tietoa. Aineistojen digitoinnissa tulisikin noudattaa provenienssi-periaatetta (provenienssilla tarkoitetaan sitä, että tiedossa on "esineen ja sen omistussuhteiden täysi historia, sen löytymisestä tai valmistuksesta nykypäivään, minkä perusteella sen aitous tai omistajuus voidaan määritellä"[1] ja digitoida järjestelmällisesti kokonaisia, jonkin tietyn toiminnan tuloksena syntyneitä aineistoja. Näistä kokonaisuuksista olisi todellista hyötyä myös tutkijoille.[2]

Laajoja kokonaisuuksia korostava lähestymistapa onkin nykyisin keskeinen kansallisten digitointisuunnitelmien päämäärä. Tärkeimpiä kriteerejä valinnassa tulisi näin olla aineiston tarve ja kysyntä ja digitoinnin sille tuoma lisäarvo. Aineiston digitointia harkittaessa voidaan käyttää esimerkiksi seuraavaa luokittelua. Ensinnä ovat taloudellisesti arvokkaat kokoelmat ja teokset, jotka voidaan digitoinnilla turvata vahingoittumiselta ja varkauksilta. Seuraavaksi tulevat kokoelmat, jotka ovat laajassa käytössä pääasiassa kiinnostavan sisältönsä tai tieteellisen arvonsa takia ja joilla ei välttämättä käyttöesineenä ole sen suurempaa arvoa. Lopuksi jää vähän käytetty aineisto, jota ei kannata siten digitoida.[2]

Edellä mainittua periaatetta voidaan hyvin soveltaa myös pienempiin kokoelmin. Käytännössä digitoitavan aineiston valinta ei kuitenkaan ole näin suoraviivaista, vaan rahoittajilla ja aineiston omistajilla saattaa olla oma näkemyksensä ja intressinsä siihen mitä digitoidaan[2].

Aineiston valintaa käsitellään muutaman projektinosalta lyhyesti julkaisuissa

Ks. myös äänitteitä koskeva aineiston valinta toisaalla Digiwikissä

Miten digitoida tekstimuotoista aineistoa?

Digitointi mielletään usein vain yksinkertaiseksi prosessiksi, jossa luodaan mistä tahansa lukukelpoisesta aineistosta digitaalinen kuva edullisen kotitietokoneen, skannerin ja vakio-ohjelmistojen avulla. Kun otetaan huomioon kopion laatua, kopion tallentamiseen käytettyä tiedostomuotoa, sen käyttötarkoitusta ja säilyttämistä koskevat kysymykset, monimutkaistuu prosessi. Lisäksi digitointi saattaa tarkoittaa myös esimerkiksi tekstintunnistusta (OCR), jolloin tarkoituksena on tallentaa myös materiaalin merkitys. Ajatus digitoinnista yksinkertaisena toimintana saattaa johtaa väärinkäsitykseen siitä, että se on helppoa ja kustannuksiltaan halpaa. Se ei kuitenkaan ole kumpaakaan näistä. Digitointiprojekti onkin suunniteltava huolellisesti ja johdettava kunnollisesti alusta loppuun.[3]

Digitoidun materiaalin saattaminen käyttäjien ulottuville on yksinkertaista internetin, ohjelmistojen ja teknisten standardien ansiosta. Jos kuitenkaan ei ole tarkoitus esimerkiksi jakaa kuvamateriaalia verkossa ilmaiseksi, tarvitaan monimutkaisia ohjelmistoja ja toimenpiteitä maksujen keräämiseksi ja immateriaalioikeuksien turvaamiseksi. Kokoelman organisoiminen on myös tärkeää. Se on luokiteltava, kuvailtava ja luetteloitava samalla tavalla kuin mikä tahansa muu aineisto.[3]

Yhteistyössä pitäisi määritellä ja omaksua standardit, jotka mahdollistavat eri kokoelmien yhdistämisen ja niiden käytön ilman, että käyttäjän tarvitsee tietää, mistä aineisto on peräisin. Myös immateriaalioikeuksia koskevista kysymyksistä tulee sopia.[3]

Suunnittelu

Syyt

Aluksi on selvitettävä syyt digitointiin. Miksi digitointia pidetään tarkoituksenmukaisena? Miten aineisto valitaan? Mitkä ovat sen valintakriteerit? Minkälaisia käyttäjiä digitoidulle aineistolle tavoitellaan? Tämä kaikki on oleellista projektin onnistumisen kannalta. Niiden avulla päätetään, mitä tullaan digitoimaan.[3]

Laajuus

Digitointiprojektin laajuus on arvioitava huolellisesti, sillä työmäärä tulee helposti aliarvioitua ja lähes väistämättömästi vain osa aiotusta materiaalista on mahdollista digitoida. Digitointiprojektin laajuuteen vaikuttavat osaltaan myös arvioidut kustannukset, henkilöresurssit ja muut kysymykset.[3]

Immateriaalioikeudet

Organisaation tai tekijän on selvitettävä , onko sillä riittävät oikeudet valmistaa digitaalisia kopioita. Oikeuksien turvaaminen voi olla pitkällinen ja kallis prosessi. On myös mietittävä, minkälaiset oikeudet organisaatio aikoo digitoituun aineistoon hankkia ja tuleeko aineisto olemaan kaikkien vai rajoitetun ryhmän saatavilla vapaasti vai maksullisena.[3]

Oma työ vai ulkoistaminen

Digitointiprojekti voidaan toteuttaa joko omana työnä tai ulkoistamalla. Vaikkakin organisaation olosuhteet voivat määrätä valinnan, ovat seuraavat seikat yleispäteviä.

Oman työn etuina ovat se, että aineisto ja sen käsitteleminen pysyvät organisaation omassa hallinnassa, aineiston kuljettamisen riskejä ei tule ja projektin tulokset ja laatu ovat välittömästi arvioitavissa. Lisäksi oma työ saattaa olla edullisempaa, vaikkakin tarkkaa kustannusarviota voi olla vaikea tehdä. Myös henkilöstön ammattitaito lisääntyy, eikä organisaatiolla ole sopimusvelvoitteita ulkopuoliseen yhteistyökumppaniin nähden.[3]

Ulkoistamisen etuina puolestaan ovat: Prosessin yksityiskohtainen valvonta on palveluntarjoajan vastuulla. Organisaation ei tarvitse hankkia itselleen tarvittavaa laitteistoa ja ohjelmistoa, sillä niistä huolehtii yhteistyökumppani. Organisaation ei myöskään tarvitse kouluttaa henkilöstöä uusin tehtäviin, vaan käytössä on palveluntarjoajan kokemus ja ammattitaito. Kustannukset ovat myös selvillä alusta alkaen.[3]

Ulkoistamista käsittelee TIEKE ry:n sivusto hyvine tietolähdeviitteineen.

Toteutus – väriä vai mustavalkoista?

Valokuvaaminen digitaalikameralla

Valokuvaaminen digitaalikameralla saattaa olla ainoa mahdollisuus digitoida materiaalia, jota ei voida muilla keinoin käsitellä esimerkiksi aineiston vahingoittumattomuuden varmistamiseksi. Kuvaamisessa on kuitenkin omat riskinsä. Esimerkiksi kameran objektiivi saattaa vääristää kohteen mittasuhteita ja linjoja, tai tiedoston resoluutio ja tiedostomuoto saattavat poiketa siitä, mikä on organisaation standardeissa.[4] Digitaalikameran käyttökelpoisuus digitoinnissa onkin harkittava huolella.

Väridigitointi

Väridigitointi asettaa omat vaatimuksensa työympäristölle ja työvälineille, sillä digitaalisten kuvien värien ja sävyjen tulee vastata mahdollisimman tarkasti alkuperäisaineistoa.

Työympäristön on oltava kalibroitu ja profiloitu. Kalibroinnissa viritetään näyttö näyttämään oikeaa, mittalaitteen antamaa väriä ja sävyä. Näytön on oltava kalibroitu mittalaiteella ja kullakin skannerilla on oltava oma profiilinsa. Skannerin profiili eli sen mitattu värintoistokyky, tallennetaan digitaalisen kuvan mukaan ja/tai kuvan väriavaruus muunnetaan johonkin laajatoistoiseen väriavaruuteen. Väriavaruus on abstrakti matemaattinen malli, joka kertoo miten värit voidaan esittää lukujonoina, tyypillisesti kolmen tai neljän perusvärin yhdistelmänä. Esimerkiksi tietokoneisiin, näyttöihin ja digitaalikameroihin tarkoitettu RGB (red, green, blue) ja painotöissä käytettävä CMYK (cyan, magenta, yellow, black) ovat tällaisia värimalleja. Väriavaruutta voidaan käyttää esimerkiksi värien tarkkaan määrittämiseen ja toistamiseen eri ympäristöissä.

Jos edellä mainittua kalibrointia ei voida tehdä, on kunkin työerän mukaan skannattava jokin yleisesti saatavilla oleva värikartta värien ja sävyjen toistumisen tarkistamisen mahdollistamiseksi.[4]

Mustavalkodigitointi

Mustavalkodigitoinnissa tuloksena on vain joko mustaa tai valkoista, mutta ei harmaasävyjä. [4]

Mustavalkodigitointi ei sovellu historiallisen käsinkirjoitetun asiakirja-aineiston tai mikrofilmien digitointiin, koska tekstin tummuus ja paperin pohjan väri vaihtelevat. Vanhan asiakirjan autenttisuus ja luettavuus menetettäisiin mustavalkodigitoinnissa. Uusien tulostettujen dokumenttien kohdalla mustavalkodigitointi saattaa olla mahdollista, kunhan käytetään riittävän suurta resoluutiota.[4]

Mustavalkodigitoinnin soveltuvuus vaatii siten aineistokohtaisen etukäteisarvioinnin harmaasävyjen säilyttämisen tarpeellisuudesta.[4]

Harmaasävydigitointi

Harmaasävydigitoinnissa, päinvastoin kuin mustavalkodigitoinnissa, sävyskaala on jatkuva mustan ja valkoisen välillä. Kun kontrasti ja tummuus säädetään oikein, saadaan teksti säilymään luettavana ja kohde toistuu mahdollisimman alkuperäisenä.[4]

Paperia digitoitaessa on kyettävä erottamaan harmaasävyjä tekstin vaaleimmilla ja tummimmilla alueilla. Mikrofilmiä digitoidaan aina harmaasävydigitointina, jolloin harmaasävyt toistuvat ja tekstin himmeimpiäkään kohtia ei menetetä. Mikrofilmin pienennyskertoimen avulla asetetaan suurennus riittävän suureksi, jotta digitoitu asiakirja on luettavissa.[4]

Tarkempia tietoja hyvistä digitointikäytänteistä, vaadittavista resoluutioista ja tiedostomuodoista löytyy Arkistolaitoksen digitoinnin laatukriteereistä[4].


Laitteistot ja ohjelmistot

Skannerit

Yksinkertaiset tasoskannerit eivät välttämättä sovellu nidottujen ja paksujen teosten skannaamiseen ja voivat jopa aiheuttaa huomattavaa vahinkoa käsiteltävälle materiaalille. Syöttölaitteesta on hyötyä silloin, kun alkuperäinen aineisto on käytettävissä irrallisina sivuina. Diakuvia ja mikrofilmejä varten puolestaan on olemassa niille tarkoitettuja skannereita. Kit A. Petersonin opas What to Look for in a Scanner: Tip Sheet for Digitizing Pictorial Materials in Cultural Institutions (pdf-tiedosto), käsittelee skannerin valintaa.[3]

Digitaalikamerat

Kamera on skanneria sopivampi laite digitointiin silloin, kun esimerkiksi kirjaa ei voida avata levälleen tai digitoitava materiaali on haurasta ja vaarassa vahingoittua. Kameraa käytettäessä ei laitteen ja kopioitavan materiaalin välillä ole fyysistä kontaktia, joka saattaisi vahingoittaa alkuperäistä aineistoa.[3]

Ohjelmistot

Myös digitointiin käytettäviin ohjelmiin on kiinnitettävä huomiota ja ne on valittava harkiten. Valinnassa on huomioitava kolme seikkaa: kuvanluku ja -käsittely sekä jakelu. Kuvanlukuohjelman tulee olla TWAIN-yhteensopiva, ja siihen täytyy sisältyä mahdollisuus esikatsella skannattavaa kuvaa. Hyvän ohjelman edellytyksiin kuuluu lisäksi tallentaminen valittuun tiedostomuotoon. Ohjelmiston valinta riippuu myös käyttötarkoituksesta, eli onko tarkoitus skannata kuva sellaisenaan vai myös käsitellä sitä jollakin tavalla.

Monet muutkin tekijät, esimerkiksi hankinta- ja ylläpitokustannukset, helppokäyttöisyys (vaatiiko käyttö erityistä koulutusta?) sekä laitteiden ja ohjelmistojen luotettavuus, mukautettavuus ja laajennettavuus vaikuttavat laitteiden ja ohjelmien valintaan.[3]

Tiedostomuodot

Digitoinnin tuloksena syntyy digitaaliseen muotoon tallennettu informaatiotuote, tiedosto. Käytössä on useita eri formaatteja. Tiedostomuoto onkin syytä valita huolella. Alkuperäisen kopio on tavallisesti korkealaatuisessa häviöttömässä muodossa, esimerkiksi TIFF-formaatissa. Jakelu- ja käyttötiedostot ovat yleensä jossakin pienempään tilaan pakatussa muodossa, esimerkiksi JPEG- tai GIF-formaatissa. Tallennemutoojen valintakriteereitä käsittelevä opas on esimerkiksi Franziska Freyn File Formats for Digital Masters.[3] 

Luettelointi ja metatieto

Digitoidun materiaalin luettelointi ja sen varustaminen asianmukaisella metatiedolla on erityisen tärkeää sillä tieto, jota ei löydy, ei ole olemassa. Organisaatioissa on tunnettava eri alojen luettelointitapoja, kuten esimerkiksi arkistoalalla käytettävä Encoded Archival Description -standardi, ja tapoja tuottaa metadataa elektronisessa ympäristössä (erityisesti Dublin Core). Stuart Leen teoksessa Digital imaging: a practical handbook”. Lontoo: Library Association Publishing, 2000. ISBN 1-85604-353-3, käsitellään näitä kysymyksiä.[3]

Digitoinnin jälkeen – tiedostojen säilyttäminen

Digitoidun aineiston pitkäaikaissäilytyksen haasteet

Tietokoneiden ja -välineiden kehittyessä eivät uuden sukupolven järjestelmät välttämättä toimi yhdessä edeltäjiensä kanssa tai ei löydy laitteita, joilla voidaan lukea vanhaa tietovälinettä. Erityisesti ohjelmien kanssa tämä on ongelmallista. Säilytyksen kustannuksia on myös vaikea arvioida, koska on hyvin vaikea arvioida mahdollisten migraatioiden eli tietojen siirtojen määrää, kun myöhemmin otetaan käyttöön uusia järjestelmiä tai ohjelmien uudempia versioita. Säilytettävien tietokantojen sisältömäärät ovat valtavia, joten olisi tärkeää löytää kustannustehokkaita järjestelmiä ja menetelmiä. Tutkimusta säilyttämisen teknologiasta on toistaiseksi tehty liian vähän. Tekijänoikeussäännökset saattavat myös aiheuttaa omat ongelmansa.[5]

Pitkäaikaissäilytyksen ratkaisut ja tallennusmediat

Ainoat tietovälineet, joiden käytöstä pitkäaikaissäilytykseen on todellista kokemusperäistä tietoa, ovat kiveen hakatut merkit ja kuvat. Suurten tietomäärien tallentamiseen tällainen analoginen tekniikka luonnollisesti on poissuljettu mahdollisuus. On otettava käyttöön jokin muu ratkaisu. Parhaimmaksi tallennusmediaksi on osoittautunut magneettinauha, sillä sen etuja ovat häiriöttömyys, virheettömyys ja kustannustehokkuus, kun taas esimerkiksi ulkoisten kovalevyjen tai kirjoitettavien CD-R- ja DVD-R-levyjen luotettavuus ja käyttöikä ovat riittämättömiä. Tallennusmediaratkaisuissa on huolehdittava siitä, että tiedon tuoreutus eli kopiointi uudelle medialle tapahtuu riittävän usein. Optisilla ja magneettisilla medioilla sopiva tuoreutusväli on noin viisi vuotta, jos niitä säilytetään valmistajan ohjeiden mukaisesti. Olisi myös hyvä tallentaa tiedot kahtena identtisenä tiedostona kahdelle eri valmistajan tietovälineelle.[4]

Esimerkiksi Arkistolaitoksen Digitaaliarkistossa TIFF-muodossa oleva aineisto tallennetaan kahtena identtisenä tiedostona nauhatallennusjärjestelmään. Tiedostot kopioidaan uudelle nauhalle viiden vuoden välein ja mediaa vaihdetaan tarvittaessa uudempaan nauhatyyppiin. TIFF-tiedostoista tehdään kaksi pienempää JPG-tiedostoa Internetkäyttöön. Nämä näyttötiedostot ovat erikokoisia, jolloin toista voidaan tarvittaessa suurentaa näytöllä luettavuuden lisäämiseksi. Tarkemmat tiedot Arkistolaitoksen nauhatallennusjärjestelmästä löytyvät lähteestä[4].

Muistiorganisaatioilla on yhteistyönä meneillään Kansallinen digitaalinen kirjasto -hanke, jossa pitkäaikaissäilytyksen ratkaisut tulevat täsmentymään. Hankkeen tarkoitus on parantaa "kirjastojen, arkistojen ja museoiden sähköisten aineistojen saatavuutta ja pitkäaikaissäilytystä"[6]. Digiwikin Pitkäaikaissäilytysosiossa käsitellään aihetta yksityiskohtaisesti.

Lähteet

  1. ICOM - Suomen komitea ry. Museotyön eettiset säännöt. <http://finland.icom.museum/etiikka.html>. Viitattu 1.3.2010.
  2. 2,0 2,1 2,2 Iiva, J. 2004. Kansallisen kulttuuriperinnön digitointi - loppuuko vauhti ennen alkua? Sivustossa Agrican tietosanomat 2–2004. <http://agricola.utu.fi/tietosanomat/numero2-04/digitointi.html>. Viitattu 7.1.2010.
  3. 3,00 3,01 3,02 3,03 3,04 3,05 3,06 3,07 3,08 3,09 3,10 3,11 3,12 Pulman – Opas yleisille kirjastoille. <http://www.pulmanweb.org/dgms/DGM-Finnish-Ver-Apr03.doc>. Viitattu 21.12.2009.
  4. 4,0 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9 Arkistolaitos 2008. Arkistolaitoksen suositus digitoinnin laatukriteereiksi: Suositus AL/11130/07.01.02.04.02/2008. <http://www.narc.fi/Arkistolaitos/a/tiedostot/PDF/digikriteerit.pdf> Viitattu 21.12.2009.
  5. Suomen Pankki. 2005. Suomalaisesta kulttuuriperinnöstä Euroopassa. Pääjohtaja Erkki Liikasen puhe Kansallisen digitointikeskuksen 15-vuotisjuhlassa Mikkelissä 31.10.2005. <http://www.bof.fi/fi/suomen_pankki/organisaatio/johtokunta/liikanen/muut_puheet/el_puhe31102005.htm>. Viitattu 16.3.2010.
  6. Kansallinen digitaalinen kirjasto. Pitkäaikaissäilytys. <http://www.kdk.fi/fi/pitkaaikaissailytys>. Viitattu 16.3.2010.

Linkit

Linkit teoksesta Pulman – Opas yleisille kirjastoille.

Ks. myös: Lee, Stuart D. 2000. Digital imaging: a practical handbook. Lontoo: Library Association Publishing. ISBN 1-85604-353-3.

Kokemukset sekä työnkulut & käytänteet

Case: KAR Oy:n mikrofilmidigitointihanke 2010 / Klaus A J Riederer

Seuraavassa läpikäydään isoa julkisesti 7.6.2010 asti EU-kilpailutettua massadigitointihanketta, jonka pisteytyksen KAR Oy voitti, ja mikä ajallisesti ajoittui (touko)heinä-marras(maalis)kuulle 2010. Sen sijaan, että tämä teksti olisi pelkkä neutraalin suppea tapauskuvaus – case-esimerkki –, laajennan ajatuksiani pidemmälle, jotta mahdollisimman moni voisi hyötyä kokemuksistani ja oppimastani. Yritän tarkastella asiaa laajemmin ja soveltuvin osin niin toimittajan kuin tilaajankin kannalta, vaikka itse pääosin edustan ensinmainittua.

Tavaraa tuli lopulta niin paljon, että tämän juttu on jaettu erillisiin artikkeleihin.