Svenska litteratusällskapet i Finland

Digiwiki
Loikkaa: valikkoon, hakuun

Svenska litteratursällskapet i Finlands digitaliseringsverksamhet

Svenska litteratursällskapet i Finland r.f. är ett vetenskapligt samfund som bevarar, utvecklar och förmedlar det svenska kulturarvet i Finland.

Sällskapet är en mångsidig och framtidsinriktad kulturinstitution för finlandssvensk litteratur, kultur och forskning. Innebörden av ordet litteratur ska förstås i vid bemärkelse; den traditionella betydelsen lärda studier innefattar bl.a. skön- och vetenskaplig litteratur, forskning, förmedling av muntlig och skriftlig tradition och språkvetenskap. En viktig del av verksamheten är de olika arkiv som finns vid SLS.

SLS digitala arkiv Arkiva har som uppgift att förvalta digitalt arkivmaterial. Detta material är dels digitalt fött material, dels material som uppkommit genom digitalisering. Båda typerna av material är viktiga och värdefulla, de förra på grund av att de är original, de senare på grund av att digitaliseringsverksamheten är mycket kostsam, och man bör därför handskas med resultatet på ett väl överlagt och långsiktigt sätt.

I dag föds en stor del av allt material i digital form, och det är också i en allt större utsträckning omöjlig att representera i traditionell arkivform (dvs. på papper) på ett tillfredställande sätt. Detta gäller självklart webbsidor och ljudinspelningar, men också andra former av dokument som innehåller hyper- eller metatext av olika slag. Eftersom digitalt sparad information också produceras i en allt snabbare takt, t ex i form av e-postmeddelanden, är behovet av fungerande informationssystem och informationsförvaltning grundläggande och hanteras av Arkiva och informationsförvaltningen på SLS.

En annan viktigt utmaning i framtiden kommer att utgöras av forskningsarkivet, där SLS i princip förbundit sig att bevara alla typer av forskningsmaterial som finansierats av SLS egen forskning. På det sättet kan olika typer av databaser och dylikt material komma in.

Digitaliseringsverksamheten på SLS har två uttalade viktiga målsättningar:

  • att skydda känsligt material (mindre slitage, som en sorts säkerhetskopior)
  • att göra material tillgängligt (lättare sökbart och möjligt att ta del av)

Arkiva – SLS digitala arkiv

Under år 2008 aktualiserades behovet av att ha bättre kontroll över det digitala materialet. Arbetet inleddes i en nygrundad arbetsgrupp som gick under namnet IAM (informationsarkitekturmöte). I gruppen samlades representanter från de olika arkiven (Språkarkivet, Folkkultursarkivet och Historiska och litteraturhistoriska arkivet), SLS it-personal, två personer som arbetar med digitalisering (en medieteknisk expert och en planerare), fotografen samt den kommunikationsansvariga, bibliotekarien och arkivchefen.

Arbetet i IAM inleddes med att utarbeta metadata för de digitala objekten. Målet var ett heltäckande system som med minsta gemensamma nämnare (antalet olika fält) skulle passa in på SLS varierande material. Dessutom ville vi använda oss av en internationell standard för att dels följa med att vi inte missade något relevant och dels för att underlätta samarbete med andra institutioner. Dublin Core visade sig vara en utmärkt standard för att den dessutom är flexibel och allmän. Det innebär för SLS del att vi med ca 20 fält kan beskriva allt det vi behöver om vårt digitala material samtidigt som fälten och deras betydelse lätt kan förklaras i nationella och internationella sammanhang. Vi kom fram till att vartenda fält inom Simple Dublin Core var nyttigt för SLS. När ännu vissa tilläggsattribut från Qualified Dublin Core infördes, täckte standarden de behov vi hade för metadata i vårt digitala arkiv.

Att börja uppbyggandet av SLS digitala arkiv med en diskussion om Dublin Core och databasfält visar att vårt intresse i början var riktat mot en vokabulär och förståelse av metadata. Vi startade så att säga från slutresultatet, vilket för SLS tjänstemän är en färdig databas med fält som beskriver de digitala objekten.

Efter att ha diskuterat metadata gick vi inom IAM-gruppen under loppet av våren 2008 över till att diskutera OAIS-standarden. Den var minst lika viktig för skapandet av Arkiva som Dublin Core-standarden. När vi var klara med att diskutera metadata och databaser var det dags att fundera på hur hela systemet skall fungera och upprätthållas. Eftersom den digitala miljön förändras snabbt tack vare den ständigt pågående tekniska utvecklingen kräver ett fungerande digitalt arkiv en god administration som hela tiden ser över arkivet och dess beståndsdelar.

OAIS var mycket värdefullt för oss på den här aspekten. Med hjälp av standarden fick vi en modell för hur vi skulle bygga upp de processer som skapar och upprätthåller Arkiva. Den gav samtidigt en stor trygghet åt oss, digital långtidsförvaring är möjligt så länge som det digitala arkivet ständigt administreras. Att bara skapa ett digitalt arkiv och sedan låta det ligga orört en längre tid är bortkastade resurser redan från början.

OAIS hjälpte oss också med att beskriva de processer som tillför nytt material till ett digitalt arkiv och hur man får ut och kan använda de digitala objekten. Också när de gäller OAIS var det viktigt för oss alla att förstå terminologin och översätta termerna till vår verklighet inom SLS. Nu förstår alla inom IAM vad SIPar, AIPar och DIPar är konkret i förhållande till vår verksamhet. Utgående från OAIS kunde vi också dela upp ansvarsområden och inom sällskapet fastslå ansvarspersoner för olika funktioner av Arkiva.

Som grund för Arkiva valdes den internationella OAIS-standarden, som var till stor nytta då de olika kraven och processerna skulle formuleras. Det behövdes faktiskt rätt långa diskussioner för att alla skulle uppnå en gemensam förståelse av begreppen, men det var absolut nödvändigt. I dag har personalen en delad terminologi då man talar om digitalt material, vilket är en förutsättning för att arbetet skall lyckas. Viktigt var att teknisk personal, informatiker och de som sysslar med kärnverksamheterna deltog i planeringen från början.

Utgående från OAIS har sedan olika anpassade processbeskrivningar tagit form och ansvar och arbetsuppgifter har fördelats mellan personalen.

Målsättningen vid planeringen av de tekniska lösningarna har varit att uppnå maximal hanterbarhet och sökbarhet, genom att så småningom samla all metadata i en och samma databas, Arkiva-databasen, oberoende av typ (bild, ljud eller rörlig bild). Som databassystem valdes FileMaker som är det program som används i arkivet och således är bekant, både för utvecklare och för arkivpersonal.

Metadatafälten utarbetades enligt Dublin Core. FileMaker erbjuder flexibla möjligheter till länkning, men ett problem med programmet är att fält inte direkt kan upprepas. En skild tabell för ämnesord (SLS använder Allärs, samt en egen kontrollerad vokabulär), kunde vara en möjlighet, men en sådan lösning försvårar de xml-exporter som behöver göras.

En för oss viktig och lärorik utmaning har varit samarbetet med Europeana, som dock har visat att vi hittills resonerat rätt kring frågor om metadata och format, trots att vi ibland har upplevt oss vara rätt osäkra, eftersom få andra instanser har haft liknande system.

I dag finns det i Arkiva ännu endast bilder, men systemet är uppbyggt så, att alla typer av material kan registreras.

Vi planerar ännu specifika metadatafält för material som endast finns i digital form. Öppet är ännu hur Arkiva i framtiden kommer att förhålla sig till SLS eget tjänstearkiv, som bland annat kommer att innehålla stora mängder textdokument, webbsidor m.m. F.n. är tjänstearkivet ännu i princip i pappersform, men det fungerar inte i längden, utan måste ses över inom kort.

Särskilda utmaningar utgörs faktiskt av webbspel, databaser, excel-document och annat dylikt material som också behöver underhållas för att vara användbart i framtiden.

En annan utmaning utgöras av det semantiska nätet och de krav på ontologisering det ställer.

Bilder

Digitaliseringsverksamheten vid SLS började med inskanning av foton i jpeg-format redan i början av 1990-talet vid Historiska och litteraturhistoriska arkivet och Folkkultursarkivet. Vardera arkivet hade en egen databas för sina bilder, dessutom fanns ytterligare en databas som användes för publicering på webben.

Under år 2008 lades arbetet med dessa databaser ner slutgiltigt. Då hade man redan sedan en längre tid också börjar spara material i TIFF-format med tanke på långtidsförvaringen. Under 2008 togs det nya digitalarkivet i bruk, och en stor del av materialet i de gamla databaserna, det som varit av tillräckligt god kvalitet, har delvis flyttats till Arkiva.

Större pågående projekt är Albert Edelfelts brev och Zacharias Topelius skrifter, av vilka de senare inte ännu förts in i Arkiva. Vissa frågor har också uppstått gällande de mycket stora helheter som kommer in, hur de skall registreras i Arkiva-databasen. Hittills har varje enskild fil en egen post, men det är sannolikt inte ändamålsenligt då det gäller till exempel hela böcker. Någon annan lösning måste då göras, så att bilderna kan identifieras och hållas i rättordning och sökas fram tillsammans.

En del material har digitaliserats utanför huset, vilket ofta ter sig snabbt och förmånligt. I verkligheten uppstår här verkliga flaskhalsar, eftersom metadata ändå måste tillsättas, sannolikt både i själva filerna och i databasen. Just nu saknas resurser för arbetet.

Ljud

Det finns 9330 ljudfiler i SLS Folkkultursarkiv men många av dem är delar av samma band (till exempel är vardera sidan av en kassett en egen fil). Timantalet är ca 6000. Att minnas är ju också att det mesta från 2000-talet är inspelat i digital form och arkiverat med det analogt födda materialet. År 2000-2002 då allt ljud som fanns digitaliserades talades det om ca 5000 timmar ljud och det stämmer ganska bra.

Ljudet finns lagrat på en näthårdskiva i mp3-format, på CD i arkivformat och så är alla CD-skivor år 2006 kopierade till LTO2- och LTO3-band (varje skiva finns i båda formaten). Från och med 2007 görs ingenting på CD för arkivet men en extra kopia sparas på en hårdskiva för säkerhets skull.

Länkar till CD-arkivet, en databas över materialet på CD-skivor, har det i bandarkivet funnits i 8 år och i CD-arkivet kan man direkt lyssna på mp3-filerna genom att trycka på mp3-knappen eller på Öppna spår 1 eller 2 ifall det är en tvåspårig inspelning. Det kan SLS anställda göra i huset. På webben kan man inte lyssna på någonting annat än Spara talets korta ljudsnuttar på Spara talets webbplats. Spara talet kommer också att finnas på Europeana.

Kvar att digitalisera för tillfället är ca 200 band. Principen är att material digitaliseras efterhand det kommer in.

Film

Under hösten 2007 räknades att det finns 372 filmer, största delen vid HLA, som vi antagligen kommer att börja digitalisera en del av. Digitaliseringen är mest för att tillgängliggöra vissa filmer eftersom det inte finns något riktigt format för långtidsförvaring av digitaliserad film. Samtidigt som vi digitaliserar får vi stickprov på filmernas kvalitet. I vissa fall kan man till och med föra över filmer på ny film för att köpa sig tid i väntan på bra digitala format. Förhoppningsvis behöver vi inte göra det.

Digitaliseringen kommer sannolikt att köpas som tjänst. 81 videokassetter av varierade format finns också och dem kunde det vara skäl att digitalisera först eftersom de är betydligt billigare att digitalisera och förfaller snabbare.

All digitalisering av material med rörlig bild är i ett tidigt skede.

Tekniska aspekter

Tekniskt har vi i ett tidigt skede strävat att följa internationella rekommendationer vad som gäller filformat och kvalitet. Vi har prioriterat kvalitet framom filstorlek och därför använder vi oss endast av TIFF-filer i rätt så hög resolution när det gäller bildfiler och wave för ljud. Jpegar används endast som kopior i databaser och på nätet. Då det gäller fotografier överväger vi att långtidsbevara också raw-filerna i dng-format.

En annan aspekt förutom kvaliteten då det gäller standardisering av filformat är att ju färre filformat man använder sig av desto lättare blir det att hålla reda på dem vid framtida kommande migreringar. För bildfiler är läget rätt så självklart, men för ljud- och videofiler är läget mera komplicerat eftersom olika inspelningsapparatur kan generera varierande filformat. Ljudfiler konverteras oftast lossless till wave-format, vid behov.

Vi sparar material lokalt på externa hårdskivor, på servrar för tillgänglighetens skull och vi planerar ännu extra back up på magnetband som också fungerar som långtidsförvaring av material. SLS digitala material hör till många olika arkivsamlingar och därför har en noggrann strukturering av filerna varit mycket viktigt för oss.

Det digitala arkivet är uppdelat först enligt de olika arkiven inom SLS. Nästa nivå är samlingsnivån, varje samling utgör en egen mapp. Själva filerna namnges enligt deras individuella signum eller id. Vi anser att det är viktigt för om filstrukturen någon gång går förlorad kan enskilda filer ändå spåras tack vare deras individuella filnamn baserat på ett id.

Själva metadata är sparad i en FileMaker-databas. Databasen är uppdelad i fält som beskriver de digitala objektens innehåll, dess upphovsrättsliga aspekter och ett stort antal fält för teknisk beskrivning av det digitala objektet. Vi har utgått från de digitala objekten då vi skapat databasen. Det innebär att varje enskilt objekt har en egen post i databasen, oberoende om det endast en sida i ett större verk. Dublin Core var även här mycket tacksamt, för med den kan man lätt hänvisa till andra närstående objekt och större helheter. Vi funderar ännu på exakt vilka tekniska fält som slutligen kommer att finnas i Arkiva. Bl.a. born digital-material och en framtida migrering av filer kommer att kräva extra fält då det gäller de digitala objektens proveniens.

Eftersom vår utgångspunkt har varit användarvänlighet, har det innehållsmässiga metadata skapat mest diskussion inom sällskapet. Vi har bl.a. infört olika kategorier så att man lätt kan välja om man vill se på kartor, brev, fotografier eller dylikt. Än så länge finns det mycket begränsat med metadata i själva filerna. Det är en av de frågorna som vi ännu skall arbeta med. Enligt OAIS bör ett fungerande digitalt arkiv även ha metadata i själva filerna och inte enbart på databasnivå.

En bevaringsplanering utgör en ständig om inte en alltför övergripande komponent i Arkiva. Vi strävar efter att hela tiden bevaka omvärlden och se vilka tekniska lösningar som kommer upp och när de kan implementeras. Här är samarbete med andra institutioner och projekt mycket värdefullt för SLS.

Vi har gjort ett principbeslut om att det rätta sättet att hålla Arkiva fungerande är migrering. Det innebär att vi med jämna mellanrum måste se över de tekniska aspekterna och då det är nödvändigt masskonvertera våra filer till ett bättre format. Digitala objekt föråldras inte bara fysiskt genom det medium de är sparade på, utan även genom den tekniska utvecklingen som inte alltid prioriterar bakåtkompabilitet. Man måste beakta båda aspekterna vid uppbyggandet av ett fungerande digitalt arkiv.

Relevanta principer och källor:


Svenska litteratursällskapet i Finland