Kulturministeriets logo. Klik her for at komme tilbage til ministeriets hjemmeside

DIGITALISERING AF KULTURARVEN

Bilag 2: Teknisk redegørelse vedr. digitalisering af kulturarven

Forord

Efter offentliggørelsen af Digitaliseringsudvalgets midtvejsrapport i september 2008 blev der nedsat en arbejdsgruppe, som skulle levere konkrete forslag til, hvilke dele af kulturarven der kunne digitaliseres som led i en mere omfattende strategisk indsats for digitalisering af kulturarven. Sideløbende med dette arbejde har en undergruppe drøftet de tekniske afspekter af denne arbejdsgruppes forslag[9]. Formålet med arbejdet i denne tekniske undergruppe var at nuancere midtvejsrapportens beskrivelse af digitaliseringsprocessen og infrastrukturen i lyset af de mere detaljerede forslag til, hvilke specifikke samlinger der kunne digitaliseres.

Den tekniske undergruppe har således sammenholdt anbefalinger og beskrivelser fra midtvejsrapporten med arbejdsgruppens konkrete forslag til digitalisering. Resultatet er en mere nuanceret og detaljeret beskrivelse af digitaliseringsprocessen og et mere specikt økonomisk estimat for omkostningerne ved etablering af den infrastruktur, der skal understøtte formidling af den digitaliserede kulturarv.

1 Indledning

Digitaliseringen af kulturarv er primært interessant på grund at de nye muligheder, som den giver danskerne for at opleve kulturarven. Befolkningen får adgang til en kulturarv, som de ellers kun ville møde, hvis de fysisk opsøgte arkiverne og samlingerne, og den digitale form giver helt nye muligheder for at præsentere og formilde kulturarven. Samtidig kan digitalisering bevare materiale, der ellers ville være gået til grunde og bevare adgangen til audiovisuelt materiale, der bliver utilgængeligt i sin originale form, fordi afspilningsapparaturet forsvinder.

Selve digitaliseringen er således et middel til at gøre kulturarven tilgængelig på lige fod med de øvrige digitale tilbud, der bliver en stadig vigtigere del af hverdagen, ligesom digitaliseringen også tjener et bevaringsmæssigt formål. Selv om digitaliseringsprocessen – i et tilgængelighedsperspektiv – kan synes at spille en underordnet rolle, er en fornuftig tilrettelæggelse og gennemførelse af processen en forudsætning for, at brugerens udbytte af den digitale kulturarv bliver optimalt. Ud over en effektiv digitaliseringsproces er det afgørende, at det digitaliserede materiale efterfølgende kan bevares og tilgængeliggøres gennem en effektiv infrastruktur, der kan understøtte de mange formidlingsinitiativer, der gør brug af materialerne.

Rapporten er opdelt i to overordnede afsnit: en beskrivelse af digitaliseringsprocessen samt en beskrivelse af den efterfølgende tilgængeliggørelse og formidling. Afsnittet om digitaliseringsprocessen beskriver problemstillingerne ved digitalisering af forskellige materialekategorier samt forslag til, hvordan de større institutioners kompetencer og erfaringer kan udnyttes i relation til specifikke materialekategorier.

Afsnittet om tilgængeliggørelse indledes med en beskrivelse af de generelle problemstillinger vedrørende tilgængeliggørelse på internettet. Derudover redegøres for, hvordan materialet tilgængeliggøres gennem tilføjelse af metadata, hvilke krav der kan stille til it-systemer, og hvordan en infrastruktur for bevaring og tilgængeliggørelse af den digitaliserede kulturarv kan etableres.

2 Digitaliseringsprocessen

2.1 Indledning

En optimal digitaliseringsproces forudsætter et indgående kendskab til den relevante materialetype og den teknologi, der med fordel kan anvendes ved digitaliseringen. Det er afgørende, at processen resulterer i filer i den rigtige kvalitet og det rigtige format, så resultatet både kan anvendes umiddelbart og er fremtidssikret.

Kulturministeriets institutioner benytter ofte udbud i forbindelse med større digitaliseringsopgaver, hvilket medfører, at en stor del af det praktiske arbejde udføres af eksterne aktører, ganske ofte placeret i udlandet. Større digitaliseringsprojekter forudsætter således i den forbindelse betydelige kompetencer, både hvad angår tekniske aspekter, arbejdsprocesser, udbudsforretninger samt opfølgning og kvalitetssikring.

Som beskrevet i det følgende har de større institutioner på Kulturministeriets område allerede disse kompetencer inden for de centrale materialekategorier, og institutionerne vil således kunne fungere som kompetencecentre, såfremt der etableres en større tværgående digitaliseringsindsats. Udvalget har dog ikke taget stilling til, hvorvidt der skal udpeges egentlige kompetencecentre; en sådan beslutning vil bedst kunne tages i forbindelse med den konkrete implementering.

Et væsentligt spørgsmål i forhold til alle digitaliseringsprocesser er komprimering af data. Som udgangspunkt er ukomprimerede formater (eventuelt pakkede ukomprimerede formater) at foretrække, men på grund af de større datamængder og dertil knyttede udgifter ved ukomprimerede formater er der tale om en konkret afvejning fra digitalisering til digitalisering (ved digitalisering med bevaringsformål må ukomprimerede formater være et krav). Men afgørende er det under alle omstændigheder, at digitaliseringen finder sted via åbne, internationalt anerkendte standarder, således at materialet kan anvendes uafhængigt af platform.

2.2 Kompetencecentres rolle og opgaver

Som det fremgår nedenfor, har de institutioner, der råder over store samlinger inden for materialekategorierne lyd, tekst og billeder samt levende billeder, også omfattende erfaring med digitalisering på området. Disse institutioner kan således i princippet fungere som kompetencecentre inden for en af de tre materialekategorier. Kompetencecentrene vil fungere inden for de eksisterende økonomiske rammer. Denne opgave indgår ikke på nuværende tidspunkt i institutionernes opgavebeskrivelse, men man anbefalede en lignende ansvarsfordeling for bevaring i forbindelse med udredning af bevaring om kulturarven[10].

Kompetencecentret inden for en given materialekategori skal kunne rådgive andre offentlige institutioner om bevaring af materialet og indgå i partnerskaber samt evt. insource digitaliseringsopgaver.

Kompetencecentret skal have ekspertviden om alle forhold omkring bevaring af materialet:

Kompetencecenteret kan være den institution, hvor man på nationalt plan har professionel viden om bevaring af materialet som kulturarv. Opgaven er helt overordnet at sikre, at museale og bevaringsmæssige opgaver på medieområdet varetages i overensstemmelse med åbne, internationalt anerkendte arkivstandarder.

Ovenstående opgaver bør i videst muligt omfang varetages iht. åbne, internationalt anerkendte standarder og løbende udviklet i takt med nye tekniske muligheder. Dette kræver, at standardiseringsarbejdet følges, samt at viden om tekniske forhold løbende ajourføres, bl.a. ved deltagelse i relevante internationale organer.

Langtidsbevaring af en given materialetype bør være en opgave, der løses i fællesskab med andre kompetencecentre på nationalt og internationalt plan, idet digital langtidsbevaring generelt rummer problemstillinger, der er fælles for stort set alle medietyper. Danmark deltager i øjeblikket i to europæiske projekter omkring digital langtidsbevaring – repræsenteret ved Det Kongelige Bibliotek og Statsbiblioteket.

2.3 Digitalisering af lyd

2.3.1 Indledning

Som det fremgår af digitaliseringsudvalgets midtvejsrapport (side 22), befinder hovedparten af kulturarvens lydmateriale sig på Statsbiblioteket og i DR. Statsbiblioteket huser Statens Mediesamling, som er det nationale center for audiovisuelle materialer med ansvar for bevaring af danske lydoptagelser. Lydsamlingen rummer 150.000 danske enheder og dækker indholdsmæssigt alt, hvad der er udgivet i Danmark på grammofonplader og bånd mv., ligesom en lang række unikke lydoptagelser fra samfunds- og kulturlivet i det 20. årh. indgår – enkelte helt tilbage fra lydhistoriens barndom i slutningen af 1900-tallet.

Hertil kommer komplette sendeflader med radiooptagelser fra DR fra de sidste 25 år (landsdækkende og regionalt), samt en omfattende lokalradiosamling. Lydoptagelserne i Statens Mediesamling er lagret på medier af alle typer fra de sidste 100 år – fra fonografvalser, 78’-plader, trådruller, spolebånd, vinylplader, kassettebånd og DAT-bånd til cd’er. Mange af de nævnte medietyper findes i varierende undertyper, som hver især kræver særligt afspilningsudstyr. Der modtages fortsat donationer, idet Statsbiblioteket i kraft af sin medieopgave anses for det naturlige sted at aflevere historiske lydoptagelser til.

Historiske lydmedier findes også i andre kulturinstitutioner, der ikke har lydmedier som kerneområde, men hvor de indgår som et vigtigt supplerende kulturarvselement i tilknytning til de centrale samlinger. Blandt disse institutioner kan nævnes Det Kongelige Bibliotek, Nationalmuseet, Statens Arkiver, Dansk Folkemindesamling og Arbejderbevægelsens Bibliotek og Arkiv (se Kulturarvsrapportens bilag 11). DR har endvidere i sine arkiver en del af de programmer, der gennem DR’s historie har været udsendt på de landsdækkende programmer. Der er for de ældre udsendelsers vedkommende overvejende tale om arkivering af enkeltudsendelser (ikke hele sendeflader).

2.3.2 Digitaliseringsprocessen

Digitalisering af lyd kræver specialviden om samtlige medietyper, der har været på markedet igennem det 20. årh. Lydoptagelserne i Statens Mediesamling og i de andre offentlige institutioner er for en stor dels vedkommende lagret på konsummedier (ikke-professionelle formater), som ofte er slidte, fordi de er modtaget som donation (pligtaflevering af lydoptagelser blev først indført i 1998).

Lydfæstninger er derfor det medie, som findes i flest forskellige formater. Blandt særligt skrøbelige typer, kan nævnes:

I digitaliseringsprocessen er det vigtigt at have kompetencer og viden om optimal overførsel af lyden fra disse forgængelige medier til et digitalt format. Det drejer sig med andre ord om at kunne ’trække’ så meget af den originale lyd ud af det analoge medie som overhovedet muligt. Dette er specielt problematisk for de mange lydmedier, som igennem årene har været udsat for kemisk og fysisk nedbrydning under opbevaring i privat eller offentligt regi uden kendskab til korrekte opbevaringsforhold.

Statsbiblioteket har igennem de senere år arbejdet på etableringen af et kompetencecenter for lyd som et resultat af anbefalingen i Kulturarvsrapporten, dels ved rekruttering af sagkyndigt personale, dels ved opbygning af erfaring igennem konkrete digitaliseringsprojekter. Biblioteket har sideløbende i et vist omfang udført rådgivningsopgaver – og i nogle tilfælde foretaget digitalisering af lydoptagelser for andre offentlige institutioner. Biblioteket får stadigt hyppigere henvendelse udefra om mulighed for overspilning/rådgivning i digitalisering af historisk lyd fra f.eks. Naturhistorisk Museum, Kvindemuseet og Niels Bohr-arkivet.

2.4 Tekst- og billeddigitalisering

2.4.1 Indledning

Der er en lang række institutioner, som har kulturarvsmateriale i form af tekst og billeder. Langt størstedelen af de relevante samlinger inden for disse materialekategorier findes dog på Det Kongelige Bibliotek.

Det Kongelige Bibliotek er nationalbibliotek og universitetsbibliotek for Københavns Universitet. Nationalbiblioteksfunktionen blev etableret i 1648, medens universitetsbiblioteksfunktionen har rødder tilbage til 1482. Bibliotekets samlinger af tekst og billeder er meget omfattende. Biblioteket har 6,9 mio. katalogiserede enheder tekst (bøger, tidsskrifter mv.) svarende til 175 hyldekilometer. Bibliotekets samlinger af fotografisk materiale mv. rummer 16,3 mio. enheder, svarende til 12,2 hyldekilometer. Der findes også store samlinger af tekstmateriale i andre kulturinstitutioner og i mindre omfang også fotografisk materiale. Blandt disse institutioner kan især nævnes Det Danske Filminstitut, Kulturarvsstyrelsen, Nationalmuseet, Statens Arkiver, Statens Museum for Kunst og Statsbiblioteket.

2.4.2 Digitalisering af tekst og billeder

Digitalisering af tekst og billeder falder i en række grupper:

Digitalisering af forskellige kategorier af materiale, der kræver særlige kompetencer, eksempelvis:

Arbejdsgangene vil naturligvis afspejle hensyn til sådanne materialer. Arbejdsgangene må ligeledes afspejle mængden af allerede eksisterende metadata til materialet, samt afspejle beslutninger om, hvorvidt man vil foretage tekstgenkendelse af tekstmateriale og i bekræftende fald, om man tillige vil lave en opmærket version af materialet.

Kravene og arbejdsgangene vil også afhænge af, om man efter digitaliseringen stadig har rådighed over den analoge original. De tilfælde, hvor originalen ikke er brugbar efterfølgende, taler man om såkaldte substitutskanninger. Her skannes et objekt i stedet for at introducere ekstremt kostbare bevaringsforanstaltninger i forhold til originalen.

Det er typisk for tekstdigitalisering, at man ofte arbejder med mange aktører: Materiale skannes et sted, tekstgenkendes et andet, opmærkes et tredje og kvalitetstjekkes et fjerde. Oven i disse kommer arbejdet med at beskrive og indlemme materialet. Der skal træffes en lang række beslutninger i forbindelse med digitaliseringen, herunder valg af opløsning, farvedybde og format (råt, komprimeret eller pakket). Disse valg vil have stor betydning for den samlede pris for den efterfølgende bevaringsaktivitet.

Et tekst- og billedkompetencecenter bør have den relevante viden i forhold til digitalisering og bevaring af den del af kulturarven, som er udkommet på tryk eller forefindes som billeder (herunder også negativer). Kompetencecentret kan bidrage til at sikre, at materiale digitaliseres i henhold til åbne, internationalt anerkendte standarder, og rådgive om, hvordan man bedst og billigst gennemføre en konkret digitaliseringsopgave samt den digitale efterbehandling og kvalitetskontrol.

Inden for tekstbaseret materiale er der allerede mange erfaringer både på Det Kongelige Bibliotek og ved en række andre biblioteker og institutioner i Europa og USA. Disse spænder over modeller med en meget arbejdskraftsintensiv, selektiv digitalisering af enestående værker til mere automatiseret massedigitalisering af hele samlinger. Inden for massedigitalisering er en alliance med Google en mulighed, som flere større forskningsbiblioteker har benyttet sig af. Samarbejdet finder sted under den forudsætning, at materialet efterfølgende kun kan benyttes af den institution, der råder over samlingen. Det ville i det Kongelige Biblioteks tilfælde indebære, at kun lånere ved KB kunne benytte materialet efterfølgende.

Flere firmaer er begyndt at tilbyde alliancer, herunder Internet Archive, som tilbyder at lave den efterfølgende digitale behandling, hvis institutionen selv står for skanningen. Det tyske firma CSS har en arbejdsgang, hvor digitalisering også gennemføres lokalt, men hvor den efterfølgende kvalitetskontrol er outsourcet til Asien.

Det Kongelige Bibliotek har i mere end 10 år arbejdet med digitalisering af egne materialer, i de sidste 4 år har KB digitaliseret for andre institutioner. Biblioteket har derved opbygget viden og erfaring vedrørende skannere, software, applikationsudvikling, arbejdskraft, definition og styring af opgaver samt outsurcing af opgaver. Fokus har været på digitalisering af materialer inden for tekst og billeder. Der er stor spredning og kompleksitet i bibliotekets digitaliseringsprojekter, hvilket har medvirket til opbygning af omfattende ekspertise på området. Der arbejdes med alle kvaliteter af materialer både i form af fysisk materiale, der skal digitaliseres, og i form af det output, som er resultatet af digitaliseringsprocessen.

Det færdige resultat afhænger af formålet. Biblioteket har opgaver, der varierer meget i størrelse fra få hundrede sider til over 100.000 sider, hvilket har medvirket til opbygning af viden omkring workflow og optimering af disse.

Det Kongelige Bibliotek har gennem 5 år benyttet sig af outsourcing på næsten alle områder af digitaliseringsprocessen, undtagen selve skanningen. Derved har biblioteket høstet erfaringer med, hvilke faktorer der er afgørende for at opnå den ønskede effekt af outsourcingen. Det vigtigste er, at udbyder har et indgående kendskab til opgaven, dvs. institutionen har tilstrækkelig viden til selv at løse opgaven, så den kan udarbejde de rette kravspecifikationer. Hvis ikke denne ekspertise er til stede, risikerer man, at besparelsen ved outsourcing udebliver. Det Kongelige Bibliotek har outsourcet opgaver til Rumænien, Iran og Indien og tidligere også benyttet Rusland. Erfaring med tidligere projekter gør det muligt at placere nye opgaver de steder, der kan tilbyde den rette pris og de relevante kompetencer til netop den opgave.

Uanset institutionens nuværende kompetencer og erfaringer er det afgørende, at man løbende holder sig orienteret ikke bare om de teknologiske muligheder, men også om, hvordan andre institutioner løser opgaven og til hvilken pris. Det Kongelige Bibliotek har et meget veludviklet kontaktnet til såvel de andre nationalbiblioteker som til de andre institutioner, som har store bog-, dokument- eller billedsamlinger. Blandt dem, som biblioteket aktivt udveksler erfaringer med, kan nævnes nationalbibliotekerne i Frankrig, Holland, England og Østrig, som alle er i gang med omfattende digitaliseringsopgaver

2.5 Digitalisering af levende billeder

2.5.1 Indledning

Det Danske Filminstitut (DFI) er den nationale bevaringsinstitution for film. Samlingen omfatter filmmaterialer på filmbase, såsom de brandfarlige 35 mm nitratfilm, til moderne produktioner på digitale masters. Filminstituttet er kompetencecenter for bevaring og restaurering af film. Inden for de sidste 10 år er faciliteterne til opbevaring af film blevet opgraderet til tidssvarende niveau gennem konstruktion af nye arkiver med klimaforhold, der sikrer en levetid på 500 år til analoge filmmaterialer. Da driften af filmlaboratorier kræver en vis volumen, benytter Filminstituttet sig inden for filmkopiering og film til video-transfer af outsourcing til eksterne speciallaboratorier. Kopiering mellem videoformater er en aktivitet, både DFI og DR besidder faciliteter til, men større kopieringsprogrammer udliciteres typisk til eksterne leverandører.

Det er nødvendigt at kategorisere levende billeder i to undergrupper: film og video. Ligeledes er det på grund af de levende billeders fysiske omfang, i endnu højere grad end for andre materialetyper, hensigtsmæssigt at operere med forskellige formater til master-/bevaringsbrug og formidlingsbrug.

2.5.2 Film

Der anslås ikke i dag at være noget digitalt alternativ til bevaring af analoge filmbilleder. Biograffilm postproduceres ofte digitalt, men distributionen forgår endnu typisk på 35 mm analog kopi, ligesom et udskudt analogt filmmateriale fra de digitale filer anses som det eneste langtidsholdbare medie. Filminstituttet restaurerer udvalgte titler digitalt, hvor slutresultatet er et analogt 35 mm negativ samt en HD-version til digital brug. Filmmateriale i god stand kan opbevares i århundreder under forudsætning af optimale fysiske forhold (5 grader Celsius, eller mindre, samt relativ fugtighed på 35 %).

Der er ikke i skrivende stund et standardiseret digitalt filmformat. Det forventes, at 2K (1920x1080) eller 4K (4000x2000) mpeg2000-filer vil blive fremtidens biografformat. Udfordringerne ved fremtidens biograffilmformater understreges ved, at en 4K ukomprimeret digital filmmaster fylder 4TB per time. Filminstituttet digitaliserer typisk film til HDSR, HDCAM og Digital Betacam, der alle har lavere opløsning end den originale film. I denne rapport vil der for digitalisering af levende billeder blive beskrevet processer, der overfører film eller videoformater til et videomasterformat, samt digitalisering af disse videomastere til filbaserede videosystemer. Da den primære brug forventes at være til webbrug og broadcast, opereres med en forventning om at overføre film til High Definition tape (HD), 1080x1920 pixel, med en efterfølgende digitalisering til filbaserede systemer.

Scanning/digitalisering af film er en håndteringsmæssigt krævende proces. Det originale materiale skal behandles med varsomhed, da det er originalt bevaringsmateriale. Der er tale om skrøbelige originaler, der kræver kompetent fysisk håndtering, ligesom kopieringen kræver en farvekorrigering, der er specialistarbejde. Både udstyr og mandskab er kostbart. DR har in house-faciliteter og kompetence til overførsel af film i god stand til video, mens DFI benytter sig af eksterne laboratorier til både film til filmkopiering samt til digitalisering af film til video. Især for ældre materialer er det svært at effektivisere kopieringsprocesserne, der er arbejdsintensive. Da indholdet skal lyssættes i forbindelse med kopiering, påregnes i omegnen af 4 timer per times indhold til denne proces alene. Hertil kommer fysisk klargøring af materialet før kopiering og efterfølgende digitalisering og konvertering til relevante brugsformater.

2.5.3 Video

Analog video er under hastig udfasning efter ca. 40 år på markedet. Da ethvert videoformat rent fysisk har en holdbarhed på 10-20 år, er mange bånd under akut fysisk nedbrydning. Apparaturet til afspilning er desuden sjældent og svært at vedligeholde i optimal stand. Overførsel til digitale videoformater er den eneste bevaringsmulighed. Filminstituttet anser i dag Digital Betacam som det mest holdbare medie til Standard Definition (SD) video. Der er mange faldgruber i digitalisering af analog video. Ikke alene er det en teknisk kompliceret opgave, men typisk er analog video i formatet 4:3, mens moderne digital video er 16:9, hvilket kræver formatmæssige valg, der aldrig er optimale. Et alternativ er digitalisering med bibeholdelse af det originale format (4:3). Der er endnu ikke sket en modning eller de facto-standardisering af digitale videoformater på masterniveau. Eksisterende løsninger er derfor i vid udstrækning enten proprietære eller baseret på individuelle løsninger.

Filminstituttet benytter digital video som bevaringsformat for SD- og HD-video, herunder båndformaterne HDSR og Digital Betacam, der af DFI betragtes som de mindst ringe lagermedier. Digitale videobånd har en forventet levetid på ca. 15 år under gode opbevaringsforhold (8C/35%RF). Som for analog video vil en fremtidig løsning formodentlig blive migrering/konvertering til jpeg2000 eller lignende filformat. Som bevaringsformat vil ukomprimerede billeder blive foretrukket, hvilket kræver ca. 100 mbs, svarende til 60GB per time for SD samt ca. 4 gange så meget for HD.

Det er værd at bemærke, at DFI har en høj grad af fokus på de bevaringsmæssige aspekter, mens Danmarks Radio også lader produktionsmæssige forhold spille ind. DR har eksempelvis valgt et digitalt SD-format, DVCPro50, der ikke indebærer den højest mulige kvalitet. DR har ved valget af et filbaseret system optimeret produktionsgangene og forventer at fremtidig migrering af indhold vil kunne ske automatisk og uafhængigt af individuel håndtering af materiale.

Digitalisering til lettere håndterbare intermediate ”masters”, såsom AVI 6mbs, hvorfra flash-filer eller lignende kan genereres til webbrug, er ikke som sådan en kompliceret proces, men vil logistikmæssigt være vigtigt at få beskrevet, så de samarbejdende institutioner kan digitalisere video på en homogen og effektiv måde på tværs af institutionerne.

3 Tilgængeliggørelse og formidling

3.1 Indledning

Internettet er det vigtigste medie til at give brugerne adgang til den digitaliserede kulturarv. Nettes alsidighed og udbredelse giver helt nye muligheder for at forbinde brugere og kulturarv. Internettets omfang og overflod af information giver dog samtidig en række udfordringer, hvis man skal sikre, at den digitaliserede kulturarv er synlig for brugeren, og at brugeren finder frem til det relevante materiale.

Den første forudsætning, for at brugerne kan anvende den digitale kulturarv, er at den er tilgængelig via internettet. Tilgængeliggørelse kan i denne sammenhæng defineres som en eksponering af materialet på en måde, der giver slutbrugeren mulighed for at få adgang til materialet via internettet. Der er tale om en mere passiv præsentation af materialet end decideret formidling, hvor materialet præsenteres i en kontekst, der formodes at være relevant for brugeren eller for et givent emne.

Tilgængeliggørelsen kan bestå i, at brugeren gennem en søgning f.eks. via Google kan fremfinde nogle få oplysninger om materialet med et link til selve det digitaliserede billede, lydklip, video eller lignende. Formidlingen kan eksempelvis være formidling af materialet gennem en portal eller en skræddersyet præsentation til en given målgruppe.

3.2 Portaler og servicer

Sondringen mellem tilgængeliggørelse og formidling er blevet mere relevant, efterhånden som brugere i de senere år i højere grad anvender nogle få søgemaskiner til at finde information på internettet. En stor del af den tidlige webformidling bestod i opbygningen af portaler, der ofte risikerede at blive forbigået af brugerne, hvis ikke brugerne i forvejen havde kendskab til portalerne, eller hvis ikke indholdet fra portalerne dukkede op i søgemaskinerne.

Med søgemaskinerne og især Googles udbredelse blev det efterhånden set som vigtigere, at materialet var tilgængeligt og synligt for søgemaskinerne frem for gennem en portal, som brugerne måske ikke fandt frem til. Den udvikling skyldes i høj grad den øgede informationsmængde på internettet: Der var en overflod af information, som var vanskelig at formidle i et struktureret portalunivers. Portalerne mistede efterhånden deres monopol som indgange til information, og man talte om en bevægelse fra ”content is king” til ”context is king”. Man satsede i højere grad på at gøre materialet tilgængeligt i den kontekst, brugeren befandt sig i, frem for at forsøge at lokke brugeren til et bestemt sted på internettet.

Desuden havde mange portaler et bestemt formidlingsperspektiv, der ofte var meget afsenderorienteret og tog udgangspunkt i et bestemt emne eller en bestemt institution. Portalerne havde i mange tilfælde også en ret lukket struktur både i forhold til andre tilbud på nettet og i forhold til interaktionen med brugerne. Sådanne portaler er blevet beskrevet som ”walled gardens” med proprietært indhold – de tilbød brugerne en helt bestemt service inden for meget afgrænsede rammer.

En stor del af den nyere webformidling fremhæver vigtigheden af, at brugeren kan møde materialet i sin daglige adfærd på nettet, og at formidlingen inddrager brugeren i størst muligt omfang. Det betyder, at man fortsat kan arbejde med portaler, der tager afsæt i bestemte brugergrupper eller emner, men at disse portaler ofte er mere åbne i deres struktur. Man stiller således ofte indholdet til rådighed som servicer, som andre websites kan anvende til at supplere egen formidling (f.eks. via RSS). I den forbindelse har institutioner f.eks. på kulturarvsområdet ofte gennem deres kendskab til brugerne og deres specifikke behov mulighed for at sikre, at formidlingen tilrettelægges på en måde, der tilgodeser brugerens behov.

Ofte bestræber man sig på at sikre, at metadata optræder i flest mulige sammenhænge, således at brugerne har flere chancer for at møde materialet gennem sine foretrukne websites eller søgemaskiner. Denne nyere webformidling er i høj grad understøttet af en række nye teknologier som webservicer, RSS-feeds og mere lette og dynamiske webprogrammeringsværktøjer og hele det nyt paradigme omkring web 2.0.

Udviklingen betyder, at digitalt kulturarvsmateriale vil kunne anvendes på helt nye og uventede måder, når det gøres tilgængeligt på internettet. Den betyder dog også, at det er vanskeligt at udfolde en samlet formidlingsvision – f.eks. i form af én bestemt portal eller ét færdigt brugerscenarie. Det er baggrunden for, at skildringen af formidlingen består af eksempler.

Den teknologiske udvikling har dog medført, at det er langt lettere og billigere end tidligere at lave formidling via internettet, og at der er langt flere eksisterende formidlingskanaler, hvor materialet kan finde anvendelse og skabe værdi. Det er baggrunden for, at der i det følgende er forholdsvis stor vægt på tilgængeliggørelse frem for formidling.

3.3 Tilgængeliggørelse, metadata og it-systemer

Den konkrete tilgængeliggørelse af den digitaliserede kulturarv stiller både krav til it-systemerne og den måde, materialet er beskrevet på:

Den mest simple model for fælles tilgængeliggørelse består i, at de lokale systemer understøtter standardprotokoller for dataudveksling, at der anvendes standardiserede metadata, og at metadata høstes til en fælles database, som brugeren kan søge i. Det er den model, som i midtvejsrapporten blev beskrevet som simpel søgning (side 64).

I midtvejsrapporten blev modellen fravalgt til fordel for en mere omfattende model med integreret søgning. Den infrastruktur, der beskrives her, vil som minimum tilbyde samme funktionalitet som den simple model for fælles tilgængeliggørelse.

Der arbejdes i nærværende rapport med en nuancering af anbefalingerne i midtvejsrapporten. Den væsentligste forskel mellem anbefalingerne i denne rapport og midtvejsrapportens anbefalinger er vægtningen af løsningen med integreret søgning. Der er i denne rapport mindre fokus på integreret søgning, fordi en del af de materialer, som foreslås digitaliseret i hovedrapporten, med fordel kan formidles på andre måder. Integreret søgning er baseret på indeksering af digitalt indhold – på nuværende tidspunkt primært tekst. Billeder og levende billeder vil på nuværende tidspunkt ikke kunne formidles væsentligt bedre med integreret søgning, og da en stor del af det foreslåede indhold er omfattet af disse kategorier, er fokus flyttet til andre formidlingsformer.

3.4 Metadata

3.4.1 Behovet for metadata

Metadata er ”data om data” og altså i denne sammenhæng en beskrivelse af det digitaliserede materiale. En åben og struktureret beskrivelse af viden om alle objekterne i den digitaliserede kulturarv ville give optimale forudsætninger for tilgængeliggørelse. Således ville en beskrivelse af metadata ud fra ”topic maps” give gode forudsætninger for at søge på tværs af samlinger, ligesom det vil udgøre et godt grundlag for blandt andet tematiske formidlingsinitiativer.

Det er desværre særdeles omkostningskrævende at udføre manuelle beskrivelser af de mange digitale objekter. Det ville således formentlig være mere omkostningskrævende manuelt at beskrive de 700.000 luftfotos fra Det Kongelige Biblioteks Sylvest Jensen-samling, end det ville være at digitalisere dem. Omvendt kan det være meget vanskeligt og måske endda umuligt for en bruger at finde frem til et billede, hvis der ikke er tilknyttet beskrivende data. Metadata kan altså være forudsætningen for, at det digitale objekt overhovedet bliver anvendt, men samtidig være omkostningskrævende.

Hvis metadata skal udarbejdes som led i en manuel proces, bliver det meget vigtigt at afgrænse metadata til de mest nødvendige data for ikke at gøre digitaliseringen prohibitivt dyr. Der skal altså i nogle tilfælde foretages en afvejning mellem ønsket om righoldige metadata og udgifterne ved at producere dem.

I mange tilfælde kan man imidlertid tilknytte beskrivende data til de digitaliserede objekter uden at skulle gøre det manuelt. Man kan således hente metadata fra andre registre, f.eks. bibliotekernes kataloger og museers og arkivers registre. Digitaliseringen vil her udnytte de beskrivende data, der allerede findes om de fysiske genstande. Disse metadata er dog ikke oprindeligt skabt med henblik på digitalisering eller tværgående tilgængeliggørelse. Det betyder, at de ikke er ensartede på tværs af samlinger og på tværs af sektorer (f.eks. biblioteker, arkiver og museer). Generelt bør eksisterende metadata (protokoller og kartoteker mv.) digitaliseres så fyldigt som muligt med henblik på at undgå tab heraf.

3.4.2 Anvendelse af metadata

Når anvendelsen af metadata varierer på tværs af samlinger og sektorer, skyldes det naturligvis, at metadata ofte kræver økonomiske ressourcer, og at man derfor ikke anvender flere metadata end formålet tilsiger. Det oprindelige formål med beskrivelsen af kulturarvsobjekter har oftest været afgørende for valg af metadata. Afhængigt af formålet med at tildele metadata til fysiske objekter i en samling kan der således anvendes mange forskellige typer metadata, f.eks.:

Afhængigt af, hvilken type metadata der anvendes, kan man anvende forskellige standarder. Der er således eksempelvis en fælles standard for bibliografiske metadata på biblioteksområdet. Da anvendelsen af metadata er bestemt at formålet med beskrivelsen, kan man naturligvis ikke forvente, at de metadata, som kulturarvsinstitutioner anvender til at beskrive genstande i deres samlinger, er helt ens eller har indtænkt alle fremtidige benyttelser af genstandene.

Et godt eksempel er anvendelsen af digitaliseret kulturarv i undervisningssammenhænge. På undervisningsområdet anvender man en standard, SCORM (Sharable Content Object Reference Model), som er en standard for, hvilke informationer og data et læringsobjekt skal indeholde, før det kan eksporteres mellem SCORM-kompatible uddannelsessystemer. Man kan naturligvis anvende digitaliseret kulturarv til undervisningsbrug uden for disse systemer, men i nogle sammenhænge vil det være en fordel at følge standarden. I de tilfælde vil det formentlig være hensigtsmæssigt at lade de institutioner, der ønsker at udnytte objekterne, tilføre flere og andre metadata. Det vil imidlertid være hensigtsmæssigt, at kulturarvsinstitutionerne overholder fælles standarder og minimumskrav til metadata, jf. nedenfor.

Anvendelse af eksisterende metadata for fysiske objekter og manuel beskrivelse af digitale objekter er imidlertid ikke de eneste kilder til metadata. En tredje mulighed er at udnytte selve digitaliseringen i beskrivelsen. Når materialet digitaliseres, er der i nogle tilfælde mulighed for at gøre brug af automatisk dannede metadata såsom informationer trukket ud de digitaliserede filer eller af konteksten ved høstning. Det kan dels være tekniske og dels indbyggede beskrivende metadata (f.eks. i html, xml, word og pdf). En digitaliseret tekst kan således både fungere som digitalt objekt og som kilde til metadata. Søgemaskiner kan f.eks. indeksere en digital tekst og derved gøre det muligt at søge i selve teksten frem for blot i beskrivende elementer. Dette medfører dog ofte problemer med ensartethed i stil med de problemer, der knytter sig til uensartede metadata. Der arbejdes med at udvikle automatiseret indeksering og søgning i lyd og billeder, men langtfra med de søgemuligheder, der findes for tekst.

Metadata kan også hentes fra den sammenhæng, som materialet optræder i. Der kan tilføres flere oplysninger om et givent materiale ved at sammenholde det med materialer, der har beskrivende elementer tilfælles med dette materiale, men derudover mere righoldige beskrivelser på andre områder.

En fjerde mulighed for at få digitaliseret materiale beskrevet med metadata er at få brugerne til at medvirke ved beskrivelsen af materialet. Flyfotos, hvor man blot kender den geografiske lokalitet, eller portrætter, hvor man blot kender et navn, kan typisk tilføres mere righoldige beskrivelser ved at lade brugeren bidrage.

3.4.3 Standarder for metadata

Der findes en række standarder for metadata, både mere generelle og helt specifikke. I Danmark anvendes således en række nationale og institutionsspecifikke specifikationer for metadata. For at understøtte en fælles præsentation af data fra arkiver, biblioteker og museer blev der i 2007 publiceret et sæt specifikationer, som definerer et Dublin Core-baseret fælles format[12]. Udgangspunktet var nogle regionale initiativer for samarbejde om metadata, og specifikationerne er sideløbende med udviklingen anvendt af http://www.arkibas.dk. I forbindelse med EDLnet (forberedelse af http://www.europeana.eu/) har Styrelsen for Bibliotek og Medier i et notat beskrevet en enkel omsætning fra dette fælles danske ABM-format til basis-eksportformatet til Europeana[13].

Anvendelse af fælles format vil gøre det lettere at eksponere data i både nationale systemer, søgemaskiner og i Europeana. Desuden vil en standardiseret anvendelse af data fremme tværgående formidlingsinitiativer. Der bør derfor som minimum stilles krav om anvendelse af Dublin Core-baseret fælles format ved anvendelse af strukturerede metadata. Som nævnt ovenfor vil der i nogle tilfælde kunne hentes flere metadata, og det bør naturligvis udnyttes i det omfang, hvor det er muligt. I andre tilfælde vil det være hensigtsmæssigt at lade brugerne bidrage til beskrivelsen af objekterne. I de tilfælde kan det derfor være fornuftigt at fravige kravet om anvendelse af et standardiseret format. Man kunne forestille sig, at anvendelse af fælles ABM-format blev en bevillingsforudsætning, som kun fraviges, hvis institutionen kan begrunde en undtagelse.

3.5 Udveksling af metadata

Udveksling af metadata mellem digitale arkiver bør foregå over standardprotokoller og i standardformater. Den nok mest udbredte standard for udveksling af metadata er den såkaldte OAI-PMH-standard[14]. OAI-PMH 2.0 anbefales af Europeana som basis for udveksling af simple metadata mellem indholdsleverandører og Europeana[15].

Standard OAI-PMH er udviklet til at høste forholdsvis simple metadata i Dublin Core (unqualified), men standarden tillader også at udstille andre metadata i andre formater (andre såkaldte metadataPrefix). OAI-PMH kan således også bruges til udveksling af metadata i andre formater, f.eks. METS, MPEG21, MARCXML, PB-CORE. Bruges OAI-PMH til dette, kræves det naturligvis at afsender og modtager er enige om, hvilke metadataformater der udveksles

Standard unqualified Dublin Core rummer 15 felter, og disse kan beskrive de fleste data til de fleste brugsscenarier. Der er bibliografiske metadata som f.eks. ophav, medvirkende, emneord og tid samt administrative metadata som f.eks. rettigheder. Der bør skrives en anbefaling til, hvorledes flere af Dublin Core-felterne anvendes, og en standard for, hvordan eksempelvis rettigheder angives.

Google stoppede desværre i begyndelsen af 2008 support for OAI-PMH til fordel for en ny standard, XML Sitemaps[16]. Begrundelsen for at stoppe denne understøttelse var, at Google vurderede, at OAI-PMH var utilstrækkelig til Googles behov som søgemaskine. Desuden mente Google, at OAI-PHM ikke var tilstrækkelig udbredt uden for de miljøer, hvor man arbejder med repositories (digitale arkiver) til, at de kunne fortsætte understøttelsen. XML Sitemaps er en langt simplere standard, udviklet mere specifikt til at udstille indhold (udelukkende udtrykt i URL’er) over for søgemaskiner. Denne standard er således ikke egnet til udveksling af metadata mellem arkiver, men såfremt søgemaskinerne er mål for metadata, bør arkiver kunne udstille deres indhold også i XML Sitemaps.

OAI-PMH har en standardmodel til simpel udveksling af simple metadata i form af Dublin Core simple (15 kerneelementer) – eksempelvis et sæt metadata til en digital fil. Moderne repositorysystemer og arkiver bruger mere avancerede og ofte objektorienterede datamodeller til at beskrive sammenhænge mellem grupper af metadata og filer samt relationer mellem såvel grupper som enkeltobjekter. Relationer kan godt beskrives i unqualified Dublin Core vha. DC:Relations, men her er udelukkende mulighed for at angive links (URL’er) til andre objekter, og det kan således ikke angives, hvilken relation der er tale om. Men OAI-PHM kan også anvendes til udveksling af andre metadatamodeller og dermed også for avancerede datamodeller.

For at understøtte udveksling af metadata mellem digitale arkiver, der bruger avancerede da-tamodeller, har samme organisation, som stod bag OAI-PMH, de seneste år udviklet en ny standard, OAI-ORE. OAI-ORE er netop i oktober 2008 udkommet i version 1.0 og findes således nu i en stabil version.

Til indsamling af metadata til Europeana forventes fortsat anvendt OAI-PMH. I prototypen anvendes internt aktuelt et format med knap 50 elementer hentet både fra de 15 Dublin Core-kerneelementer og fra metadata fra supplerende indberetninger i faglige formater som f.eks. bibliotekernes MARC-formater. I den kommende operationelle udgave af Europeana planlægges anvendt en intern datamodel, der er udviklet over samme koncepter som OAI-ORE med brug af begreber som surrogates og aggregations. Der er aftalt et samarbejde mellem OAI-ORE og Europeana om udviklingen af standarder. Europeana skriver selv: ”This internal recursive structure of EDL surrogates is similar to the OAI-ORE [80] surrogate model and is intended to evolve in line with it.”[17]

Med OAI-ORE kan man således udstille grupper af data og metadata som samlede helheder i såkaldte Ressource Maps. Et Ressource Map har metadata om hele gruppen af objekter samt strukturerede links til delelementer og i øvrigt mulighed for links til andre grupper såvel internt i samme arkiv som eksternt. Relationer kan i OAI-ORE beskrives f.eks. med RDF – et udbredt framework til relationsbeskrivelse udviklet til semantisk web.

Da OAI-ORE således synes at kunne blive standarden for beskrivelse af komplekse data, bør standarden undersøges yderligere og udviklingen følges nøje.

Konkluderende er anbefalingen således pt. 3-strenget:

  1. Brug OAI-PMH for at være på linje med Europeana
  2. Brug XML Sitemaps, såfremt metadata skal udstilles for Google
  3. Følg med i udviklingen af OAI-ORE for at være fremtidssikret.

3.6 Fælles infrastruktur

3.6.1 Indledning

Som beskrevet i midtvejsrapporten behøver en fælles infrastruktur ikke at indebære, at der etableres ét centralt datacenter; infrastrukturen kan være fælles men distribueret på flere geografiske lokaliteter og institutioner. I det følgende skelnes der imidlertid ikke mellem en distribueret og en central infrastruktur. Dog er de økonomiske estimater udarbejdet på grundlag af en central infrastruktur, der ud fra et umiddelbart skøn vurderes at være den mest omkostningseffektive. Udvalget ser sig dog ikke i stand til på det foreliggende grundlag at komme med en anbefaling om, hvorvidt der bør etableres en central infrastrukturløsning – det må vurderes gennem en nøjere overvejelse i forhold til et specifikt digitaliseringsscenarie.

Det bemærkes, at udgifterne til infrastruktur på grund af den løbende teknologiske udvikling under alle omstændigheder er meget vanskelige at fremskrive, især over en længere årrække.

Beskrivelsen at en mulig fælles infrastruktur tager udgangspunkt i Gartner Groups anbefaling til systemarkitektur for løsningsdesign i midtvejsrapporten (side 67). Her deles systemarkitekturen i 3 niveauer:

  1. Et nederste niveau bestående af lagring og håndtering
  2. Et mellemniveau bestående af tilgængeliggørelse
  3. Et øverste niveau bestående af formidling.
3.6.2 Lagring og håndtering – bitarkiv

Statens Arkiver, Det Kongelige Bibliotek og Statsbiblioteket samarbejder allerede om løsninger, der sikrer den fysiske bevaring af de digitale materialer, de hver især har ansvaret for: Statens Arkiver har data på egne installationer og er i færd med at etablere en geografisk og mediemæssig redundans af disse data på Statsbiblioteket i Århus. Netarkivet ved Statsbiblioteket og Det Kongelige Bibliotek har replikeret sine data på geografisk adskilte installationer i hhv. København og Århus. Statsbiblioteket har sine øvrige data replikeret mellem Statsbibliotekets forskellige adresser i Århus, mens Det Kongelige Bibliotek er i færd med at replikere sine øvrige data til Statsbiblioteket efter samme model, som anvendes i Netarkivet.

De tre institutioner har igangsat et fælles initiativ, som skal undersøge rammerne for at etablere en fælles løsning, hvor data kan bevares med forskellige niveauer for administrativ, organisatorisk og fysisk sikkerhed. Initiativet vil løfte dette samarbejde op på et sikkert fagligt niveau af international standard. Det er hensigten, at strategien efterfølgende skal danne grundlag for indgåelse af et forpligtende samarbejde mellem parterne omkring etablering og drift at et nationalt bitarkiv.

Infrastrukturen og omkostningerne ved et fælles bitarkiv for den digitaliserede kulturarv kan beskrives på baggrund af erfaringerne med en lignende løsning, som er etableret hos Statsbiblioteket, og som i et vist omfang også anvendes af Det Kongelige Bibliotek og Statens Arkiver. Løsningens hovedkarakteristika er:

Som indikation for omkostningerne vælges den løsning, der anvendes i Statsbibliotekets og Det Kongelige Biblioteks fælles projekt, Netarkivet. Løsningen anvender ovennævnte udstyr og arkitektur på Statsbiblioteket og er derudover udvidet med flere af de ekstra sikkerhedskrav, der forudses at være relevante for et egentligt fælles bitarkiv. Løsningen for Netarkivet består således af 3 eksemplarer af hver fil, hvor de 2 er onlineversioner, med den ene placeret på Det Kongelige Bibliotek.

KB+SB priser, prognose for TB priser i Netarkivet        
  år 2009 år 2010 år 2011 år 2012
Pr. TB i arkiv med 2 disk- og 1 tapekopi kr. 12.945 kr. 7.389 kr. 5.121 kr. 3.619

Estimatet for størrelsen af Netarkivet er 823 Terabyte (TB) i 2012. Statsbibliotekets samlede løsning (som ud over Netarkivet består af flere andre digitale samlinger med radio/tv som en dominerende del) når op på 2.624 TB til en omkostning på kr. 1.863 pr. TB i 2012. Denne løsning er imidlertid uden institutionel redundans, og det vurderes derfor, at det er mest hensigtsmæssigt at anvende Netarkivets tal som vejledende for omkostninger ved et egentlig fællesarkiv. Det skal bemærkes, at Netarkivets tal bygger på et økonomisk worst case-scenarie, idet prognoserne for omkostningen til lagringen af TB er meget usikre.

Omkostningerne i både Det Kongelige Biblioteks og Statsbibliotekets løsning inkluderer nyanskaffelse af lager i det femte år efter den oprindelige anskaffelse og inkluderer udgifter til køling, strøm og driftspersonale. Til sammenligning anslog Gartner Group i sin simulering en udgift på 1.910 kr. pr. TB ved en central løsning[18]. Gartner Groups tal var uden bemanding og uden indregning af teknologisk fornyelse. Ved en forøgelse af kapaciteten til Gartnerrapportens ca. 5.000 TB (i 2012) vil der være yderligere stordriftsfordel, og den anførte pris pr. TB må anses for worst case-eksempel, som vil kunne gøres billigere pr. TB, hvis alle deltager i løsningen.

Både Statsbibliotekets beregninger og Gartner groups beregninger peger således på et tal på ca. 2.000 kr. pr. TB som et minimumstal ved fuld størrelse af arkivet på ca. 5.000 TB. I opbygningsfasen anbefales det dog at anvende tabellens tal som vejledende.

Tabellen for omkostningerne ved netarkivet medfører altså et estimat på ca. 3.600 kr. pr. TB ved 823 TB i 2012. Dette sammenholdes med den noget mere nødtørftige løsning på Statsbiblioteket på 1.863 kr. pr. TB ved 2.624 TB i 2012 og Gartner Groups estimat på 1.910 kr. pr. TB ved 5000 TB i 2012.

3.6.3 Lagring og håndtering – objektniveauet

Håndteringen af objekter vil i meget høj grad afhænge af disses form og kompleksitet. Håndteringen af digitaliseret film, som er meget store filer, er fundamentalt anderledes end håndteringen af eksempelvis websider, som består af mange små linkede objekter. Der er derfor forskellige systemer til beskrivelse, formidling og bevaring af disse objekter.

Det kan etableres et fælles lagersystem for de digitale objekter. Et sådant system kaldes ofte for et Digital Object Management System eller kort et DOMS. Et DOMS kan være distribueret, således at det består af et netværk af servere, der f.eks. håndterer forskellige filtyper i den samlede infrastruktur. Et DOMS er designet til at understøtte en række processer, herunder aktiviteter i forbindelse med bevaring af objekter og de nødvendige ændringer, som gennemføres på objekter. Eksempler på sådanne operationer er, at man kopierer objektet fra et disksystem til et andet, eller at man opdaterer formen, eksempelvis fra en gammel Word-version til en nyere eller fra et gammelt filmformat til et nyere.

Et DOMS kan også varetage håndtering af rettigheder, således at materiale kun udleveres i henhold til gældende aftaler. Endelig kan systemet styre, hvordan de forskellige objekter vises.

Det er vigtig at planlægge, hvordan materialer indlemmes i systemet, og specielt, hvordan man automatisk kan generere metadata som en integreret del af processen. Det har ikke nødvendigvis noget med selve systemet at gøre. I tilknytning til DOMS kan der etableres et workflowsystem, som tillader systemet at håndtere i praksis alle typer digitale objekter med tilhørende metadatastrukturer, og som understøtter digitaliseringsarbejdsgange med metadatatilføjelser.

De forskellige institutioner har forskellige tilgange til, hvordan objekter skal beskrives og håndteres. I modsætning til den ovenfor beskrevne løsning for bitarkivet er det mindre oplagt, at der kan skabes en fælles løsning på dette område.

Inden for bibliotekssektoren har de to store biblioteker valgt at prioritere forskelligt – en prioritering som i høj grad afspejler de to institutioners fokus på forskellige opgaver på nuværende tidspunkt. Der er imidlertid påbegyndt en dialog, som kan føre frem til et fælles system. De to forskellige tiltag har således fokus på forskellige relevante aspekter og kan dermed måske forenes: Statsbiblioteket fokuser på en dynamisk beskrivelse og etablering af workflowsystem som ovenfor beskrevet, og Det Kongelige Bibliotek har fokus på bevaringsaspektet.

Et DOMS kan med andre ord anvendes til at håndtere en samling bestående af digitale objekter og fungere som både lager og administrativt værktøj til at styre eksempelvis rettigheder til objekterne. Det kan endvidere fungere som grundlag for en tilgængeliggørelse over for brugerne.

3.6.4 Arkitektur for tilgængeliggørelse

Tilgængeliggørelsen af materialet kan foregå på mange måder. De oplagte er et system baseret på en søgeadgang (som Google) eller systemer, som baserer sig på geografiske interfaces. Førstnævnte system baserer sig i dag på de strukturerede og ustrukturerede ord, som findes i DOMS’er, det andet vil kræve, at materialet tilføjes metadata om lokalitet (geokodes).

Det er vigtigt, at materialet kan eksponeres så bredt som muligt, herunder Europeana (som understøtter begge tilgange), Google og andre søgemaskiner.

Gennem anvendelse af DOMS’er kan der tilbydes en snitflade mod de digitale objekter, som betyder, at disse kan synliggøres gennem andre produkter og Portaler som Google og Europeana (jf. ovenfor om udveksling af metadata).

De to store biblioteker arbejder begge på at etablere effektive søgesystemer af ”integrated search”-typen (Primo og Summa)[19].

En løsning baseret på DOMS i kombination med et sådant søgesystem vil kunne tilbyde en effektiv tilgængeliggørelse af indhold af objektsamlinger. Anvendeligheden vil selvfølgelig afhænge af kvalitet og mængde af metadata. Statsbiblioteket har allerede etableret en Summa-løsning, som fungerer i sammenhæng med DOMS. Omkostningerne til tilføjelse af yderligere digitale samlinger til denne infrastruktur afhænger af omfang og struktur af de metadata, der forefindes for de enkelte samlinger.

Et særligt aspekt i tilgængeliggørelse er adgangsstyringen. Der kan være materiale, hvor adgangen og benyttelsen er begrænset til en nærmere defineret kreds af brugere. For dette materiale findes der i princippet to forskellige løsninger, som begge vil skulle understøttes.

Den ene er, at rettighedshaverne til materialet indgår som aktiv part i tilgængeliggørelsen og etablerer separat adgangsstyring og afregningssystem. Eksempler på dette er Statsbibliotekets aftale med musikindustrien i Netmusik.dk og en lignende aftale om tilgængeliggørelse af aviser med en privat udbyder. I disse tilfælde er der ingen statslige ekstraudgifter til tilgængeliggørelse. Rettighedshaveren vil skulle dække procesudgifterne i tilfælde af, at rettighedshaveren ønsker at trække materiale fra arkivet. Brugeren vil skulle betale for servicen.

Det andet eksempel er brug af aftalelicenser eller lignende til at sikre, at kun bestemte brugere har adgang til materialet. Eller tilfælde hvor lovningen tilsiger at bestemte brugergrupper har adgang til materialet (som f.eks. medieforskere til radio/tv-arkivet).

I sidstnævnte tilfælde vil det være naturligt at etablere et adgangsstyringssystem som del af infrastrukturen. Et godt bud på et sådant, der dækker store dele af den relevante brugergruppe, er repræsenteret i WAYF-samarbejdet mellem 3 ministerier. Statsbiblioteket har senest anvendt denne løsning til at tilgængeliggøre 30.000 digitaliserede reklamefilm for forskning og uddannelse i Danmark. Ud over selve WAYF-strukturen krævedes i dette tilfælde, at der i forbindelse med hvert udtræk bliver indlagt vandmærke i objektet med brugerens identitet til beskyttelse af misbrug.

I forbindelse med digitaliseringen vil det for noget materiale være relevant at undersøge perspektiverne i at anvende licenstyper som Creative Commons. Denne licenstype kan f.eks. oplyse om, at det digitaliserede materiale gøres tilgængeligt på ikke-kommercielle vilkår, og at det kan anvendes på bestemte betingelser. Sådanne standardiserede beskrivelser af vilkårene for benyttelse af materialer kan omsættes til maskinlæsbare licenser og dermed være særlig relevante i en distribueret infrastruktur. Hvis et digitaliseret objekt eksempelvis optræder i en helt ny formidlingssammenhæng, kan det være hensigtsmæssigt, at vilkårene for benyttelse er beskrevet i metadata.

3.6.5 Formidling

Det øverste niveau i midtvejsrapportens systemarkitektur er formidling. Som tidligere nævnt betragtes mere målrettede formidlingsløsninger, som eksempelvis DR’s Bonanza og Kulturarvsportalen, ikke som en del af infrastrukturen og beskrives derfor ikke næmere.

Dog vil en minimal formidling, herunder eksponering mod Google og Europeana, kunne ske direkte oven på infrastrukturen, såfremt der etableres en adgangsstyring og on the fly-levering af digitale objekter fra arkivet. I forbindelse med etablering af prototypen af Europeana er der indsamlet metadata fra et begrænset antal bidragydere i Europa med en stor manuel indsats, stort set uden nyere automatiske værktøjer som OAI-PMH. I den planlagte operationelle version af Europeana forventes det, at hvert land etablerer en national aggregator, som står for at samle og klargøre metadata til Europeana. Det er oplagt at løse opgaven som national dansk aggregator til Europeana i sammenhæng med tilgængeliggørelse af dansk digitaliseret materiale.

I det omfang materialet eksponeres på internettet og formidles mere aktivt, er der behov for, at infrastrukturen kan betjene mange samtidige brugere med eksemplarer af det efterspurgte materiale.

Det anslås, at en pulje på tre hurtige servere tilknyttet et centralt bitbevaringsarkiv vil kunne betjene i størrelsesordenen af 100 samtidige brugere. I en sådan løsning vil de digitale objekter blive tilgængeliggjort via on the fly-konvertering til formidlingsversion, således at denne kun optager midlertidig ekstra lagerplads.

Der vil være behov for specialiserede servere for nogle samlingstyper som video og radio. Omkostningerne vil afhænge af den endelige arkitektur, målgruppens størrelse og omfanget af benyttelsen. En løsning kunne være at anvende en løsning, der ligner den løsning, som DR er ved at udarbejde for at betjene sine brugere på nettet.

DR er ved at opgradere det eksisterende streaming setup og analysere flere forskellige løsninger. Løsningen skal kunne håndtere mange samtidig brugere. En af løsningerne er en meget kraftig server, der kan håndtere ca. 10.000 samtidige brugere. Denne kan indeholde 5 TB materiale. Disse vil udgøre de mest sete og/eller senest anvendte filer. Efterspørger en bruger en anden fil end dem, der ligger på onlineserveren, hentes den fra et internt lager eller transkodes on the fly som i bitarkivsløsningen fra et ”billige” bagvedliggende diskarkiv. Filer der ikke er efterspurgte, fjernes automatisk fra onlineserveren.

Serveren koster ca. 2 mio. kr., og det antages, at DR skal etablere en redundantløsning for at sikre fuld adgang til institutionens onlinesatsninger som dr.dk/tv, Bonanza, netradiokanaler osv. Den samlede omkostning vil være på 4 mio. kr. uden reinvesteringer og driftsomkostninger. Løsningen vurderes at kunne kobles med bitarkivet arkitektur, uden at de nærmere detaljer har været analyseret konkret. En sådan investering vil efter statslige regler skulle afskrives over en periode, typisk lineært afskrevet. Hvis investeringen betragtes som en ordinær hardwareinvestering, er afskrivningsperioden tre år med en årlig udgift på ca. 1,3 mio. kr. Såfremt investeringen betragtes som led i et udviklingsprojekt, er der større råderum for at fastlægge afskrivningsperioden, men den kunne f.eks. være fem år. Det ville give en årlig udgift på 800.000 kr. Det er næppe sandsynligt, at de samlinger, der udvælges til digitalisering i hovedrapporten, vil give samme behov for serverkapacitet som hos DR. På den baggrund burde en årlig udgift på ca. 800.000 kr. være tilstrækkeligt til at sikre tilgængeliggørelse af video og radio.

I praksis vil der skulle allokeres mandskab til support og drift til arkivet ved direkte anvendelse af arkivet til tilgængeliggørelse. Det indebærer, at omkostningerne til tilgængeliggørelse omfatte ca. 1 årsværk samt de nævnte servere, der vil andrage en årlig udgift på 750.000 kr. I praksis vil det også være nødvendigt at gennemføre visse udviklingsopgaver (som f.eks. den nævnte vandmærkning i reklamefilmseksemplet). Omkostninger til udvikling er dog ligesom servere til specialiseret tilgængeliggørelse udeladt af estimatet. Omkostningerne til en adgangsstyringsinfrastruktur kan estimeres som Kulturministeriets nuværende bidrag til WAYF, som anslås til 25 % af WAYF-årsbudgettet på 3 mio. kr., dvs. 750.000 kr. pr. år.

3.6.6 Estimat for minimale udgifter til infrastruktur

Beskrivelsen af den fælles infrastruktur anvendes til at fremhæve, at der allerede findes systemer og kompetencer, som kan bidrage til en fælles infrastruktur for digitaliseret kulturarv. Desuden kan beskrivelsen anvendes til at estimere omkostningerne ved en fælles infrastruktur. Estimaterne for den fælles infrastruktur er samlet i nedenstående tabel.

Årlige omkostninger til elementer i infrastrukturen år 2009 år 2010 år 2011 år 2012
Pr. TB i arkiv med 2 disk- og 1 tapekopi kr. 12.945 kr. 7.389 kr. 5.121 kr. 3.619
Samlet udgift til adgangsstyring kr. 750.000 kr. 750.000 kr. 750.000 kr. 750.000
Samlet udgift til medieservere kr. 800.000 kr. 800.000 kr. 800.000 kr. 800.000
Samlet udgift til tilgængeliggørelse kr. 750.000 kr. 750.000 kr. 750.000 kr. 750.000

Som det fremgår af tabellen, arbejdes der med en omkostning pr. TB som i Netarkivet. Enhedsomkostningerne falder kraftigt med tiden især pga. stordriftsfordele. De årlige omkostninger vil imidlertid være relativt konstante, fordi mindre mængder i de første år skal håndteres til højere enhedspriser end de større mængder, der senere skal håndteres af infrastrukturen, efterhånden som digitaliseringen skrider frem.

Estimaterne indebærer, at hvis der i 2012 er 2.500 TB i arkivet, vil de årlige driftsudgifter til infrastrukturen således være: 2500 TB á 3.619 kr. pr. TB + 800.000 kr. + (2 x 750.000 kr.) = 11.347.500 kr. Det bemærkes, at der er tale om årlige omkostninger.

Estimatet for de årlige omkostninger til fælles infrastruktur kan specificeres og kvalificeres yderligere, når mere præcise lagerstørrelser for de prioriterede digitaliseringsprojekter foreligger. Derudover er der en række variabler, hvis værdi vil kunne fastlægges nøjere i budgetteringssituationen. Der kan således være behov for en nærmere analyse af lønomkostningerne ved tilgængeliggørelse samt løbende udviklingsomkostninger. Omvendt kan adgangsstyring og dedikerede medieservere vise sig at være mindre relevant eller kunne dækkes af eksisterende løsninger på institutionerne. Desuden kan priser pr. TB blive lavere som konsekvens af den tekniske udvikling. Endelig kan der være dele af infrastrukturen, der kan dækkes af eksisterende bevillinger.

Der er således faktorer, der tilsiger, at estimatet kunne være højere, og andre faktorer, der måske kunne tale for at nedjustere. Der er på baggrund af beskrivelserne af scenarierne for digitalisering enighed i arbejdsgruppen om at tage udgangspunkt i en lagerstørrelse på 2500 TB, svarende ca. til scenarie 2. Et fuldt udfoldet scenarie 2 vil således indebære udgifter på ca. 10 mio. kr. årligt, mens et fuldt udfoldet scenarie 3 vil indebære noget højere årlige udgifter.

4 Sammenfatning

En vigtig målsætning for gruppens arbejde har været at beskrive en infrastruktur, der kan understøtte tværgående formidling af kulturarven. Infrastrukturen omfatter ikke en portal som indgang til kulturarven. Den foreslåede infrastruktur vil omfatte en søgeadgang til det samlede digitaliserede materiale og andre interfaces til andre dele af materialerne (f.eks. et Danmarkskort til at fremfinde relevant materiale). Den vil ligeledes understøtte mange andre formidlingsinitiativer, som dog ikke udgør en del af den grundlæggende infrastruktur.

Infrastrukturen vil understøtte præsentation af metadata i mange formidlingssammenhænge. Det kan finde sted ved at metadata høstes, at de stilles til rådighed gennem webservicer eller gennem direkte søgning i metadata. I de tilfælde, hvor metadata beskriver et digitalt objekt, vil der være et stabilt link til selve objektet. Det giver mulighed for at præsentere den digitaliserede kulturarv i eksisterende formidlingssammenhænge f.eks. inden for uddannelsessektoren

Som beskrevet i kapitel 2 er digitaliseringsprocesserne for de forskellige materialetyper temmelig komplicerede. Der findes imidlertid allerede kompetencer og samarbejdsstrukturer, der kan håndtere udfordringerne for de forskellige materialetyper. Nogle af de større institutioner fungerer allerede som kompetencecentre, men der kan være grund til at formalisere og udbygge denne rolle med nogle af de funktioner, der er beskrevet i afsnit 2.2. Der vil under alle omstændigheder være behov for et tættere samarbejde mellem institutionerne både for at koordinere formidlingen af den digitaliserede kulturarv og anvendelsen af de standarder, som er forudsætningen for en tværgående formidling.

Som beskrevet i afsnittet om metadata kan disse fremskaffes fra flere kilder:

Udgangspunktet vil i alle tilfælde være anvendelse af eksisterende strukturerede metadata fra eksisterende registre og et krav om at anvende det fælles ABM-format eventuelt som en comply or explain-strategi. Derudover bør man naturligvis udnytte andre kilder til metadata under skyldig hensyntagen til omkostningerne. En række af de ønsker, der måtte være til metadata som led i en bestemt anvendelse af formidling, må opfyldes af de institutioner, der ønsker at anvende den digitaliserede kulturarv.

Afhængigt af, hvordan infrastrukturen opbygges, vil der blive stillet krav til de lokale systemer. Som beskrevet i afsnit 3.5 bør disse systemer kunne anvendes OAI-PMH for at følge Europeana og XML Sitemaps, såfremt metadata skal udstilles for Google. Desuden må institutionen følge udviklingen af OAI-ORE.

Som det er fremgået, er der grundlag for at overveje en fælles infrastruktur særligt i relation til bitbevaring. Det er derimod muligt, at infrastrukturen skal være fælles, men distribueret på objektniveauet. Som det fremgår, kan der imidlertid etableres en infrastruktur for tilgængeliggørelse i umiddelbar tilknytning til bitarkivet. Såfremt der etableres en mere omfattende indsats for digitalisering af kulturarven, bør disse forhold analyseres og drøftes nærmere, idet der ikke kun er tale om tekniske overvejelser.

På baggrund af en analyse af udgifterne til en minimal infrastruktur baseret på et fælles lager estimeres de samlede udgifter til 10,5 mio. kr. baseret på en lagerstørrelse på 2500 TB. Som beskrevet ovenfor kan yderligere information for en række nøglevariabler både øge og sænke estimatet. Det er arbejdsgruppens opfattelse, at man med en årlig investering på 10,5 mio. kr. vil kunne etablere en infrastruktur, der både kan bevare og lagre den digitaliserede kulturarv og understøtte tværgående formidling på en sådan måde, at materialet bliver tilgængeligt via institutionerne, i en fælles arkiv med DC-metadata, et geografisk interface og i Europeana og søgemaskiner som Google.


[9] Medlemmerne af den tekniske undergruppe var: it-chef Arne Sørensen (Statsbiblioteket), vicedirektør Birte Christensen-Dalsgaard (Det Kongelige Bibliotek), projektchef Tobias Golodnoff (DR Medier, Kulturarvsprojektet), museumsinspektør Thomas C. Christensen (Museum & Cinematek, Det Danske Filminstitut), fuldmægtig Jakob Broberg Lind (Kulturministeriet) og kontorchef Jakob Heide Petersen (Styrelsen for Bibliotek og Medier). Rapporten er udarbejdet af gruppens medlemmer med bidrag fra institutionernes medarbejdere.

[10] Udredning om bevaring af Kulturarven, Kulturministeriet 2003, side 207, se: http://www.kb.dk/export/sites/kb_dk/da/kb/nb/bev/bevaring_af_kulturarven.pdf

[11] Eksemplet er hentet fra: http://mandate.cdlr.strath.ac.uk/metadata.htm

[12] Det mest anvendte format for metadata kaldes Dublin Core og omfatter som udgangspunkt 15 elementer som f.eks. titel, forfatter/ophav, emne/nøgleord, beskrivelse, udgiver og anden bidragyder. Betegnelsen Dublin Core skyldes, at formatet blev udarbejdet i byen Dublin, Ohio, og core referer til, at der er tale om en kerne af beskrivende metadata, der kan udvides.

[13] Danske standarder
Specifikationer for fælles præsentation af data fra arkiver, biblioteker og museer på internettet ved ABM standard-arbejdsgruppen nedsat af Statens Arkiver, Biblioteksstyrelsen og Kulturarvsstyrelsen: http://www.bs.dk/standards/abm/ (omtales ofte som ABM standarden)
ARKIBAS 4: http://www.danskearkiver.dk/Arkibas/Oma4.htm
DAISY. Dansk Arkivalieinformationssystem: http://daisy.sa.dk/
danMARC2. Edb-format til inddatering og udveksling af bibliografiske data i maskinlæsbar form: http://www.kat-format.dk/danMARC2/
Regin: Baggrunden for Dansk Museums Dokumentations Standard: http://www.kulturarv.dk/forvaltning/museumsdrift/vejledninger/registrering/standard/baggrund.jsp

Internationale standarder
Relevante internationale standarder:
EAD – Encoded Archival Description: http://www.loc.gov/ead/
EBU Core Metadata Set: http://www.ebu.ch/metadata/documentation/EBUCore/tec_doc_t3293_2008_FinalDraft.pdf (radio- og tv-arkiver)
DCMI Metadata Terms: http://dublincore.org/documents/dcmi-terms/ (Dublin Core 1.1. supplereret med erfinements mv.)
ISO 15836:2003 Information and documentation - The Dublin Core metadata element set. Se også: DCES, version 1.1: http://dublincore.org/documents/dces/
ISO 21127:2006 Information and documentation – A reference ontology for the interchange of cultural heritage information. Se også: CIDOC CRM – Conceptual Reference Model: http://cidoc.ics.forth.gr/
MARC21: http://www.loc.gov/marc/marc.html
PREMIS Preservation Metadata: http://www.loc.gov/standards/premis/
UNIMARC: http://www.unimarc.net/unimarc-formats.html
VRA Core: http://www.vraweb.org/projects/vracore4/index.html (visuelt materiale)

[14] OAI-PMH – Open Archives Initiative Protocol for Metadata Harvesting: http://www.openarchives.org/OAI/openarchivesprotocol.html

[15] http://www.europeana.eu

[16] http://www.sitemaps.org/protocol.php

[17] EDLnet - D2.2 - Initial Semantic and Technical Interoperability Requirements

[18] Gartner Group: Finansielle analyser i forbindelse med digitalisering af kulturarven, 10. maj 2007, side 28. Rapportens specifikke angivelse er 5,6 petabyte til 1,91 kr. pr. gigabyte pr. år

[19] Se Midtvejsrapporten side 67-72.

     
Kulturministeriet Tlf. : 33 92 33 70 kum@kum.dk
Nybrogade 2 – 1203 KÝbenhavn K Fax : 33 91 33 88 http://www.kum.dk/

Denne side er kapitel 7 af 7 til publikationen "DIGITALISERING AF KULTURARVEN".
Version nr. 1.0 af 07-05-2009

 

© Kulturministeriet 2009.
Teksten må med kildeangivelse frit anvendes.