Title:
1- Kooperative Langzeitarchivierung
- für Wissenschaftsstandorte
- http//kolawiss.uni-goettingen.de
AP2 Erfassen Kategorisieren von Datenbeständen
Expertenworkshop 09.12.2008 Göttingen
Sven Vlaeminck Niedersächsische Staats- und
Universitätsbibliothek (SUB) Göttingen
Historisches Gebäude, Papendiek 14, 37073
Göttingen Fon 0551 39-4773 Mail to
vlaeminck_at_sub.uni-goettingen.de
2AP2 Ziele Methodik
- Ziele
- Ermittlung von Eigenschaften der Datenbestände
- Ermittlung von Kriterien zur Kategorisierung
- Einbeziehen heterogener Datenbestände
- Methode
- Evaluierung des Ist-Standes durch Nachnutzung des
nestor-Online-Surveys 2007 (Bedarfsabklärung zur
Langzeitarchivierung digitaler Daten an der
Universität Göttingen) - Literaturstudium
3 Ist-Stand Erfassung
Kooperative Langzeitarchivierung für
Wissenschaftsstandorte http//kolawiss.uni-goett
ingen.de
- Ergebnisse der
- Bedarfsabklärung zur Langzeitarchivierung
digitaler Daten an der Universität Göttingen - des nestor Netzwerks
- www.langzeitarchivierung.de
4Gibt es Daten, die über den aktuellen Gebrauch
hinweg erhalten bleiben sollen?
5Interesse an Planung von Maßnahmen zur
digitalen Langzeitarchivierung
6Die Verwendung von Metadaten
7Metadatenstandards
8Genutzte Formate
- Insgesamt wurden 96 (!) unterschiedliche Formate
genannt. - Schwerpunkte Adobe PDF, Formate der MS-Office
Familie, JPG, TIFF, Plain Text.
9Genutzte Formate II
10Datenmengen nach Fakultät
11Ergebnisse
- Großes Interesse großer Bedarf
- Kaum konkrete Planungen
- Starke Divergenz bei Datenumfang
- Formate stark heterogen, häufig proprietär
- Geringe Metadatenimplementierung
- Kaum standardisierte Metadatenschemata
- Komplexe Ausgangslage für dLZA von
Forschungsdaten
12- Kooperative Langzeitarchivierung
- für Wissenschaftsstandorte
- http//kolawiss.uni-goettingen.de
Kategorisierungsansätze
13Wie lassen sich Forschungsdaten kategorisieren?
- Viele Ebenen der Kategorisierung denkbar
- Nach ihrer (fachwissenschaftlichen) Herkunft
- Nach MIME-Type o.ä.
- Nach ihrem Inhalt / Content
- Nach der Datengröße (z.B. in GB)
- Vorschlag
- Kategorisierung anhand von Kriterien, die
Auswirkungen (z.B. auf Kosten oder Policy) haben - Daher Kategorisierung anhand von
Vorhaltezeiträumen Formateignung für dLZA - Vorteile Ausreichend generisch, quantifizierbar
14Dimension I Kategorisierung nach
Vorhaltzeiträumen
- Kategorisierung nach geplanter Archivierungszeit
- Vier sinnvolle Vorhaltezeiträume
- bis zu 5 Jahren
- bis zu 10 Jahren
- bis zu 30 Jahren
- mehr als 30 Jahre
- gt Überführung in Service Level
15Dimension II Format-Eignung
- Ermittlung Bewertung der Format-Eignung für
dLZA anhand von sieben Kriterien - Offenheit Lizenzfreiheit
- Verbreitungsgrad
- Selbstdokumentation
- Robustheit
- Komplexität
- Schutzmechanismen
- Abhängigkeiten
- Diese Kriterien verfügen über unterschiedlich
viele Ausprägungen - z.B. Kriterium (geringe) Abhängigkeiten
- Ausprägung I Unabhängigkeit von bestimmter
Hardware - Ausprägung II Unabhängigkeit von bestimmten OS
- Ausprägung III Unabhängigkeit von bestimmter
Software - Ausprägung VI Unabhängigkeit von externen
Ressourcen
16Beispiele
17Bewertung der Format-Eignung
- Bestimmen der Format-Eignung durch
- Gewichtung der Relevanz verschiedener
Kriterien-Ausprägungen (abhängig von Policy,
z.B. zwischen 1 9) - Vergabe von Punktwerten für bestimmte Formate (
z.B. Bedingung sehr gut erfüllt 2 Punkte,
Kriterium mittelmäßig erfüllt 1 Punkt,
Kriterium nicht erfüllt 0 Punkte) - Multiplikation der Punktwerte für Gewicht der
Kriterien-Ausprägung und dem vergebenen Wert - Division durch die Anzahl der Ausprägungen eines
Formats. - Der Punkt-Gesamtwert bestimmt die Eignung des
Formats je höher er ausfällt, desto geeigneter
ist ein Format - Nach Rog, Judith / van Wijk, Caroline
Evaluating File Formats for Long-term
Preservation. National Library of the
Netherlands, Den Haag, 2008
18Die Kategorisierungsmatrix (I)
19Die Kategorisierungsmatrix (II)
20Die Kategorisierungsmatrix (III)
21Die Kategorisierungsmatrix (IV)
- Kategorisierungsdimension Vorhaltezeitraum noch
nicht implementiert - Bei einer Formatbewertung für alle
Vorhaltezeitraum ergibt sich folgende Grafik
(-gt fiktive Werte!)
22Diagramm zur Format-Eignung
23Vielen Dank für Ihre Aufmerksamkeit!
Kooperative Langzeitarchivierung für
Wissenschaftsstandorte http//kolawiss.uni-goett
ingen.de
- Nun ist Raum für Anmerkungen und zur Diskussion
-
24 Leitfragen zur Diskussion
- Ist diese Form der Kategorisierung zielführend?
- Ist das vorgeschlagene Konzept ausreichend
generisch UND ausreichend konkret? - Werden weitere Kriterien und Ausprägungen
gesehen, die Eingang in eine Bewertung erhalten
sollten? - Sehen Sie andere sinnvolle Ebenen für eine
Kategorisierung von Forschungsdaten? - Fehlen Ihnen grundlegende Punkte, die Ihrer
Meinung nach unbedingt Eingang in eine
Kategorisierung finden müssten?