- PowerPoint PPT Presentation

1 / 24
About This Presentation
Title:

Description:

Title: PowerPoint-Pr sentation Author: Masen Husaini Last modified by: metje Created Date: 2/5/2004 11:57:22 AM Document presentation format: Bildschirmpr sentation – PowerPoint PPT presentation

Number of Views:20
Avg rating:3.0/5.0
Slides: 25
Provided by: MasenH
Category:
Tags: mime

less

Transcript and Presenter's Notes

Title:


1
  • Kooperative Langzeitarchivierung
  • für Wissenschaftsstandorte
  • http//kolawiss.uni-goettingen.de

AP2 Erfassen Kategorisieren von Datenbeständen
Expertenworkshop 09.12.2008 Göttingen
Sven Vlaeminck Niedersächsische Staats- und
Universitätsbibliothek (SUB) Göttingen
Historisches Gebäude, Papendiek 14, 37073
Göttingen Fon 0551 39-4773 Mail to
vlaeminck_at_sub.uni-goettingen.de
2
AP2 Ziele Methodik
  • Ziele
  • Ermittlung von Eigenschaften der Datenbestände
  • Ermittlung von Kriterien zur Kategorisierung
  • Einbeziehen heterogener Datenbestände
  • Methode
  • Evaluierung des Ist-Standes durch Nachnutzung des
    nestor-Online-Surveys 2007 (Bedarfsabklärung zur
    Langzeitarchivierung digitaler Daten an der
    Universität Göttingen)
  • Literaturstudium

3
Ist-Stand Erfassung
Kooperative Langzeitarchivierung für
Wissenschaftsstandorte http//kolawiss.uni-goett
ingen.de
  • Ergebnisse der
  • Bedarfsabklärung zur Langzeitarchivierung
    digitaler Daten an der Universität Göttingen
  • des nestor Netzwerks
  • www.langzeitarchivierung.de

4
Gibt es Daten, die über den aktuellen Gebrauch
hinweg erhalten bleiben sollen?
5
Interesse an Planung von Maßnahmen zur
digitalen Langzeitarchivierung
6
Die Verwendung von Metadaten
7
Metadatenstandards
8
Genutzte Formate
  • Insgesamt wurden 96 (!) unterschiedliche Formate
    genannt.
  • Schwerpunkte Adobe PDF, Formate der MS-Office
    Familie, JPG, TIFF, Plain Text.

9
Genutzte Formate II
10
Datenmengen nach Fakultät
11
Ergebnisse
  • Großes Interesse großer Bedarf
  • Kaum konkrete Planungen
  • Starke Divergenz bei Datenumfang
  • Formate stark heterogen, häufig proprietär
  • Geringe Metadatenimplementierung
  • Kaum standardisierte Metadatenschemata
  • Komplexe Ausgangslage für dLZA von
    Forschungsdaten

12
  • Kooperative Langzeitarchivierung
  • für Wissenschaftsstandorte
  • http//kolawiss.uni-goettingen.de

Kategorisierungsansätze
13
Wie lassen sich Forschungsdaten kategorisieren?
  • Viele Ebenen der Kategorisierung denkbar
  • Nach ihrer (fachwissenschaftlichen) Herkunft
  • Nach MIME-Type o.ä.
  • Nach ihrem Inhalt / Content
  • Nach der Datengröße (z.B. in GB)
  • Vorschlag
  • Kategorisierung anhand von Kriterien, die
    Auswirkungen (z.B. auf Kosten oder Policy) haben
  • Daher Kategorisierung anhand von
    Vorhaltezeiträumen Formateignung für dLZA
  • Vorteile Ausreichend generisch, quantifizierbar

14
Dimension I Kategorisierung nach
Vorhaltzeiträumen
  • Kategorisierung nach geplanter Archivierungszeit
  • Vier sinnvolle Vorhaltezeiträume
  • bis zu 5 Jahren
  • bis zu 10 Jahren
  • bis zu 30 Jahren
  • mehr als 30 Jahre
  • gt Überführung in Service Level

15
Dimension II Format-Eignung
  • Ermittlung Bewertung der Format-Eignung für
    dLZA anhand von sieben Kriterien
  • Offenheit Lizenzfreiheit
  • Verbreitungsgrad
  • Selbstdokumentation
  • Robustheit
  • Komplexität
  • Schutzmechanismen
  • Abhängigkeiten
  • Diese Kriterien verfügen über unterschiedlich
    viele Ausprägungen
  • z.B. Kriterium (geringe) Abhängigkeiten
  • Ausprägung I Unabhängigkeit von bestimmter
    Hardware
  • Ausprägung II Unabhängigkeit von bestimmten OS
  • Ausprägung III Unabhängigkeit von bestimmter
    Software
  • Ausprägung VI Unabhängigkeit von externen
    Ressourcen

16
Beispiele
17
Bewertung der Format-Eignung
  • Bestimmen der Format-Eignung durch
  • Gewichtung der Relevanz verschiedener
    Kriterien-Ausprägungen (abhängig von Policy,
    z.B. zwischen 1 9)
  • Vergabe von Punktwerten für bestimmte Formate (
    z.B. Bedingung sehr gut erfüllt 2 Punkte,
    Kriterium mittelmäßig erfüllt 1 Punkt,
    Kriterium nicht erfüllt 0 Punkte)
  • Multiplikation der Punktwerte für Gewicht der
    Kriterien-Ausprägung und dem vergebenen Wert
  • Division durch die Anzahl der Ausprägungen eines
    Formats.
  • Der Punkt-Gesamtwert bestimmt die Eignung des
    Formats je höher er ausfällt, desto geeigneter
    ist ein Format
  • Nach Rog, Judith / van Wijk, Caroline
    Evaluating File Formats for Long-term
    Preservation. National Library of the
    Netherlands, Den Haag, 2008

18
Die Kategorisierungsmatrix (I)
19
Die Kategorisierungsmatrix (II)
20
Die Kategorisierungsmatrix (III)
21
Die Kategorisierungsmatrix (IV)
  • Kategorisierungsdimension Vorhaltezeitraum noch
    nicht implementiert
  • Bei einer Formatbewertung für alle
    Vorhaltezeitraum ergibt sich folgende Grafik
    (-gt fiktive Werte!)

22
Diagramm zur Format-Eignung
23
Vielen Dank für Ihre Aufmerksamkeit!
Kooperative Langzeitarchivierung für
Wissenschaftsstandorte http//kolawiss.uni-goett
ingen.de
  • Nun ist Raum für Anmerkungen und zur Diskussion

24
Leitfragen zur Diskussion
  • Ist diese Form der Kategorisierung zielführend?
  • Ist das vorgeschlagene Konzept ausreichend
    generisch UND ausreichend konkret?
  • Werden weitere Kriterien und Ausprägungen
    gesehen, die Eingang in eine Bewertung erhalten
    sollten?
  • Sehen Sie andere sinnvolle Ebenen für eine
    Kategorisierung von Forschungsdaten?
  • Fehlen Ihnen grundlegende Punkte, die Ihrer
    Meinung nach unbedingt Eingang in eine
    Kategorisierung finden müssten?
Write a Comment
User Comments (0)
About PowerShow.com