Dokumentation MWW-Metadata-Model

Die Dokumentation beschreibt die Umsetzung des MMW-Informationsmodells zu interoperablen Metadaten in ein konkretes Metadatenformat. Des Weiteren wird auch die Komptabilität des MWW Metadata Model (MMM) gegenüber anderen standardisierten Metadatenformaten beschrieben.

Bezeichnung

Das Metadatenformat des Forschungsverbundes MMW wird „MWW Metadata Model“ (MMM) bezeichnet. Das Model ist inspiriert von Dublin Core und die DCMI Metadata Terms, spezifiziert aber deren allgemeine Verwendungen auf die Bestände des Forschungsverbundes, daher werden viele Klassen/Eigenschaften des Models leicht verständlich und zugänglich sein. Des Weiteren wird das Set um eigene Eigenschaften/Klassen ergänzt, um die Besonderheiten der Bestände, die sich auch auf deren Abbildung auf dem kleinsten gemeinsamen Nenner ergeben, abbilden zu können.

Ziele

Das Metadatenmodell vereinigt die digitalen Daten der Verbundeinrichtungen in einem homogenen Format. Es schafft dadurch ein interoperables Datenset, welches sich auch für die Integration von Daten anderer Einrichtungen eignet. Erkauft werden dieses Vorteile durch einen Informationsverlust im Verhältnis von modellierten Daten und den Daten, die der Dateninhaber liefert. Da jedoch von dem MWW-Metadaten immer auf die Originaldaten verlinkt wird, kann der Nutzer jeder Zeit auf die komplexen Daten zugreifen.

Format

Das Format der Metadaten im VFR ist eine XML Struktur. Ein Ausbau zu einer RDF-Struktur ist angedacht. Die aktuell aufgesetzte Metadatenstruktur bietet dafür einen idealen Übergang.

Sprachcode

Sofern ausreichend sollte der Standard ISO 6391-1 verwendet werden. Dabei handelt es sich um einen zwei-Letter-Code. Für eine genauere Angabe kann zusätzlich ISO 6391-2 angewendet werden.

Identifikation

Jedes Objekt wird über eine ID eindeutig innerhalb des MWW-Forschungsraums identifizierbar sein, mit möglicher hoher, sinnvoller Granularität. Darüber hinaus sollen die Metadaten immer zu ihrer Ursprungsressource zugeordnet werden können. Die Zuordnung erfolgt über eine Verlinkung. Je nach vorhandener Identifizierungsgranularität soll entweder auf die Sammlung, sei es eine Datenbank oder ein zentrales Nachweissystem, verlinkt werden, aus dem der Datensatz stammt. Noch besser wäre eine persistente Adressierung auf den konkreten Datensatz beim Datenlieferanten. Sollten beide Varianten nicht möglich sein, wird durch den Forschungsverbund MWW angestrebt, dass zumindest ein Persistenter Identifier (z. B. DOI, HANDLE, urn ) auf Sammlungsebene eingerichtet wird.
Beispiel für die Identifikation auf Sammlungsebene wäre z. B. die digitale Edition von „Controversia et Confessio“ (http://diglib.hab.de/edoc/ed000211/start.htm). Zwar kann die Edition selbst persitent adressiert werden nicht aber die in der Edition vorkommenden einzelnen Texte.
Granularer ist dagegen die Identifizierung von Digitalisaten, die seitengenau persistent adressiert werden können, z. B.: http://diglib.hab.de/drucke/bc-kapsel-7-23s/start.htm?image=00003

Bildung interner Identifikationen

Die internen Identifikatoren im Forschungsraum werden vorläufig nach folgendem Muster gebildet:
1) Präfix des Datenlieferanten (z. B. HAB, DLA, KSW)
2) Sammelungskürzel
3) In den Datensätze mitgelieferter Identifier
Beispiel für die Fruchtbringende Gesellschaft: "hab_fg_0001"

Normdaten und kontrollierte Vokabulare

Eine weitestgehende Übernahme aller in den Datensätzen vorhandenen Normdaten in die Metadaten wird angestrebt. Mittelfristig sollen über Semantic Web Mechanismen Konkordanzen zwischen den Vokabularen gebildet werden. Als eine gemeinsame Normdatenreferenz wird die GND angesehen. Hier bietet sich bei den vorhandenen Daten die größte Schnittmenge, auch wenn bei weitem nicht alle Daten über GND-Referenzierungen verfügen. Je mehr Datensätze über Normdaten verfügen, desto einfacher ist es, Datensätze aufeinander zu beziehen und Datensätze, die das gleiche Objekt beschreiben, herauszufinden. Über kontrollierte Vokabulare können zusätzliche Sucheinstiege und Filteroptionen angeboten werden. Gerade aufgrund der Vielzahl an Daten kommt diesen Faktoren entscheidende Bedeutung zu.

Lizenzen

Die im MWW-Metadatenformat vorliegenden Metadaten werden unter einer CC0-Lizenz publiziert.

Namespace

Jedes Element verfügt über eine URI innerhalb des Namespace https://vfr.mww-forschung.de/web/digitales-labor/mmm-metadatenformat/ und kann so eindeutig referenziert werden, wie z. B.: https://vfr.mww-forschung.de/web/digitales-labor/mmm-metadatenformat/mmm-alternative

Aufbau des Modells

Entsprechend des DC Abstract Model werden die Metadaten einer Sammlung in eine gemeinsame Datei überführt. Der Inhalt der Datei ist ein „Description Set“, welches sich in einzelne „Description“ unterteilt.
Die einzelne Description beinhaltet deskriptive Metadaten, welche das Objekt beschreiben. Als untergeordnete Strukturen innerhalb einer Beschreibung sind obligatorisch vorhanden:
TechnicalInformations: Formatangaben, Identifier LicenceInformations: Lizenz- und Rechteangaben Representation: Sammlungsverordnung, Angaben der digitalen Faksimilies, Nachweisdaten Vorteile des verwendeten Metadatenmodells ist die Benutzung von etablierten und gut dokumentierten Metadatenstandards. Die dadurch erreichte Stabilität gewährt auch die Nachhaltigkeit der modellierten Datensätze.

Umgesetzte Formate

Aus folgenden Formaten/Systemen werden im Rahmen des Projektes Daten in das MMM-Metadaten Modell gemappt:
1) MySQL-Exporte in XML
2) ORACLE-Exporte in XML
3) METS/MODS
4) EAD
5) Dublin Core
6) projektspezifische Datenmodelle

Elemente

Folgende Elemente beinhaltet das MMM-Format, dabei besteht für jedes Element eine Dokumentation auf einer eigenen Unterseite:

Attributwerte

Folgende Attributwerte können vergeben werden:
@role: Spezifiziert die Rolle bei mmm:creator und mmm:contributor über die Angabe von MARC Relator Codes: https://www.loc.gov/marc/relators/relacode.html
@type: Spezifiziert die Angabe von URLs als persistent oder non-persitent sowie die Angabe von Zeitangaben hinsichtlich des damit verbundenen Ereignisses
@reference: Dient der Angabe von Links, z. B. zu Nachweisdaten
@notbefore/@notafter: Werden verwendet, um Zeitspannen bei unsicheren Datierungen anzugeben

Werte für mmm:type

  • Alter Druck

  • Archivbestand

  • Bild

  • Elektronische Ressource

  • Grafik

  • Handschrift

  • Interaktive Ressource

  • Museales Objekt

  • Nachweisdaten

  • Person

  • Sammlung

  • Service

  • Software

  • Text

  • Tondokument

Beispielswerte für mmm:subtype

 

  • Adressblatt

  • Albumblatt

  • Antwortmarginalie

  • Aufsatz

  • Auftragsbrief

  • Autorisation

  • Begleitvermerk

  • Beilage 

  • Beurkundung

  • Billett

  • Bericht

  • Bestellung

  • Brief

  • Brief [Auftragsbrief]

  • Briefumschlag

  • Gr Druckgrafik

  • Forschungspublikation

  • Gedicht

  • Geschenkblatt

  • Mietvertrag

  • Notiz

  • Quittung

  • Schreiben

  • Schriftstück

  • Stammbuch

  • Stammbucheintrag

  • Umschlag  

  • Vermerk

  • Visitenkarte

  • Vorlesungsverzeichnis

  • Vorlesungsverzeichnis

  • Weisung

  • Widmung

  • Zahlungsanweisung    

  • Gr Zeichnung