Datenmodellierung und Metadaten

Metadaten bilden das Rückgrat eines jeden digitalen Angebots. Ohne Beschreibung und Strukturierung von Objekten durch Metadaten sind digitale Archive, Bibliotheken und Museen kaum oder nur eingeschränkt nutzbar. Metadaten und Metadatenstandards kommen daher im Virtuellen Forschungsraum MWW eine entscheidende Bedeutung zu. Über die Metadaten werden die verschiedenen Komponenten der virtuellen Forschungsumgebung des Verbunds zusammengeführt und die Sammlungen für die wissenschaftliche Nutzung erschlossen und bereitgestellt. Damit aus den heterogenen Sammlungen aus den an MWW beteiligten Einrichtungen ein interoperabeler Datenpool entsteht, wurde das Metadatenformat MMM (MWW-Metadata-Model) entwickelt. Das gemeinsame Metadatenformat ist produktiv in der sammlungsübergreifende Suche (Generic Search) im Einsatz. Da das gemeinsame Metadatenformat  eine höhere Abstraktion von den Originaldaten der Sammlungen darstellt, werden die Sammlungen auch in ihrer originären Form sowie in ausgewählten Spartenmetadaten im virtuellen Forschungsraum zur Verfügung gestellt.

Im Folgenden werden das Konzept für die Integration der digitalen Bestände der Verbundeinrichtungen in den virtuellen Forschungsraum über die Modellierung deskriptiver Metadaten beschrieben und dokumentiert. Einen Schwerpunkt bildet dabei das für den Forschungsverbund Marbach Weimar Wolfenbüttel im Rahmen der ersten Förderphase (2013-2018) entwickelte gemeinsame Metadatenformat MMM. Es wurde im Projekt "Datenmodellierung und Metadaten" an der Herzog August Bibliothek Wolfenbüttel durch Timo Steyer konzipiert und entwickelt. Das MWW-Metadatenformat umfasst aktuell 22 Elemente, mit denen die Inhalte der digitalen Sammlungen und die generierten Forschungsdaten beschrieben und abgebildet werden. Es wurde Aufgrund der heterogenen Bestände ist das Format für die generische Beschreibung von Sammlungen aus dem kulturellen Erbe geeignet. Produktiv im Einsatz ist das Format im Virtuellen Forschungsraum MWW als Internformat, u.a. in der bestandsübergreifenden Suche, im Einsatz. 

 

Gründe für die Entwicklung des gemeinsamen Metadatenformats

 

Der Intension für die Entwicklung eines gemeinsamen Metadatenformates ergab sich vor allem daraus, dass der Verbund aus drei Institutionen mit unterschiedlichen historischen
Sammlungsschwerpunkten, mit unterschiedlichen digitalen Strategien und technischen Umsetzungen besteht. Daraus resultieren heterogene Daten, unterschiedliche Datenbanksysteme, Standardformate und Workflows im Bereich der Digitalisierung, Verarbeitung, Präsentation, Erschließung und Speicherung von Daten. Folglich ergibt sich daraus auch eine Vielfalt von unterschiedlichen Forschungsdaten angefangen von Digitalisaten über Volltexte über Strukturdaten, Objektbeschreibungen, 3D Modelle, Metadaten etc.
Ein Zusammenschluss der Daten in den originären Formen war weder technisch noch inhaltlich sinnvoll. Technisch machte es keinen Sinn, da Nutzer aufgrund der unterschiedlich strukturierten und erschlossenen Daten keine vernünftige Suche über diese durchführen oder die Daten über digitale Werkzeuge analysieren oder auswerten konnten. Inhaltlich machte dies keinen Sinn, da die bisherigen Informationssysteme für konkrete Forschungsfragen und Verwendungszwecke entwickelt worden sind und daher nicht in eine gemeinsame übergeordnete Datenbank überführt werden konnten, d.h. die Selbstständigkeit dieser Systeme war eine Bedingung sine qua non.
Eine gemeinsame Nutzung der Daten im VFR konnte daher nur über einen integrierenden Zugriff auf die digitalen Sammlungen der Häuser unter Beibehaltung der Selbständigkeit der Ursprungssysteme umgesetzt werden. Dabei konnten zwei Szenarien für die Erreichung der skizzierten Ziele identifiziert werden, zum einen das Nachnutzen bestehender standardisierter Metadaten, wie z. B. aus den Bibliothekskatalogen. Zweitens die Beschreibung/Abbildung von Informationsobjekten über Metadaten, die bisher über keine standardisierten Metadaten verfügen. Dies betrifft vor allem Fach- und Spezialdatenbanken, die in Drittmittelprojekten entstanden sind und nicht oder nur eingeschränkt (z. B. nur auf Titelebene) in den zentralen Nachweissystemen erfasst sind. Da Metadaten immer eine Abstraktion darstellen, werden die Informationsobjekte nicht in ihrer vollen
Komplexität abgebildet. Dieser Informationsverlust muss im Sinne der gemeinsamen Nutzung in Kauf genommen werden, daher sind Referenzen auf die Originalressourcen zwingend notwendig. Dieser Weg ist angesichts der personellen Ressourcen und der großen Heterogenität der einzig gangbare, da das Ziel die Integration eines möglichst großen Teils der digitalen Bestände über Metadaten ist.

Auf dieser Seite und den verlinkten Unterseiten entsteht sukzessive eine Dokumentation zum Metadatenformat und der Integration der Sammlungen in den VFR. Es werden aber auch Richtlinien und Anwendungsprofile für die (Meta)datenmodellierung bereitgestellt. Diese sollen bei der Generierung von neuen Sammlungen unterstützen.

Voraussetzungen für die Beschreibung/Abbildung von Ressourcen über Metadaten in der MWW-Infrastruktur

  • Die Daten sind öffentlich zugänglich
  • Lizenzen erlauben die Integration
  • Datenqualität der Originale ist so gut, dass die Metadaten der Forschung zur Verfügung gestellt werden können und keine grundsätzlichen Änderungen am Datenformat noch erfolgen müssen. Inhaltliche Änderungen sind jederzeit möglich
  • Es existieren Ansprechpartner beim Datenlieferanten, die über das Projekt soweit informiert sind, dass sie die Integration inhaltlich unterstützen können, z. B. in der Beurteilung der Datenrelevanz und der Beziehungen der Daten untereinander
  • Die verantwortlichen Sammlungsbetreuer befürworten die Integration der Daten
  • Die Abbildung der Daten über Metadaten ist im Projekt möglich, d.h. die Sammlung ist in einem für das Projekt vertretbaren Rahmen integrationsfähig
  • Eine Sammlungsbeschreibung in der Collection Registry liegt vor
  • Rückreferenzierungen vom VFR auf die Originaldaten sind möglich
  • Die Daten haben einen Bezug zu den Beständen der MWW-Einrichtungen

Best practice Empfehlungen

  • Es existieren URIs/persistente Identifier (ohne persitente Identifier ist eine Einbindung von Digitalisaten nicht möglich!)
  • Möglichst viele Informationen sollten über kontrollierte Vokabulare und Normdaten erschlossen sein.
  • Dokumentation der Daten und Systeme liegen vor. Arbeitsprozesse für die Dateneingabe und Aktualisierungen sind ebenfalls vorhanden.

Modellierung- und Integrationsszenarien

Für die Umsetzung dieser Ziele gibt es zwei Integrationsszenarien:
Das erste Integrationsszenario betrifft alle diejenigen Ressourcen, die bereits über standardisierte Schnittstellen und über Metadaten verfügen. Zu nennen wären hier vor allem die zentralen Nachweissysteme der Häuser, wie die Bibliothekskataloge (OPAC und Kallís und gut strukturierte Datenbanksysteme mit Exportfunktionen). Diese Nachweissysteme verfügen über erstklassige strukturierte und nach Standards erschlossene Daten. Eine kombinierte Abfrage von Schnittstellen (SRU-Schnittstellen oder OAI-Schnittstellen) und das Nachnutzen von bestehenden Metadaten ist ein gut zu modellierender Workflow. Auch digitale Editionen, sofern sie im de facto Standard XML/TEI vorliegen, können über die bereits in den Dateien vorhandenen Informationen gut integriert werden. Für die Spartenmetadaten sollen jedoch einheitliche Schemata bzw. Basisformate für die Volltexte entwickelt werden. Hierdurch soll innerhalb der Spartenmetadaten ein interoperabler Datenpool für den Verbund erreicht werden.

Der andere, schwierigere Fall sind die Fachdatenbanken und Forschungsportale, die für spezielle Forschungsfragen bzw. eingegrenzte Materialsammlungen konzipiert worden sind (z. B. Forschungsportal zur Universität Helmstedt). An ein Integrationsszenario wurde bei der Erhebung und Präsentation der Daten in der Regel nicht gedacht und daher bieten diese Ressourcen weder Schnittstellen noch Metadaten an. Da es sich aber um komplexe Daten handelt, die gar nicht oder zum Teil in den zentralen Nachweissystemen erfasst sind, stellt dieses Szenario die größere Herausforderung dar, aber bietet auch den größeren Mehrwert. Der Hebel für die Integration ist die Beschreibung der Inhalte über Metadaten.

Auf der Grundlage des Konzepts des kleinsten gemeinsamen Nenners wurde ein einheitliches Informationsmodell für den Verbund entwickelt. Darauf aufbauend wurde dieses Modell in ein konkretes Metadatenformat umgesetzt. In dieses Metadatenmodell werden alle Daten der Verbundeinrichtungen integriert. Zusätzlich werden einheitliche Spartenmetadatenschemata entwickelt. So sollen z. B. alle XML/TEI-P5 Volltext in einem gemeinsamen Basisformat vorliegen, ebenso sollen alle EAD, MODS und LIDO Datensätze der Verbundeinrichtungen nach einem einheitlichen Schema innerhalb des Virtuellen Forschungsraumes interoperabel sein.

Folgende Vor- und Nachteile und Verwendungszwecke könnten sich durch das zweigeteilte Vorgehen, alle Daten in einem MWW Metadata Model und ausgewählte Datensätze zusätzlich in einheitlichen Spartenmetadaten zu modellieren, ergeben:

MWW Metadata Model Spartenmetadaten
Höhere Abstraktionsebene Geringere Abstraktionsebene
Mittlerer Modellierungsaufwand Hoher Modellierungsaufwand
Interoperabeler, homogener Datenpool Nur innerhalb der Sparte homogen
Breitensuche Spartensuche
Geeignet für alle gelieferten Daten Nicht geeignet für alle gelieferten Daten

Spartenmetadaten

Um der Komplexität der Daten besser als mit Dublin Core gerecht zu werden und sie auch für detaillierte Such-, Analysen- und Bearbeitungsverfahren in den VFR zur Verfügung zu stellen, werden die digitalen Sammlungen der Verbundeinrichtungen bestimmten Kategorien zugeordnet, für die jeweils eigene Metadaten nach etablierten Standards verwendet werden. Bei der Auswahl der Metadatenformate wurden bereits in den Verbundeinrichtungen vorhandene Metadatenformate berücksichtigt und werden, sofern möglich, nachgenutzt.

Kategorie Abbildung in MMM Spartenmetadatenformat Anmerkungen
Archivdaten Positiv EAD  
Eigene Datenmodelle Positiv    
Gedruckte Textwerke Positiv METS/MODS Min. DFG-Standard
Handschriften Positiv TEI/METS Min. DFG-Standard
Museumsdaten Positiv LIDO  

Workflow

Für die gewählten Sammlungen wurde folgender Workflow verwendet:

  1. Eintrag der Sammlung in die Collectionregistry
  2. Analge des Datenmodells und Datenanreicherung in der Data Modelling Enviroment
  3. Erstellung eines Mappings auf das gemeinsame Metadatenformat
  4. Indexierung für die Generische Suche
  5. Qualitätskontrolle

 

MWW Metadata Model

Basierend auf den DCMI Metadata Terms wurde das MWW-Metadata-Model entworfen, welches als Standard für eine Abbildung der Informationsobjekte auf dem kleinsten „gemeinsamen Nenner“ dienz. Eine gewisse Abstraktionsebene und somit auch Informationsverlust gegenüber den Originalressourcen werden dabei in Kauf genommen. Dafür wird ein homogenes Datenset gewonnen, welches sich vor allem für die Suche und für den Export bzw. die Distribution der Daten geeignet ist.

Weitere Informationen:

Dokumentation des MWW-Metadatenformats

Übersicht über das MWW-Metadatenformat