Designing A Data Citation Framework for RDF* Stores

Filip Kovacevic, Andreas Rauber, Tomasz Miksa
2021
Um zitierbare Daten und reproduzierbare Ergebnisse zu ermöglichen hat die RDA Data Citation Working Group 14 Empfehlungen veröffentlicht. Diese Empfehlungen wurden von Datenzentren für verschiedene Backend-Technologien übernommen. Bisher befinden sich RDF*-Stores bzw. Triple-Stores nicht unter diesen Backend-Technologien. In dieser Masterarbeit behandeln wir die Empfehlungen im Bezug auf RDF*- und Triple-Stores, designen ein RDF* Data Citation Framework, implementieren einen Prototypen des
more » ... stellten Frameworks und evaluieren ihn. Um Versionierung & Timestamping auf Triple-Ebene, mit dem Ziel die Anzahl der zusätzlich notwendigen Triples gering zu halten, zu implementieren, verwenden wir RDF* und SPARQL*.Mit Funktionstests zeigen wir, dass unser Prototyp den Empfehlungen genügt. Zusätzlich stellen wir Tests und Ergebnisse zur Laufzeit-Performance und zum Speicherverbrauch zu Abfragen von Live- und historischen Daten zur Verfügung, welche auf zwei versionierte RDF*-Datenbasen (FHIR und DBPedia) ausgeführt werden. Als RDF*-Store und Ablage für die zwei Datenbasen verwenden wir GraphDB. Die Ergebnisse deuten darauf hin, dass RDF* and SPARQL* für Versionierung & Timestamping verwendet werden können und dass Datenbasen, die über die Zeit unterschiedlich angereichert wurden (Insert vs. Update) sich auch unterschiedlich auf die Performance der Abfragen auswirken.Zu weiteren Einflüssen zählen die Implementierung der Filter und Joins in der Abfrage (engl. Timestamped Query) und die Größe der Daten- und Ergebnismenge. Um die "Query Uniqueness"-Empfehlung zu implementieren, welche darauf abzielt semantisch identische Abfragen mittels Normalisierung der Abfrage zu entdecken, zeigen wir, die SPARQL-Query-Algebra vom W3C im Normalisierungsprozess eingesetzt werden kann. Wirbehandeln und erwägen "Query Containment Solver" vom Stand der Kunst als Alternative, um semantisch identische Abfragen zu erkennen. Wir evaluieren zwei Query Containment Solver, JSAC und SpeCS, und vergleichen diese mit unserer SPARQL-Query-Algeb [...]
doi:10.34726/hss.2021.89424 fatcat:uwg3xld2cncolao6fvj4lrdnce