Effective searching of RDF knowledge graphs

Hiba Arnaout, Shady Elbassuoni
2018 Journal of Web Semantics  
iv Eidesstattliche Versicherung Hiermit versichere ich an Eides statt, dass ich die vorliegende Arbeit selbstständig und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die aus anderen Quellen oder indirektübernommenen Daten und Konzepte sind unter Angabe der Quelle gekennzeichnet. Die Arbeit wurde bisher weder im In-noch im Ausland in gleicher oderähnlicher Form in einem Verfahren zur Erlangung eines akademischen Grades vorgelegt. Saarbrücken, den 21.02.2012 (Shady
more » ... ssuoni) vi To my mum, Alia Hanem Abdel-Ghaffar viii Acknowledgment I would like to express my deepest gratitude to my advisor, Prof. Dr.-Ing. Gerhard Weikum. I moved to Saarbrücken six years ago without much prior knowledge about information retrieval. After attending an IR class taught by Gerhard, I instantly fell in love with this amazing field of science. Since then, Gerhard has been always a scientific reference I relied on to tackle many of the problems I faced throughout the course of my studies. I would like to warmly thank him for being extremely patient with me, supportive, and more importantly for his immense scientific contributions in most of the work I have done throughout the thesis, which would not have been at all possible without his excellent and friendly guidance. I would like to also thank Prof. Dr.-Ing. Wolfgang Nejdl for reviewing the thesis. I am indebted to my co-advisor Dr. Maya Ramanath. Maya has initiated many of the ideas that we carried out in this thesis and was involved in most of the details of the work. I particularly thank her for always being ambitious and determined, especially when it comes to submission deadlines. I would like to also thank my colleagues whom I worked with on many of the publications that I published throughout the course of my thesis. These include Julia Luxenburger, with whom I first learnt how to do proper research. Even though the output of our work together was not included in this thesis, I am still very proud of it and I believe it gave me a first-hand experience on how to carry out scientific research. I am also thankful to Gjergji Kasneci, Nicoleta Preda, Ralf Schenkel, Steffen Metzger, and Katja Hose, who also was very generous to help me translate the abstract and summary of this thesis into German. I would like to also thank both Roi Blanco and Hugo Zaragoza for their guidance and support during my internship at Yahoo! Research, Barcelona. I am very thankful to the International Max-Planck Research School and Microsoft Research Lab, Cambridge for financially supporting my studies. Finally, I truly thank all my friends in MPI and Saarbrücken (particularly my office mate Dimitar), with whom I had stimulating discussions and with whom I made great memories that would last forever. I also thank my BAConfidential friends (especially Nazlu) who were always there for me through the good times and the bad times. Last but not least, I would like to thank my family and in particular my dad and my brother Khaled who supported me both morally and financially. Hanging in there these past six years could not have been possible without them. x Abstract RDF data has become a vital source of information for many applications. In this thesis, we present a set of models and algorithms to effectively search large RDF knowledge bases. These knowledge bases contain a large set of subjectpredicate-object (SPO) triples where subjects and objects are entities and predicates express relationships between them. Searching such knowledge bases can be done using the W3C-endorsed SPARQL language or by similarly designed triple-pattern search. However, the exact-match semantics of triple-pattern search might fall short of satisfying the users needs by returning too many or too few results. Thus, IR-style searching and ranking techniques are crucial. This thesis develops models and algorithms to enhance triple-pattern search. We propose a keyword extension to triple-pattern search that allows users to augment triple-pattern queries with keyword conditions. To improve the recall of triple-pattern search, we present a framework to automatically reformulate triple-pattern queries in such a way that the intention of the original user query is preserved while returning a sufficient number of ranked results. For efficient query processing, we present a set of top-k query processing algorithms and for ease of use, we develop methods for plain keyword search over RDF knowledge bases. Finally, we propose a set of techniques to diversify query results and we present several methods to allow users to interactively explore RDF knowledge bases to find additional contextual information about their query results. xi Abstract xii Kurzfassung Eine Vielzahl aktueller Anwendungen basiert auf RDF-Daten als essentieller Informationsquelle. Daher sind Modelle und Algorithmen zur effizienten Suche in RDF-Wissensdatenbanken ein entscheidender Aspekt, derüber Erfolg und Nichterfolg entscheidet. Derartige Datenbanken bestehen aus einer großen Menge von Subjekt-Prädikat-Objekt-Tripeln (SPO-Tripeln), wobei Subjekt und Objekt Entitäten darstellen und Prädikate Beziehungen zwischen diesen Entitäten beschreiben. Suchanfragen werden in der Regel durch Verwendung des W3C Anfragestandards SPARQL oderähnlich strukturierte Anfragesprachen formuliert und basieren auf Tripel-Patterns. Werden nur exakte Treffer in die Ergebnismengeübernommen, wird das Informationsbedürfnis des Nutzers häufig nicht befriedigt, wenn zu wenige oder zu viele Ergebnisse ausgegeben werden. Techniken, die ihren Ursprung im Information-Retrieval haben, sowie ein geeignetes Ranking können diesem Problem entgegenwirken. Diese Dissertation stellt daher Modelle und Algorithmen zur Verbesserung der Suche basierend auf Tripel-Patterns vor. Die im Rahmen der Dissertation erarbeitete Strategie zur Lösung der oben geschilderten Problematik basiert auf der Idee, die Tripel-Patterns einer Anfrage durch Schlüsselwörter zu erweitern. Um den Recall dieser Suchvariante zu verbessern, wird ein Framework vorgestellt, welches die vom Nutzerübergebenen Anfragen automatisch in einer Weise umformuliert, dass die Intention der ursprünglichen Nutzeranfrage erhalten bleibt und eine ausreichende Anzahl an sortierten Ergebnissen ausgegeben wird. Um derartige Anfragen effizient bearbeiten zu können, werden Top-k Algorithmen und Methoden zur Schlüsselwortsuche auf RDF-Datenbanken vorgestellt. Schließlich werden einige Methoden zur Diversifikation der Anfrageergebnisse präsentiert sowie einige Ansätze vorgestellt, die es Benutzern erlauben, RDF-Datenbanken interaktiv zu explorieren und so zusätzliche Kontextinformationen zu den Anfrageergebnissen zu erhalten. xiii Kurzfassung xiv Summary The Semantic-Web data model RDF (Resource Description Framework) has gained popularity in many domains as a representation format for heterogeneous structured data on the Web. In addition, the growing popularity of knowledgesharing communities such as Wikipedia and the advances in automatic informationextraction have contributed to the presence of large general-purpose RDF knowledge bases. RDF knowledge bases consist of subject-property-object (SPO) triples, where subjects and objects are generally entities and predicates represent relationships between entities. RDF knowledge bases are rich information sources that can be leveraged to quickly and precisely find answers to advanced informational queries. This is typically done by means of expressive triple-pattern queries, such as the queries written in the W3C-endorsed SPARQL language. However, in order to truly utilize such new information-retrieval framework and to deploy it on a Web scale, many challenging research problems must be addressed. This thesis presents solutions to key aspects of these problems as follows. • Data Incompleteness: While large RDF knowledge bases contain a vast amount of information in the form of SPO triples, the majority of information on the Web is available in the form of free text. Thus, combining RDF with text can increase the scope of such knowledge bases making them very rich sources of information. In this thesis, we show how to augment traditional RDF knowledge bases with text to extend their scope of coverage, and we propose an extension to triple-pattern search that allows users to augment triple-pattern queries with keywords to allow them to express a wider range of information needs. • Result Ranking: Large RDF knowledge bases may contain noisy or incorrect information and thus queries may produce many results of highly varying quality. It is thus highly desirable to present users with a ranked xv Summary list of results rather than just a set of unranked matches. Moreover, when keywords are expressed in a triple-pattern query, result ranking is crucial to ensure that query results that are relevant to the keyword conditions are ranked on top. To address this, we develop a ranking model based on statistical language models for ranking the results to triple-pattern queries. Our ranking model is general enough and handles both cases of triplepattern queries only and keyword-augmented triple-pattern queries. • Approximate Matching: Even though triple-pattern queries are highly expressive, especially when augmented with keywords, they are also very restrictive since they deploy Boolean matching (i.e., a result is either a match to a query or not). By allowing approximate matching for queries with very few or no results, the recall of such queries can be highly improved. To do this, we develop a framework for automatic query reformulation that generates a set of reformulated queries that are close in spirit to a given triple-pattern query. Moreover, we extend our ranking model for triple-pattern queries and show how it can be used to merge and rank the results of the original query and all its reformulations. • Efficient Query Processing: Triple-pattern search over RDF knowledge bases involves pattern matching. This becomes in particular very expensive when keyword conditions are allowed and when automatic query reformulation is supported. Moreover, result ranking adds an additional level of complexity. Incremental retrieval and ranking of results is thus needed to improve the response time of such queries. We develop a framework for efficient top-k triple-pattern query processing that also handles the cases of keyword-augmented triple-pattern queries and automatic query reformulation. • Keyword Search: Triple-pattern search, even when augmented with keywords, is still best targeted for expert users or programming APIs. Casual users are accustomed to keyword search which is the paradigm to search for information on the Web. To increase the usability of RDF knowledge bases, we propose a framework for plain keyword search over RDF knowledge bases, where result ranking is again based on statistical language models. xvi • Result Diversity: While ranking ensures that the most relevant results are ranked on top, it is often the case that the top results tend to be homogeneous, making it difficult for users interested in less popular aspects to find relevant results. Thus, result diversity can play a big role in ensuring that the users get a broad view of the different aspects of the results matching their queries, and ensures that, on average, almost all users can find relevant results to their queries in the top ranks. We provide a notion of diversity for results to queries over RDF knowledge bases and develop a general framework that can be used to provide diverse top-k query results. • Knowledge Exploration: While the results to queries over RDF knowledge bases provide very concise answers to users' information needs, it is often the case that users like to explore the knowledge base in order to learn more about a certain topic or subject. It is thus necessary to provide tools to interactively explore RDF knowledge bases. We present two systems to allow users to explore RDF knowledge bases and to combine the information there with information retrieved from external sources. The first system is a document retrieval system that retrieves a list of ranked documents given a set of RDF triples. The second system is an entitysummarization system that constructs a comprehensive timeline summarization for a given entity of interest. xvii Summary xviii Zusammenfassung Als Semantic-Web-Datenmodell hat das Resource-Description-Framework (RDF) in vielen Bereichen zur Darstellung heterogen strukturierter Daten im Web an Bedeutung gewonnen. Darüber hinaus haben die Popularität von Systemen wie Wikipedia sowie Fortschritte im Bereich der automatischen Informationsextraktion zur Entstehung von großen RDF-Wissensdatenbanken beigetragen. RDF-Wissensdatenbanken bestehen aus Subjekt-Prädikat-Objekt-Tripeln, wobei Subjekt und Objekt Entitäten darstellen und Prädikate Beziehungen zwischen Entitäten repräsentieren. Diese Datenbanken sind reichhaltige Informationsquellen, die zur schnellen und präzisen Beantwortung von Informationsbedürfnissen verwendet werden können. Zur Formulierung eines Informationsbedürfnisses werden typischerweise Anfragesprachen basierend auf Tripel-Patterns, zum Beispiel die vom W3C unterstützte Anfragesprache SPARQL, verwendet. Effektives und effizientes Information Retrieval für RDF-Daten und dessen Skalierbarkeit auf Web-Dimensionen beinhaltet herausfordernde Forschungsproblem. Diese Dissertation präsentiert Lösungen zu den Kernaspekten der folgenden Problembereiche. • Datenunvollständigkeit: Während RDF-Datenbanken Informationen in Form von SPO-Tripeln bereitstellen, ist ein Großteil der im Web verfügbaren Daten nur als Freitext auf Webseiten enthalten. Daher kann die Kombination von RDF und Freitext die Reichhaltigkeit von Wissensdatenbanken erheblich erweitern. Diese Arbeit zeigt eine lösung. Es wird eine Erweiterung der Suche basierend auf Tripeln vorgestellt, die es Nutzern ermöglicht, Anfragen um Schlüsselwörter zu erweitern und somit eine größere Bandbreite von Informationsbedürfnissen zu befriedigen. • Ergebnisranking: Große RDF-Wissensdatenbanken enthalten verfälschte oder fehlerhafte Informationen und liefern Anfrageergebnisse mit stark xix Zusammenfassung schwankender Qualität. Daher ist es generell von Vorteil, Anfrageergebnisse in Form von sortierten Ranglisten anstelle unsortierter Mengen zu präsentieren. Sind zu einer Anfrage basierend auf Tripeln Schlüsselwörter definiert worden, so ist das Ranking besonders wichtig, um garantieren zu können, dass bezüglich der Schlüsselwörter relevante Anfrageergebnisse an den Anfang der Ergebnisliste gestellt werden. Zu diesem Zweck stellt diese Dissertation einen Ansatz auf Basis statistischer "Language-Models" vor, welcher nicht nur auf reine Tripel-Pattern-basierte Anfragen anwendbar ist, sondern auch auf deren Erweiterung mit Schlüsselwörtern. • Approximative Treffer: Obwohl Tripel-Pattern-Anfragen sehr ausdrucksstark sind, insbesondere wenn sie durch Schlüsselwörter ergänzt werden, sind sie andererseits durch die Boolesche Auswertung der Bedingungen auch sehr restriktiv. Besonders bei Anfragen, die im nicht-approximativen Fall zu sehr wenigen Ergebnissen führen, kann der Recall durch die Anwendung eines approximativen Ansatzes deutlich gesteigert werden. Um dieses Ziel zu erreichen, wird ein Framework vorgestellt, welches eine Tripel-Pattern-Anfrage automatisch umformuliert und eine Menge vonähnlichen Anfragen generiert. Zusätzlich wird ein Ranking-Model entwickelt, welches auf die Vereinigung der Ergebnisse der Originalanfrage und der generierten Varianten angewand wird. • Effiziente Anfrageverarbeitung: Eine Teilaufgabe der Suche basierend auf Tripel-Patterns in einer RDF-Wissensdatenbank ist das Pattern-Matching, welches insbesondere im Zusammenhang mit Schlüsselwortanfragen und dem automatischen Umschreiben sehr teuer werden kann. Durch das Ranking wird das Verfahren zusätzlich komplexer. Um die Antwortzeit dennoch gering halten zu können, werden inkrementelle Retrieval-und Rankingverfahren benötigt. Diese Dissertation stellt Top-k Algorithmen vor, welche die effiziente Bearbeitung von Tripel-Pattern-Anfragen mit Schlüsselwörtern und die automatische Generierung von Alternativen unterstützen. • Suche mit Schlüsselwörtern: Tripel-Pattern-Anfragen sind in der Regel nur für Experten geeignet. Nicht-Experten sind eher mit der Schlüsselwortsuche vertraut. Um die in RDF-Datenbanken enthalten Informationen auch für solche Nutzer zugänglich zu machen, wird ein Framework vorgestellt, xx welches eine schlüsselwortbasierte Suche in RDF-Wissensdatenbanken unter Verwendung von statistischen "Language-Models" zum Ranking der Ergebnisse ermöglicht. • Diversifikation von Ergebnissen: Während das Ranking sicherstellt, dass die relevantesten Ergebnisse an den Anfang der sortierten Ergebnisliste gestellt werden, sind die besten Ergebnisse oftmals sehr homogen und erschweren die Suche für Nutzer, die an weniger populären Aspekten interessiert sind. Das Prinzip des Ergebnisdiversifikation stellt sicher, dass das Ranking eine gewisse Vielfalt an Ergebnissen liefert und gibt Nutzern einen besseren Gesamtüberblick. Zu diesem Zweck wird in dieser Dissertation ein Framework vorgestellt, welches dieses Prinzip anwendet, um diversifizierte Top-k-Anfrageergebnisse zu ermitteln. • Exploration von Wissensdatenbanken: Auch wenn die Bearbeitung von Anfragen in RDF-Wissensdatenbanken sehr präzise Ergebnisse liefert, bevorzugen Nutzer gelegentlich das Explorieren von Daten, um mehrüber ein bestimmtes Thema zu erfahren. Es ist daher notwendig, Tools zur interaktiven Exploration von RDF-Datenbanken zur Verfügung zu stellen. In dieser Dissertation werden zwei Systeme vorgestellt, welche die explorative Suche unterstützen sowie Informationen externer Quellen berücksichtigen können. Das erste System ist ein Dokumenten-Retrieval-System, welches eine Rangliste von Dokumenten zu einer gegebenen Menge von RDF-Tripeln ermittelt. Das zweite System ist ein Entitäten-Visualisierung-System und fasst Entitäten unter Berücksichtigung zeitlicher Aspekte zusammen.
doi:10.1016/j.websem.2017.12.001 fatcat:n5zynidqlvc3ddvz54ls534434