On propositionalization for knowledge discovery in relational databases [article]

Mark-André Krogel, Universitäts- Und Landesbibliothek Sachsen-Anhalt, Martin-Luther Universität
2018
Propositionalization is a process that leads from relational data and background knowledge to a single-table representation thereof, which serves as the input to widespread systems for knowledge discovery in databases. Systems for propositionalization thus support the analyst during the usually costly phase of data preparation for data mining. Such systems have been applied for more than 15 years, often competitive compared to other approaches to relational learning. However, the broad range of
more » ... approaches to propositionalization suffered from a number of disadvantages. First, the single approaches were not described in a unified way, which made it difficult for analysts to judge them. Second, the traditional approaches were largely restricted to produce Boolean features as data mining input. This restriction was one of the sources for information loss during propositionalization, which may derogate the quality of learning results. Third, methods for propositionalization often did not scale well. In this thesis, we present a formal framework that allows for a unified description of approaches to propositionalization. Within our framework, we systematically enhance existing approaches with techniques well-known in the area of relational databases. With the application of aggregate functions during propositionalization, we achieve results that preserve more of the information contained in the original representations of learning examples and background knowledge. Further, we suggest special database schema transformations to ensure high efficiency of the whole process. We put special emphasis on empirical investigations into the spectrum of approaches. Here, we use data sets and learning tasks with different characteristics for our experiments. Some of the learning problems are benchmarks from machine learning that have been in use for more than 20 years, others are based on more recent real-life data, which were made available for competitions in the field of knowledge discovery in databases. Data set sizes vary across different orders of magnitude, up to several million data points. Also, the domains are diverse, ranging from biological data sets to financial ones. This way, we demonstrate the broad applicability of propositionalization. Our theoretical and empirical results are promising for other applications as well, in favor of propositionalization for knowledge discovery in relational databases. iii Zusammenfassung Propositionalisierung ist ein Prozess, der von relationalen Daten und Hintergrundwissen zu deren Darstellung in Form einer Tabelle führt, die als Eingabe für verbreitete Systeme der Wissensentdeckung in Datenbanken dient. Damit unterstützen Systeme für die Propositionalisierung den Analysten in der gewöhnlich kostenintensiven Phase der Datenvorbereitung für das Data Mining. Solche Systeme werden seit mehr als 15 Jahren wettbewerbsfähig verwendet. Allerdings zeigten sich auch eine Reihe von Nachteilen. Erstens wurden die Ansätze nicht einheitlich beschrieben, was Analysten eine Beurteilung erschwerte. Zweitens waren die traditionellen Ansätze weitgehend auf die Erstellung von Booleschen Eingaben für das Data Mining beschränkt. Dadurch konnte ein Informationsverlust entstehen, der die Qualität der Lernergebnisse beeinträchtigt. Drittens skalierten die Algorithmen oft nicht gut. In dieser Arbeit präsentieren wir einen formalen Rahmen, der eine einheitliche Beschreibung von Ansätzen für die Propositionalisierung gestattet. Innerhalb dieses Rahmens erweitern wir existierende Ansätze mit Techniken, die im Gebiet der relationalen Datenbanken populär sind. Durch die Anwendung von Aggregatfunktionen erreichen wir Resultate, die mehr von den Informationen bewahren, die in den ursprünglichen Darstellungen der Lernbeispiele und des Hintergrundwissens enthalten sind. Weiterhin schlagen wir spezielle Schema-Transformationen für Datenbanken vor, um eine hohe Effizienz des Gesamtprozesses zu gewährleisten. Wir legen einen besonderen Schwerpunkt auf die empirische Untersuchung der Ansätze. Dafür verwenden wir Datenmengen und Lernaufgaben mit unterschiedlichen Eigenschaften. Einige Lernprobleme sind Maßstäbe aus dem Maschinellen Lernen, die seit mehr als 20 Jahren verwendet werden, andere basieren auf jüngeren Daten, die für Wettbewerbe im Gebiet der Wissensentdeckung verfügbar gemacht wurden. Die Datenmengen variieren hinsichtlich ihrer Größenordnung, bis zu mehreren Millionen Datenpunkten. Die Domänen sind ebenfalls verschieden und reichen von der Biologie bis zum Finanzwesen. So zeigen wir die breite Anwendbarkeit der Propositionalisierung. Unsere theoretischen und empirischen Ergebnisse sind viel versprechend auch für andere Anwendungen, zu Gunsten der Propositionalisierung für die Wissensentdeckung in relationalen Datenbanken. iv This thesis would not have been possible without all the help that I received from many people. First of all, Stefan Wrobel was a supervisor with superior qualities. His kind and patient advice made me feel able to climb the mountain. He even saw good aspects when I made mistakes, and I repeatedly did so. I will always be very grateful for his support, and I take his positive attitude as a model for myself. Then, there were so many teachers, colleagues and students of influence in my years at Magdeburg University and Edinburgh University, that I cannot name them all. Thank you so much! I am also grateful to the friendly people of Friedrich-Naumann-Stiftung, who generously supported my early steps towards the doctorate with a scholarship and much more. Last not least, my family was a source of constant motivation. So I dedicate this thesis to my children, including a citation I wish they will remember. Und wenn ich weissagen könnte, und wüßte alle Geheimnisse und alle Erkenntnis, und hätte allen Glauben, also daß ich Berge versetzte, und hätte der Liebe nicht, so wäre ich nichts.
doi:10.25673/4624 fatcat:hht32ech7vgbbb7asist4meuty