Exploratory Search on Mobile Devices [book]

Sven Schmeier, Universität Des Saarlandes
2021
Gedruckt auf säurefreiem Papier von Monsenstein & Vannerdat Bibliographische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detailierte bibliografische Daten sind im Internet über abrufbar. Abstract The research field Exploratory search, embedded in the field of Human Computer Interaction (HCI), aims for a next generation of search interfaces beyond the document centered Google-like approaches.
more » ... -like approaches. New interfaces should support users to find information even if their goal is vague, to learn from the information, and to investigate solutions for complex information problems. The goal of this thesis is to provide a general framework (MobEx ) for exploratory search especially on mobile devices. The central part is the design, implementation, and evaluation of several core modules for on-demand unsupervised information extraction (IE ) well suited for exploratory search on mobile devices and creating the MobEx framework. These core processing elements, combined with a multitouchable user interface specially designed for two families of mobile devices, i.e. smartphones and tablets, have been finally implemented in a research prototype. The initial information request, in form of a query topic description, is issued online by a user to the system. The system then retrieves web snippets by using standard search engines. These snippets are passed through a chain of the already mentioned NLP components which perform an on-demand or ad-hoc interactive Query Disambiguation, Named Entity Recognition, and Relation Extraction task. By on-demand or ad-hoc we mean the components are capable to perform their operations on an unrestricted open domain within special time constraints. The result of the whole process is a topic graph containing the detected associated topics as nodes and the extracted relationships as labelled edges between the nodes. The Topic Graph is presented to the user in different ways depending on the size of the device she is using. Interaktionen finden hier eherüber Gesten auf Basis von grafischen Elementen statt, die auf dem Touchscreen adäquat präsentiert werden müssen. Als ein zentrales Ergebnis dieser Dissertation wurde MobEx, ein Framework für explorative Suche auf mobilen Endgeräten entwickelt und implementiert. Es besteht aus verschiedenen online (auch ad-hoc oder ondemand) Informationsextraktionskomponenten, die auf Webinhalte ohne Beschränkung der Domäne angewendet werden, sowie einer multimodalen interaktiven Benutzerschnittstelle für mobile Endgeräte, die abhängig von der Art des mobilen Endgerätes unterschiedliche Ausprägungen hat. Ublicherweise haben diese Endgeräte verschiedene Bildschirmgrößen, so dass zunächst zwei Klassen zu unterscheiden sind, für die jeweils eigene Darstellungsoptionen entwickelt wurden: Für die Klasse der Tablets mit Bildschirmgrößen 7,10 und 12-Zoll werden Topic Graphen eingesetzt, die sichüber oben genannte Interaktionsparadigmen auf mobilen Geräten bedienen lassen. Für Smartphones mit Bildschirmgrößen 3.5,4,4.3-Zoll werden die gefunden Topics und Relationenüber navigationsbasierte Listen dargestellt. Der Kern des MobEx Frameworks besteht aus der Hintereinanderschaltung von austauschbaren KI-Modulen zur Verarbeitung natürlichsprachlicher Dokumente, die speziell für den Einsatz in einer Onlinebenutzung konstruiert und trainiert sind: Erkennung von Eigennamen sowie " Hot Topics" (NEI=Named Entity Identification); Extraktion von Relationen (RE=Relation Extraction); wissensbasierte Auflösung möglicher Ambiguitäten (QD=Query Disambiguation). Der NEI Ansatz identifiziert Entitäten, die basierend auf Suchergebnissen zu einer Suchanfrage miteinander verwandt sind. Dazu benutzt MobEx zunächst die Ergebnisse der herkömmlichen Suchmaschinen. Die ersten 1000 Elemente der Ergebnisliste werden mittels syntaktischer und semantischer Algorithmen untersucht, mögliche Kandidaten werden identifiziert. Der syntaktische Ansatz bestimmt zunächst die Wortarten der in den Texten gefundenen Tokens mit Hilfe eines Part-Of-Speech Taggers. So werden mit sehr hoher Genauigkeit Substantive, Verben, Adjektive, Artikel, Pronomen usw. bestimmt. Diese Wortarten werden zu Nomen-und Verbgruppen gruppiert. Exploratory Search on Mobile Devices 7 Uber Kollokationsbetrachtungen werden die Kandidaten identifiziert, die miteinander oder mit der ursprünglichen Suchanfrage in Verbindung stehen. Im Kern dieser Kollokationsbetrachtungen steht ein eigens entwickeltes mathematisches Maß zur Bestimmung der Pointwise Mutual Information (PMI), das neben den Kollokationshäufigkeiten von benachbarten Worten oder Wortgruppen auch den Abstand zwischen ihnen innerhalb der Texte berücksichtigt. Mit Hilfe eines mathematischen Verfahrens bestimmt der nachfolgende semantische Ansatz " Eigenwertzerlegung" (SVD=Singular Value Decomposition) mögliche latentsemantische Strukturen innerhalb der Texte und filtert die syntaktischen Kandidaten durch ein weiteres Netz. Im Ergebnis erhält man einen Graphen von relational miteinander in Verbindung stehenden Themenbereichen (Topics). In abschließenden Evaluationen konnte gezeigt werden, dass das entwickelte Verfahren zur Extraktion von Named Entities und Topics vergleichbare bis bessere Ergebnisse liefert als andere State-Of-The-Art Verfahren. Der Relationsextraktions-Ansatz RE ermittelt auf Basis der erkannten Topics die möglichen Beziehungen zwischen ihnen. Es findet eine Namensgebung der Kanten innerhalb des Graphen statt. Hierfür wurde der Kollokationsansatz auf Verbgruppen erweitert undüber einen fuzzy matching Algorithmus können die Verbindungen zwischen den Kandidaten explizit formuliert werden. Zur Evaluation des Verfahrens wurden in einem Batchlauf aus einer großen Menge von Snippets, die aus Suchanfragen erzeugt wurden, alle Relationen ermittelt und abschließend 300 Relationen randomisiert isoliert. Zwei Personen bestimmten danach die Qualität der extrahierten Relationen und es konnte gezeigt werden, dass die Akkuratheit je nach Messung 70% bzw. 88% betrugen. Beide Ansätze benötigen vor dem eigentlichen Prozess die Disambiguierung der ursprünglichen Suchanfrage durch den QD Ansatz. Lautet die Suchanfrage zum Beispiel " Jim Clark", so muss das System wissen, welcher Jim Clark gemeint ist: Der Rennfahrer, der Gründer von Netscape, der Kriegsheld, der Football Spieler, der Sheriff, der Bankräuber, usw. Hierfür bedient sich der QD Ansatz der größten Wissensquelle, die es derzeit gibt, Wikipedia. Der gesamte textuelle Inhalt von Wikipedia wurde dafür in einen eigenen Suchindexüberführt, der einen millisekunden-schnellen Zugriff erlaubt. Im Falle von Mehrdeutigkeiten werden dem Benutzer vor der eigentlichen Suche Teile der entsprechenden Artikel präsentiert, so dass im Anschluss eine genaue Identifikation von Eigennamen, Hot Topics und Relationen möglich ist. I wish to thank all my colleagues, friends and relatives who have given me support and encouragement during my work on this dissertation. Above all, I am deeply grateful to my supervisor Günter Neumannnot only for the fruitful discussions during the development of the thesis. His deep knowledge about the area of my research, his enthusiasm for research in general and his person as a whole inspired me to go on and never give up in finding adequate and innovative solutions to upcoming problems. My sincere thanks go to Peter Adolphs, Michael Kruppa, Hans Uszkoreit, and Feiyu Xu -alphabetically ordered -who lend me an open ear for ideas, complaints, joy, and disappointments, and helped me a lot with their advices and positive thoughts. I am very grateful to Ai Renlong, Nicolaas Bongaerts, and again to Günter Neumann, Hans Uszkoreit and Feiyu Xu for their great project and product work and support, allowing me to concentrate on thesis writing during the last years. Finally I want to thank my beloved wife Jasmin for her love and support, for encouraging me to write faster and better, and better again. Last but not least I thank my parents and my sister for everything.
doi:10.22028/d291-32253 fatcat:cpsh3qk6xvaohh7irydkomm3mi