Performance-Steigerung in Semantik-basierten Abfrage-Systemen

Simon Wagner, Andreas Rauber
2014
Ein Frage-Antwort System benutzt Algorithmen um semantisch ähnliche Fragen zu finden. Diese benötigen durch ihre hohe algorithmische Komplexität mehrere Sekunden für eine Berechnung. Das Matching soll jedoch in einer Anwendung eingesetzt werden, in der dem Benutzer oder der Benutzerin die Resultate in Echtzeit präsentiert werden. Damit diese Anforderung erfüllt werden kann schlägt diese Arbeit eine Vorberechnung von Ähnlichkeiten vor, deren Ergebnisse in einer geeigneten Datenstruktur abgelegt
more » ... nd anschließend dazu benutzt werden um in wenigen Millisekunden Antworten generieren zu können. Die Matching-Algorithmen verwenden Schlüsselwörter für ihre Berechnungen. Folglich entspricht die Menge aller Kombinationen dieser Keywords allen theoretisch denkbaren Eingaben. Da nicht all diese Möglichkeiten berechnet werden können, ist ein zentraler Punkt, eine sinnvolle Einschränkung zu treffen. Der Ansatz, der im Zug dieser Arbeit vorgestellt wird, verbindet nur Schlüsselwörter miteinander, bei denen die Schnittmenge der Matches nicht leer ist. Alle berechneten Ähnlichkeiten werden in einer Lucene-Indexstruktur gespeichert. Um dem Benutzer oder der Benutzerin die ähnlichsten Fragen präsentieren zu können, auch wenn noch kein Schlüsselwort komplett eingetippt wurde oder Tippfehler in der Eingabe vorhanden sind, werden die Vorberechnungen zusätzlich mit einer syntaktischen Suche kombiniert.
doi:10.34726/hss.2014.24764 fatcat:jtbjsi2ttnbnddpqpy2i5r7pm4