Definitionen in Wörterbuch und Text

Irene Cramer, Technische Universität Dortmund, Technische Universität Dortmund
2011
Obwohl gute Suchmaschinen heute bereits den Zugang zu Dokumenten erleichtern, bleibt das Bedürfnis nach intelligenten, zielgerichteten Suchfunktionen innerhalb von Dokumenten. Die große Zahl der Dokumente und vor allem die rasche Zunahme und geringe Halbwertszeit der Daten verbietet die rein manuelle Auszeichnung. Alternativ entwickeln Computerlinguisten Methoden, die auf der Grundlage eines kleinen Ausschnitts manuell aufbereiteter Daten Verfahren zur automatischen Extraktion implementieren.
more » ... n implementieren. Gegenstand der vorliegenden Dissertation ist es, den Begriff der Definition im Sinn von Annotationsrichtlinien zu operationalisieren sowie Ressourcen und Methoden zur automatischen Extraktion definitorischer Textsegmenten zu untersuchen. Auf der Basis eines mit diesen Annotationsrichtlinien manuell aufbereiteten Korpus wurden Merkmale zum Aufspüren und Auszeichnen von definitorischen Textsegmenten abgeleitet. Diese Merkmale wurden in einem System implementiert, das zur automatischen Extraktion von Definitionen eingesetzt werden und z. B. als Hilfsmittel für die lexikographische Arbeit dienen kann. Im Zusammenhang mit den verschiedenen Extraktionsexperimenten wurde zudem eine Sammlung von mehr als 3.000 Textsegmenten zusammengetragen, die entsprechend der in den Annotationsrichtlinien erarbeiteten Operationalisierung als Definitionen interpretiert und als eigenständiges Korpus verwendet werden können. Die verschiedenen Experimente des Dissertationsprojekts zeigen allerdings, dass es sich bei Definitionen häufig um syntaktisch, semantisch und pragmatisch äußerst komplexe Textsegmente handelt, die nicht nur schwer zu extrahieren, sondern vor allem schwer zu annotieren sind. Ob also ein Textsegment von einem Rezipienten als Definition interpretiert und genutzt wird, hängt daher von individuellen Faktoren wie der Bildung und teilweise auch der Einstellung ab.
doi:10.17877/de290r-8780 fatcat:n4u52bswxvgnherz736yinffti