Konzeption und Erprobung eines Webcrawlers zur Erstellung hierarchischer Indizes

Mathias Haimerl
2019 Mensch & Computer  
Das Durchsuchen von Webseiten, wie es u.A. von modernen Topical Crawlers betrieben wird, ist technisch äußerst aufwändig, da der Fokus auf Extraktion und Korrelation sämtlicher Informationen einer Webseite liegt. Für die Markierung und computergestützte Erklärung komplexer Ausdrücke in Texten müssen diese zuvor identifiziert und indiziert werden. Um eine Webseite auf Basis eines bestehenden Grundindex zu durchsuchen und einen für die Einzelseite spezifischen Subindex zu erstellen, muss ein
more » ... natives Konzept des Crawlings verfolgt werden, um dieses Verfahren effizient und zielgerichtet nutzen zu können. Anschließend wird die Implementierung des Crawlers skizziert und Testläufe an verschiedenartigen Webseiten getestet. Abschließend wird das erstellte Programm im Vergleich zu Topical Crawlers und der potentiellen Einsetzbarkeit im angedachten Einsatzzweck betrachtet.
doi:10.18420/muc2019-ws-550 dblp:conf/mc/Haimerl19 fatcat:imukhvrwaza4vm46m2pl7lcrme