Stock Price Prediction Based on a Sentiment Analysis of Financial News

Stefan Salbrechter, Thomas Dangl
2020
Das Ziel dieser Arbeit ist es, eine Stimmungsanalyse von Finanznachrichten durchzuführen, um festzustellen, ob diese Nachrichtendaten für die kurzfristige Vorhersage von Aktienkursbewegungen geeignet sind. Der Datensatz enthält Finanznachrichten, welche zwischen Januar 1996 und Januar 2020 veröffentlicht wurden. Zusätzlich werden insgesamt 921 Indexkonstituenten und ihr Total-Return-Index (ein Performanceindex, der Dividenden und andere performancerelevante Kapitalmaßnahmen berücksichtigt)
more » ... siert. Darüber hinaus werden alle 1220 Unternehmen, die in diesem Zeitraum im S&P 500 indexiert sind, für die Aktienkursprognose berücksichtigt. In einem ersten Schritt werden alle Nachrichtenartikel, die sich auf diese 921 Unternehmen beziehen, aus dem Nachrichtendatensatz extrahiert. Anschließend werden aus deren TotalReturn-Indizes tägliche Renditen berechnet, die zur Kennzeichnung der Nachrichtenartikel als positiv, negativ oder neutral verwendet werden. Um einen besseren Einblick in den Datensatz zu erhalten, werden diverse Datenvisualisierungen durchgeführt. Wörter, die Stimmungsinformationen tragen, werden extrahiert und über Wortwolken visualisiert.Für die Klassifizierung werden verschiedene neuronale Netzwerkarchitekturen betrachtet. Genauer gesagt werden sowohl klassische feedforward-Netze (NN) als auch Convolutional Neural Networks implementiert und deren Ergebnisse verglichen. Darüber hinaus werden zwei verschiedene Verfahren zur Merkmalsextraktion, nämlich Bag-of-Words und Worteinbettungen, weiter untersucht.Worteinbettungen werden mit word2vec - einem selbstüberwachten Lernalgorithmus 3 - auf den Trainings- und Validierungsdatensätzen erlernt. Da diese Worteinbettungen Stimmungsinformationen nicht hinreichend erfassen, erfolgt eine Verfeinerung dieser Einbettungen über einen trainierbaren Einbettungslayer eines neuronalen Netzes. Zusätzlich werden n-Gramme mit Längen von eins bis drei berücksichtigt, um den Bag-of-Word-Ansatz weiter zu verbessern. Beim anschließenden Training der neuronalen Netze wurde be [...]
doi:10.34726/hss.2020.80382 fatcat:ppytx66tjbboppcvjxrpsbprqa