Combining contextualized and non-contextualized embeddings for domain adaptation and beyond [thesis]

Nina Mareike Pörner, Hinrich Schütze
2021
Zusammenfassung Viele Fortschritte der letzten Jahre in der maschinellen Sprachverarbeitung beruhen auf der Technik des Transfer-Lernens. Beim Transfer-Lernen werden Modelle auf Quell-Aufgaben vortrainiert, um die Genauigkeit auf Ziel-Aufgaben zu verbessern. Vortrainierte Modelle können unterteilt werden in solche, die nicht-kontextualisierte Repräsentationen produzieren, und solche, die kontextualisierte Repräsentationen produzieren. Erstere sind Vektoren, die nur von der Identität einzelner
more » ... entität einzelner Worte abhängen. Letztere hängen vom Kontext innerhalb des Satzes ab. Kontextualisierte Repräsentationen werden normalerweise von tiefen neuronalen Netzen mit vielen Parametern produziert. Das Vortrainieren dieser Modelle ist teuer. Daher werden häufig Modelle wiederverwendet, die von größeren Forschungsinstituten und Firmen vortrainiert wurden. Dieser Ansatz ist allerdings nicht optimal in Situationen, wo Quell-und Ziel-Domäne nicht zusammenpassen. Auf der anderen Seite sind nichtkontextualisierte Repräsentationen weniger tief und weniger teuer, aber in der Regel auch weniger erfolgreich. In dieser Dissertation holen wir das Beste aus beiden Welten heraus, indem wir kontextualisierte mit nicht-kontextualisierten Repräsentationen kombinieren. Unser Ziel ist, die Ausdrucksstärke von kontextualisierten Repräsentationen (z.B. BERT) zu nutzen, und mithilfe von günstigen, nicht-kontextualisierten Repräsentationen (z.B. Word2-Vec) zu verbessern. Unsere Beiträge können in zwei Richtungen eingeteilt werden: In Kapiteln 2 und 3 alignieren wir nicht-kontextualisierte Repräsentationen mit der Eingabe-Schicht von BERT. In Kapitel 2 nutzen wir die Methode, um domänenspezifische Word2Vec-Repräsentationen in das BERT-Modell zu injizieren. Wir evaluieren das resultierende Modell auf biomedizinischer Entitätenerkennung und der Beantwortung von Fragen, mit Verbesserungen gegenüber BERT. In Kapitel 3 nutzen wir die Methode, um Entitäten-Repräsentationen in das BERT-Modell zu injizieren. Wir zeigen, dass das resultierende Modell kompetitiv ist gegenüber BERT-Varianten, die explizit dafür vortrainiert wurden, Entitäten-Repräsentationen zu verarbeiten. In Kapiteln 4 und 5 alignieren wir kontextualisierte und nicht-kontextualisierte Satz-Repräsentationen mithilfe der generalisierten kanonischen Korrelationsanalyse und anderen Methoden. In Kapitel 4 evaluieren wir unseren Ansatz auf der unüberwachten Erkennung von Duplikat-Fragen in datenarmen, sehr domänen-spezifischen Frage-und-Antwort-Foren. In Kapitel 5 setzen wir einen neuen Bestwert auf der unüberwachten semantischen Text-Ähnlichkeits-Benchmark. 9 10
doi:10.5282/edoc.27663 fatcat:ctx4ikl6xbfljixyqmr5np4jru