Reinforcement Learning for Machine Translation: from Simulations to Real-World Applications

Julia Kreutzer
2020
Kurzfassung Wie können wir maschinellenÜbersetzungssystemen (MT) beibringen, von Fehlern zu lernen? Die Beantwortung dieser Frage erfordert (1) einen maschinellen Lernalgorithmus, (2) eine Schnittstelle für dieÜbermittlung von Feedback und (3) Fachwissen. Diese Dissertation untersucht Algorithmen für maschinelles Lernen mit schwachem Feedback, verschiedene Feedback-Schnittstellen, sowie die Zuverlässigkeit verschiedener Feedback-Arten. In einem interaktiven Online-Lernszenario erhält ein MT
more » ... ll "Bandit"-Feedback (d.h. für nur je eineÜbersetzung) anstelle von Referenzübersetzungen zum Lernen. Dafür werden Policy-Gradienten-Algorithmen für statistische und neuronale MT entwickelt, die von absoluten und paarweisen Bewertungen lernen. Simulationsexperimente zeigen, dass sich die Modelle selbst mit schwachem Feedback erheblich verbessern und von Varianzreduktionstechniken profitieren. In Produktionsumgebungen wird Offline-Lernen allerdings oft dem Online-Lernen vorgezogen. Daher evaluieren wir Algorithmen für kontrafaktisches Lernens mit menschlichem Feedback fürÜbersetzungen von eBay-Produkten. Das Feedback dabei wird entweder explizit durch Nutzerbewertungen oder implizitüber Interaktionen mit der Website gesammelt. Die Nutzung impliziten Feedbacks erweist sich aufgrund geringeren Rauschens als erfolgreicher. In einer weiteren Studie vergleichen wir die Zuverlässigkeit und Erlernbarkeit von absoluten mit relativen Bewertungen, wobei absoluten Bewertungen effektiver für Verbesserungen am MT Modell sind. Darüber hinaus stellen Fehlermarkierungen eine kostengünstige und praktische Alternative zu Fehlerkorrekturen dar. Anstelle die Art der Feedbacksammlung im Voraus zu entscheiden, lassen wir das Modell diese Entscheidung in der letzten Studie selbst treffen. Wir entwickeln einen Selbstregulierungsansatz für interaktiven Lernen: Das lernende Modell entscheidet mithilfe eines Regulierungsmoduls, welche Art von Feedback für welche Eingabe gewählt wird. Der Regulator wird so trainiert, dass er einen guten Kompromiss zwischen Lerneffekt und Kosten findet. In unseren Experimenten verfolgt er Strategien, die effizienter sind als aktives Lernen und vollüberwachtes Lernen. v
doi:10.11588/heidok.00028862 fatcat:jrsiseo4prf4pa3f7nnbp24wkq