基於貝氏定理自動分析語料庫與標定文步 (A Bayesian approach to determine move tags in corpus) [In Chinese]

Jia-Lien Hsu, Chiung-Wen Chang, Jason S. Chang
2015 Taiwan Conference on Computational Linguistics and Speech Processing  
摘要 利用科技幫助語言學習,是一個重要的研究議題,英文是現今人們主要的溝通語言,對於 非英語體系的國家,學習英語 (從聽力、閱讀到寫作) 是一件困難的事情。尤其在寫作方面,由 於英文文法跟中文文法上的差異,導致在學習英文寫作時,常常會將組成句子的架構搞混,使 得在學習寫作有較大的困難。 英文學術論文寫作,不同於一般文章寫作,通常有明確的架構與段落,如「簡介」 、 「相關 文獻」 、 「方法」 、 「結果」等,此結構稱為「文步」 。此外,學術論文寫作與一般寫作有些許的不 同,在寫作的用詞上就有些差異,因此,為了幫助需要寫學術論文的同學們,我們參考學術論 文的文步架構,設計文步分類器訓練語言模組,擷取在特定文步使用的字詞。 在語言處理方面,學者們依照文步架構,提出自動化分析,但是在訓練語言模組中通常需 要大量人工標註資料,為了降低人工標註的部分,我們將專家整理歸納的詞彙,透過機器學習 與迭代 (bootstraping) 的方法達到學習效果,再利用訓練過的語言模型,預測文章句子當中的 文步。 在本研究中,我們提出一套系統,以貝氏方法 (Bayesian approach)
more » ... 此 系統分為兩部分,一為訓練階段 (Training phase),另為測試階段 (Testing phase)。在訓練階 段中,透過大量的文本 (Corpus) 建立學習模型,採用專門蒐集學術論文簡介的語料集 (Cite-SeerX) 與初始規則 (Initial pattern) 做為分析的依據,利用貝氏方法判斷語料庫中每篇簡介裡 的句子所屬的文步 (move),當句子被標定完文步之後,利用迭代的方法更新貝氏模型,達到學 習效果。而在測試模型中,將訓練階段得到的結果,給予一篇新的簡介,一樣透過貝氏方法, 預測文步,經過測試階段,我們得到文步預測精確率為 56%。 關鍵詞:學術英文寫作、輔助寫作、文步分析
dblp:conf/rocling/HsuCC15 fatcat:spnyg2a2lfcklipzefymiq5koi