網(wǎng)站制作NEWS
神經(jīng)機器翻譯的優(yōu)化
在神經(jīng)機器翻譯中利用源端單語數(shù)據(jù)
通過兩種策略充分利用神經(jīng)機器翻譯(NMT)中的源端單語數(shù)據(jù)。第一種方法,采用自學習算法生成用于NMT訓練的大規(guī)模合成平行數(shù)據(jù)。首先使用給定的雙語數(shù)據(jù)構(gòu)建基準機器翻譯系統(tǒng),然后通過該系統(tǒng)翻譯源側(cè)單語句子以獲取更多的合成平行數(shù)據(jù)。第二種方法,使用2個NMT的多任務學習框架同時預測翻譯和源側(cè)單語句子的重新排序。將多任務學習框架應用于預測目標翻譯和重新排序的源側(cè)句子。2個NMT共享相同的編碼器網(wǎng)絡(luò),以增強編碼器模型。發(fā)現(xiàn),相關(guān)性是關(guān)鍵,更多的單語數(shù)據(jù)并不總是提高翻譯質(zhì)量。
對偶學習用于機器翻譯
對偶學習擴展了雙語翻譯方法,將神經(jīng)機器翻譯系統(tǒng)在兩個翻譯方向上訓練,利用兩個模型提供的回譯數(shù)據(jù)進行多輪訓練。該策略在無監(jiān)督翻譯系統(tǒng)構(gòu)建中也表現(xiàn)出成功。通過強化學習在未標記數(shù)據(jù)中自動學習,對偶學習機制有效利用單語語料,減少了對平行雙語數(shù)據(jù)的需求。
利用大規(guī)模單語數(shù)據(jù)進行機器翻譯
提出了一種策略,通過三個步驟,同時利用源端和目標端的單語數(shù)據(jù),取得更好的翻譯效果。實證觀察表明,同時使用源端和目標端單語數(shù)據(jù)優(yōu)于只使用一個領(lǐng)域的單語數(shù)據(jù)。向大型合成bitext添加噪聲能提高NMT的準確性,通過噪聲訓練獲得的模型進一步提高精確度。該方法在多個新聞數(shù)據(jù)集上取得了最先進的結(jié)果。
將BERT納入神經(jīng)機器翻譯
Bert-fuse模型通過將BERT處理的表示與NMT模型的編碼器和解碼器進行融合,提高翻譯質(zhì)量。使用Transformer架構(gòu),采用預訓練的BERT初始化NMT模型,或作為輸入,以改進翻譯性能。通過這些方法,BERT的融入增強了神經(jīng)機器翻譯的性能。
數(shù)據(jù)多樣化:神經(jīng)機器翻譯的簡單策略
數(shù)據(jù)多樣化策略在向后和正向翻譯任務上訓練多個模型,生成一組合成訓練數(shù)據(jù),以擴充原始數(shù)據(jù)集。這是一種真正的數(shù)據(jù)增強方法,犧牲困惑度以獲得更好的BLEU得分,有效提高翻譯質(zhì)量。
用單語言數(shù)據(jù)改進神經(jīng)機器翻譯模型
提供帶有空源句的單語訓練樣本,或通過將目標句自動翻譯成源語生成合成源語,稱為回譯。少量域內(nèi)單語數(shù)據(jù)反向翻譯可進行有效域自適應,減少過擬合,提高流暢度。這是單語數(shù)據(jù)訓練有效的原因。
神經(jīng)機器翻譯的半監(jiān)督學習
通過自編碼器重建單詞語料庫,使用半監(jiān)督學習方法在給定的有標簽和無標簽數(shù)據(jù)上聯(lián)合訓練源到目標和目標到源翻譯模型。核心思想是在訓練目標上附加一個重構(gòu)術(shù)語,以利用自編碼來重構(gòu)觀察到的單語語料。使用自編碼器在單語語料上訓練無監(jiān)督模型,能夠利用小批量隨機梯度下降來訓練聯(lián)合模型。
無監(jiān)督神經(jīng)機器翻譯
完全消除對并行數(shù)據(jù)的依賴,僅依賴單語言語料庫。通過修改的注意編解碼器模型,結(jié)合去噪和反向翻譯策略,實現(xiàn)無監(jiān)督訓練。將無監(jiān)督跨語言嵌入的工作集成到改進的注意力編碼器-解碼器模型中,利用固定跨語言嵌入的共享編碼器,僅從單語語料庫中訓練系統(tǒng)。
多重隨機標簽