Popular science work
《自然》5日發(fā)表的一篇論文報(bào)道了一個(gè)Meta人工智能(AI)模型的底層技術(shù)。該模型能翻譯200種不同語(yǔ)言,增加了機(jī)器翻譯的語(yǔ)言數(shù)量。
神經(jīng)機(jī)器翻譯模型利用人工神經(jīng)網(wǎng)絡(luò)翻譯各種語(yǔ)言。這些模型通常需要大量可在線(xiàn)獲取的數(shù)據(jù)加以訓(xùn)練,但并非所有語(yǔ)言數(shù)據(jù)都是公開(kāi)、低成本或是普遍可及的,這類(lèi)語(yǔ)言被稱(chēng)為低資源語(yǔ)言。一味地增加模型翻譯語(yǔ)言數(shù)量,可能會(huì)影響模型的翻譯質(zhì)量。
此次,Meta的法國(guó)研究團(tuán)隊(duì)和“不落下任何語(yǔ)言”(NLLB)團(tuán)隊(duì)開(kāi)發(fā)了一種跨語(yǔ)言技術(shù),能讓神經(jīng)機(jī)器翻譯模型學(xué)習(xí)如何利用翻譯高資源語(yǔ)言的預(yù)存能力,實(shí)現(xiàn)對(duì)低資源語(yǔ)言的翻譯。研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)在線(xiàn)多語(yǔ)言翻譯工具,名為“NLLB-200”。該工具能容納200種語(yǔ)言,其低資源語(yǔ)言數(shù)量是高資源語(yǔ)言數(shù)量的3倍,翻譯表現(xiàn)則比當(dāng)今已有系統(tǒng)高44%。
由于團(tuán)隊(duì)在許多低資源語(yǔ)言上只能獲取1000—2000例樣本,為了擴(kuò)大“NLLB-200”的訓(xùn)練數(shù)據(jù)量,他們用一個(gè)語(yǔ)言識(shí)別系統(tǒng)發(fā)現(xiàn)了這些特定語(yǔ)言的更多實(shí)例。團(tuán)隊(duì)還從互聯(lián)網(wǎng)存檔中挖掘雙語(yǔ)文本數(shù)據(jù),幫助提升其翻譯質(zhì)量。
研究團(tuán)隊(duì)指出,這個(gè)工具可以幫助很少被翻譯的那些語(yǔ)言的使用者,讓他們也能用上互聯(lián)網(wǎng)和其他技術(shù)。此外,教育是一個(gè)非常重要的應(yīng)用,因?yàn)檫@個(gè)模型可以幫助低資源語(yǔ)言使用者獲取更多圖書(shū)和研究文章。但團(tuán)隊(duì)也表示,目前誤譯的情況仍有可能出現(xiàn)。