Facebook開源新AI語言模型,“可對100種語言實現(xiàn)一對一翻譯”
原創(chuàng)
2020-10-21 13:08:12
來源:釘科技??
根據(jù)《siliconangle》消息:Facebook表示其利用AI技術在不依賴英語數(shù)據(jù)的情況下翻譯任意兩種語言的嘗試,已經取得了實質性進展。Facebook正在開源一種名為M2M-100的新AI語言模型,該模型可以在100種語言中的任何一對之間進行翻譯。
據(jù)稱,以前的多語言模型嚴重依賴英語作為中介,例如,中文譯成法文的步驟通常是從中文譯成英文,然后再從英文譯成法文。在大多數(shù)情況下,這種模型都可以很好地工作,但是在涉及更復雜的句子和短語時通常不準確。
Facebook表示,M2M-100可以直接從中文翻譯成法語,或者在100多種語言對之間進行翻譯,從而更好地保留含義,而無需使用英語作為中介。
在這么多不同的語言對之間進行翻譯不是一件容易的事,因為模型需要訪問海量的高質量訓練數(shù)據(jù)。Facebook人工智能研究員Angela Fan在一篇博客文章中解釋了她和她的團隊如何著手創(chuàng)建一個龐大的“多對多”數(shù)據(jù)集,其中包含100多種不同語言的超過75億個句子。
這些數(shù)據(jù)根據(jù)諸如語言分類、地理和文化相似性等參數(shù)分為14種不同的語言組。然后,在每個語言組中,F(xiàn)acebook為每個語言標識一到三種“過渡語言”,作為將其翻譯成不同語言的基礎。
M2M-100模型比Facebook當前使用的以英語為中心的多語言模型準確度更高。該公司聲稱,M2M -100在評估機器翻譯的BLEU度量標準上比之前模型高出“10分”。
Facebook最終希望用M2M-100替換之前的翻譯模型,以提高其翻譯質量。(釘科技根據(jù)《siliconangle》消息編譯)
原創(chuàng)文章
最新文章
商務合作
- QQ:61149512