Meta為AR/VR宣布實時語音語言翻譯計劃:基于AI的通用語言翻譯器
查看引用/信息源請點擊:映維網Nweon
“用任何語言來與任何人交流的能力是一種夢寐以求的超能力,而人工智能將在我們的有生之年實現這一點?!?/p>
(映維網Nweon?2022年02月24日)Facebook、Instagram、WhatsApp和VR社交平臺Horizon的母公司Meta日前宣布了一個雄心勃勃的全新AI研究項目:創(chuàng)建一個適用于“世界每個人”的通用語言翻譯器。Meta首席執(zhí)行官馬克·扎克伯格表示:“用任何語言來與任何人交流的能力是一種夢寐以求的超能力,而人工智能將在我們的有生之年實現這一點?!?/p>
Meta日前舉辦了一個名為“Meta AI: Inside the Lab”的人工智能實驗室揭秘活動。除了演示人工智能團隊所取得的最新突破外,Meta同時希望進一步說明人工智能將如何賦能公司的元宇宙未來。
對于前述的通用語言翻譯器計劃,Meta撰文進行了詳細的介紹,下面是映維網的具體整理:

對于母語為英文、中文或西班牙文等的不同人士,今天的應用程序和網絡工具似乎已經提供了我們所需要的翻譯技術。但目前依然數十億人排除在外,他們無法輕松訪問互聯網的信息,同時無法用母語與大多數網絡世界聯系。今天的機器翻譯(Machine Translation;MT)系統(tǒng)正在迅速進化,但它們嚴重依賴于從大量文本數據中學習,所以通常不適用于低資源語言(即缺乏訓練數據的語言),以及沒有標準化寫作系統(tǒng)的語言。
消除語言障礙將是一項意義深遠的工作:它將能幫助數十億人以自己的母語或首選語言獲取網絡海洋的信息。機器翻譯的進步不僅會幫助不懂當今主導互聯網的語言的人士,它們將從根本上改變人們聯系和分享想法的方式。
請想象一下,操著不同語言的人士能夠通過電話、手表或眼鏡實時相互交流,或者能夠自由以自己喜歡的語言訪問網絡的多媒體內容。在不久的將來,當虛擬現實和增強現實等新興技術將數字世界和物理世界結合在一起時,翻譯工具將能幫助你與任何人交流,并在任何地方進行日?;顒?,例如舉辦讀書俱樂部或合作開展工作項目等等。
所以,Meta AI日前宣布了一項旨在構建支持世界大多數語言的機器翻譯工具的長期努力。這包括兩個新項目:
第一個是No Language Left Behind(不落下任何語言)。團隊正在構建一個可以從較少示例語言中學習的全新高級人工智能模型,并將其用于實現數百種語言的專家級翻譯,例如阿斯圖里安語,盧甘達語和烏爾都語。
第二個是Universal Speech Translator(通用語言翻譯)。團隊正在設計新的方法來實時將一種語言的語音翻譯成另一種語言,從而支持沒有標準書寫系統(tǒng)的語言,以及既有書面語言又有口頭語言的語言。
要為全世界所有人提供真正通用的翻譯工具需要大量的努力。但Meta認為,這里描述的一切是向前邁出的重要一步。團隊進一步指出,未來將分享開源相關的代碼和模型細節(jié)。通過借助社區(qū)的力量,我們將能更接近實現這一重要目標。
1. 翻譯每一種語言的挑戰(zhàn)
當今的人工智能翻譯系統(tǒng)并不是為了服務于世界各地使用的數千種語言,同時不是為了提供實時的語音到語音翻譯。為了真正服務于每一個人,機器翻譯研究業(yè)界需要克服三個重要挑戰(zhàn):
我們需要獲取更多語言的更多訓練數據,并找到利用現有數據的新方法,從而克服數據匱乏的問題。
我們需要克服隨著模型向服務更多語言的方向發(fā)展而出現的建模挑戰(zhàn)。
我們需要找到新的方法來評估和改進結果。

數據匱乏依然是跨更多語言擴展翻譯工具的最大障礙之一。文本翻譯的機器翻譯系統(tǒng)通常依賴于從數百萬個句子的注釋數據中學習。所以,能夠進行高質量翻譯的機器翻譯系統(tǒng)目前只為少數主導網絡的語言開發(fā)。擴展到其他語言意味著為缺少網絡存在感的語言尋找一種獲取和使用訓練示例的方法。
對于直接的語音到語音翻譯,獲取數據的挑戰(zhàn)更為嚴峻。大多數語音機器翻譯系統(tǒng)使用文本作為中間步驟,這意味著語音首先轉換為文本,然后翻譯為目標語言中的文本,最后再將其輸入到文本到語音系統(tǒng)以生成音頻。所以語音對語音的翻譯依賴于文本,從而限制了其效率,使其難以擴展到主要是口語的語言。
直接語音到語音翻譯模型可以為沒有標準化寫作系統(tǒng)的語言進行翻譯。這種基于語音的方法可以帶來更快速、更高效的翻譯系統(tǒng),因為它們不需要額外的步驟。
除了需要數千種語言的合適訓練數據外,今天的機器翻譯系統(tǒng)設計根本不能滿足全球所有人的需求。大多數機器翻譯系統(tǒng)都是雙語,這意味著每個語言對都是一個單獨的模式,例如日英語-俄語或日語-西班牙語。這種方法很難擴展到幾十個語言對,更不用說全世界范圍內的所有語言。想象一下,從泰語言,老撾語,再到尼泊爾語,每種組合都需要創(chuàng)建和維護數千種不同的模型。
一系列的專家建議多語言系統(tǒng)會有所幫助。但要將多種語言整合到一個高效、高性能、能夠代表所有語言的多語言模型中非常困難。
實時語音對語音機器翻譯模型面臨一系列與基于文本的模型相同的挑戰(zhàn),并且需要克服延遲問題,然后才能有效地用于實現實時翻譯。
主要的挑戰(zhàn)基于這樣一個事實:一個句子可以在不同的語言中以不同的語序表達。即便是專業(yè)的同聲傳譯員都會落后于原始演講約三秒中。例如,德語“Ich m?chte alle Sprachen übersetzen”和對等的西班牙語“Quisiera traducir todos los idiomas”。兩者的英文都是“I would like to translate all languages(我想翻譯所有的語言)?!毕噍^于西班牙語和英語(詞序相似),從德語到英語的實時翻譯將更具挑戰(zhàn)性,因為對應于英語動詞“translate(翻譯)”的德語動詞“übersetzen(翻譯)”出現在句子的末尾。
最后,隨著擴展到越來越多的語言,我們需要開發(fā)新的方法來評估機器翻譯模型產生的結果。業(yè)界已經有資源來評估從英語到俄語的翻譯質量,但從阿姆哈拉語到哈薩克語呢?
隨著我們擴大機器翻譯模型可以翻譯的語言數量,我們同時必須開發(fā)新的方法來訓練數據和測量結果。除了評估機器翻譯系統(tǒng)的準確性外,確保負責人地翻譯負責任同樣重要。我們需要確保機器翻譯系統(tǒng)保持文化敏感性,不制造或加劇偏見。
2. 訓練低資源和直接語音翻譯系統(tǒng)
為了實現低資源語言的翻譯,并為未來更多語言的翻譯創(chuàng)建構建模塊,Meta正在擴展自動數據集創(chuàng)建技術。其中一種技術是開源工具包LASER,它現在包含了用28種不同腳本編寫的125多種語言。
LASER可以將各種語言的句子轉換成單一的多語言表達。然后,團隊使用大規(guī)模多語言相似性搜索來識別具有相似表示的句子,即在不同語言中可能具有相同含義的句子。Meta已經利用LASET開發(fā)了在互聯網中尋找平行文本的ccMatrix和ccAligned。由于低資源語言幾乎沒有可用的數據,團隊創(chuàng)建了一種新的teacher-student訓練方法,以便LASER能夠專注于特定的語言亞組,并用更小的數據集進行學習。這使得LASER能夠跨語言大規(guī)模有效運行。隨著團隊不斷改進和擴展語言,并最終支持每種具有書寫系統(tǒng)的語言,任何進步都將能幫助我們覆蓋更多的語言。
Meta最近已經將LASER擴展成支持語音。:通過在同一個多語言空間中構建語音和文本的表示,其能夠在一種語言的語音和另一種語言的文本之間提取翻譯,甚至可以直接進行語音到語音的翻譯。通過這種方法,團隊已經識別了近1400小時的法語、德語、西班牙語和英語對齊語音。
文本數據非常重要,但不足以構建滿足所有人需求的翻譯工具。語音翻譯基準數據以前可用于少數幾種語言,所以團隊創(chuàng)建了:
CoVoST 2:涵蓋22種語言和36個不同資源條件的語言方向
VoxPopuli:包含23種語言的40萬小時語音,可用于語音識別和語音翻譯等語音應用的大規(guī)模半監(jiān)督和自監(jiān)督學習。
3. 構建跨多種語言和不同模式的模型
除了為機器翻譯系統(tǒng)的訓練提供更多數據,并將其提供給其他研究人員之外,Meta同時在努力提高模型的能力,從而能夠處理更廣泛語言之間的翻譯。如今,機器翻譯系統(tǒng)通常在單一模態(tài)中工作。如果模型太小,無法代表多種語言,其性能可能會受到影響,從而導致文本和語音翻譯的不準確。建模方面的創(chuàng)新將幫助我們創(chuàng)造這樣一個未來:翻譯將能快速、無縫地支持多種語言的不同模式,例如語音到文本,文本到語音,文本到文本或語音到語音。
為了提高機器翻譯模型的性能,Meta投入巨資創(chuàng)建了能夠在大容量情況下高效訓練的模型。為了將基于文本的機器翻譯擴展到101種語言,團隊創(chuàng)建了第一個非以英語為中心的多語言文本翻譯系統(tǒng)。
雙語系統(tǒng)通常是先從源語言翻譯成英語,然后再從英語翻譯成目標語言。為了令系統(tǒng)更高效、更高質量,團隊取消了英語作為媒介,這樣語言就可以直接翻譯成其他語言,無需通過英語。當然,盡管消除英語提高了模型的容量,但多語言模型無法達到定制雙語系統(tǒng)的質量水平。然而,隨著性能的提升,Meta的多語言翻譯系統(tǒng)贏得了Workshop on Machine Translation competition,甚至超過最好的雙語模特。
Meta的目標是提高技術的包容性:它應該支持書面語言和沒有標準書寫系統(tǒng)的語言??紤]到這一點,團隊正在開發(fā)一個語音到語音,不依賴于在推理過程中生成中間文本表示的翻譯系統(tǒng)。這種方法已證明比傳統(tǒng)的級聯系統(tǒng)更快。憑借更高的效率和更簡單的架構,直接語音翻譯可以為未來的設備開啟實時翻譯。最后,為了創(chuàng)建能夠保留每個人講話中的表達能力和特點的口語翻譯,團隊正在努力在生成的音頻翻譯中包括輸入音頻的特定方面,例如語調。
4. 衡量數百種語言的成功
開發(fā)能夠在多種語言之間轉換的模型帶來了一個重要的問題:如何確定是否開發(fā)出了一個更好的模型呢?評估一個大規(guī)模、多語言模型的性能是一件棘手的事情,尤其是因為它要求我們具備模型所涵蓋的所有語言的專業(yè)知識。這是一項耗時、資源密集且往往不切實際的挑戰(zhàn)。
針對這一點,Meta開發(fā)了第一個涵蓋101種語言的多語言翻譯評估數據集 FLORES-101,以便研究人員能夠快速測試和改進多語言翻譯模型。與現有的數據集不同,FLORES-101允許研究人員通過任何語言方向量化系統(tǒng)的性能,不僅僅只是翻譯成英語和從英語翻譯成其他語言。對于操著幾十種官方語言的全球范圍而言,這將能夠創(chuàng)建滿足重要現實世界需求的翻譯系統(tǒng)。
利用FLORES-101,Meta正在與人工智能研究業(yè)界合作,并期待著繼續(xù)將FLORES擴展到數百種語言。
Meta進一步指出,未來將致力于負責任地開展這項工作。團隊正在與語言學家合作,以理解創(chuàng)造準確數據集所面臨的挑戰(zhàn)。團隊同時與評估人員網絡合作,以確保翻譯的準確性。這家公司表示,實現長期的翻譯目標不僅需要人工智能方面的專業(yè)知識,同時需要來自世界各地的眾多專家、研究人員和個人的持續(xù)投入。
5. 未來
如果No Language Left Behind(不落下任何語言)和Universal Speech Translator能夠成功,再加上機器翻譯研究業(yè)界的努力,這將能以前所未有的方式融合數字世界和物理世界。
Meta最后總結道:“在我們努力建設一個更包容、更互聯的世界時,更重要的是要打破現有的信息和機會障礙,允許人們能夠使用自己所選擇的語言?!?/p>
---
原文鏈接:https://news.nweon.com/94725