五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網 會員登陸 & 注冊

技術前沿 | 自動配音或將成為現(xiàn)實?

2022-04-23 23:31 作者:翻譯技術點津  | 我要投稿

以下文章來源于海上技客?,作者Nini

你喜歡刷抖音嗎?

你知道嗎?

抖音里面很多的配音

其實都不是人工配音的噢

神經配音技術使得短視頻自動配音成為可能~

一起來看看吧!



? ? ? ? 當前,字節(jié)跳動正探索語音本地化。2021年10月,一篇名為《神經配音:根據腳本為無聲視頻配音》的論文探討了通過機器合成的人類語言是否可以具備“專業(yè)配音演員的配音能力”。

圖片


? ? ? ? ?作者寫道:“配音演員能夠充分利用韻律進行配音,如重音、語調和節(jié)奏,這樣一來,他們的配音與預先錄制的視頻就能達到同步?!闭f到自動視頻配音(AVD),合成語音需要與腳本和唇動保持一致。
? ? ? ? 語音合成(TTS)與自動視頻配音都是為了生成可理解的語音,但只靠語音合成不足以達成目標,因為語音合成只使用文本作為輸入,不太可能與視頻完全同步。

圖片

? ? ? ?另一方面,神經配音使用基于圖像的揚聲器嵌入模塊,允許它產生與揚聲器面部特征(例如性別、年齡)一致的語音。
? ? ? ?作者說,自動視頻配音最具挑戰(zhàn)性的部分是對齊原始視頻中的視頻幀和音素。神經配音員的文本視頻對齊器允許同步語音以適當?shù)乃俣群颓榫w與視頻中的唇動相結合。

圖片


? ? ? ?接著,作者更明確地證明了神經配音器能夠根據輸入的面部圖像控制音色。研究人員為12名男性和12名女性各挑選了10張圖像,每張圖像中的細節(jié)略有不同(例如頭部姿勢、光照、妝容等)。首先使用一個預先設定好的語音編碼器,將音頻對應的講話者嵌入可視化,從語音編碼器中導出音頻中的語音特征。
? ? ? ?結果顯示,由同一講話者的圖像生成的語料形成了一個密集的集群,而代表每位講話者的集群是相互分離的。此外,不同性別講話者的面部圖像合成的語音之間存在明顯差異(如下圖所示)。結論便是,神經配音器可以利用面部圖像來改變生成的語音的音色。

圖片
講話者嵌入可視化(左上、右下分別為12名男性、12名女性所得結果)


? ? ? ? 字節(jié)跳動旗下火山翻譯產品經理劉堅在同濟大學講座中表示,現(xiàn)階段影視行業(yè)尋找相似音色的配音員存在一定難度,而字節(jié)跳動通過外語音色模擬、肖像風格遷移,已經能夠實現(xiàn)輸出后的譯后視頻保留人物的音色特征,且口型與目標語言匹配,營造出自然的影片效果。
? ? ? ?神經配音器無疑與上述音色模擬、口型修正等功能密切相關,無論是在技術界還是影視界,其發(fā)展意義重大。相信通過多方向探索,神經配音器將得以完善,自動配音或將成為現(xiàn)實。

名詞對照:

TikTok: 抖音

ByteDance: 字節(jié)跳動

Neural Dubber: 神經配音器

Automatic video dubbing (AVD): 自動視頻配音

Text-to-speech (TTS):?語音合成技術

注:本文采用MT+PE模式,原文地址請見原推送

作者?|?Seyma Albarino

機翻引擎 | Google Translate

譯后編輯 | 王雨寧

撰稿排版 | 王雨寧

責任編輯 | 孔德

轉載編輯| 賀文惠、丁羽翔

本文來源于微信公眾號“翻譯技術教育與研究”、微信公眾號“語言服務行業(yè)”,致力于語言服務行業(yè)資訊、洞察、洞見~ 關注我們,了解更多精彩內容~

技術前沿 | 自動配音或將成為現(xiàn)實?的評論 (共 條)

分享到微博請遵守國家法律
惠东县| 泗水县| 石河子市| 芷江| 噶尔县| 滕州市| 内黄县| 宁陵县| 保山市| 石台县| 阳泉市| 年辖:市辖区| 周宁县| 寿阳县| 年辖:市辖区| 新龙县| 安龙县| 九龙县| 炉霍县| 淅川县| 耒阳市| 江西省| 浦江县| 咸宁市| 麻阳| 万源市| 应用必备| 沧州市| 邵东县| 古田县| 霸州市| 美姑县| 镇康县| 什邡市| 宝山区| 绥阳县| 伊通| 宁晋县| 宁远县| 永年县| 淮安市|