語(yǔ)音語(yǔ)言信息處理未來(lái)重要研究問(wèn)題
《語(yǔ)音語(yǔ)言信息處理未來(lái)重要研究問(wèn)題》全文大綱如下:
1. 語(yǔ)義表示和語(yǔ)義計(jì)算模型
2. 面向小樣本和魯棒可解釋的自然語(yǔ)言處理
3. 基于多模態(tài)信息的自然語(yǔ)言處理
4. 交互式、自主學(xué)習(xí)的自然語(yǔ)言處理
5. 類(lèi)腦語(yǔ)言信息處理
6. 復(fù)雜場(chǎng)景下的語(yǔ)音分離與識(shí)別
7. 小數(shù)據(jù)個(gè)性化語(yǔ)音模擬
相關(guān)推薦:語(yǔ)音語(yǔ)言信息處理重要研究進(jìn)展
以下為本文正文內(nèi)容~
引言
從自然語(yǔ)言理解理解概念的提出,到后續(xù)計(jì)算語(yǔ)言學(xué)(computational linguistics, CL)和自然語(yǔ)言處理(natural language processing, NLP)相關(guān)術(shù)語(yǔ)的出現(xiàn),伴隨自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition, ASR)和語(yǔ)音合成(text to speech synthesis, TTS)姊妹技術(shù)的同步發(fā)展,這一被統(tǒng)稱(chēng)為人類(lèi)語(yǔ)言技術(shù)(human language technology, HLT)的學(xué)科方向已經(jīng)走過(guò)了近70年的曲折路程。近年來(lái),從技術(shù)應(yīng)用的角度,以機(jī)器翻譯、人機(jī)對(duì)話(huà)系統(tǒng)、語(yǔ)音識(shí)別和語(yǔ)音合成等為代表的應(yīng)用系統(tǒng)性能快速提升,在人類(lèi)社會(huì)和生活中發(fā)揮了越來(lái)越大的作用。與此同時(shí),如何使相關(guān)技術(shù)表現(xiàn)出更加智慧和優(yōu)越的性能,始終是技術(shù)研發(fā)人員孜孜追求的目標(biāo);從科學(xué)探索的角度,人腦語(yǔ)言理解的神經(jīng)基礎(chǔ)和認(rèn)知機(jī)理是什么?大腦是如何存儲(chǔ)、理解和運(yùn)用復(fù)雜的語(yǔ)言結(jié)構(gòu)、語(yǔ)境和語(yǔ)義表達(dá),并實(shí)現(xiàn)不同語(yǔ)言之間語(yǔ)義、概念關(guān)系對(duì)應(yīng)的?太多的奧秘有待于揭示。
為此,綜合語(yǔ)言信息理解相關(guān)方向的基礎(chǔ)問(wèn)題研究和應(yīng)用技術(shù)研發(fā),同時(shí)考慮文字和語(yǔ)音兩大本質(zhì)屬性的孿生關(guān)系,本報(bào)告提出了語(yǔ)言信息處理未來(lái)研究的7個(gè)重要問(wèn)題:
1. 語(yǔ)義表示和語(yǔ)義計(jì)算模型
這里的語(yǔ)義(semantic)指的是語(yǔ)言所蘊(yùn)含的意義,是語(yǔ)言符號(hào)所對(duì)應(yīng)的現(xiàn)實(shí)世界中的事物所代表的概念的含義,以及這些含義之間的關(guān)系。在自然語(yǔ)言處理中,語(yǔ)義表示研究自然語(yǔ)言中詞匯、短語(yǔ)、句子和篇章的意義表示,是語(yǔ)義計(jì)算和推理的基礎(chǔ)。語(yǔ)義計(jì)算研究詞匯、短語(yǔ)、句子和篇章等各語(yǔ)言單元之間的語(yǔ)義關(guān)系。幾乎所有自然語(yǔ)言處理任務(wù),例如機(jī)器翻譯、自動(dòng)問(wèn)答和人機(jī)對(duì)話(huà)等,都依賴(lài)于對(duì)輸入語(yǔ)言序列的語(yǔ)義表示和計(jì)算。
傳統(tǒng)的離散符號(hào)表示適合自然語(yǔ)言的符號(hào)邏輯推理,而近年來(lái)流行的分布式向量表示更加適合自然語(yǔ)言的計(jì)算機(jī)語(yǔ)義計(jì)算。目前來(lái)看,離散符號(hào)表示與分布式向量表示很難兼容。因此,如何兼顧語(yǔ)義計(jì)算和推理,設(shè)計(jì)高效魯棒的語(yǔ)義表示和計(jì)算模型是自然語(yǔ)言處理的未來(lái)挑戰(zhàn)。
首先,常用的分布式語(yǔ)義表示方法將詞匯、短語(yǔ)、句子和篇章無(wú)差別的表示為維度相同的向量,且各個(gè)維度的含義無(wú)法解釋?zhuān)@種編碼方式無(wú)法捕捉細(xì)粒度的語(yǔ)義差別且與人腦語(yǔ)義表征理論相違背。因此,如何針對(duì)不同類(lèi)型文本構(gòu)造不同形式的、可解釋性的編碼模型對(duì)于提升文本語(yǔ)義表示質(zhì)量是十分必要的。另外,現(xiàn)有的語(yǔ)義表示模型僅利用無(wú)結(jié)構(gòu)的、單一模態(tài)的文本信息而忽略了豐富的世界知識(shí),無(wú)法將不同模態(tài)的世界知識(shí)進(jìn)行關(guān)聯(lián)、對(duì)學(xué)過(guò)的知識(shí)進(jìn)行有效地存儲(chǔ)和檢索。這使得表示模型的訓(xùn)練依賴(lài)大量語(yǔ)料且泛化性能差,因此,未來(lái)工作應(yīng)考慮如何融合多種模態(tài)信息和已有的知識(shí)庫(kù)資源開(kāi)發(fā)更加智能的語(yǔ)義表示模型。還有,目前的語(yǔ)義表示方法局限于利用語(yǔ)義相似度或在下游任務(wù)中的測(cè)試質(zhì)量進(jìn)行評(píng)價(jià),忽略了如文本間的推理關(guān)系、語(yǔ)義類(lèi)別等方面信息,無(wú)法全面地評(píng)估語(yǔ)義表示的質(zhì)量。因此如何合理地評(píng)價(jià)語(yǔ)義表示的質(zhì)量也是需要研究的關(guān)鍵問(wèn)題。
2. 面向小樣本和魯棒可解釋的自然語(yǔ)言處理
基于統(tǒng)計(jì)和深度學(xué)習(xí)的自然語(yǔ)言處理方法都強(qiáng)烈依賴(lài)于大規(guī)模高質(zhì)量的訓(xùn)練數(shù)據(jù),而很多語(yǔ)言或特定應(yīng)用領(lǐng)域中往往沒(méi)有足夠多的訓(xùn)練數(shù)據(jù),這就導(dǎo)致小樣本問(wèn)題。例如,除了漢語(yǔ)和英語(yǔ)等幾種常用語(yǔ)言外,很多語(yǔ)言(例如土耳其語(yǔ)、烏爾都語(yǔ)、達(dá)利語(yǔ)等)的標(biāo)注資源十分匱乏,高質(zhì)量的自然語(yǔ)言理解和機(jī)器翻譯方法成為空中樓閣。另一方面,盡管當(dāng)前基于深度學(xué)習(xí)的自然語(yǔ)言處理方法性能最佳,但魯棒性較差,且缺乏可解釋性。這主要體現(xiàn)在,模型對(duì)輸入的輕微擾動(dòng)可能會(huì)產(chǎn)生截然不同的輸出結(jié)果,對(duì)預(yù)測(cè)結(jié)果無(wú)法解釋、無(wú)法歸因。
不同于其他領(lǐng)域中的小樣本問(wèn)題,自然語(yǔ)言處理中的小樣本問(wèn)題更具挑戰(zhàn)性。以機(jī)器翻譯為例,小樣本體現(xiàn)在雙語(yǔ)對(duì)照的平行句對(duì)很少,從而會(huì)導(dǎo)致測(cè)試時(shí)很多源語(yǔ)言詞匯及其譯文并未在訓(xùn)練數(shù)據(jù)中出現(xiàn)過(guò),即待預(yù)測(cè)的標(biāo)簽空間是也未知的。因此,如何解決小數(shù)據(jù)的自然語(yǔ)言處理任務(wù)是一個(gè)具有挑戰(zhàn)性的熱點(diǎn)研究問(wèn)題。此外,各種實(shí)際應(yīng)用任務(wù),例如金融投資預(yù)測(cè)、法律法規(guī)解讀以及醫(yī)療方案規(guī)劃等,不僅需要準(zhǔn)確的決策,還希望結(jié)果是魯棒的,并且是可歸因的。但是,基于深度學(xué)習(xí)的自然語(yǔ)言處理實(shí)質(zhì)是學(xué)習(xí)一個(gè)非線(xiàn)性映射函數(shù),無(wú)法闡述決策過(guò)程,也就是模型本身就是不可解釋的。所以,魯棒可解釋的自然語(yǔ)言處理模型研究必將成為自然語(yǔ)言處理的核心關(guān)鍵科學(xué)問(wèn)題,它直接決定了自然語(yǔ)言處理在特定領(lǐng)域的實(shí)際應(yīng)用。
3. 基于多模態(tài)信息的自然語(yǔ)言處理
幾十年來(lái)的自然語(yǔ)言處理研究幾乎都是以文本為處理對(duì)象,而文本只是語(yǔ)義表達(dá)的一種方式,也是不完備的一種方式。很多自然語(yǔ)言的語(yǔ)義理解需要結(jié)合語(yǔ)音和圖像等其他模態(tài)的信息,例如英語(yǔ)句子中“bank”可能需要借助圖像是“銀行”還是“河岸”去進(jìn)行理解?;诙嗄B(tài)的自然語(yǔ)言處理旨在以自然語(yǔ)言文本為核心,將與之相關(guān)的語(yǔ)音和視覺(jué)模態(tài)的信息作為輔助知識(shí)進(jìn)行建模,幫助語(yǔ)義的消岐和理解,從而實(shí)現(xiàn)性能更好的自然語(yǔ)言處理模型。
基于多模態(tài)信息的自然語(yǔ)言處理需要解決兩大難題。首先,需要明確哪些自然語(yǔ)言處理任務(wù)需要多模態(tài)信息的幫助。其次,文本、語(yǔ)音和視覺(jué)模態(tài)的信息如何進(jìn)行融合。特別地,還需要明確同源多模態(tài)信息和異源多模態(tài)信息是否應(yīng)該具有相同的語(yǔ)義融合范式。由于人類(lèi)就是在多模態(tài)的環(huán)境下進(jìn)行語(yǔ)言理解,因此,基于多模態(tài)信息的自然語(yǔ)言處理方法必將是未來(lái)該領(lǐng)域研究的一個(gè)重要方向。
4. 交互式、自主學(xué)習(xí)的自然語(yǔ)言處理
目前絕大部分的自然語(yǔ)言處理方法幾乎都是全局的和靜態(tài)的,無(wú)法體現(xiàn)實(shí)時(shí)(在線(xiàn))從錯(cuò)誤和用戶(hù)反饋中學(xué)習(xí)和優(yōu)化過(guò)程,從而模擬人類(lèi)交互學(xué)習(xí)和終身學(xué)習(xí)的智能行為。交互式自然語(yǔ)言處理旨在與用戶(hù)的交互過(guò)程中收集、建模和利用反饋信息,不斷迭代和優(yōu)化自然語(yǔ)言處理模型。在線(xiàn)方法能夠被動(dòng)或主動(dòng)地發(fā)現(xiàn)錯(cuò)誤,并根據(jù)錯(cuò)誤實(shí)現(xiàn)在線(xiàn)學(xué)習(xí)和動(dòng)態(tài)更新機(jī)制,最終建立一套自主學(xué)習(xí)框架。
交互式自然語(yǔ)言處理需要克服三個(gè)難點(diǎn)。首先,需要設(shè)計(jì)一個(gè)自然的交互式環(huán)境和平臺(tái);其次,需要設(shè)計(jì)真實(shí)高效的交互任務(wù);最后,需要建立一個(gè)基于反饋的終身學(xué)習(xí)的自然語(yǔ)言處理模型。可以預(yù)見(jiàn),一個(gè)成熟智能的自然語(yǔ)言處理系統(tǒng)一定是能夠建立人與機(jī)器的生態(tài)閉環(huán),并在與人類(lèi)的交互過(guò)程中逐步得到優(yōu)化的系統(tǒng)。因此,面向在線(xiàn)人機(jī)交互和自主學(xué)習(xí)的自然語(yǔ)言處理方法將會(huì)是一個(gè)未來(lái)的研究趨勢(shì)。
5. 類(lèi)腦語(yǔ)言信息處理
基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在近年來(lái)備受推崇,它在某種意義上的確模擬了人腦的認(rèn)知功能,但是,這種方法只是對(duì)神經(jīng)元結(jié)構(gòu)和信號(hào)傳遞方式給出的形式化數(shù)學(xué)描述,并非是基于人腦的工作機(jī)理建立起來(lái)的數(shù)學(xué)模型,它同樣難以擺脫對(duì)大規(guī)模訓(xùn)練樣本的依賴(lài)性。類(lèi)腦語(yǔ)言信息處理旨在通過(guò)研究大腦的語(yǔ)言認(rèn)知機(jī)理,分析認(rèn)知機(jī)理與文本計(jì)算方法之間的關(guān)聯(lián),最終設(shè)計(jì)語(yǔ)言認(rèn)知啟發(fā)的自然語(yǔ)言處理模型。
目前人們只是在宏觀上大致了解腦區(qū)的劃分和在語(yǔ)言理解過(guò)程中所起的不同作用,但在介觀和微觀層面,語(yǔ)言理解的生物過(guò)程與神經(jīng)元信號(hào)傳遞的關(guān)系,以及信號(hào)與語(yǔ)義、概念和物理世界之間的對(duì)應(yīng)與聯(lián)系等,都是未知的奧秘。如何打通宏觀、介觀和微觀層面的聯(lián)系并給出清晰的解釋?zhuān)瑢⑹俏磥?lái)急需解決的問(wèn)題。從微觀層面進(jìn)一步研究人腦的結(jié)構(gòu),發(fā)現(xiàn)和揭示人腦理解語(yǔ)言的機(jī)理,借鑒或模擬人腦的工作機(jī)理建立形式化的數(shù)學(xué)模型才是最終解決自然語(yǔ)言理解問(wèn)題的根本出路。此外,人腦的語(yǔ)言理解過(guò)程遵循自主學(xué)習(xí)和進(jìn)化機(jī)制,而目前語(yǔ)言信息處理模型仍然采用一次學(xué)習(xí)終身使用的機(jī)制。因此,如何借鑒人腦的語(yǔ)言認(rèn)知與理解機(jī)理設(shè)計(jì)具備自主學(xué)習(xí)和進(jìn)化的自然語(yǔ)言理解模型是通向類(lèi)人智能語(yǔ)言處理的必經(jīng)之路。
6. 復(fù)雜場(chǎng)景下的語(yǔ)音分離與識(shí)別
在真實(shí)場(chǎng)景中,麥克風(fēng)接收到的語(yǔ)音信號(hào)可能同時(shí)包含多個(gè)說(shuō)話(huà)人的聲音以及噪聲、混響和回聲等各種干擾,人類(lèi)的聽(tīng)覺(jué)系統(tǒng)可以很容易地選擇想要關(guān)注的內(nèi)容,但是對(duì)于計(jì)算機(jī)系統(tǒng)來(lái)說(shuō)就顯得十分困難,這就是所謂的雞尾酒會(huì)問(wèn)題。如何有效的提升復(fù)雜信道和強(qiáng)干擾下的語(yǔ)音的音質(zhì),進(jìn)一步探索復(fù)雜場(chǎng)景下的聽(tīng)覺(jué)機(jī)理,對(duì)語(yǔ)音聲學(xué)建模和語(yǔ)音識(shí)別均具有很重要的意義。
此外,重口音、口語(yǔ)化、小語(yǔ)種、多語(yǔ)言等復(fù)雜情況,也對(duì)語(yǔ)音模型的訓(xùn)練帶來(lái)很大挑戰(zhàn),這種復(fù)雜性,使得語(yǔ)音數(shù)據(jù)變得稀疏,現(xiàn)有的方法難以形成泛化能力很強(qiáng)的模型。因此,如何有效解決這些復(fù)雜情況下的語(yǔ)音識(shí)別問(wèn)題依然具有很高的挑戰(zhàn)性和研究?jī)r(jià)值。
7. 小數(shù)據(jù)個(gè)性化語(yǔ)音模擬
盡管目前語(yǔ)音合成技術(shù)在特定數(shù)據(jù)集和限定條件下能合成出逼近真人的語(yǔ)音,但是仍然存在一些問(wèn)題,比如雖然發(fā)音和真人類(lèi)似,但往往發(fā)音風(fēng)格比較單一,且經(jīng)常需要較多的語(yǔ)音數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。在真實(shí)場(chǎng)景中,發(fā)音人說(shuō)話(huà)比較隨意和口語(yǔ)化,且大多數(shù)情況下只能獲取很少量音質(zhì)較低的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)普遍缺乏標(biāo)注,給真實(shí)場(chǎng)景下個(gè)性化語(yǔ)音模擬帶來(lái)很多挑戰(zhàn)。此外,由于個(gè)性化語(yǔ)音數(shù)據(jù)還存在著數(shù)據(jù)稀疏問(wèn)題,阻礙了在稀疏空間下精準(zhǔn)捕捉目標(biāo)說(shuō)話(huà)人的韻律特征和有效構(gòu)建說(shuō)話(huà)人發(fā)音表征,從而很難構(gòu)建出高泛化性和高魯棒性的語(yǔ)音模擬模型。因此,如何有效利用數(shù)量少且音質(zhì)低的語(yǔ)音數(shù)據(jù),獲得高表現(xiàn)力個(gè)性化模擬語(yǔ)音仍然具有較大的挑戰(zhàn)和重要的研究?jī)r(jià)值。
*本文來(lái)自模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室組織發(fā)布的模式識(shí)別學(xué)科發(fā)展報(bào)告,已得到模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室授權(quán)發(fā)布。

更多好文請(qǐng)關(guān)注我們,查看主頁(yè)中發(fā)布的“專(zhuān)欄”~