機(jī)器翻譯科普 | 如何評(píng)估機(jī)器翻譯和譯后編輯質(zhì)量?
本文來自RWS對(duì)高級(jí)解決方案架構(gòu)師Miklós Urbán的采訪。
一、機(jī)器翻譯質(zhì)量自動(dòng)評(píng)估指標(biāo)
對(duì)機(jī)器翻譯進(jìn)行質(zhì)量評(píng)估是提高機(jī)器翻譯質(zhì)量的關(guān)鍵。但是,衡量機(jī)器翻譯(MT)質(zhì)量的最佳指標(biāo)是什么呢?
? ? ? ? 衡量機(jī)器翻譯(MT)質(zhì)量的方法有兩種類型:人工評(píng)估和自動(dòng)評(píng)估。人工綜合評(píng)估往往是最有效的解決方案,但也主觀性強(qiáng)、耗時(shí)長、花費(fèi)高昂。因此,行業(yè)學(xué)者引入了標(biāo)準(zhǔn)的、自動(dòng)的指標(biāo)來衡量 MT 的表現(xiàn)。許多研究表明,這些指標(biāo)產(chǎn)出的結(jié)果甚至能和人工評(píng)估相差無幾。
? ? ? ??隨著神經(jīng)機(jī)器翻譯(NMT)的出現(xiàn),對(duì)數(shù)據(jù)驅(qū)動(dòng)的 MT 質(zhì)量量化方法的需求不斷增長。NMT 的輸出特性明顯不同于統(tǒng)計(jì)機(jī)器翻譯(SMT),因此研究人員正在尋找新的指標(biāo),以便更可靠地評(píng)估神經(jīng)機(jī)器翻譯的質(zhì)量。
指標(biāo)一:BLEU
? ? ? ??BLEU 評(píng)分是業(yè)內(nèi)第一個(gè)常用的評(píng)估指標(biāo),其原理是比較機(jī)器翻譯和人工翻譯。假設(shè)一個(gè)文檔由人工翻譯一次,由機(jī)器翻譯一次,BLEU的值為同時(shí)出現(xiàn)在機(jī)器翻譯和人工翻譯中的單詞的比例。
? ? ? ??BLEU在10到15年前普及時(shí),人們都認(rèn)為這種方法和人工的質(zhì)量評(píng)估最為相似。該方法廣為應(yīng)用,盡管有著眾所周知的局限性。例如,它不能很好地處理同義詞或語法上的單詞變化,而且也非常不平衡,因?yàn)橹贿M(jìn)行從機(jī)器翻譯到人工翻譯一個(gè)方向的比較。
指標(biāo)二:METEOR
? ? ? ??METEOR 的算法更加細(xì)致,因?yàn)樗粌H雙向比較了機(jī)器翻譯和人工翻譯,而且還考慮到了語言語法等因素。與BLEU不同, METEOR考慮到了語言的變化性。在英語中,ride 或 riding 在BLEU方法中算作不同的詞,但在 METEOR 中它們算作同一個(gè)單詞,因?yàn)樵~根相同。
二、譯后編輯質(zhì)量自動(dòng)評(píng)估指標(biāo)
? ? ? ??評(píng)估譯后編輯的重要部分是比較機(jī)器翻譯譯文和譯后編輯譯文的差異,用的指標(biāo)是改動(dòng)的數(shù)量,其中改動(dòng)包括刪減、替換和增加單詞。通過一個(gè)公式,計(jì)算改動(dòng)的數(shù)量,并給出一個(gè)數(shù)值結(jié)果。
那么,常用的評(píng)估譯后編輯手段有哪些呢?
Levenshtein Distance 算法(編輯距離算法)
? ? ? ??Levenshtein Distance 算法(編輯距離算法)可計(jì)算機(jī)器翻譯譯文和譯后編輯譯文的差別。舉個(gè)例子,如果機(jī)器翻譯輸出是“the cat is barking”,譯后編輯將其修改為“the dog is barking”。那么差異值是6,因?yàn)閺摹癱at”改到“dog”,刪掉了3個(gè)字母、增加了3個(gè)字母,然后用整個(gè)部分的字母數(shù)除以6,得到一個(gè)百分比的結(jié)果。
TER (Translation Edit Rate)
? ? ? ??TER方法與“編輯距離算法”的不同在于,“編輯距離算法”計(jì)算字符級(jí)別的變化數(shù)量(即字符的增刪、替換),而TER方法基于編輯的次數(shù)、而非基于字符變化的數(shù)量,計(jì)算譯文變化的類型。
? ? ? ??在“the cat is barking”與“the dog is barking”的例子中,“編輯距離算法”既計(jì)算了被刪的3個(gè)字符,也計(jì)入了增加的3個(gè)字符;而TER只識(shí)別出一處替換:也就是一個(gè)字符串被另一個(gè)字符串替換,這個(gè)字符串有三個(gè)長度。因此,它計(jì)入一次長度為三個(gè)字符的編輯。
? ? ? ??因此, 在實(shí)際上只進(jìn)行了一次長編輯的情況下,Levenshtein 實(shí)際上可能高估譯后編輯的幅度——例如,如果你在長句的各處替換一兩個(gè)字符,Levenshtein 不能分辨出這種編輯與重寫整個(gè)句子之間的差異。在這種情況下, TER 更可靠,因?yàn)樗倪壿嫺蠈?shí)際的譯后編輯。
三、機(jī)器翻譯的質(zhì)量評(píng)估:人工評(píng)估還是自動(dòng)評(píng)估?
? ? ? ??自動(dòng)化評(píng)估的目的是模仿人工評(píng)估的結(jié)果。但最終,自動(dòng)化評(píng)估只能顯示機(jī)器翻譯與人工翻譯或編輯后翻譯之間差異的百分比。
? ? ? ??相反,人工評(píng)估可以更加精細(xì),人類可以給出更詳細(xì)的機(jī)器翻譯質(zhì)量概述。我們通常使用 TAUS DQF 基準(zhǔn)來指導(dǎo)人工評(píng)估,在此過程中,我們可以更好地了解語言質(zhì)量的不同方面,比如準(zhǔn)確性(信息傳遞的好壞)和流暢性(拼寫和語法),而自動(dòng)化度量返回的單個(gè)數(shù)字更容易準(zhǔn)確性高。
? ? ? ??流暢度更難衡量,因?yàn)檎Z言的流暢度是主觀的。但是,我們可以通過開發(fā)自動(dòng)化的指標(biāo),檢測同時(shí)出現(xiàn)的單詞詞組,即n-grams (其中“ n ”代表連續(xù)出現(xiàn)的單詞的數(shù)量)。理論上, 機(jī)器翻譯和人類翻譯中出現(xiàn)的相同詞序的詞組越長,機(jī)器翻譯譯文就越流暢。
內(nèi)容來源:翻譯技術(shù)沙龍公眾號(hào)
本文轉(zhuǎn)載自:機(jī)器翻譯觀察公眾號(hào)
編輯:丁羽翔

關(guān)注微信公眾號(hào)“語言服務(wù)行業(yè)”,了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~