【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(15)——檢測(cè)文本是否來(lái)源于GPT
這篇專欄我們來(lái)看這篇論文:

這篇也被很多文章介紹過(guò)了,這是檢測(cè)一段文本是否是大語(yǔ)言模型生成的模型。為什么現(xiàn)在才講這一篇呢?主要是這種論文我一般都是直接過(guò)濾掉的(后面會(huì)講為什么),然而機(jī)緣巧合下稍微了解了一下內(nèi)容,感覺(jué)挺有意思的,于是打算講一下。

1.為什么會(huì)過(guò)濾掉這類論文
我們發(fā)現(xiàn),不管是之前的Diffusion還是當(dāng)今的ChatGPT,在它們火爆后很快就會(huì)有一些檢測(cè)程序出現(xiàn)。
如果讓我做一個(gè)簡(jiǎn)單的檢測(cè)程序,我會(huì)怎么做呢?其實(shí)做法非常簡(jiǎn)單,我只要寫(xiě)一個(gè)二分類神經(jīng)網(wǎng)絡(luò)或隨便調(diào)用個(gè)別的什么分類器就可以了,然后收集一些模型生成的內(nèi)容和一些真實(shí)的內(nèi)容,訓(xùn)練一下程序就搞完了。整個(gè)過(guò)程也不需要大模型和大訓(xùn)練,能保證基本有用就行了。這樣的做法非常簡(jiǎn)單,還能蹭到熱度,做這類東西的人當(dāng)然會(huì)多。
所以這類文章往往非常沒(méi)意思。
當(dāng)然,既然講這一篇,那就說(shuō)明這一篇它并不是這樣做的,他甚至不需要額外訓(xùn)練模型,除了一些數(shù)學(xué)運(yùn)算之外,需要做的事情只有一件——用魔法打敗魔法!

2.用魔法打敗魔法
其實(shí)用魔法打敗魔法也算是傳統(tǒng)藝能了。
例如有一個(gè)模型是set transformer。transformer一般是需要位置編碼的,而set transformer想做一個(gè)位置無(wú)關(guān)的transformer,它是怎么做的呢?答案就是使用魔法,沒(méi)錯(cuò),set transformer把transformer們以某種方式拼起來(lái)就做出set transformer了(具體不多透露)。
這篇文章的思想也是這樣,直接用大模型來(lái)檢測(cè)大模型,甚至都不需要微調(diào)和prompt,直接用zero-shot(簡(jiǎn)單來(lái)說(shuō)就是開(kāi)箱即用,不需要任何額外調(diào)教)

3.唬人的概念
這篇文章最唬人的一句話應(yīng)該就是這句了:LLM tends to occupy negative curvature regions of the model's log probability function(大模型傾向于占據(jù)模型的對(duì)數(shù)概率函數(shù)的負(fù)曲率區(qū)域),雖然有配圖,但一上來(lái)確實(shí)不太好理解:

但其實(shí)這句話簡(jiǎn)單來(lái)說(shuō)的話挺low的。我們問(wèn)一個(gè)問(wèn)題讓大模型和人來(lái)分別回答,然后我們要求他們稍微修改答案,就會(huì)發(fā)現(xiàn)大模型修正的答案更有可能比原先的“差”,這個(gè)“差”是通過(guò)對(duì)數(shù)概率來(lái)體現(xiàn)的。
或者說(shuō),大模型在zero-shot的情況下最初給你的回答往往是最好或接近最好的,而真實(shí)的人類不會(huì)這樣,修改答案后答案可能變好也可能變差。
當(dāng)然,由于我一開(kāi)始也不相信就單純這樣,也使用魔法來(lái)檢驗(yàn)一下,為了保證公平,我也用zero-shot,ChatGPT給出的回答如下:



4.模型整體流程
模型整體流程如下:

簡(jiǎn)單來(lái)說(shuō),分為三步:
(1)對(duì)一段文本進(jìn)行隨機(jī)擾動(dòng)(使用T5模型等,T5也是一個(gè)語(yǔ)言模型)
(2)把這段文本和擾動(dòng)后的樣本都扔到一個(gè)大語(yǔ)言模型里。圖中用的是GPT-3,這里需要注意的是,你要檢測(cè)一段文本是否是某個(gè)語(yǔ)言模型生成的,這里就要用對(duì)應(yīng)的模型,這是由于不同模型的對(duì)數(shù)概率區(qū)間是不一樣的。你要檢測(cè)一段文本是否是ChatGPT生成的,那這里就放ChatGPT。
這里用zero-shot應(yīng)該是防止對(duì)數(shù)概率空間發(fā)生變化之類的。
(3)進(jìn)行對(duì)數(shù)概率比較,上面那個(gè)算式,對(duì)于人類來(lái)說(shuō)結(jié)果應(yīng)該很接近0,而大模型結(jié)果一般是較大的正數(shù),說(shuō)明擾動(dòng)后的文本確實(shí)“質(zhì)量”下降了

5.結(jié)語(yǔ)
我這里就不扯別的了(例如什么“斯坦福大學(xué)發(fā)明XXX對(duì)抗ChatGPT”),這種方法的好處是泛化性比較強(qiáng),因?yàn)槭前l(fā)現(xiàn)了一條“規(guī)律”,雖然這個(gè)規(guī)律說(shuō)實(shí)話我個(gè)人感覺(jué)除了唬人外也不驚艷(梯度下降的結(jié)果不就是這樣嗎)就是了。