五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網 會員登陸 & 注冊

【花師小哲】當代煉金術(神經網絡)前沿(26)——語言模型學會了自我反思?

2023-03-27 15:42 作者:花師小哲-中二  | 我要投稿

OK,今天我們來看這篇論文:

內容不會很多,主要是這篇論文寫的也不復雜,就把思想講一講。

1.自我提升

需要注意的是,大模型自我提升其實并不是什么新鮮事,有很多研究的。

例如,思維鏈CoT的一項簡單的研究就單純在輸入后加一句:“讓我們一步步思考吧”就可以提升大模型的性能。其他還有背誦-增強等一眾辦法都可以使得大模型獲得性能提升。

甚至我自己都設想過這樣一種自提升方案(也是超級縫合方案了,縫了Toolformer、先知框架、背誦-增強等):

可惜這個方案被否決了,有興趣的朋友可以嘗試一些,我覺得還挺有意思的。

2.自我反思

自我反思在這里的意思很簡單,即對自己之前的輸出進行再次判斷,看是否在哪一步走到了死胡同中,最后再修正答案。

如果經常玩ChatGPT的朋友應該知道,ChatGPT有時候會非常堅定地支持一個錯誤的信念(特別是做數(shù)學題),而且真的很難除掉。這樣的模型真的可以做到反思嗎?

整體架構如下:

這個架構對于路人朋友來說可能有些復雜,不過熟悉強化學習的朋友應該比較熟悉。簡單來說,我們將大模型當做是強化學習的智能體,將動作、觀察值和獎勵都當做一個函數(shù)的輸入來判斷大模型是否要進行自我反思。其中獎勵模型的輸出是二元的,畢竟在不借助外力(不然就不叫自我反思了,這樣的方式可以說是啟發(fā),并不是做決定,或者說只是給個參考)的情況下就只能這么做了。

如果判斷需要反思,則模型會通過反思模塊進行反思。這個模塊是用錯誤“輸入-輸出對”等進行訓練的,等于說是讓大語言模型“思考”自己之前都怎樣犯過錯誤,這次的回答是否犯了類似的錯誤。

這樣,大模型就在反思中不斷修正答案。

結果證明,還是很有效果的。

3.結語

雖然一些推送說是GPT-4實現(xiàn)了自我反思,但我看論文中所說的還是GPT-3和GPT-3.5。(確實,GPT-4才出來也沒多久,就直接研究上GPT-4確實有些太快了)

另一點是,這篇文章好像是沒有研究是否只有大模型才擁有這種自我反思的能力(看過之前一些專欄的朋友應該知道“涌現(xiàn)”,即只有當模型規(guī)模大到一定程度,一些能力才會出現(xiàn))。

【花師小哲】當代煉金術(神經網絡)前沿(26)——語言模型學會了自我反思?的評論 (共 條)

分享到微博請遵守國家法律
河北省| 阆中市| 韶关市| 开平市| 台安县| 分宜县| 嘉义县| 广安市| 兴仁县| 潼南县| 揭西县| 通山县| 许昌市| 淮滨县| 长丰县| 商都县| 夏河县| 马关县| 湖南省| 内乡县| 武夷山市| 九台市| 东乌| 松潘县| 蒙城县| 博野县| 兴文县| 武威市| 东安县| 大庆市| 呈贡县| 泰顺县| 宾川县| 滁州市| 沙雅县| 会昌县| 泸水县| 敦煌市| 杭州市| 怀集县| 新兴县|