五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(24)——往語言大模型里塞視覺模態(tài)

2023-03-14 10:34 作者:花師小哲-中二  | 我要投稿

GPT-4將是多模態(tài)語言模型似乎已經(jīng)實(shí)錘了,但是大模型是他們的,一般的研究人員又訓(xùn)練不起自己的大模型,只能用著大模型API勉強(qiáng)過活。這種情況下,想要做多模態(tài)似乎只能在大語言模型上修修補(bǔ)補(bǔ)了。下面這篇論文就是一篇比較典型的論文。(其實(shí)是做了梗圖后覺得還是寫寫專欄吧)

1.把其他模態(tài)往大語言模型里塞

現(xiàn)在已經(jīng)有非常多的通過給大語言模型增加配件的方法來使得其具有多模態(tài)能力的嘗試了,具體可見如下鏈接中(包括多模態(tài)一些概念也可以在里面找到):

【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(4)——多模態(tài)大模型

這篇前兩個(gè)都是多模態(tài)大模型,第三個(gè)就是給ChatGPT加配件了。

但不管怎么說,這些方法依然是以大語言模型為主體,對(duì)于大語言模型來說,其他的模態(tài)和東西更像是一種“外語”,換句話說,其實(shí)都像是硬把其他模態(tài)往大語言模型里塞,只是有人塞得好,有人塞得不好一樣。

塞得好不好是很影響性能的,見如下梗圖:

來源:《淪落者之夜》,安利一下

圖中的白發(fā)女孩是盲人。這說明如果我們對(duì)視覺的處理不夠好的話,大語言模型實(shí)際上是完全無法從視覺模態(tài)中獲得有用的信息的。

2.視覺問答

本文研究的問題是視覺問答,大體就是我放入一張照片,然后問模型一些問題。

例如我有一張貓和狗的照片,我可以把照片和問題“在這張圖中,貓?jiān)诠返淖筮呥€是右邊”一起輸入一個(gè)模型中,然后模型會(huì)告訴我“左邊”或者“右邊”。

傳統(tǒng)的方法有很多,例如通過一個(gè)視覺處理模塊,獲得一些知識(shí)或圖片描述,然后可以通過外部知識(shí)庫來進(jìn)行處理。

有了大語言模型之后,很多人就用它直接代替外部知識(shí)庫了。問題就轉(zhuǎn)變成如何將視覺模態(tài)更好的塞進(jìn)大語言模型里了。

圖片描述往往是不夠的,論文中給的一個(gè)例子:

圖中的樹們:我們呢?

對(duì)于這張圖片,視覺處理模塊給出的表述是“一群人走在路上”,這當(dāng)然是堆圖片整體的合理描述,但我要是問那棵樹的品種呢?這種情況下,這個(gè)描述對(duì)于大語言模型就是純粹的干擾了。

3.小模型提示大模型

本文的做法依然是一種改進(jìn)大語言模型prompt的做法。

這里再解釋一下,對(duì)于大語言模型,我們是可以通過給出一些例子等方式來使得模型對(duì)某一問題的處理更好的。例如我們先給出幾段機(jī)器翻譯的例子,再給我們需要翻譯的句子,往往效果會(huì)好很多。簡(jiǎn)單來說,這些輔助文本就是prompt,寫好prompt能夠幫助我們更好地使用大模型。

整體框架

簡(jiǎn)單來說,本文訓(xùn)練了一個(gè)小模型用于處理視覺模態(tài),這個(gè)視覺模態(tài)會(huì)輸出一些可以幫助改進(jìn)prompt的,主要是往prompt里增加示例(和問題相似的一些已知問題)和候選答案,就像是讓大語言模型做選擇題一樣。當(dāng)然,大語言模型也可以不從候選項(xiàng)中選擇答案,而是根據(jù)問題本身進(jìn)行合理推理(雖說是視覺問答,但視覺不總是有用的,甚至可能是干擾項(xiàng))。

作者認(rèn)為這種用小模型提示大模型可以成為一種新的范式

4.討論

可,問題是,這種范式真的有競(jìng)爭(zhēng)力嗎?

再回到文章開頭,之所以會(huì)有這類方式出現(xiàn),是因?yàn)閷?duì)于很多人來說,大模型是訓(xùn)練不起的,手頭能用的硬件就那么多,所以這種做法更像是退而求其次。

多模態(tài)大模型還在蓬勃發(fā)展中,并且已經(jīng)展現(xiàn)出強(qiáng)大的實(shí)力,而這種“小模型提示大模型”范式還是存在對(duì)癥下藥的問題,即對(duì)于具體任務(wù)要設(shè)計(jì)新的小模型。

不管怎么說吧,大模型的發(fā)展在一步步地改變AI的整個(gè)研究范式,未來會(huì)如何發(fā)展依然是不明確的,但只有走下去才能看到未來。


【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(24)——往語言大模型里塞視覺模態(tài)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
惠来县| 甘孜| 通山县| 瓦房店市| 玉山县| 巴东县| 金乡县| 砚山县| 安多县| 济阳县| 泽普县| 枣强县| 郸城县| 富蕴县| 临高县| 体育| 平度市| 丹凤县| 芦溪县| 黄石市| 达州市| 宣武区| 庆安县| 博罗县| 辽宁省| 柘城县| 麻城市| 鄂伦春自治旗| 兴国县| 都安| 怀远县| 澄江县| 平谷区| 秦皇岛市| 五莲县| 胶南市| 佛学| 杨浦区| 南平市| 田东县| 边坝县|