五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(4)——多模態(tài)大模型

2023-03-10 16:53 作者:花師小哲-中二  | 我要投稿

據(jù)說GPT-4下周就要出場了,并且OpenAI已經(jīng)在3.8發(fā)布了一篇大炸彈做預(yù)熱了,那么連同這篇文章讓我么來看看最近多模態(tài)大模型有什么新的進展吧。

0.先介紹概念

簡要介紹一下吧,主要是相比于神經(jīng)網(wǎng)絡(luò)前沿,這個欄目(計劃是)更加閑談一些。

首先是大模型,其實很簡單,就是規(guī)模非常大的模型,據(jù)說新的標準下一千億以上的參數(shù)才能稱自己是大語言模型了。

現(xiàn)在最大的模型參數(shù)量應(yīng)該是還不足2T(兩萬億)的,并且超過1T的模型基本都是MoE了,實際運行的參數(shù)還遠沒有那么大。所以之前網(wǎng)傳的GPT-4將有100萬億應(yīng)該是謠言(小導(dǎo)師告訴我們的,我就信了,其實最近相關(guān)論文讀的多了,也覺得不要太可能,主要是一下提升太多,除非真的是什么硬件上的超級黑科技)。

多模態(tài)應(yīng)該是沒跑了,畢竟KOSMOS-1已經(jīng)表明微軟已經(jīng)和OpenAI在微調(diào)一些多模態(tài)大模型了。

多模態(tài)簡單來說就是你既可以輸入文字又可以輸入圖片、視頻啥的。大家知道ChatGPT目前輸入只支持文字,是個比較純正的語言大模型,你不能放張圖片進去問它這是什么動物的。多模態(tài)就是試圖解決這個問題。


上面出現(xiàn)的一些詞匯(MoE、多模態(tài)等)可以在我以往的一些專欄中找到,稍微放幾個鏈接:

【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(18)——多模態(tài)思維鏈戰(zhàn)勝大模型?

【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(16)——語言模型的其他出路

ok,下面就來介紹幾個多模態(tài)大模型吧。

1.KOSMOS-1

直接就叫自己的模型宇宙1號,可見微軟對這個模型還是比較滿意的。

不過很明顯,這個模型是完全基于大語言模型主體的,實際上它是將其他模態(tài)想辦法轉(zhuǎn)變成能夠適應(yīng)大語言模型輸入的形式的。

或者說,對于KOSMOS-1來說,其實輸入也只是語言,只不過多了一些叫做“圖片”“聲音”這樣的外語罷了?;蛟S正如文章所引用的名言:“The limits of my language means the limits of my world.Ludwig Wittgenstein”(維特根斯坦廚狂喜好吧,就不翻譯了,真有不懂得朋友可以去查,這里就神秘一些[?])

2.PaLM-E

谷歌當然也不會放過這個機會,也推出了PaLM-E,而且看起來甚至更強一些。

畢竟在OpenAI推出1750億的大模型GPT-3之后,谷歌也搞出了5400億的大模型PaLM。PaLM-E其實就是PaLM+220億的ViT(一個視覺大模型)。

可見,PaLM-E是真的做了多模態(tài)融合的,而且參數(shù)量也非常恐怖(5620億)了,不過,主體依然是語言大模型。

除了語言和視覺模態(tài)外,輸入還可以是狀態(tài)模態(tài),這意味著,PaLM-E是可以做機器人控制的,而且可能還是主要“炫技”方向。

對于一個機器人,我們可以通過一條命令(例如“幫我去找到某個抽屜里的一包薯片”)來讓機器人僅僅依靠視覺信息自行完成走路、翻不同的抽屜、識別哪包零食是薯片、取出、送回等一系列操作的。

如果說ChatGPT是一個面向“開放域”問答(就是你可以問它任何領(lǐng)域的問題,不需要局限在例如醫(yī)學(xué)等領(lǐng)域)的AI的話,PaLM-E是可以面向“開放域”決策的(可能這時候很多自媒體就說終結(jié)者來了啥的)。

3.Visual ChatGPT

開篇提到的論文。其實看名字就理解的八九不離十了,沒錯,依然是讓語言模型當絕對C位,其它模態(tài)其實是為了語言模型服務(wù)的。只不過這里的語言模型是ChatGPT而已。

從圖片就更明顯了,ChatGPT的核心其實基本沒動,就是往外加配件(包括Stable Diffusion,還有很多比較平常的工具,例如濾鏡、PS啥的)。關(guān)于大模型使用工具的論文也有介紹過,這里也不多展開:

其實從想法上這個論文其實沒有太創(chuàng)新的地方(當然工程上難度還是有的),不過有ChatGPT熱度加持,還是讓人有興趣研究的。而且好像是微軟亞洲研究院做的,作者好像都是中國人或華人。

這個模型最難的部分當然就是那個prompt manager了,里面還是很復(fù)雜的,即如何協(xié)調(diào)輸入、工具、歷史信息等。畢竟,Visual ChatGPT也是要記住歷史信息的(硬性記住),例如可以對一張圖片做很多不同的處理(加濾鏡等)。你可以認為是個懶人PhotoShop。


那么GPT-4性能究竟會如何呢?沒辦法,繼續(xù)等唄。

【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(4)——多模態(tài)大模型的評論 (共 條)

分享到微博請遵守國家法律
建德市| 江川县| 如皋市| 东山县| 呈贡县| 科技| 同江市| 新郑市| 堆龙德庆县| 页游| 新龙县| 温州市| 永善县| 吉木乃县| 衡水市| 大城县| 武邑县| 方正县| 湾仔区| 佛冈县| 凤山县| 双峰县| 闽清县| 保山市| 晋江市| 台山市| 灵台县| 玉田县| 洪泽县| 南城县| 鹤庆县| 怀柔区| 延寿县| 广饶县| 平江县| 雷山县| 荔波县| 梁河县| 潮州市| 察雅县| 得荣县|