五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【AI雜談】怎么刷榜最快呢?在測試集上訓練吧?。甓茸罴驯LM論文)

2023-11-09 19:06 作者:花師小哲-中二  | 我要投稿

之前在動態(tài)提了一下,我個人決定將以下論文列入年度最佳LLM相關(guān)論文:

于是這里來簡單雜談一下這篇論文。

其實這一篇論文基本是貼臉嘲諷了,主要嘲諷對象是phi-1.5,畢竟本文的模型名字是“phi-CTNL”也就是phi-虛構(gòu)啦。

那就來介紹下phi:

早些時候,微軟發(fā)布了如上的論文,這就是phi-1,這篇論文是說,如果我們有教科書級別的數(shù)據(jù)的話就能讓小模型獲得很好的能力。這篇文章問題倒不大,畢竟相關(guān)研究也是很多了。

之后,微軟的后續(xù)研究出爐了,也就是phi-1.5:

phi-1.5基本上是延續(xù)了phi的研究,只不過研究領(lǐng)域有所不同(代碼任務(wù)到自然語言推理任務(wù))。然而,這篇論文被爆出沒做好數(shù)據(jù)泄露的處理,也就是說,人們懷疑在phi-1.5的訓練集中存在一些數(shù)據(jù)集的測試集的內(nèi)容。表現(xiàn)有很多,經(jīng)典的就是數(shù)學題換一個數(shù)字phi-1.5就做不對了。


當然,我們不能說phi-1.5就是有意這樣做的,很可能是因為自己沒做數(shù)據(jù)檢查而已。


當然,情況不只是這一個模型有的,實際上,不少刷榜的模型或多或少都面臨著數(shù)據(jù)泄露、用測試集來訓練的情況,基本上也算是業(yè)界的公開的秘密了。

即使是剛?cè)腴T機器學習的朋友也應(yīng)該清楚,我們一般都是在訓練集上訓練模型,然后驗證集是自己測自己的模型性能的,而測試集模擬的是真實的、沒見過的數(shù)據(jù),拿測試集做訓練可是大忌。(不然你學了1+1=2,我再問你1+1等于幾,有什么意義呢)

但是我們看到,大模型時代似乎不是這樣的,因為大模型需要大量的數(shù)據(jù)訓練,但是不需要數(shù)據(jù)標注,所以基本都是互聯(lián)網(wǎng)大量爬取數(shù)據(jù),難免就有測試集,甚至整個數(shù)據(jù)集被爬下來拿去訓練了,并且因為訓練數(shù)據(jù)量過于龐大,幾乎很難一個個排查,所以基本上也就這樣了。所以現(xiàn)在很多大模型的測試數(shù)據(jù)都是想盡辦法找出現(xiàn)在大模型訓練集中概率更小的數(shù)據(jù),例如什么小地方的考試試題、最近的wiki內(nèi)容等。

所以還是提醒大家,不要只盯著榜單分數(shù)看,里面水分還是很大的。

【AI雜談】怎么刷榜最快呢?在測試集上訓練吧!(年度最佳爆笑LLM論文)的評論 (共 條)

分享到微博請遵守國家法律
龙游县| 通榆县| 娱乐| 桦南县| 武邑县| 平原县| 台山市| 鄂托克旗| 西青区| 台东县| 肥西县| 同江市| 佛冈县| 上虞市| 石景山区| 历史| 望城县| 林口县| 濮阳县| 正蓝旗| 陕西省| 黎城县| 陇南市| 南澳县| 若尔盖县| 望江县| 皮山县| 隆回县| 河曲县| 安龙县| 安宁市| 大庆市| 丰都县| 正定县| 湖北省| 桑日县| 铁岭市| 固始县| 腾冲县| 景东| 无锡市|