【AI雜談】怎么刷榜最快呢？在測試集上訓練吧?。甓茸罴驯LM論文）

2023-11-09 19:06 作者:花師小哲-中二 0人讀過 | 我要投稿

之前在動態(tài)提了一下，我個人決定將以下論文列入年度最佳LLM相關(guān)論文：

于是這里來簡單雜談一下這篇論文。

其實這一篇論文基本是貼臉嘲諷了，主要嘲諷對象是phi-1.5，畢竟本文的模型名字是“phi-CTNL”也就是phi-虛構(gòu)啦。

那就來介紹下phi：

早些時候，微軟發(fā)布了如上的論文，這就是phi-1，這篇論文是說，如果我們有教科書級別的數(shù)據(jù)的話就能讓小模型獲得很好的能力。這篇文章問題倒不大，畢竟相關(guān)研究也是很多了。

之后，微軟的后續(xù)研究出爐了，也就是phi-1.5：

phi-1.5基本上是延續(xù)了phi的研究，只不過研究領(lǐng)域有所不同（代碼任務(wù)到自然語言推理任務(wù)）。然而，這篇論文被爆出沒做好數(shù)據(jù)泄露的處理，也就是說，人們懷疑在phi-1.5的訓練集中存在一些數(shù)據(jù)集的測試集的內(nèi)容。表現(xiàn)有很多，經(jīng)典的就是數(shù)學題換一個數(shù)字phi-1.5就做不對了。

當然，我們不能說phi-1.5就是有意這樣做的，很可能是因為自己沒做數(shù)據(jù)檢查而已。

當然，情況不只是這一個模型有的，實際上，不少刷榜的模型或多或少都面臨著數(shù)據(jù)泄露、用測試集來訓練的情況，基本上也算是業(yè)界的公開的秘密了。

即使是剛?cè)腴T機器學習的朋友也應(yīng)該清楚，我們一般都是在訓練集上訓練模型，然后驗證集是自己測自己的模型性能的，而測試集模擬的是真實的、沒見過的數(shù)據(jù)，拿測試集做訓練可是大忌。（不然你學了1+1=2，我再問你1+1等于幾，有什么意義呢）

但是我們看到，大模型時代似乎不是這樣的，因為大模型需要大量的數(shù)據(jù)訓練，但是不需要數(shù)據(jù)標注，所以基本都是互聯(lián)網(wǎng)大量爬取數(shù)據(jù)，難免就有測試集，甚至整個數(shù)據(jù)集被爬下來拿去訓練了，并且因為訓練數(shù)據(jù)量過于龐大，幾乎很難一個個排查，所以基本上也就這樣了。所以現(xiàn)在很多大模型的測試數(shù)據(jù)都是想盡辦法找出現(xiàn)在大模型訓練集中概率更小的數(shù)據(jù)，例如什么小地方的考試試題、最近的wiki內(nèi)容等。

所以還是提醒大家，不要只盯著榜單分數(shù)看，里面水分還是很大的。

標簽：

【AI雜談】怎么刷榜最快呢？在測試集上訓練吧！（年度最佳爆笑LLM論文）的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

【AI雜談】怎么刷榜最快呢？在測試集上訓練吧?。甓茸罴驯LM論文）

【AI雜談】怎么刷榜最快呢？在測試集上訓練吧！（年度最佳爆笑LLM論文）的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

【AI雜談】怎么刷榜最快呢？在測試集上訓練吧?。甓茸罴驯LM論文）

本文作者的其他文章

【AI雜談】怎么刷榜最快呢？在測試集上訓練吧！（年度最佳爆笑LLM論文）的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【AI雜談】怎么刷榜最快呢？在測試集上訓練吧?。甓茸罴驯LM論文）

【AI雜談】怎么刷榜最快呢？在測試集上訓練吧！（年度最佳爆笑LLM論文）的評論 (共條)