五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【發(fā)布】LongBench 衡量模型的「長」,更有chatglm2-6B-32k 更新

2023-07-31 19:47 作者:ChatGLM  | 我要投稿


上下文窗口大小是影響模型解決更廣泛問題的重要維度之一。近期包括 ChatGLM2 等在內(nèi)的多個模型都在努力嘗試在保證性能的同時,將模型上下文長度盡可能地拓展,達到千/萬 tokens 級別。

然而,現(xiàn)有的模型評測集長度多數(shù)比較短,僅在百/千 tokens 量級,并不能很好地評測模型的長文本理解能力,尤其是中文的長文本理解能力。

為了解決這一問題,GLM 技術(shù)團隊基于內(nèi)部長期的探索,開發(fā)了專門針對模型長文本理解能力的評測數(shù)據(jù)集 LongBench。

該數(shù)據(jù)集包含了?13 個英文任務(wù)、5個中文任務(wù)和?2 個代碼任務(wù)。多數(shù)任務(wù)的平均長度在5k-15k之間,共包含約4500條測試數(shù)據(jù)。

從主要任務(wù)分類上,LongBench包含單文檔QA、多文檔QA、摘要、Few-shot學(xué)習(xí)、代碼補全和合成任務(wù)等六大類任務(wù) 20?個不同子任務(wù)。

具體來說,LongBench?有以下特點:

雙語:LongBench 能夠針對中、英雙語的長文本進行更全面的評估。

多任務(wù):LongBench由六大類、二十個不同的任務(wù)組成,覆蓋了單文檔QA、多文檔QA、摘要、Few-shot學(xué)習(xí)、代碼補全和合成任務(wù)等關(guān)鍵的長文本應(yīng)用場景。

自動評測:我們深知模型評測過程中可能產(chǎn)生的高昂成本,尤其是長文本場景下(如人工標注成本或API調(diào)用成本)。因此,我們采用了一種全自動的評測方式,旨在以最低的成本,最有效地衡量和評估模型的長文本理解能力。

利用該評測數(shù)據(jù)集,我們分別對?GPT-3.5-Turbo-16k、Llama2-7B-chat-4k、LongChat-7B-16k、XGen-7B-8k、InternLM-7B-8k、ChatGLM2-6B、ChatGLM2-6B-32k*?等 7 個支持長文本的模型的性能。


其中,ChatGLM2-6B-32K?在 ChatGLM2-6B 的基礎(chǔ)上進一步強化了對于長文本的理解能力,能夠更好的處理最多32K長度的上下文。具體地,我們基于位置插值(Positional Interpolation)的方法對位置編碼進行了更新,并在對話階段使用 32K 的上下文長度訓(xùn)練。?


下載使用:?

- Github:https://github.com/THUDM/ChatGLM2-6B
- HF:https://huggingface.co/THUDM/chatglm2-6b-32k

如下所示:

不同長度文本下的能力變化

為了更有針對性地分析模型在不同文本長度下的相對表現(xiàn),下圖展示了模型在不同文本長度區(qū)間上,所有任務(wù)上的平均相對分數(shù)。

我們希望,該數(shù)據(jù)集能夠幫助評估模型在長文本理解方面的表現(xiàn),促進模型的進一步發(fā)展和改進。

更多細節(jié),

- Github:

https://github.com/THUDM/LongBench

- HF:

https://huggingface.co/datasets/THUDM/LongBench

【發(fā)布】LongBench 衡量模型的「長」,更有chatglm2-6B-32k 更新的評論 (共 條)

分享到微博請遵守國家法律
巴马| 华宁县| 库尔勒市| 新邵县| 富川| 南澳县| 日喀则市| 清镇市| 宜春市| 锡林浩特市| 阿图什市| 涡阳县| 临夏市| 梁河县| 博客| 扎兰屯市| 南京市| 大埔县| 久治县| 丰宁| 昌吉市| 麦盖提县| 大石桥市| 翁牛特旗| 汾阳市| 托克逊县| 芷江| 蒙自县| 盈江县| 称多县| 漠河县| 资溪县| 秦安县| 汕尾市| 邵东县| 响水县| 隆安县| 南城县| 金坛市| 娄底市| 伽师县|