【發(fā)布】LongBench 衡量模型的「長」，更有chatglm2-6B-32k 更新

2023-07-31 19:47 作者:ChatGLM 0人讀過 | 我要投稿

上下文窗口大小是影響模型解決更廣泛問題的重要維度之一。近期包括 ChatGLM2 等在內(nèi)的多個模型都在努力嘗試在保證性能的同時，將模型上下文長度盡可能地拓展，達到千/萬 tokens 級別。

然而，現(xiàn)有的模型評測集長度多數(shù)比較短，僅在百/千 tokens 量級，并不能很好地評測模型的長文本理解能力，尤其是中文的長文本理解能力。

為了解決這一問題，GLM 技術(shù)團隊基于內(nèi)部長期的探索，開發(fā)了專門針對模型長文本理解能力的評測數(shù)據(jù)集 LongBench。

該數(shù)據(jù)集包含了?13 個英文任務(wù)、5個中文任務(wù)和?2 個代碼任務(wù)。多數(shù)任務(wù)的平均長度在5k-15k之間，共包含約4500條測試數(shù)據(jù)。

從主要任務(wù)分類上，LongBench包含單文檔QA、多文檔QA、摘要、Few-shot學(xué)習(xí)、代碼補全和合成任務(wù)等六大類任務(wù) 20?個不同子任務(wù)。

具體來說，LongBench?有以下特點：

雙語：LongBench 能夠針對中、英雙語的長文本進行更全面的評估。

多任務(wù)：LongBench由六大類、二十個不同的任務(wù)組成，覆蓋了單文檔QA、多文檔QA、摘要、Few-shot學(xué)習(xí)、代碼補全和合成任務(wù)等關(guān)鍵的長文本應(yīng)用場景。

自動評測：我們深知模型評測過程中可能產(chǎn)生的高昂成本，尤其是長文本場景下（如人工標注成本或API調(diào)用成本）。因此，我們采用了一種全自動的評測方式，旨在以最低的成本，最有效地衡量和評估模型的長文本理解能力。

利用該評測數(shù)據(jù)集，我們分別對?GPT-3.5-Turbo-16k、Llama2-7B-chat-4k、LongChat-7B-16k、XGen-7B-8k、InternLM-7B-8k、ChatGLM2-6B、ChatGLM2-6B-32k*?等 7 個支持長文本的模型的性能。

其中，ChatGLM2-6B-32K?在 ChatGLM2-6B 的基礎(chǔ)上進一步強化了對于長文本的理解能力，能夠更好的處理最多32K長度的上下文。具體地，我們基于位置插值（Positional Interpolation）的方法對位置編碼進行了更新，并在對話階段使用 32K 的上下文長度訓(xùn)練。?

下載使用：?

- Github：https://github.com/THUDM/ChatGLM2-6B
- HF：https://huggingface.co/THUDM/chatglm2-6b-32k

如下所示：