微軟亞研院提出模型基礎架構RetNet或將成為Transformer有力繼承者

2023-07-26 09:57 作者:AI研習所 0人讀過 | 我要投稿

作為全新的神經網絡架構，RetNet 同時實現了良好的擴展結果、并行訓練、低成本部署和高效推理。這些特性將使 RetNet 有可能成為繼 Transformer 之后大語言模型基礎網絡架構的有力繼承者。實驗數據也顯示，在語言建模任務上：

RetNet 可以達到與 Transformer 相當的困惑度（perplexity）
推理速度達8.4倍
內存占用減少70%
具有良好的擴展性

并且當模型大小大于一定規(guī)模時，RetNet 的表現會優(yōu)于 Transformer。具體詳情，一起來看。解決“不可能三角”Transformer 在大語言模型中的重要性毋庸置疑。無論是 OpenAI 的 GPT 系列，還是谷歌的 PaLM、Meta 的 LLaMA，都是基于 Transformer 打造。但 Transformer 也并非完美無缺：其并行處理機制是以低效推理為代價的，每個步驟的復雜度為 O(N)；Transformer 是內存密集型模型，序列越長，占用的內存越多。在此之前，大家也不是沒想過繼續(xù)改進 Transformer。但主要的幾種研究方向都有些顧此失彼：線性 Attention 可以降低推理成本，但性能較差；循環(huán)神經網絡則無法進行并行訓練。也就是說，這些神經網絡架構面前擺著一個“不可能三角”，三個角代表的分別是：并行訓練、低成本推理和良好的擴展性能。

RetNet 的研究人員想做的，就是化不可能為可能。具體而言，RetNet 在 Transformer 的基礎上，使用多尺度保持（Retention）機制替代了標準的自注意力機制。與標準自注意力機制相比，保持機制有幾大特點：引入位置相關的指數衰減項取代 softmax，簡化了計算，同時使前步的信息以衰減的形式保留下來。引入復數空間表達位置信息，取代絕對或相對位置編碼，容易轉換為遞歸形式。另外，保持機制使用多尺度的衰減率，增加了模型的表達能力，并利用 GroupNorm 的縮放不變性來提高 Retention 層的數值精度。

RetNet 的雙重表示每個 RetNet 塊包含兩個模塊：多尺度保持（MSR）模塊和前饋網絡（FFN）模塊。保持機制支持以三種形式表示序列：

并行
遞歸
分塊遞歸，即并行表示和遞歸表示的混合形式，將輸入序列劃分為塊，在塊內按照并行表示進行計算，在塊間遵循遞歸表示。
其中，并行表示使 RetNet 可以像 Transformer 一樣高效地利用 GPU 進行并行訓練。遞歸表示實現了O(1)的推理復雜度，降低了內存占用和延遲。分塊遞歸則可以更高效地處理長序列。這樣一來，RetNet 就使得“不可能三角”成為可能。以下為 RetNet 與其他基礎架構的對比結果：

在語言建模任務上的實驗結果，進一步證明了 RetNet 的有效性。結果顯示，RetNet 可以達到與 Transformer 相似的困惑度（PPL，評價語言模型好壞的指標，越小越好）。同時，在模型參數為70億、輸入序列長度為8k的情況下，RetNet 的推理速度能達到 Transformer 的8.4倍，內存占用減少70%。在訓練過程中，RetNet 在內存節(jié)省和加速效果方面，也比標準 Transformer+FlashAttention 表現更好，分別達到25-50%和7倍。值得一提的是，RetNet 的推理成本與序列長度無關，推理延遲對批量大小不敏感，允許高吞吐量。

另外，當模型參數規(guī)模大于20億時，RetNet 的表現會優(yōu)于 Transformer。

標簽：人工智能 AI AGI 大模型 AIGC 大模型訓練

我喜歡()

本文作者的其他文章

微軟亞研院提出模型基礎架構RetNet或將成為Transformer有力繼承者的評論 (共條)

分享到微博請遵守國家法律

AI研習所
 發(fā)短消息
 關注TA

你可能也喜歡這些文章

HDT爐石團子版V1.6.2更新（最新版本）
四川創(chuàng)新科技：抖音生活服務夏日生活節(jié)！
中國ISATOIC酸酐行業(yè)競爭態(tài)勢與營銷戰(zhàn)略研究報告2023-2030年
廣州近視眼手術哪個醫(yī)院最權威?排名權威公布!火速收藏!
進口嘉格納家用電器清關流程及手續(xù)
國藥唯一承認的祛斑產品有哪幾個？測評產品為你揭曉！
自由馳騁杭州，暢享租車自駕之旅
高策零基礎命理學
快手醫(yī)療器械醫(yī)用凝膠膏貼敷料怎么報白？需要滿足哪些要求？有什么條件和流程？
深圳不孕不育都要做哪些檢查？-深圳博愛曙光醫(yī)院

最新發(fā)布的文章

農發(fā)行河津市支行做好年終決算工作
農發(fā)行河津市支行持續(xù)加強反洗錢工作管理
農發(fā)行河津市支行扎實做好安保工作
農發(fā)行河津市支行組織開展憲法主題宣傳活動
農發(fā)行河津市支行開展"挺膺擔當，強國復興"主題團日活動
年終總結2023，布局2024，挑一個目標置頂一整年！
12月20日維護結束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時尚 | 時尚趨勢是如何做出來的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報
致命公司多人聯(lián)機mod，漢化游戲下載使用安裝教學！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網下載卡在45%登錄失敗提示2045報錯/戰(zhàn)網一鍵下載注冊教程！

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

微軟亞研院提出模型基礎架構RetNet或將成為Transformer有力繼承者

本文作者的其他文章

微軟亞研院提出模型基礎架構RetNet或將成為Transformer有力繼承者的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

微軟亞研院提出模型基礎架構RetNet或將成為Transformer有力繼承者的評論 (共條)