五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

TRL 正式推出,來訓練你的首個 RLHF 模型吧!

2023-08-10 23:35 作者:HuggingFace  | 我要投稿


正式向大家介紹 TRL——Transformer Reinforcement Learning。這是一個超全面的全棧庫,包含了一整套工具用于使用強化學習 (Reinforcement Learning) 訓練 transformer 語言模型。從監(jiān)督調(diào)優(yōu) (Supervised Fine-tuning step, SFT),到訓練獎勵模型 (Reward Modeling),再到近端策略優(yōu)化 (Proximal Policy Optimization),實現(xiàn)了全面覆蓋!并且 TRL 庫已經(jīng)與 ?? transformers 集成,方便你直接使用!

?? 文檔地址在這里 https://hf.co/docs/trl/

小編帶大家簡單看看 API 文檔里各個部分對應(yīng)了什么需求:

  • Model Class: 涵蓋了每個公開模型各自用途的概述

  • SFTTrainer: 幫助你使用 SFTTrainer 實現(xiàn)模型監(jiān)督調(diào)優(yōu)

  • RewardTrainer: 幫助你使用 RewardTrainer 訓練獎勵模型

  • PPOTrainer: 使用 PPO 算法進一步對經(jīng)過監(jiān)督調(diào)優(yōu)的模型再調(diào)優(yōu)

  • Best-of-N Samppling: 將“拔萃法”作為從模型的預測中采樣的替代方法

  • DPOTrainer: 幫助你使用 DPOTrainer 完成直接偏好優(yōu)化

文檔中還給出了幾個例子供 ?? 寶子們參考:

  • Sentiment Tuning: 調(diào)優(yōu)模型以生成更積極的電影內(nèi)容

  • Training with PEFT: 執(zhí)行由 PEFT 適配器優(yōu)化內(nèi)存效率的 RLHF 訓練

  • Detoxifying LLMs: 通過 RLHF 為模型解毒,使其更符合人類的價值觀

  • StackLlama: 在 Stack exchange 數(shù)據(jù)集上實現(xiàn)端到端 RLHF 訓練一個 Llama 模型

  • Multi-Adapter Training: 使用單一模型和多適配器實現(xiàn)優(yōu)化內(nèi)存效率的端到端訓練

?? 寶子們快行動起來,訓練你的第一個 RLHF 模型吧!https://github.com/huggingface/trl


TRL 正式推出,來訓練你的首個 RLHF 模型吧!的評論 (共 條)

分享到微博請遵守國家法律
南乐县| 邮箱| 西充县| 温宿县| 卢氏县| 广水市| 宁化县| 南充市| 平潭县| 迁西县| 香格里拉县| 磴口县| 房山区| 道孚县| 上饶市| 桃园市| 沅陵县| 乌兰浩特市| 宜黄县| 柳江县| 临汾市| 蓬溪县| 河源市| 涿鹿县| 辰溪县| 北碚区| 克什克腾旗| 新源县| 陆河县| 大英县| 大邑县| 航空| 德安县| 元谋县| 平顺县| 宁阳县| 广元市| 中方县| 井研县| 高唐县| 德昌县|