五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【RL】A Minimalist Approach to Offline Reinforcement Learning

2023-08-26 04:44 作者:棄安耐爾  | 我要投稿

標(biāo)題、錄用情況

A Minimalist Approach to Offline Reinforcement Learning;Nips 2021

作者、單位

Scott Fujimoto1,2 Shixiang Shane Gu2

1Mila, McGill University 2Google Research, Brain Team

導(dǎo)讀

針對(duì)Offline RL中的OOD(Out of Distribution)問題,現(xiàn)有的方法會(huì)導(dǎo)致額外的復(fù)雜的成本。該文章提出了一個(gè)使RL算法在Offline場(chǎng)景可以work的最簡化方法,即添加行為克隆項(xiàng)并對(duì)State數(shù)據(jù)進(jìn)行歸一化,達(dá)到了和現(xiàn)有SOTA相當(dāng)或更甚的效果。

研究背景及動(dòng)機(jī)

在RL中,與環(huán)境的交互往往成本很高,有危險(xiǎn)性或者很具有挑戰(zhàn)性。Offline RL可以通過事先收集的專家數(shù)據(jù)解決這一問題,但其本身存在OOD的問題,針對(duì)OOD,現(xiàn)有的解決方案太復(fù)雜,或者難以復(fù)現(xiàn),難以遷移到其它算法上。

意義

以極小的代價(jià)、最簡單的改動(dòng)緩解了OOD的問題。

方法

在TD3的基礎(chǔ)上增加了(1)行為克隆項(xiàng)約束以及(2)對(duì)State進(jìn)行歸一化。

其中Si定義如下,μ為均值,σ為方差,e為歸一化約束,取10exp(?3)。

λ為參數(shù),RL(在最大化 Q)和模仿(在最小化 BC 項(xiàng)中)之間的平衡非常容易受到 Q 的規(guī)模的影響,因此需要平衡Q與BC項(xiàng)(即后半部分)的數(shù)量級(jí)。通常來說action的范圍為[-1, 1],因此BC項(xiàng)最大值為4,所以在Q前要通過λ加權(quán)。

此參數(shù)易于理解

需要注意的是,在實(shí)踐中,此處分母上的均值是針對(duì)mini-batches的范圍,而不是整個(gè)數(shù)據(jù)集。α?為參數(shù),取值為2.5,則Q項(xiàng)的范圍為[-2.5,? 2.5]。

實(shí)驗(yàn)結(jié)果

本文在D4RL上進(jìn)行了實(shí)驗(yàn),對(duì)比算法包括兩個(gè)SOTA:CQL,Fisher-BC以及BRAC,AWAC.

結(jié)果顯示整體表現(xiàn)與Fisher-BC相當(dāng),優(yōu)于CQL,BRAC,AWAC.

運(yùn)行速度完勝

消融實(shí)驗(yàn)如下,顯然BC項(xiàng)起到了至關(guān)重要的作用,歸一化影響較小。

α取2、3時(shí)效果明顯較好,文中取值為2.5,


值得一提的是

本文的方法極其簡單,只需要更改幾行代碼;

Rebuttal場(chǎng)面很有意思(B站不支持站外鏈接直接跳轉(zhuǎn)):

https://openreview.net/forum?id=Q32U7dzWXpc

https://zhuanlan.zhihu.com/p/450152373


……


【RL】A Minimalist Approach to Offline Reinforcement Learning的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
桂东县| 上虞市| 诏安县| 北票市| 灵武市| 金昌市| 靖西县| 灵璧县| 兴和县| 临湘市| 刚察县| 大兴区| 盐山县| 莱阳市| 衡阳县| 霍林郭勒市| 大安市| 旅游| 广南县| 桐柏县| 涞源县| 额尔古纳市| 沂水县| 南川市| 岑溪市| 秦安县| 健康| 西平县| 彩票| 红河县| 小金县| 和林格尔县| 孟津县| 中方县| 井陉县| 博客| 浪卡子县| 盐亭县| 遵义市| 丰台区| 宾川县|