五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Q-Learn

2023-07-04 13:43 作者:老師明明可以靠顏值  | 我要投稿

參考:https://blog.csdn.net/weixin_44732379/article/details/127812712

1 使用

檢測到游戲畫面處于s1,就從a1,a2,a3種, 從這3個動作中,選一個Q值最大的動作。

選完動作后,輸入給游戲執(zhí)行。

游戲執(zhí)行后,游戲畫面會處于新的狀態(tài)。

在這個新的狀態(tài)下,從a1,a2,a3中,選一個Q值最大的動作?,我們稱這個動作為下一次動作的最大Q值。公式為:


2 訓(xùn)練

一開始設(shè)置Q-table為0,然后用一下公式更新Q-table? 中的Q值,直到Q-table中的值不再發(fā)生變化。

alpha 是學(xué)習(xí)率,可取0.3.

gama是前瞻率,可取0.4.

rt+1是游戲的獎勵分。

公式中的

就是下一次動作的最大Q值。

gama為什么是前瞻率,就是因為它乘的是 下一次動作的最大Q值,下一次。

3 總結(jié):

訓(xùn)練移動步數(shù)后,Q-table應(yīng)該會趨于不變,這便是收斂了。

如果沒有收斂,可調(diào)整學(xué)習(xí)率,前瞻率等。

還可以適當(dāng)?shù)脑黾右恍╇S機(jī)性,即并不是每次都取Q值最大的動作,而是以一定概率來隨機(jī)取動作,以讓Q-table得到更加豐富的更新。

在一開始的時候,這個概率可以大些,后面逐漸調(diào)小,直到為0.

Q-Learn的評論 (共 條)

分享到微博請遵守國家法律
洪江市| 呈贡县| 平安县| 蛟河市| 若尔盖县| 彰化县| 岐山县| 临夏市| 内乡县| 龙山县| 鄂温| 日照市| 盐池县| 乐东| 余姚市| 克拉玛依市| 思南县| 临城县| 庆阳市| 镇平县| 肥东县| 长宁县| 班玛县| 宁明县| 新平| 遂溪县| 贡觉县| 通河县| 云南省| 布拖县| 化德县| 滕州市| 翼城县| 滨海县| 丰城市| 安远县| 章丘市| 杭锦后旗| 广安市| 侯马市| 都江堰市|