強化學習智能體分類:
(1)基于模型的強化學習。策略(和/或)價值函數,環(huán)境模型。如:迷宮游戲、迷宮、圍棋、迷宮、象棋等這類規(guī)則明確,且可以枚舉下一個狀態(tài)的所有可能(比如象棋黑方走了一步后,可以列舉此時紅方可能要走的棋子和要走的方式)。
(2)模型無關的強化學習。策略(和/或)價值函數,沒有環(huán)境模型,環(huán)境是黑箱,比如Atari游戲、王者榮耀游戲,其需要大量的采樣。