decimal

on-policy, off-policy 구분 본문

ML&DL/RL

on-policy, off-policy 구분

silent 2022. 3. 24. 14:44
  • on-policy
    Behavior Policy == Target Policy
    자신이 직접 시행착오를 통한 학습
  • off-policy
    Behavior Policy != Target Policy
    다른이의 시행착오를 보면서 학습

'ML&DL > RL' 카테고리의 다른 글

Exploition, Exploration  (0) 2022.03.24
MDP(Markov Decision Process)  (0) 2022.03.24