ML&DL/RL

on-policy, off-policy 구분

silent 2022. 3. 24. 14:44
  • on-policy
    Behavior Policy == Target Policy
    자신이 직접 시행착오를 통한 학습
  • off-policy
    Behavior Policy != Target Policy
    다른이의 시행착오를 보면서 학습