ML&DL/RL
on-policy, off-policy 구분
silent
2022. 3. 24. 14:44
- on-policy
Behavior Policy == Target Policy
자신이 직접 시행착오를 통한 학습 - off-policy
Behavior Policy != Target Policy
다른이의 시행착오를 보면서 학습