Exploition, Exploration

Notice

Recent Posts

Tags more

Archives

관리 메뉴

decimal

ML&DL/RL

silent 2022. 3. 24. 17:41

현재 정보 기준, 최대의 reward를 받는 action 선택 함은 Exploition
다른 action를 통해서, 더 좋은 reward를 찾으면서 최대화 함은 Exploration

- Exploition
state 에서 지금까지 경험한 action들 중 탐색
기존의 경험 중 보상을 극대화

- Exploration
경험한 action이 아닌, 다른 action을 탐색
현재 찾지 못한 보상을 탐색

on-policy, off-policy 구분 (0)	2022.03.24
MDP(Markov Decision Process) (0)	2022.03.24

'ML&DL/RL' Related Articles