decimal

MDP(Markov Decision Process) 본문

ML&DL/RL

MDP(Markov Decision Process)

silent 2022. 3. 24. 14:42

- 구성요소

S, A, P, R, γ

  • 상태의 집합 S
  • 행동의 집합 A
  • 전이 행위 행렬 P
    상태 s에서 행동 a를 취했을때, 다음상태 s' 될 확률
  • 보상함수 R
  • 감쇠 인자 γ(감마)

- Model free, Model based

MDP 구성요소 중 P, R을 모르는 경우 -> Model free
MDP 구성요소 중 P, R을 아는 경우 -> Model based

'ML&DL > RL' 카테고리의 다른 글

Exploition, Exploration  (0) 2022.03.24
on-policy, off-policy 구분  (0) 2022.03.24