Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- rl
- on-policy
- Compatibility
- mdp
- ubuntu
- Exploition
- AI로 일하는 기술
- 구글 엔지니어는이렇게일한다
- 클라우드 네이티브 애플리케이션 디자인 패턴
- tensorflow
- exploration
- 유연한소프트웨어를마드는설계원치
- off-policy
- Markov Decision Process
- 한빛미디어
- 비즈니스 데이터 과학
- tensorflow-probability
- the following packages have been kept back
Archives
- Today
- Total
decimal
MDP(Markov Decision Process) 본문
- 구성요소
S, A, P, R, γ
- 상태의 집합 S
- 행동의 집합 A
- 전이 행위 행렬 P
상태 s에서 행동 a를 취했을때, 다음상태 s' 될 확률 - 보상함수 R
- 감쇠 인자 γ(감마)
- Model free, Model based
MDP 구성요소 중 P, R을 모르는 경우 -> Model free
MDP 구성요소 중 P, R을 아는 경우 -> Model based
'ML&DL > RL' 카테고리의 다른 글
Exploition, Exploration (0) | 2022.03.24 |
---|---|
on-policy, off-policy 구분 (0) | 2022.03.24 |