decimal

[리뷰] 그로킹 심층 강화학습 본문

일상/북 리뷰

[리뷰] 그로킹 심층 강화학습

silent 2022. 8. 28. 21:48

개요

해당 도서는 강화학습에 대하서 개념적, 수식적 설명에 대해서 집중하지 않고

왜 이러한 개념이 나왔는가? 이러한 개념을 통해서 목표하고자 하는 것이 무엇인가에 대해서 설명하고 있다.

즉, Why에 대한 의문을 집중적으로 설명하고자 한다.

 

목표하는 독자는 강화학습의 개념을 어느정보 숙지한 중급자 이상을 목적으로 내요을 풀어나가고 있다.

예제 소스는 Python기반으로 작성되어 있다.


목차

Chap 1. 심층 강화학습의 기초

머신러닝의 기본적 설명 및 강화학습을 구성하는 요소와 강화학습의 장단점을 설명하며, 강화학습이 필요한 경우에 대해서 말하고자 한다. 

 

Chap 2. 강화학습의 수학적 기초

강화학습은 크게 Agent와 Environment로 구성된다.

Agent를 학습하기 위해서 근간이 되는 이론인 MDP와 POMDP에 대한 설명을 이번장에서 진행한다.

MDP = (s=상태, a=행동, r=보상, t=상테전이확률, lamda=감가율)

POMDP = (s=상태, a=행동, r=보상, t=상테전이확률, lamda=감가율, omega=관찰된 observation, o=조건부 observation 확률)

 

Chap 3. 순간 목표와 장기 목표 간의 균형

Agent를 학습시킨다 함은 주어진 상태에서 행동을 함에 있어서 나오는 결과 Reward를 최대함에 따라서,

Reward들의 합인 Return를 극대화 합을 말한다.

매 행동시, 발생되는 Reward를 최대화 = 순간 목표

Episode 종료 시, Return를 극대화 = 장기 목표

두 목표에 대해서 이번 장에서 설명하고자 한다.

 

Chap 4. 정보의 수집과 사용 간의 균형

Agent 최적화함에 있어서 딜라마는 크게 탐색(Exploration), 착취(Exploitation) 2가지로 나뉜다.

탐색(Exploration)는 특정한 상황에서 여러 행동을 해보면서 최대 Reward를 찾는 과정이라 하면, 

착취(Exploitation)는 여러 Step를 진행했을때, 최대 누적된 Reward를 찾는 과정이다.

위 개념에 대한 설명과 2가지의 경우를 모두 잡는 방법론에 대한 설명을 이번장에서 한다.

 

Chap 5. 에이전트의 행동 평가

가치함수는 행동-가치함수, 상태-가치함수로 나뉘며,

행동-가치함수와 상태-가치함수의 차이인 행동-이점(Advantage) 함수가 있다.

위 가치함수를 추정하는, 즉 평가하는 방법에 대한 설명을 이번장에서 한다. 

 

Chap 6. 에이전트의 행동 개선

iteration은 '평가 -> 개선' 과정의 반복이다. 

이전 장에서는 V(s), Q(s, a)에 대한 평가를 통해서, 예측값과 실제값은 차이를 확인하는 과정이었다면,

이번장은 개선은 차이를 줄여나가는 과정에 대한 설명을 이어 나간다. 

 

Chap 7. 조금 더 효율적인 방법으로 목표에 도달하기

행동 개선을 좀더 빠르고 안정적으로 하는 방법에 대해서 이번장에서 설명한다.

또한, Dyna-Q 방법론에 대한 설명도 부가적으로 한다.

 

Chap 8. 가치 기반 심층 강화학습 개요

궁극적으로 Actor-Critic 설명하고자 앞서서, 가치기반 설명을 진행한다.

강화학습의 Deep learning 적용은 funcation approximate 됨을 말하며,

DL 적용을 위한 필요요소 및 단계에 대한 설명을 이번장에서 진행한다.

 

Chap 9. 조금 더 안정적인 가치 기반 학습 방법들

이전장에서는 RL를 DL 적용을 위한 기본적인 방법론에 대해서 설명하였다.

이번장에서는 DL 학습시, 안정적으로 되기위한 트릭들(DQN, DDQN)에 대한 설명을 한다.

 

Chap 10. 샘플 효율적인 가치 기반 학습 방법들

이전장에 대한 심화로서, dualing DDQN에 대한 설명과 Prioritized experience reply 에 대한 설명을 한다.

 

Chap 11. 정책-경사법과 액터-크리틱 학습법

가치 기반 방법론에 대해서 설명했다면, 정책 기반 방법론에 대해서 설명한다.

REINFORCE: Offline SARSA

11.5 A2C -> 11.3 A3C -> 11.4 GAE 순으로 보면서 좀더 쉽게 이해될 수 있다.

 

Chap 12. 발전된 액터-크리틱 학습법

이전장 A2C에 대해서 설명했다하면,

이번장에서 A2C에서 발전된 좀더 효과적, 효율적인 방법론들(DDPQ, TD3, SAC, PPO)에 대해서 설명한다. 

 

Chap 13. 범용 인공지능을 향한 길

강화학습 분야 역시 광범위 함에 따라서, 집중적으로 다루지 못했던 분야에 대한 설명을 진행한다.

본 도서과 개념설명을 목표가 아님에 따라서, 넘어왔던 개념설명을 이번장에서 풀어주고 있다.

마지막으로 강화학습의 범용적 인공지능에 대한 설명과 향후 전망을 제시한다.


마무리

강화학습를 시작하고, 개념간 연결고리를 찾기 위해서 도움을 받을 수 있는 아주 좋은 도서인 것 같다.

 

개념을 대해서 어느정도 숙지가 된 중급자 이상을 위한 도서이지만,

책 곳곳에 Note형식으로 필요한 개념에 대한 내용을 간략하게 설명하고 있어서, 이해하는 큰 도움을 받았다.

 

딱딱한 개념설명을 주를 이루지 않고 다양한 예시를 매 장마다 제시함에 따라서, 이해를 돕도록 하여서 좋았다.

타인에게 이야기를 풀어가듯이 풀어서 설명하기에,

개념들에 대해서 어떻게 연결 지을 수 있을가라는 고민에 대해서 도움을 받을 수 있었다. 

 

- 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.