Let's Run Jinyeah

Policy Gradient 본문

Deep Learning/Reinforcement Learning

Policy Gradient

jinyeah 2021. 8. 31. 01:56

이전 포스트에서 각 상태, 액션에 실제 가치에 근사값을 구하는 방법에 대해 알아보았습니다. Control(Policy Iteration) with Value approximation에서는 가치함수를 기반으로 정책을 그리디하게 정하기 때문에 결정론적인 정책을 가집니다. 이번 포스트에서는 정책함수를 기반으로 액션을 선택하여 stochastic 정책을 생성하는 Contorl with policy gradient 방법에 대해 알아보겠습니다.

Outline


1. Introduction to Policy-Based Reinforcement Learning

  • Value-Based vs Policy-Based vs Actor-Critic
  • Advantages of Policy-Based RL
  • Policy Search

2. Monte-Carlo Policy Gradient(REINFORCE)

  • Policy Gradient Theorem

3. Actor-Critic Policy Gradient


Introduction to Policy-Based Reinforcement Learning

Value-Based vs Policy-Based vs Actor-Critic

  Value-Based Policy-Based Actor-Critic
Policy Evaluation Learnt Value Function No Value Function Learnt Value Function
Policy Iteration Implicit policy Learnt Policy Learnt Policy

Advantages of Policy-Based RL

  • can learn stochastic policies ex) Rock-Paper-Scissors

Policy Search

[Goal] 

Find best θ; given policy π with parameters θ

[Objective Function]

  • 정답 정책의 기준? 보상의 합(v)이 큰 정책
  • 목적함수는 보상(r)의 합(v)
  • 정책이 고정되어도 에피소드마다 서로 다른 상태를 방문하고 서로 다른 보상(r)을 받으므로 기댓값 연산자 사용
  • 보상의 합에 기댓값을 취한 것은 가치 함수, 즉 밸류(V_π)

objective function with fixed start state

  • 시작 상태가 가정되어 있을 경우, 어떤 상태(s)에서 시작할 확률 d(s) 활용

average value

[Policy Gradient]

  • 목적함수의 gradient
  • 기댓값 연산자가 있으면 "샘플 기반 방법론"을 이용해 계산 가능하므로 기댓값 연산자로 표현
  • [1-step MDP] 1-step이므로 리턴이 곧 보상

  • [general MDP] 보상 대신 s에서 a를 할 때 얻는 리턴(v)의 기대값으로 변경

Monte-Carlo Policy Gradient(REINFORCE)

  • 리턴(v)의 샘플을 여러 개 얻어서 평균을 내면 실제 액션-밸류 값(Q)에 근사함을 이용하여 Q를 그 샘플인 리턴 v로 대체

  • REINFORCE 알고리즘 (여러 에피소드를 거쳐 update하므로 policy gradient의 기댓값 제거)

  • 한계: high variance 때문에 수렴속도가 느림

Actor-Critic Policy Gradient

  • REINFORCE의 high variance를 보완하기 위해 정책 네트워크뿐만 아니라 밸류 네트워크도 함께 학습
  • Action-Value(Q) Actor-Critic 알고리즘

참고

[강의]RL Course by David Silver - Lecture 7: Policy Gradient Methods

[책]바닥부터 배우는 강화학습

'Deep Learning > Reinforcement Learning' 카테고리의 다른 글

Integrating Learning and Planning  (0) 2021.08.31
Value Function Approximation  (0) 2021.08.30
Model-Free Control  (0) 2021.08.21
Comments