Policy Gradient

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

Let's Run Jinyeah

Policy Gradient 본문

Deep Learning/Reinforcement Learning

Policy Gradient

jinyeah 2021. 8. 31. 01:56

이전 포스트에서 각 상태, 액션에 실제 가치에 근사값을 구하는 방법에 대해 알아보았습니다. Control(Policy Iteration) with Value approximation에서는 가치함수를 기반으로 정책을 그리디하게 정하기 때문에 결정론적인 정책을 가집니다. 이번 포스트에서는 정책함수를 기반으로 액션을 선택하여 stochastic 정책을 생성하는 Contorl with policy gradient 방법에 대해 알아보겠습니다.

Outline

1. Introduction to Policy-Based Reinforcement Learning

Value-Based vs Policy-Based vs Actor-Critic
Advantages of Policy-Based RL
Policy Search

2. Monte-Carlo Policy Gradient(REINFORCE)

Policy Gradient Theorem

3. Actor-Critic Policy Gradient

Introduction to Policy-Based Reinforcement Learning

Value-Based vs Policy-Based vs Actor-Critic

	Value-Based	Policy-Based	Actor-Critic
Policy Evaluation	Learnt Value Function	No Value Function	Learnt Value Function
Policy Iteration	Implicit policy	Learnt Policy	Learnt Policy

Advantages of Policy-Based RL

can learn stochastic policies ex) Rock-Paper-Scissors

Policy Search

[Goal]

Find best θ; given policy π with parameters θ

[Objective Function]

정답 정책의 기준? 보상의 합(v)이 큰 정책
목적함수는 보상(r)의 합(v)
정책이 고정되어도 에피소드마다 서로 다른 상태를 방문하고 서로 다른 보상(r)을 받으므로 기댓값 연산자 사용
보상의 합에 기댓값을 취한 것은 가치 함수, 즉 밸류(V_π)

objective function with fixed start state

시작 상태가 가정되어 있을 경우, 어떤 상태(s)에서 시작할 확률 d(s) 활용

average value

[Policy Gradient]

목적함수의 gradient
기댓값 연산자가 있으면 "샘플 기반 방법론"을 이용해 계산 가능하므로 기댓값 연산자로 표현
[1-step MDP] 1-step이므로 리턴이 곧 보상

[general MDP] 보상 대신 s에서 a를 할 때 얻는 리턴(v)의 기대값으로 변경

Monte-Carlo Policy Gradient(REINFORCE)

리턴(v)의 샘플을 여러 개 얻어서 평균을 내면 실제 액션-밸류 값(Q)에 근사함을 이용하여 Q를 그 샘플인 리턴 v로 대체

REINFORCE 알고리즘 (여러 에피소드를 거쳐 update하므로 policy gradient의 기댓값 제거)

한계: high variance 때문에 수렴속도가 느림

Actor-Critic Policy Gradient

REINFORCE의 high variance를 보완하기 위해 정책 네트워크뿐만 아니라 밸류 네트워크도 함께 학습
Action-Value(Q) Actor-Critic 알고리즘

참고

[강의]RL Course by David Silver - Lecture 7: Policy Gradient Methods

[책]바닥부터 배우는 강화학습

'Deep Learning > Reinforcement Learning' 카테고리의 다른 글

Integrating Learning and Planning (0)	2021.08.31
Value Function Approximation (0)	2021.08.30
Model-Free Control (0)	2021.08.21

'Deep Learning/Reinforcement Learning' Related Articles

more

Comments

티스토리툴바