Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- REINFORCE
- non parametic softmax
- MRI
- Knowledge Distillation
- freebooze
- normalization
- sample rows
- 3d medical image
- rest-api
- model-free control
- loss functions
- objective functions for machine learning
- remove outliers
- checkitout
- domain adaptation
- shadowing
- noise contrast estimation
- Policy Gradient
- 자료구조
- fastapi
- sidleup
- straightup
- clip intensity values
- pulloff
- thresholding
- resample
- scowl
- Inorder Traversal
- Excel
- Actor-Critic
Archives
- Today
- Total
목록REINFORCE (1)
Let's Run Jinyeah

이전 포스트에서 각 상태, 액션에 실제 가치에 근사값을 구하는 방법에 대해 알아보았습니다. Control(Policy Iteration) with Value approximation에서는 가치함수를 기반으로 정책을 그리디하게 정하기 때문에 결정론적인 정책을 가집니다. 이번 포스트에서는 정책함수를 기반으로 액션을 선택하여 stochastic 정책을 생성하는 Contorl with policy gradient 방법에 대해 알아보겠습니다. Outline 1. Introduction to Policy-Based Reinforcement Learning Value-Based vs Policy-Based vs Actor-Critic Advantages of Policy-Based RL Policy Search 2...
Deep Learning/Reinforcement Learning
2021. 8. 31. 01:56