Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- straightup
- non parametic softmax
- MRI
- sample rows
- scowl
- thresholding
- normalization
- freebooze
- Actor-Critic
- rest-api
- 자료구조
- pulloff
- REINFORCE
- loss functions
- domain adaptation
- clip intensity values
- Inorder Traversal
- checkitout
- resample
- remove outliers
- shadowing
- sidleup
- Knowledge Distillation
- objective functions for machine learning
- fastapi
- noise contrast estimation
- 3d medical image
- Policy Gradient
- Excel
- model-free control
Archives
- Today
- Total
목록REINFORCE (1)
Let's Run Jinyeah

이전 포스트에서 각 상태, 액션에 실제 가치에 근사값을 구하는 방법에 대해 알아보았습니다. Control(Policy Iteration) with Value approximation에서는 가치함수를 기반으로 정책을 그리디하게 정하기 때문에 결정론적인 정책을 가집니다. 이번 포스트에서는 정책함수를 기반으로 액션을 선택하여 stochastic 정책을 생성하는 Contorl with policy gradient 방법에 대해 알아보겠습니다. Outline 1. Introduction to Policy-Based Reinforcement Learning Value-Based vs Policy-Based vs Actor-Critic Advantages of Policy-Based RL Policy Search 2...
Deep Learning/Reinforcement Learning
2021. 8. 31. 01:56