[RL] CS285: Lecture 04. Introduction to Reinforcement Learning(2)

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

JINWOOJUNG

[RL] CS285: Lecture 04. Introduction to Reinforcement Learning(2) 본문

Reinforcement Learning

[RL] CS285: Lecture 04. Introduction to Reinforcement Learning(2)

Jinu_01 2026. 1. 27. 18:20

728x90

본 포스팅은 UC Berkeley 에서 진행된 CS285: Deep Reinforcement Learning, Decision Making and Control
강의자료 및 강의를 기반으로 공부한 내용을 정리하는 포스팅입니다.

https://jinwoo-jung.tistory.com/173

[RL] CS285: Lecture 04. Introduction to Reinforcement Learning(1)

본 포스팅은 UC Berkeley 에서 진행된 CS285: Deep Reinforcement Learning, Decision Making and Control강의자료 및 강의를 기반으로 공부한 내용을 정리하는 포스팅입니다.https://jinwoo-jung.tistory.com/170 [RL] CS285: Lecture

jinwoo-jung.com

Types of Algorithms

RL algorithms에 대해서 간단히 살펴보자

Model based RL algorithms

환경의 동작을 나타내는 Model을 사용(학습)해서 정책을 개선하는 Algorithm이다. 여기서 모델이란 $p(s_{t+1}|s_t, a_t), r(s,a)$등 전이 확률이나 보상 모델을 의미한다. 즉, 현재 상태에서 어떠한 행동을 하면 다음에 어떤 상태와 보상이 나오는지를 예측하는 환경의 수학적 표현이다.

여기서는 Improve the policy 단계를 집중적으로 살펴보자.

[1]은 따로 Policy 없이 Action sequence를 직접 최적화하는 알고리즘이다. [2]는 Backpropagation을 통해 Rewards의 기댓값을 최대화하는 방향으로 학습하는 방법이다. 즉, 환경(모델)을 미분하여 직접 Backprop 하는 방법이다. [3]은 모델은 Value function을 학습하는 데만 사용되고, Policy는 Value를 통해 개선하는 방법이다.

Value function based algorithms

Policy를 직접 학습하는 것이 아닌, Value function을 구해 argmax를 취함으로써 이 상태(행동)이 얼마나 좋은가를 먼저 학습한 뒤, 이를 기반으로 Policy를 개선하는 방법이다.

Actor-critic: value functions + policy gradients

2가지 방법을 합친 방법으로, Value function을 Estimate하여 Policy를 Update하는 방식이다.

Actor는 현재 Policy를 기반으로 Samples를 생성한다. Critic은 Value function을 통해 Actor의 행동을 평가하게 된다. 그 결과를 바탕으로 Actor는 Policy를 Update하는 방식이 Actor-critic이다.

Tradeoffs Between Algorithms

그렇다면 왜 이렇게 많은 알고리즘이 존재할까? 이는 어떤 RL algorithms를 선택함에 따라 각 특성에 대해 trade-offs가 발생하기 때문이다.

Sample efficiency는 좋은 Policy를 얻기 위해 얼마나 많은 Samples(times)가 필요한지를 의미한다. 이는 On-policy, Off-policy에 따라 나뉘게 된다.

Off-policy: 새로운 Samples를 생성하지 않고, 이전에 생성한 samples를 재사용 가능
On-policy: 매 Policy가 변함에 따라 새로운 Samples를 생성해야

알고리즘이의 On/Off policy인지에 따라 Samples를 생성하는 시간에 따른 효율성이 차이나기 때문이다.

RL에서는 수렴성이 보장되지 않을 수 있다. 그렇기 때문에 연구를 하면서 이러한 질문들을 끊임없이 해야 한다.

따라서 RL에서는 몇몇 가정들을 자주 하기도 한다.

Full observability: 현재의 관측 $s_t$가 환경의 전체 상태를 담고 있음을 의미한다. 이는 Markov property가 성립함을 의미하기도 한다. 주로 Value-based algorithm에서 사용된다.
Episodic learning: 학습이 Episode 단위로 끊긴다. 즉, 유한한 길이의 Trajectory를 가진다. 주로 Policy gradient에서 사용된다.
Continuity or smoothness: Dynamics, reward, value 등이 연속적이고 부드럽다. 주로 Model-based에서 사용된다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Reinforcement Learning' 카테고리의 다른 글

[RL] CS285: Lecture 05. Policy gradients(2) (0)	2026.01.28
[RL] CS285: Lecture 05. Policy gradients(1) (0)	2026.01.28
[RL] CS285: Lecture 04. Introduction to Reinforcement Learning(1) (0)	2026.01.27
[RL] CS285: Lecture 02. Supervised Learning of Behaviors(2) (0)	2025.12.14
[RL] CS285: Lecture 02. Supervised Learning of Behaviors(1) (0)	2025.12.14

'Reinforcement Learning' Related Articles

JINWOOJUNG

[RL] CS285: Lecture 04. Introduction to Reinforcement Learning(2) 본문

[RL] CS285: Lecture 04. Introduction to Reinforcement Learning(2)

Types of Algorithms

Model based RL algorithms

Value function based algorithms

Actor-critic: value functions + policy gradients

Tradeoffs Between Algorithms

'Reinforcement Learning' 카테고리의 다른 글

티스토리툴바