JINWOOJUNG

Reinforcement Learning 본문

Reinforcement Learning

Reinforcement Learning

Jinu_01 2023. 12. 27. 11:57
728x90
반응형

본 게시글은 인하대학교 유상조 교수님의 Reinforcement Learning Tutorial Seminar

수강 후 정리를 위한 포스팅입니다.

모든 포스팅의 저작관은 유상조 교수님에게 있음을 사전 공지합니다.


Reinforcement Learning

강화학습은 Machine Learning의 subfield이다.

Machine Learning Tasks로는 크게 Supervised/Unsupervised/Reinforcement learning으로 분류할 수 있다.

 

  1. Supervised Learning(지도학습)
    : labeled dataset으로 학습이 진행되며, classification/regression task에 사용된다.
  2. Unsupervised Learning(비지도 학습)
    : label이 존재하지 않는 dataset을 기계 스스로 학습하여 비슷한 부류를 clustering하는 학습이다.
  3. Reinforcement Learning(강화 학습)
    : 그 결과가 목표에 유사한지 말해주는것 없이 특정한 목표를 달성하기 위해 동적 환경에서 상호작용 하는 학습이다.

강화학습은 {$s_t, A_t, R_t, s_{t+1}$} data로부터 학습한다.

Reinforcement Learning Model

 

강화학습은 machine, program 처럼 어떠한 행동(Action)을 취하는 Agent, 행동에 의해 변화하는(Dynamic) Environment의 상호작용으로 표현할 수 있다.

Reinforcement Learning Example

 

강화학습을 예를 통해 자세히 알아보자. 본 학습의 목표는 pole이 쓰러지지 않도록 하는 것이다. 물론 해당 목표를 알려주지는 않는다.

$A_t$ : Agent가 하는 행동(Action)으로 여기서는 카트의 움직임으로 표현된다

$s_t$ : $A_t$로 인해 발생가능한 Environment의 모든 상황(state)를 의미하며, 여기서는 $s_t$의 상황에서 $A_t$로 인해 변화되는 pole의 위치($s_{t+1}$)로 표현된다

$r_t$ : $A_t$로 인해 state가 변화되면서 Agent가 얻는 보상(Reward)로, 이를 통해 학습의 목표는 주어지지 않지만 이를 학습 해 가면서 목표를 달성하기 위한 상호작용을 학습하는 것이 강화학습이다.

 

강화학습의 특징을 2가지로 정리할 수 있다.

  • $A_t$의 결과로 항상 $R_t,s_{t+1}$이 되는 것은 아니다.

위 예시로 이어서 설명하면, 

Reinforcement Learning Example

 

$A_t$를 보라색으로 표현한 방향으로 카트를 미는 Action이라고 하자. 그리고 $\theta$만큼 pole의 각도가 변화($s_{t+1}$)가 발생하였다고 하자. 

만약 바람이 왼쪽에서 오른쪽으로 분다고 가정하면 똫같은 $A_t$가 발생했다고 하더라도, 파란색 $\theta$로 표현된 것 처럼 다른 $s_{t+1}$이 발생될 수 있다.

  • 단순히 한 순간의 $A_t$에 대한 $R_t$로 해당 Action이 좋다(목표에 부합하다)고 판단할 수 없다.

Reinforcement Learning Example

 

$s_t$에서 $A_t$로 인해 State가 ${s_{t+1}}^{1}$, ${s_{t+1}}^{2}$ 로 변화되었고, Reward는 각각 50,100이라 하자. $A_t$ 에 의한 Reward로는 ${s_{t+1}}^{2}$ 로 변화할 때 Reward가 더 크기 때문에 더 좋다고 판단할 수 있지만, 추후 변화되는 State의 Reward를 보면 ${s_{t+1}}^{1}$ 이 더 좋음을 알 수 있다.

 

이처럼 특정한 Action에 따른 Environment의 변화는 다양한데, 하나의 $s_{t+1}$ 만 발생하는 경우를 Deterministic, 다양한 state와 reward가 발생하는 것을 Stochastic하다라고 표현한다.

 

728x90
반응형

'Reinforcement Learning' 카테고리의 다른 글

Bellman Optimality Equation  (0) 2023.12.30
Markov Decision Process(MDP)  (1) 2023.12.29
Markov Reward Process(MRP)  (1) 2023.12.29
K-armed Bandit(2)  (0) 2023.12.28
K-armed Bandit(1)  (0) 2023.12.27