What is Reinforcement Learning
강화학습이란 무엇인가 ?
강화 학습(Reinforcement learning)은 기계학습이 다루는 문제 중에서 다음과 같이 기술 되는 것을 다룬다. 어떤 환경을 탐색하는 에이전트가 현재의 상태를 인식하여 어떤 행동을 취한다. 그러면 그 에이전트는 환경으로부터 포상을 얻게 된다. 포상은 양수와 음수 둘 다 가능하다. 강화 학습의 알고리즘은 그 에이전트가 앞으로 누적될 포상을 최대화하는 일련의 행동으로 정의되는 정책을 찾는 방법이다.
위키피디아에서는 위와 같이 설명하고 있다.
강화학습은 Machine Learning의 범주 안에 있는 학습 방법 중의 하나.
아이가 환경과 상호 작용하며 걷는 방법을 알아가는 것처럼 배워가는 학습 방법.
(-> 강화학습 자체가 행동심리학에서 영감을 받았기에 실제 인간이 배우는 방법과 유사하여 아이디어 자체는 익숙한듯.)
강화 학습도 agent가 아무것도 모르는 상태에서 환경 속에서 경험을 통해 학습하는 것
(바둑으로 유명한 알파고 또한 강화학습 알고리즘에 기반)
Reinforcement learning is defined not by characterizing learningmethods, but by characterizing a learning problem.
Sutton 교수님의 책에서 강화학습은 학습하는 방식(method)로 정의 되는 것이 아닌, 문제로 정의 되어 짐.
Machine Learning은 크게 세 가지로 나뉜다.
1. Supervised Learning (지도학습) : 정답(label)을 알 수 있어 바로바로 피드백을 받을 수 있음.
2. Unsupervised Learning (비지도학습) : 정답이 없는 분류(classification)와 같은 문제를 푸는 것
3. Reinforcement Learning (강화학습) : 정답은 모르지만, 자신이 한 행동(action)에 대한 보상(reward)를 알 수 있어 그로부터 학습하는 것. 강화학습은 MDP(Markov Decision Process)로 표현되어지는 문제를 푸는 것.
강화학습의 가장 중요한 두가지 특징
1. Trial And Error : 해보지 않고 예측으로 움직이는 것이 아닌, 직접 해보며 조정해나가는 것.
2. Delayed Reward : 어떠한 행동에 대한 보상이 '즉각'적으로 이루어지는 것이 아닌 Delayed 될 수 있다. 환경이 반응할 때까지 여러 다른 행동들을 시간의 순서대로 했기에 어떤 행동이 좋은 행동이었는지 판단하기 어려운 점이 있음.
'ML & AI > RL' 카테고리의 다른 글
0. Rrologue (0) | 2024.10.06 |
---|