강화학습 튜토리얼 2

[강화 학습 PyTorch] Reinforcement Learning Tutorial (Part 2)

강화 학습 (Reinforcement Learning) 에이전트는 주어진 환경에서 행동을 선택하고, 그 환경에서 상태와 보상이 만들어진다. 에이전트의 목표는 주어진 환경에서 상태, 행동을 통해 얻어지는 보상을 최대화 하는 것. 에이전트는 보상을 최대화 하기 위해 어떤 선택이 가장 좋은 선택일지 학습하게 된다. 에이전트가 이런 과정으로 행동을 선택하는 것을 행동 정책(action policy)이라고 한다. 또한 에이전트가 행동을 선택하는 과정과 행동 정책을 구현하는 과정에서 Deep Q Network, epsilon-greedy 정책을 가장 흔히 사용한다. Q-Learning Q-table Q-Learning은 값에 기반하여 어떤 행동을 선택하는 것이 좋을지 에이전트에게 알려주는 방식이다. 행동을 선택하기..

ML & DL 2022.04.30

[강화 학습 PyTorch] Reinforcement Learning Tutorial (Part 1)

gym library의 CartPole을 사용하여 강화 학습에 입문해보자. CartPole 게임이란? 마찰이 없는 트랙에 카트(cart)하나와 카트에 연결된 막대(pole)가 하나 있다. 막대가 세워진 상태로 게임이 시작되며, 목표는 막대가 넘어지지 않도록 하는 것이다. 막대는 조작할 수 없으며 오직 카트만 조작 가능하고, 막대가 서 있는 매 시간 스텝마다 +1의 보상이 주어진다. 에피소드가 종료되는 조건은 다음과 같다. 막대가 수직으로부터 12도 이상 기울어짐. (-12 ~ 12) 카트가 중심으로부터 2.4이상 벗어남 (-2.4 ~ 2.4) 시간 스텝이 200보다 커짐 (CartPole-v1의 경우 500보다 커졌을 때) 100번의 시도에서 평균 195.0 이상의 보상을 얻으면 게임을 해결했다고 정의..

ML & DL 2022.04.29