강화 학습 (Reinforcement Learning) 에이전트는 주어진 환경에서 행동을 선택하고, 그 환경에서 상태와 보상이 만들어진다. 에이전트의 목표는 주어진 환경에서 상태, 행동을 통해 얻어지는 보상을 최대화 하는 것. 에이전트는 보상을 최대화 하기 위해 어떤 선택이 가장 좋은 선택일지 학습하게 된다. 에이전트가 이런 과정으로 행동을 선택하는 것을 행동 정책(action policy)이라고 한다. 또한 에이전트가 행동을 선택하는 과정과 행동 정책을 구현하는 과정에서 Deep Q Network, epsilon-greedy 정책을 가장 흔히 사용한다. Q-Learning Q-table Q-Learning은 값에 기반하여 어떤 행동을 선택하는 것이 좋을지 에이전트에게 알려주는 방식이다. 행동을 선택하기..