[doctorBME, essay] 활용(Exploitation)과 탐험(Exploration)

이번 글은 에세이이므로, 경어체를 쓰지 않으니 양해부탁드립니다.

강화학습(reinforcement learning)을 공부하다보면, 결국 모델에 대한 사전 지식이 없는 상태에서 학습을 시도하는 Q-learning을 마주하기 마련이다. 강화학습이라는 것이, 결국 어떠한 상태(state)에서 어떠한 행동(action)을 취할 경우를 살펴보아, 과거의 학습값을 갱신하면서, 각 상태에 대한 최적의 액션을 도출하는 정책(policy)를 찾음에 다름 아닌데, 이러한 학습은 액션을 취할 때 마다 받게 되는 보상(reward), 혹은 당장 보상이 없더라도 이러한 행동들이 연쇄적으로 모여서 결국 끝까지 갔을 때의 보상의 결과에 따라 피드백을 받으면서 학습하게 된다.

하지만 강화학습을 하는 데에는, 몇 가지 고려 사항이 있는데, 그 중에 하나는 활용(Exploitation)과 탐험(Exploration)에 대한 문제이다.

우리가 가보지 않은 여러 행동들 (액션들)에 대한 결과를 알기 위해서는 지금 당장 최적이 아니라도 한번쯤 선택해봐야하지만 (exploration), 이를 과도하게 하다가는 같은 상황에서 계속 최적이 아닌 해(solution)만 도출하게 되므로 우리가 이미 학습한 결과를 활용(exploitation)하는 것이 필요하다.

다시 말하면, 내가 지금까지 이러한 상황에서는 어떻게 행동하는 것이 최적임을 알고 있는데, 이러한 일련의 행동이 정말로 최적이 맞는지는 우리가 가보지 않은 길을 한번쯤 선택해서 그 결과를 보지않는 한 알 수가 없다는 것이다. 그러니, 삶에서의 선택에 있어서도, 결국 우리가 우리 나름대로 인생을 걸어오면서 알게된 최적(optimal) 행동들과, 앞으로 우리가 결과를 잘 모르는 (하지만 최적일수도 아닐 수도 있는) 다소 무모한 행동들 사이에서 균형을 찾아야함이 중요한 것이다.

보통 강화학습에서 탐험 대 활용의 비율을 5% 대 95% 정도로 잡곤 하는데 (물론 이러한 수치는 달라질 수 있다. 중요한 것은 탐험의 비율이 활용보다는 낮다는 것이다.) 이 말은, 20번 행동을 선택할 기회가 (상황이) 있을 때, 20번 중 1번은 무모한 탐험을 한다는 말과도 동일하다. (epsilon = 0.05) 그 탐험이 결국 국소적 최적해(local optimum)을 넘어서 전 공간에서의 최적해 (global optimum)을 담보할 수 있을지는 알 수 없다.

하지만 똥인지 된장인지 찍어봐야 한다 라는 신조의 학습이라면, 강화학습 만한 것이 없고, 이를 통해 우리의 신념을 강화하거나 잘못된 결과를 바탕으로 수정할 수 있다. 우리는 실제로 경험하지 못한 것에 대해 직관의 오류를 범할 때가 종종 있기 때문에, 경험을 통해 돌아오는 피드백은 그만큼 값진 것이기도 하다.

결국 우리가 그 누구도 가보지 못한 새로운 길을 가게 된다면, 그 것은 바로 Q-learning에 다름 아닐 것이다. 새로운 선택에 대한 우리의 삶과 세계의 모델 구조를 제시할만한 선배들도, 선생님들도, 유효성이 검증된 시뮬레이션도 존재하지 않는다. 종종 학습을 진행하면서, 탐험 대 활용의 비율을 조정할 수도 있고 (epsilon decay), 이에 따라 탐험을 하는 행동의 횟수는 점점 삶을 살아가면서 줄어들지도 모르겠지만, 최소한 탐험의 가능성을 열어두는 것 - 그리고 피드백에 따라 우리의 삶의 궤적을 수정하고 다시 앞으로 나아갈 수 있는 경험의 시도는 무척이나 소중할 것이다.

요근래 새로운 기술들이 다수 등장하고 확산하며 언급되고 적용되기 위해 연구와 발전을 거듭하고 있다. 장밋빛 전망과 부정적 우려가 도처에서 등장한다. 사실 이러한 기술의 적용은 비단 의학에만 국한되지 않는다. 우리는 4차산업혁명이라는 구호 아래 다양한 신념과 기술들이 나타나고 만개하는 것을 지켜본다. 무한한 가능성과 현실의 제한 사이에서 기술과 권력은 줄다리기를 하고 있다. (4차산업혁명이 정치적 표어로 작동할 것이냐에 대한 문제는 논외로 하자.)

하지만 결국 새로운 행동을 취할 수 있는 가능성이 존재한다는 것은 우리에게 긍정적인 것이다. 왜냐하면 우리가 선택가능한 행동 집합(action set)에 있어서, 탐험이 가능한 행동 집합이 더 크게 존재한다는 것은 우리의 자율성과 삶의 영역을 확장시키는 것이기 때문이다. 그러니 아주 가끔은 무모한 시도를 통해 더 넓은 세계를 바라볼 필요가 있다. 우리의 관념 속 최적을 찾아가면서도 우리는 종종 색다른 경험과 시도를 통해 더 괜찮은 최적을 찾아나간다. 강화학습이 삶에 던져주는 메시지란 그런 것이다.