전체 기자
닫기
정문경

바둑 인공지능 '알파고'는 어떻게 훈련할까?

2017-05-25 20:51

조회수 : 2,839

크게 작게
URL 프린트 페이스북
25일 중국 우전에서 열린 '바둑의 미래의 서밋'에서 진행된 구글 딥마인드의 알파고와 커제 9단과의 두 번째 1대 1 대국에서 155수 만에 흑 불계승을 거뒀습니다. 이로써 3번에 걸쳐 치러지는 대국에서 2연승으로 승리를 확정짓게 됐는데요. 알파고는 대회 우승 상금으로 150만 달러(약 17억원)를 확보하게 됐습니다.

인간을 뛰어넘은 알파고, 이 AI는 어떻게 바둑을 훈련했을까요?
 
 

바둑은 고전 게임 중에서도 인공지능이 인간을 넘어서기 가장 어려운 게임으로 오랜 시간 인식되어 왔습니다. 경우의 수가 무궁무진할 뿐만 아니라 바둑알을 놓는 위치를 평가하는 것이 어려워 단순한 체험적 문제해결 방식 그 이상의 이해를 필요로 하기 때문입니다.

바둑의 이러한 엄청난 복잡성을 해결하기 위해 알파고는 ‘지도학습’과 ‘강화학습’의 강점을 결합한 새로운 기계학습 기법을 사용합니다. 먼저 지도학습 과정에서는 바둑판에 돌이 놓인 각 위치를 ‘질문’으로 만들고 특정 수를 가지고 ‘해답’을 제시합니다.

그리고 강화학습 과정에서는 수를 선택하기 위한 정책을 개선합니다. 즉 ‘셀프 대국’을 통해 예측의 정확성을 향상시키는 것이죠. 이러한 훈련 과정의 결과는 ‘정책망’으로서, 바둑판의 상태를 추출한 데이터를 활용하여 가능한 여러 가지 수를 대상으로 개연성을 분석합니다.

다음으로 ‘가치망’은 셀프 대국에서 특정 위치에 놓인 돌을 보고 승리 확률을 예측하여 -1(상대편의 승리 확실)부터 1(알파고의 승리 확실)까지의 점수를 매깁니다.

정책망과 가치망은 자체적으로도 강력한 힘을 가지고 있지만, 알파고는 ‘몬테카를로 트리 탐색’ 기술로 이 두 가지를 결합해 더욱 강력한 힘을 발휘하고 있습니다. 이 탐색 기법은 정책망을 통해 분기계수를 줄이는 한편 가치망을 통해 정확한 조기 종료를 가능케 함으로써 엄청난 효율성 증대를 가져옵니다.

마지막으로 새로운 버전으로 업그레이드된 알파고는 여러 번에 걸친 셀프 대국을 통해 스스로 대결을 하고 이를 다음 세대를 위한 훈련 데이터로 활용합니다. 이러한 과정이 계속 반복되어 알파고의 훈련이 이루어지는 것입니다.
 
  • 정문경

  • 뉴스카페
  • email