본문 바로가기

Hi-Tech/인공지능

알파고 3연승 -> 이세돌 vs. 알파고 : 인공지능 알파고(AlphaGo) 인간을 이기다!!

반응형

인공지능 알파고(AlphaGo) 인간을 이기다!!

알파고가 최근 10년간 최고의 바둑 기사로 꼽혀온 이세돌 9단을 상대로 세 번째 승리를 거두며 구글 딥마인드 챌린지 매치에서 승리하였습니다. 

구글의 자회사 구글 딥마인드가 개발한 인공지능 바둑 프로그램 ‘알파고(AlphaGo)'

구글 딥마인드의 인공지능 '알파고(AlphaGo)'가 바둑에서 3월 9일 186수만에 이세돌 기사를 이겼습니다. 그는 알파고와 제1국을 마치고 나서 알파고의 초반 해결 능력과 허를 찌르는 수 두 가지 면에서 놀랐다고 밝혔습니다. 이세돌 9단은 초반은 알파고가 힘들지 않겠느냐고 생각하였지만, 풀어가는 능력이 놀라웠고 어려운 바둑을 두는 게 아닌가 느끼고 있었는데, 승부수인 듯한 도무지 둘 수 없는 수가 나와서 놀랐다고 하였습니다. 3월 10일 제2국에서도 알파고가 승리를 하였습니다.

알파고는 단일 컴퓨터버전(single)과 분산 컴퓨터버전(distributed)으로 구현되었으며, 비용대비 최대의 성능을 나타낸 환경은 다음과 같습니다.

구 분          탐색쓰레드    CPU수    GPU수  Elo rating
---------------------------------------------------
단일(single)      40         48        8      2890
분산(distributed) 40       1202      176      3140
---------------------------------------------------

- 탐색 쓰레드 : 쓰레드 개수만큼 바둑의 경기 경로를 탐색합니다.
- CPU의 역할  : CPU 한 개당 1초에 1000회 이상의 시뮬레이션 수행합니다.
- GPU의 역할  : 딥러닝을 사용하여 바둑판 상태의 승률과 다음 착수 예측합니다.
- Elo rating  : 게임지 간의 실력을 상대적으로 나타낸 것으로 단일/분산 AlphaGo의 Elo rating 을 측정하기 위하여 기존 인공지능 프로그램과 대결하여 산출합니다.

구글 딥마인드(DeepMind)사 

딥마인드는 2014년 1월 구글이 인수한 인공지능(Artificial Intelligence) 분야 전문기업입니다. 영국 런던에 본사를 둔 딥마인드는 인공지능업계 최고의 엔지니어, 과학자, 연구원들을 보유하고 있습니다. 딥마인드사는 머신 러닝과 시스템 신경과학 분야에서 기술을 활용하여 강력한 범용 학습 알고리즘을 구축하고 있습니다.

구글 딥마인드사 CEO 하사비스

딥마인드사 CEO 하사비스는 1997년 22살에 영국 캠브리지대학교 컴퓨터공학 학사 과정을 졸업한 후 1998년에는 비디오게임 회사 엘릭서 스튜디오를 설립였습니다. 마이크로소프트, 비방디 유니버셜 등 글로벌 게임 퍼블리셔와 협업하여 많은 게임을 출시하였습니다. 그는 2009년 영국 유니버시티 칼리지 런던에서 인지신경과학 박사 학위를 받고 2010년에 딥마인드를 창업하였으며, 미국 메사추세츠공과대학(MIT)과 하버드대학교에서 박사 후 연수 과정을 밟았습니다. 하사비스는 영국왕립예술협회의 특별회원(Fellow)이며, 2014년 ‘뮬라드상(Mullard Award, 자연과학, 엔지니어링, 기술 분야 등에서 영국의 번영을 위해 학술적 성과를 기록한 사람에게 영국왕립협회가 매년 수여하는 상)’을 수상하였습니다.

알파고(AlphaGo)

알파고는 2014년 1월 4억달러(약 4,332억원)에 구글에 인수된 딥마인드(DeepMind)가 개발한 인공지능 바둑기사 프로그램(소프트웨어)입니다. 신경과학 기반 인공지능 기술 회사 딥마인드의 공동 창업자인 하사비스 CEO는 알파고의 개발자로 ‘알파고의 아버지’라 불립니다. 인공지능은 기존 기술 한계를 뛰어넘은 구글 인공지능 프로그램 ‘알파고’는 3월 9일 서울 광화문 포시즌스호텔에서 열린 이세돌 9단과의 1국에서 186수만에 불계승하였습니다. 1997년 IBM의 ‘딥 블루’가 세계 체스 챔피언을 꺾은 이후 20여년 만에 일어난 인공지능 알파고는 이세돌 기사를 이긴 것입니다. 이세돌기사는 생각보다 알파고의 실력이 우수하다고 말하였습니다. 

알파고의 알고리즘

알파고의 알고리즘은 몬테카를로 트리 탐색 기법을 활용하는데 그 개념도는 아래와 같습니다.


Step a. 선택 (selection) : 바둑판(t)에서 특정 시점(L)까지 착수 선택
바둑판 상태에서 Q+u 값이 최대가 되는 지점을 선택합니다. 여기서 Q 값은 몬테카를로 트리 탐색(MCTS)의 가치값 등으로 정해진 것으로 높을수록 승리할 확률이 높습니다. u 값은 바둑판 탐색의 폭을 넓히기 위해서 고안된 변수로 노드의 방문횟수에 반비례합니다.

Step b. 확장 (expansion) : 탐색 경로의 마지막 노드(L) 확장
그림 상에서 두 번째 단계인 확장과 동일하게 특정 시점까지 선택이 된 노드로 부터 확장(child node 생성)을 수행합니다. 알파고에서 확장하는 기준은 마지막 노드(L)의 방문 횟수가 40회 이상인 경우입니다.

Step c : 평가 (evaluation) : 마지막 노드(L)의 승산 평가
마지막 노드(확장이 된 경우 확장된 노드, L+1)의 가치를 평가하기 위해서 마지막 노드 시점부터 게임 종료까지 고속 시뮬레이션(fast rollout)을 수행합니다. 시뮬레이션의 평균값(r)과 딥러닝으로 추정한 가치값(v0)을 통해서 마지막 노드의 가치를 평가합니다.
 ※
시뮬레이션 평균값(r)과 딥러닝을 사용한 가치값(v0)의 비율은 같습니다.

Step d : 갱신 (backup) : 바둑판 상태의 가치값 갱신

시작 지점(t)에서 마지막 노드(L 또는 L+1)까지의 경로에 있는 노드의 Q 값 갱신

→ 착수는 가장 많이 방문한 노드로 결정합니다.
 ※
가치가 가장 높은 노드를 결정할 경우 과적합 문제가 발생합니다.

알파고의 의의

구글 딥마인드(DeepMind)의 알파고 개발리더인 데이비드 실버는 3월 8일 경기도 성남시 판교 경기창조경제혁신센터에서 열린 국제 콘퍼런스 ‘성큼 다가온 인공지능’에서 이세돌 9단과 알파고의 대국은 승패에 관계없이 인공지능 연구 발전에 긍정적 계기가 될 것으로 말하였습니다. 

바둑은 인공지능 분야에서도 가장 큰 도전의 영역입니다. 규칙이 단순함에도 정교하고 경우의 수가 너무 많아 인공지능으로 구현하기에 어려운 영역입니다. 그러나 구글은 사람 뇌를 닮은 신경망을 통해 사람을 모방할 수 있는 정책 네트워크와 가치 네트워크 기법을 통해 컴퓨터가 스스로 학습을 할 수 있도록 하였습니다. 또한 스스로 대국을 두어 시행착오를 줄여나가는 방식으로 실력을 쌓아 인간 과 겨룰 수 있을 정도로 실력이 향상되었습니다.  

알파고는 가장 확률이 높은 수를 탐색할 수 있어 어느 수가 승률이 높은지를 파악하기 위하여 아마추어 5단 이상의 인간 바둑기사들이 둔 기보 수십만건을 학습하였습니다.  실버는 알파고의 궁극 목표는 바둑을 잘 두는 기계로 그치지 않고 기계 학습을 통해 다른 과업도 수행할 수 있도록 발전시키겠다고 하였습니다.  


반응형