[IT월드] "알파고를 만든" 강화 학습 이해하기 2019.06.11

http://www.itworld.co.kr/news/124052#csidx5c277278451c9f9a8b9ba142a334a9f

"알파고를 만든" 강화 학습 이해하기 - ITWorld Korea

www.itworld.co.kr

구글 딥마인드(DeepMind)의 알파고(AlphaGo)는 사람들에게 친숙한 이름이다. 알파고는 2015년 프로 2단 바둑 기사와의 시합에서 승리하면서 유명세를 탄 이후, 개선된 알파고 버전은 세계적인 프로 바둑 기사인 이세돌 9단과의 시합에서도 승리하고 2017년 5월에는 세계 랭킹 1위인 커제 바둑 기사와의 상대로도 이겼다. 2017년 후반 새로운 세대의 소프트웨어로 나온 알파제로(AlphaZero)는 기존 알파고보다 더욱 강력했으며 바둑뿐만 아니라 체스와 쇼기(일본식 장기)도 학습했다.

알파고와 알파제로는 모두 강화 학습(reinforcement learning)을 통해 학습한다. 또한 강화 학습 네트워크의 일부로 심층신경망을 사용해 결과 가능성을 예측한다.

[ 이하 생략 ]

'위키백과' 카테고리의 다른 글

[위키백과] 강화이론 (0)	2020.05.02
[위키백과] 변수 (컴퓨터 과학) (0)	2020.04.30

임시블로그

[IT월드] "알파고를 만든" 강화 학습 이해하기 2019.06.11

'위키백과' 카테고리의 다른 글

티스토리툴바

[IT월드] "알파고를 만든" 강화 학습 이해하기 2019.06.11

'위키백과' 카테고리의 다른 글

'위키백과' Related Articles

티스토리툴바