科学技術者フォーラムH28年12月度セミナー報告「人間を超える囲碁・将棋〜ゲームAIの技術と展望」
2017年 03月 01日H28年12月度(第174回) セミナー報告
「人間を超える囲碁・将棋〜ゲームAIの技術と展望」
1.日時 :2015年10月3日(土) 14:00〜16:50
2.場所 :品川区立総合区民会館「きゅりあん」 6F 中会議室
3.参加者: 27名
4.講師 :電気通信大学 助教 伊藤 毅志 氏
<講演要旨>
1.ゲームを科学的に捉える。
(1)囲碁・将棋の情報科学的分類は「2人・完全情報・確定・ゼロ和ゲーム」であり、2人は
プレー人数、完全情報は双方の手が見えているか?、確定は不確定な要素(サイコロ)が
ないか?、ゼロ和は勝敗のつくゲームか?
(2)想定される探索の量と難しさは、初回局面(N)⇒次の局面(N×N)・・⇒最終局面
(NのM乗局面)となり下記ゲームの概略の量を示す。
・チェッカー 10の30乗
・オセロ 10の60乗
・チェス 10の120乗
・将棋 10の220乗
・囲碁 10の360乗
で、探索的にはコンピュータ囲碁が最も難しい。
2.コンピュータ将棋の歴史
1974年 初のコンピュータ将棋プログラム開発(早大)
1990年 第1回コンピュータ将棋選手権(コンピュータ同士の大会)
2006年 Bonanza登場(評価関数の機械学習)
2012年 第1回電王戦(元プロ棋士・米長永世棋聖に勝利)
2015年 第4回電王戦(プロ棋士5名・コンピュータ5台、2勝3負)
2015年 情報処理学会「コンピュー将棋プロジェクト」終了宣言
3.コンピュータ将棋の技術
3.1.コンピュータ将棋の基礎
(1) 評価関数とミニマックス探索
・相手は自分にとって一番いやな手を選択するはずだ
・数手先をすべて読んでみてその局面の良しあし(評価関数)を判断し、次の一手を決める。
・自分は評価点最大値採用し、相手は最小値を取るようにプログラム
(2) 評価関数の設計
・駒の損得、駒の効率、局面の進行度などをコンピュータに理解できるように数値化する。
3.2.Bonanza革命(2006年以降)
・Bit Boardという局面表現方法で、軽くて処理速度の速い局面表現が可能に
・4万6千局もの棋譜を教師データにして約1億個のパラメータを調整(評価関数の自動学習)
4.コンピュータ囲碁の世界
(1)ゲームとしての囲碁の特異性
・ルール上選べる手が圧倒的に多い
・静的評価関数の設定が絶望的に難しい。(石の強さの理解、生き死にの判定、良い手が広い)
(2)認知的にみた将棋と囲碁の違い
・将棋の上級者は局部を見るが初級者は全体を見る。
・囲碁の上級者は全体をみるが初級者は局部を見る。
5.コンピュータ囲碁の歴史
1960年代 コンピュータ囲碁の初論文
1970年代 影響力関数、石の生き死に判定のアルゴリズム
1984年 初のコンピュータ囲碁大会(ロンドン、13路盤)
1986年 19路盤コンピュータ囲碁大会(台北)
2001年 囲碁プログラムによる初の初段認定
2006年 モンテカルロ革命(Computer Olympiad9路盤で大活躍、劇的に性能向上)
モンテカルロ木探索(WCTS)の出現(膨大な乱数対戦と計算資源を効率化する手法を
組み合わせた新しい手法の導入)
2007年 第1回UEC杯開催(Crazy Stone優勝)
2012年 日本棋院と電通大でコンピュータ囲碁に関する提携
(Zen黒番で9段に互戦で勝つ)
2013年 第1回電聖戦開催(プロ9段に4子局で勝つ)
2015年 第3回電聖戦開催(プロ9段に4子局で1勝1負)
2016年 Alpha Goの出現
・Google傘下の研究グループがNatureに論文投稿
・Deep Learningと強化学習を用いた方法で、囲碁の局面を評価する新しい手法を開発し、
モンテカルロ木探索の手法と組み合わせで、欧州プロ棋士に5連勝した。
6.Alpha GoとDeep Learning
(1)Policy Network Supervised Learning(PN-SL)教師あり学習
・大量の棋譜から着手確率を学習(学習時間50GPUで3週間)
(2)Policy Network Reinforcement Learning(PN-RL)強化学習
・新しいプログラムと古いプログラムを対局させ自己学習させる。(SLに対し勝率80%以上)
(3) Value Network学習(VN)
・局面の勝率を学習、出力は勝率1つ、自己対戦の棋譜(3000万局)より独立に新しく
作る。(3000万局)
(4) PNとVNを用いた探索
・PN-SLを用いて手を絞り、基本的には従来のMCTSを用いて探索
・探索では一部VNとMCTSを併用する。
(5)膨大なハードウェアのバックアップ
・Alpha Go Distributed(クラスタ並列版)で、1202コア、176GPU
(6)達成事項
・大規模並列マシンを使ってプロ棋士レベルの強さのAIが作れることを示した。
・人間の直感に近いもの(VN)をDeep Learningにより獲得した
(7)問題点(MCTSを用いているので、MCTSの問題点が解消されていない。
・乱数を使った確率的手法なので一本道の探索が困難。
・局面を常に19×19で把握するので、局面を切り分けて考えられない。
7.ゲーム研究の未来
(1)完全情報から不完全情報ゲームへ(カードゲーム、麻雀など)
(2)確定ゲームから不確定ゲームへ(スポーツなど)
(3)2人ゲームから多人数ゲームへ(ネットゲームなど)
(4)より実世界に近いゲームへ(人狼、ミニ四駆AIなど)
(5)「強くする」から「楽しくする」、「学習支援する」(指導碁など)へ
8.残された課題
<現在のAIが出来ないこと>
・問題の理解、問題発見能力
・思考の可視化(獲得したことを説明すること)
9.人間とゲームAIとの共存?およびAIがゲームを破壊?
・チェスでは、人とコンピュータが協力して、より高いレベルの棋譜を作る
アドバンスチェス、フリースタイルチェスが登場。
・将棋界のスマホによる不正疑惑。
・人間同士の対戦を前提としたゲームのバランスの破壊が生じるのでは?
(報告者 児山 豊)