トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

AI

alphaGo

アルゴリズム

AlphaGoは、ディープニューラルネットワークを用いて実装された「value network」と「policy network」によって動くモンテカルロ木探索を用いる。AlphaGoは当初、棋譜に記録された熟練した棋士の手と合致するよう試みることで人間のプレーヤーを模倣するように訓練され、次に、ある程度の能力に達すると、強化学習を用いて自分自身と多数の対戦を行うことでさらに訓練された。

無能関係LINK

--