nodchipのコンピューター将棋ブログ

コンピューター将棋ソフト「tanuki-」シリーズの実験結果を掲載しています。

tanuki- 2017-09-15 train/test loss

将棋コンピュータ将棋

tanuki- 2017-09-15 train/test loss 実験結果

棋譜生成

評価関数

2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの

開始局面

2chkifuからランダムに対局を選択
1～32手目からランダムに局面を選択
選択した局面から0～6手、MultiPV5の中から等確率に指し手を選択
MultiPVで選択した指し手も教師局面に含める

探索深さ 8
自己対戦は途中で打ち切らず詰みの局面まで学習データに含める
入玉宣言勝ちも学習データに含める

機械学習

学習局面数 50億
学習率 Cyclical Learning Rate法で調整する

最小学習率 0.1
最大学習率 2.0
サイクル数 10個

学習手法 Adam ミニバッチ法
ミニバッチサイズ 100万
元の評価関数 2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの
検証データは局面を1億局面生成したあと、シャッフルし、先頭の100万局面使用している

実験結果

1億局面ずつシャッフルした場合

学習率: 0.5固定