tanuki- 2017-09-16 KK・KKP次元下げ 実験結果
- 棋譜生成
- 評価関数
- 2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの
- 開始局面
- 2chkifuからランダムに対局を選択
- 1~32手目からランダムに局面を選択
- 選択した局面から0~6手、MultiPV5の中から等確率に指し手を選択
- MultiPVで選択した指し手も教師局面に含める
- 探索深さ 8
- 自己対戦は途中で打ち切らず詰みの局面まで学習データに含める
- 入玉宣言勝ちも学習データに含める
- 機械学習
- 学習局面数 50億
- 学習率 Cyclical Learning Rate法で調整する
- 最小学習率 0.1
- 最大学習率 2.0
- サイクル数 10個
- 学習手法 Adam ミニバッチ法
- ミニバッチサイズ 100万
- 元の評価関数 2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの
- 検証データは局面を1億局面生成したあと、シャッフルし、先頭の100万局面使用している
- KK・KKPの次元下げを追加している
実験結果
01:08:06 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-17-20-26-05\5000000000 01:08:06 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-08-18-evalmerge\5000000000 01:08:06 T1,b2000,468 - 41 - 491(48.80% R-8.33) win black: white = 51.93% : 48.07% declaration win black=0 white=0
04:08:28 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-17-20-26-05\5000000000 04:08:28 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 04:08:28 T1,b2000,575 - 28 - 397(59.16% R64.35) win black: white = 53.19% : 46.81% declaration win black=0 white=0
11:25:42 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-17-20-26-05\5000000000 11:25:42 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-09-10-19-51-28\5000000000 11:25:42 T1,b2000,481 - 57 - 462(51.01% R7.00) win black: white = 54.29% : 45.71% declaration win black=0 white=0