tanuki- 2017-08-14 実験結果
- 学習局面数 50億局面
- 10億局面は過去に生成したもの
- 20億局面はelmoから、20億局面は20億局面は評価関数2017-07-07-17-12-14から新たに生成した
- 2chkifuからランダムに対局を選択
- 1~32手目からランダムに局面を選択
- 選択した局面から0~6手、MultiPV5の中から等確率に指し手を選択
- MultiPVで選択した指し手も教師局面に含める
- 探索深さ 8
- 自己対戦は途中で打ち切らず詰みの局面まで学習データに含める
- 入玉宣言勝ちも学習データに含める
- 機械学習
- 学習局面数 60億
- 学習率 0.5
- 学習手法 Adam ミニバッチ法
- ミニバッチサイズ 100万
- 元の評価関数 2017-07-07-17-12-14
- 検証データは 評価関数2017-07-07-17-12-14から生成した
elmo lambda = 0.5
18:19:43 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-08-12-14-58-25\5000000000 18:19:43 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-07-07-17-12-14\8000000000 18:19:43 T1,b2000,516 - 34 - 450(53.42% R23.77) win black: white = 50.83% : 49.17% declaration win black=0 white=0
21:11:33 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-08-12-14-58-25\5000000000 21:11:33 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 21:11:33 T1,b2000,599 - 25 - 376(61.44% R80.90) win black: white = 49.95% : 50.05% declaration win black=0 white=0
00:12:45 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-08-12-14-58-25\5000000000 00:12:45 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-05-20-15-00-44\5000000000 00:12:45 T1,b2000,476 - 44 - 480(49.79% R-1.45) win black: white = 51.36% : 48.64% declaration win black=0 white=0