tanuki- 2017-08-14 実験結果

学習局面数 50億局面

10億局面は過去に生成したもの
20億局面はelmoから、20億局面は20億局面は評価関数2017-07-07-17-12-14から新たに生成した

2chkifuからランダムに対局を選択
1～32手目からランダムに局面を選択
選択した局面から0～6手、MultiPV5の中から等確率に指し手を選択
MultiPVで選択した指し手も教師局面に含める

探索深さ 8
自己対戦は途中で打ち切らず詰みの局面まで学習データに含める
入玉宣言勝ちも学習データに含める

機械学習

学習局面数 60億
学習率 0.5
学習手法 Adam ミニバッチ法
ミニバッチサイズ 100万
元の評価関数 2017-07-07-17-12-14
検証データは評価関数2017-07-07-17-12-14から生成した

elmo lambda = 0.5

18:19:43 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-08-12-14-58-25\5000000000 18:19:43 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-07-07-17-12-14\8000000000 18:19:43 T1,b2000,516 - 34 - 450(53.42% R23.77) win black: white = 50.83% : 49.17% declaration win black=0 white=0

21:11:33 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-08-12-14-58-25\5000000000 21:11:33 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 21:11:33 T1,b2000,599 - 25 - 376(61.44% R80.90) win black: white = 49.95% : 50.05% declaration win black=0 white=0

00:12:45 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-08-12-14-58-25\5000000000 00:12:45 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-05-20-15-00-44\5000000000 00:12:45 T1,b2000,476 - 44 - 480(49.79% R-1.45) win black: white = 51.36% : 48.64% declaration win black=0 white=0