tanuki- 2017-08-28 ブリード・elmo絞り実験結果

棋譜生成

評価関数

2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの

開始局面

2chkifuからランダムに対局を選択
1～32手目からランダムに局面を選択
選択した局面から0～6手、MultiPV5の中から等確率に指し手を選択
MultiPVで選択した指し手も教師局面に含める

探索深さ 8
自己対戦は途中で打ち切らず詰みの局面まで学習データに含める
入玉宣言勝ちも学習データに含める

機械学習

学習局面数 50億
学習率 0.5
学習手法 Adam ミニバッチ法
ミニバッチサイズ 100万
元の評価関数 2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの
elmo lambda KP絶対による進行度

実験結果

16:07:31 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-06-14-16-05\5000000000 16:07:31 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-08-18-evalmerge\5000000000 16:07:31 T1,b2000,431 - 40 - 529(44.90% R-35.59) win black: white = 48.75% : 51.25% declaration win black=0 white=0

18:59:08 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-06-14-16-05\5000000000 18:59:08 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 18:59:08 T1,b2000,595 - 20 - 385(60.71% R75.62) win black: white = 53.67% : 46.33% declaration win black=0 white=0