tanuki- 2017-09-10 部分シャッフル実験

棋譜生成

評価関数

2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの

開始局面

2chkifuからランダムに対局を選択
1～32手目からランダムに局面を選択
選択した局面から0～6手、MultiPV5の中から等確率に指し手を選択
MultiPVで選択した指し手も教師局面に含める

探索深さ 8
自己対戦は途中で打ち切らず詰みの局面まで学習データに含める
入玉宣言勝ちも学習データに含める

機械学習

学習局面数 50億
学習率 0.5
学習手法 Adam ミニバッチ法
ミニバッチサイズ 100万
2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの

全体シャッフル

03:49:33 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-08-28-01-00-51\5000000000 03:49:33 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-08-18-evalmerge\5000000000 03:49:33 T1,b2000,451 - 45 - 504(47.23% R-19.30) win black: white = 51.20% : 48.80% declaration win black=0 white=0

06:44:04 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-08-28-01-00-51\5000000000 06:44:04 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 06:44:04 T1,b2000,610 - 19 - 371(62.18% R86.38) win black: white = 54.64% : 45.36% declaration win black=0 white=0

1億局面ずつシャッフル

16:45:21 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-09-13-03-27\5000000000 16:45:21 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-08-18-evalmerge\5000000000 16:45:21 T1,b2000,444 - 50 - 506(46.74% R-22.71) win black: white = 49.58% : 50.42%

19:51:10 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-09-13-03-27\5000000000 19:51:10 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 19:51:10 T1,b2000,573 - 20 - 407(58.47% R59.42) win black: white = 54.80% : 45.20%