tanuki- 2018-01-13 discount絞り

棋譜生成

tanuki-棋譜生成ルーチン
評価関数

Apery sdt5 評価関数

開始局面

2chkifuおよびfloodgateの全局面からランダムに選択
選択した局面の合法手からランダムに1手指した局面を開始局面とする

探索深さ 8
自己対戦は途中で打ち切らず詰みの局面まで学習データに含める
入玉宣言勝ちも学習データに含める
生成局面数 50億

機械学習

tanuki-機械学習ルーチン
学習手法 Adam ミニバッチ法
学習率 0.2
ミニバッチサイズ 100万
元の評価関数 Apery sdt5 評価関数
検証データは100万局面生成したものをそのまま使っている
学習データ 50億局面
学習局面数 50億局面

実験結果

elmo絞り

14:56:24 engine1=YaneuraOu-2017-early.exe eval1=eval\2018-01-09-10-08-3814:56:24 engine2=YaneuraOu-2017-early.exe eval2=eval\apery_sdt5_eval_twig_format14:56:24 T1,b5000,453 - 42 - 505(47.29% R-18.88) win black: white = 52.40% : 47.60% declaration win engine1=0 engine2=0

dicount絞り (評価値のまま重み付き平均化した場合)

21:06:20 engine1=YaneuraOu-2017-early.exe eval1=eval\2018-01-10-16-51-5321:06:20 engine2=YaneuraOu-2017-early.exe eval2=eval\apery_sdt5_eval_twig_format21:06:20 T1,b5000,431 - 36 - 533(44.71% R-36.90) win black: white = 49.90% : 50.10% declaration win engine1=0 engine2=0

dicount絞り (評価値を勝率に変換してから重み付き平均化した場合)

03:28:39 engine1=YaneuraOu-2017-early.exe eval1=eval\2018-01-11-23-01-2703:28:39 engine2=YaneuraOu-2017-early.exe eval2=eval\apery_sdt5_eval_twig_format03:28:39 T1,b5000,448 - 40 - 512(46.67% R-23.20) win black: white = 56.35% : 43.65% declaration win engine1=0 engine2=0