tanuki- 2018-04-07 halfkp_256x2-32-32
- 棋譜生成
- tanuki-棋譜生成ルーチン
- depth 8
- 開始局面はfoodgate上の棋譜から1局面ランダムに選択し、ランダムに1手指した局面とする
- 50億局面生成
- 対局は打ち切らず詰みの局面まで学習データに出力する
- 評価関数はApery SDT5
- シャフル
- あり
- 機械学習
- NNUE機械学習ルーチン v0.3
- ネットワーク halfkp_256x2-32-32
- 学習手法 SGD ミニバッチ法
- batchsize 1000000
- lambda 0.5
- eta 1.0
- newbob_decay 0.5
- nn_batch_size 1000
- eval_save_interval 500000000
- loss_output_interval 1000000
- mirror_percentage 50
- eval_limit 3000
- レーティング測定
- やねうら王 v4.80公式バイナリ avx2版 + Apery SDT5 評価関数
- 思考時間: 5000ms
- 全対局数: 1000
- 同時対局数: 24
- ハッシュサイズ: 256
- 開始局面: やねうら王互換局面集24手目からランダムに選択
実験結果
評価値を加工せずに教師信号とした場合
08:06:09.573 engine1=F:\hnoda\nnue.git\source\YaneuraOu-by-gcc-halfkp_256x2-32-32.exe eval1=F:\hnoda\nnue\eval\zoukin2.2018-03-12.halfkp_256x2-32-32\final
08:06:09.573 engine2=F:\hnoda\YaneuraOu-2018-Otafuku-KPPT_V480\YaneuraOu-2018-Otafuku.exe eval2=F:\hnoda\hakubishin\exe\eval\apery_sdt5_eval_twig_format
08:06:09.573 T1,b5000,422 - 69 - 509(45.33% R-32.56) win black: white = 51.24% : 48.76% declaration win engine1=13 engine2=0
評価値にdiscountを適用した場合
08:55:41.004 engine1=F:\hnoda\nnue.git\source\YaneuraOu-by-gcc-halfkp_256x2-32-32.exe eval1=F:\hnoda\nnue\eval\zoukin2.2018-03-12.halfkp_256x2-32-32.discount\final
08:55:41.004 engine2=F:\hnoda\YaneuraOu-2018-Otafuku-KPPT_V480\YaneuraOu-2018-Otafuku.exe eval2=F:\hnoda\hakubishin\exe\eval\apery_sdt5_eval_twig_format
08:55:41.004 T1,b5000,314 - 211 - 475(39.80% R-71.91) win black: white = 56.15% : 43.85% declaration win engine1=67 engine2=0
比較対象 halfkp_128x2-32-32
07:55:48.048 engine1=F:\hnoda\nnue.git\source\YaneuraOu-by-gcc-halfkp_128x2-32-32.exe eval1=F:\hnoda\nnue\eval\zoukin2.2018-03-12.halfkp_128x2-32-32\final
07:55:48.048 engine2=F:\hnoda\YaneuraOu-2018-Otafuku-KPPT_V480\YaneuraOu-2018-Otafuku.exe eval2=F:\hnoda\hakubishin\exe\eval\apery_sdt5_eval_twig_format
07:55:48.048 T1,b5000,422 - 68 - 510(45.28% R-32.90) win black: white = 49.89% : 50.11% declaration win engine1=24 engine2=0