tanuki- 2018-04-25 halfkp_256x2-32-32 追加学習
- 棋譜生成
- tanuki-棋譜生成ルーチン
- depth 8
- 開始局面はfoodgate上の棋譜から1局面ランダムに選択し、ランダムに1手指した局面とする
- 50億局面生成 うち最初の5億局面は勝敗フラグが誤っていたため破棄
- 対局は打ち切らず詰みの局面まで学習データに出力する
- 評価関数はApery SDT5
- シャフル
- あり
- 機械学習
- NNUE機械学習ルーチン v0.5
- ネットワーク halfkp_256x2-32-32
- 学習手法 SGD ミニバッチ法
- batchsize 1000000
- lambda 後 述
- eta 1.0
- newbob_decay 0.5
- nn_batch_size 1000
- eval_save_interval 100000000
- loss_output_interval 1000000
- mirror_percentage 50
- eval_limit 32000
- レーティング測定
- 対局相手: やねうら王 v4.80公式バイナリ avx2版 + Apery SDT5 評価関数
- 思考時間: 5000ms
- 全対局数: 1000
- 同時対局数: 24
- ハッシュサイズ: 256
- 開始局面: やねうら王互換局面集24手目からランダムに選択
実験結果
lambda=0.5
08:10:38.488 engine1=F:\hnoda\nnue.git\source\YaneuraOu-by-gcc-halfkp_256x2-32-32_v0.5.exe eval1=F:\hnoda\nnue\eval\zoukin2.2018-03-12.halfkp_256x2-32-32.add.eta=1.0.lambda=0.5\final 08:10:38.488 engine2=F:\hnoda\YaneuraOu-2018-Otafuku-KPPT_V480\YaneuraOu-2018-Otafuku.exe eval2=F:\hnoda\hakubishin\exe\eval\apery_sdt5_eval_twig_format 08:10:38.488 対局数1000 先手勝ち510(52%) 後手勝ち453(47%) 引き分け37 08:10:38.488 engine1 08:10:38.488 勝ち461(47% R-14.80) 先手勝ち248(25%) 後手勝ち213(22%) 宣言勝ち11 08:10:38.488 engine2 08:10:38.488 勝ち502(52%) 先手勝ち262(27%) 後手勝ち240(24%) 宣言勝ち5
discount
09:37:47.861 engine1=F:\hnoda\nnue.git\source\YaneuraOu-by-gcc-halfkp_256x2-32-32_v0.5.exe eval1=F:\hnoda\nnue\eval\zoukin2.2018-03-12.halfkp_256x2-32-32.add.eta=1.0.discount\24 09:37:47.861 engine2=F:\hnoda\YaneuraOu-2018-Otafuku-KPPT_V480\YaneuraOu-2018-Otafuku.exe eval2=F:\hnoda\hakubishin\exe\eval\apery_sdt5_eval_twig_format 09:37:47.861 対局数1000 先手勝ち360(51%) 後手勝ち338(48%) 引き分け302 09:37:47.861 engine1 09:37:47.861 勝ち234(33% R-118.92) 先手勝ち125(17%) 後手勝ち109(15%) 宣言勝ち5 09:37:47.861 engine2 09:37:47.861 勝ち464(66%) 先手勝ち235(33%) 後手勝ち229(32%) 宣言勝ち2