tanuki- 2017-09-09 Cyclical Learning Rate 実験結果
- 棋譜生成
- 評価関数
- 2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの
- 開始局面
- 2chkifuからランダムに対局を選択
- 1~32手目からランダムに局面を選択
- 選択した局面から0~6手、MultiPV5の中から等確率に指し手を選択
- MultiPVで選択した指し手も教師局面に含める
- 探索深さ 8
- 自己対戦は途中で打ち切らず詰みの局面まで学習データに含める
- 入玉宣言勝ちも学習データに含める
- 機械学習
- 学習局面数 50億
- 学習率 Cyclical Learning Rate法で調整する
- 最小学習率 0.1
- 最大学習率 以下に記載
- サイクル数 10個
- 学習手法 Adam ミニバッチ法
- ミニバッチサイズ 100万
- 元の評価関数 2017-07-07-17-12-14評価関数とelmoを1:1でブレンドしたもの
実験結果
最大学習率 5.0
01:15:39 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-07-23-42-42\5000000000 01:15:39 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-08-18-evalmerge\5000000000 01:15:39 T1,b2000,416 - 31 - 553(42.93% R-49.45) win black: white = 52.73% : 47.27% declaration win black=0 white=0
04:10:34 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-07-23-42-42\5000000000 04:10:34 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 04:10:34 T1,b2000,574 - 23 - 403(58.75% R61.44) win black: white = 49.44% : 50.56% declaration win black=0 white=0
最大学習率 2.0
01:11:21 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-10-19-51-28\5000000000 01:11:21 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-08-18-evalmerge\5000000000 01:11:21 T1,b2000,461 - 40 - 499(48.02% R-13.76) win black: white = 54.58% : 45.42% declaration win black=0 white=0
04:08:30 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-10-19-51-28\5000000000 04:08:30 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 04:08:30 T1,b2000,612 - 21 - 367(62.51% R88.83) win black: white = 52.09% : 47.91% declaration win black=0 white=0
最大学習率 1.0
09:51:27 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-12-04-08-48\5000000000 09:51:27 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-08-18-evalmerge\5000000000 09:51:27 T1,b2000,416 - 40 - 544(43.33% R-46.60) win black: white = 51.35% : 48.65% declaration win black=0 white=0
12:47:52 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-12-04-08-48\5000000000 12:47:52 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 12:47:52 T1,b2000,595 - 28 - 377(61.21% R79.27) win black: white = 50.00% : 50.00% declaration win black=0 white=0