tanuki- 2017-09-28 depth 8 実験結果

棋譜生成

評価関数

2017-07-07-17-12-14評価関数

開始局面

2chkifuおよびfloodgateの対局からランダムに対局を選択
1～32手目からランダムに局面を選択
選択した局面から0～6手、MultiPV5の中から等確率に指し手を選択
MultiPVで選択した指し手も教師局面に含める

探索深さ 10
自己対戦は途中で打ち切らず詰みの局面まで学習データに含める
入玉宣言勝ちも学習データに含める
生成局面数 5億

機械学習

学習局面数 5・10・20億
学習率 Cyclical Learning Rate法で調整する

最小学習率 0.1
最大学習率 2.0
サイクル数 5個

学習手法 Adam ミニバッチ法
ミニバッチサイズ 100万
元の評価関数 2017-07-07-17-12-14
検証データは100マン局面生成したものをそのまま使っている

実験結果

学習局面数 20億評価値上限3000

08:45:54 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-27-19-43-30\2000000000 08:45:54 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-07-07-17-12-14\8000000000 08:45:54 T1,b2000,505 - 42 - 453(52.71% R18.88) win black: white = 49.37% : 50.63% declaration win black=0 white=0

11:35:16 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-27-19-43-30\2000000000 11:35:16 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 11:35:16 T1,b2000,573 - 19 - 408(58.41% R59.00) win black: white = 51.48% : 48.52% declaration win black=0 white=0

学習局面数 10億評価値上限3000

19:50:03 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-28-11-45-29\1000000000 19:50:03 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-07-07-17-12-14\8000000000 19:50:03 T1,b2000,515 - 32 - 453(53.20% R22.28) win black: white = 52.17% : 47.83% declaration win black=0 white=0

22:41:00 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-28-11-45-29\1000000000 22:41:00 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 22:41:00 T1,b2000,565 - 20 - 415(57.65% R53.60) win black: white = 51.94% : 48.06% declaration win black=0 white=0

学習局面数 5億評価値上限3000

04:11:49 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-28-22-41-16\500000000 04:11:49 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-07-07-17-12-14\8000000000 04:11:49 T1,b2000,496 - 45 - 459(51.94% R13.47) win black: white = 50.26% : 49.74% declaration win black=0 white=0

07:01:46 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-28-22-41-16\500000000 07:01:46 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 07:01:46 T1,b2000,570 - 23 - 407(58.34% R58.51) win black: white = 50.87% : 49.13% declaration win black=0 white=0

学習局面数5億+Cyclical Learning Rateなし+評価値上限3000

12:28:38 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-29-07-02-02\500000000 12:28:38 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-07-07-17-12-14\8000000000 12:28:38 T1,b2000,525 - 33 - 442(54.29% R29.89) win black: white = 51.91% : 48.09% declaration win black=0 white=0

15:20:51 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-29-07-02-02\500000000 15:20:51 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 15:20:51 T1,b2000,549 - 20 - 431(56.02% R42.04) win black: white = 53.57% : 46.43% declaration win black=0 white=0

学習局面数10億+Cyclical Learning Rateなし+評価値上限3000

23:31:31 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-29-15-21-07\1000000000 23:31:31 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-07-07-17-12-14\8000000000 23:31:31 T1,b2000,498 - 34 - 468(51.55% R10.79) win black: white = 51.14% : 48.86% declaration win black=0 white=0

02:21:46 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-09-29-15-21-07\1000000000 02:21:46 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 02:21:46 T1,b2000,586 - 20 - 394(59.80% R68.96) win black: white = 51.94% : 48.06% declaration win black=0 white=0

2017/10/07

学習局面数5億
Cyclical Learning Rateなし
評価値上限32000

04:35:03.922 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-10-07-11-51-35\500000000 04:35:03.922 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-07-07-17-12-14\8000000000 04:35:03.922 T1,b2000,555 - 46 - 399(58.18% R57.33) win black: white = 52.31% : 47.69% declaration win black=0 white=0

07:27:56.789 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-10-07-11-51-35\500000000 07:27:56.789 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 07:27:56.789 T1,b2000,600 - 26 - 374(61.60% R82.11) win black: white = 54.31% : 45.69% declaration win black=0 white=0

2017/10/07

学習局面数10億
Cyclical Learning Rateなし
評価値上限32000 5億 + 評価値上限3000 5億
検証データは評価値上限32000の物

05:56:30.608 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-10-07-19-30-44\1000000000 05:56:30.608 engine2=YaneuraOu-2017-early.exe eval2=eval\2017-07-07-17-12-14\8000000000 05:56:30.608 T1,b2000,560 - 50 - 390(58.95% R62.85) win black: white = 52.53% : 47.47% declaration win black=0 white=0

08:48:17.300 engine1=YaneuraOu-2017-early.exe eval1=eval\2017-10-07-19-30-44\1000000000 08:48:17.300 engine2=YaneuraOu-2017-early.exe eval2=eval\elmo_wcsc27 08:48:17.300 T1,b2000,588 - 17 - 395(59.82% R69.11) win black: white = 51.78% : 48.22% declaration win black=0 white=0

nodchipのコンピューター将棋ブログ

コンピューター将棋ソフト「tanuki-」シリーズの実験結果を掲載しています。

tanuki- 2017-09-28 depth 8

tanuki- 2017-09-28 depth 8 実験結果

実験結果

学習局面数 20億評価値上限3000

学習局面数 10億評価値上限3000

学習局面数 5億評価値上限3000

学習局面数5億+Cyclical Learning Rateなし+評価値上限3000

学習局面数10億+Cyclical Learning Rateなし+評価値上限3000

2017/10/07

2017/10/07

tanuki- 2017-09-28 depth 8 実験結果

実験結果

学習局面数 20億 評価値上限3000

学習局面数 10億 評価値上限3000

学習局面数 5億 評価値上限3000

学習局面数5億+Cyclical Learning Rateなし+評価値上限3000

学習局面数10億+Cyclical Learning Rateなし+評価値上限3000

2017/10/07

2017/10/07

学習局面数 20億評価値上限3000

学習局面数 10億評価値上限3000

学習局面数 5億評価値上限3000