2022-07-03

tanuki- 2022-07-03 強化学習

実験内容

「tanuki- 2022-06-07 やねうら王学習部リグレッション調査」で作成した評価関数が思いのほか強かったので、そこからの強化学習を行い、レーティングの変化を測定する。

https://docs.google.com/document/d/1Lup-hHFH2_QWqEfe56obJ6OEwj15P-C0VO6pWV9-vgo/edit?usp=sharing

棋譜生成

生成ルーチン	tanuki-棋譜生成ルーチン
評価関数	https://docs.google.com/document/d/1Lup-hHFH2_QWqEfe56obJ6OEwj15P-C0VO6pWV9-vgo/edit?usp=sharing やねうら王 V5.33 で作成した評価関数 FV_SCALE=16
1手あたりの思考	深さ最大 9 思考ノード数最大 50,000 ノード
開始局面	foodgate の 2020 年～ 2021 年の棋譜のうち、レーティング 3900 以上同士の対局の 32 手目までから 1 局面ランダムに選択し、その局面を開始局面としたランダムムーブなし
生成局面数	10 億局面 × 8 セット
生成条件	対局は打ち切らず詰みの局面まで学習データに出力した

機械学習

機械学習ルーチン	やねうら王機械学習ルーチン
学習モデル	halfkp_256x2-32-32
学習手法	SGD ミニバッチ法
USI_Hash	1024
Threads	127
loop	100
batchsize	1000000
lambda	0.5
eta	eta1=1e-8 eta2=0.1 eta1_epoch=100 (eta2 を 1.0 に設定したところ、まったくロスが下がらなかった)
newbob_decay	0.5
nn_batch_size	1000
eval_save_interval	100000000
loss_output_interval	1000000
mirror_percentage	50
eval_limit	32000
weight_by_progress	無効
次元下げ	K・P・相対KP
学習データ内で重複した局面の除外	しない
初期ネットワークパラメーター	https://docs.google.com/document/d/1Lup-hHFH2_QWqEfe56obJ6OEwj15P-C0VO6pWV9-vgo/edit?usp=sharing やねうら王 V5.33 で作成した評価関数
勝敗項の教師信号	1.0
やねうら王バージョン	V5.33 相当

レーティング測定

対局相手	https://docs.google.com/document/d/1Lup-hHFH2_QWqEfe56obJ6OEwj15P-C0VO6pWV9-vgo/edit?usp=sharing やねうら王 V5.33 で作成した評価関数
思考時間	持ち時間 300 秒 + 1 手 2 秒加算
対局数	5000
同時対局数	64
ハッシュサイズ	768
開始局面	たややん互換局面集

実験結果

機械学習

v5.33 … 学習データの生成に使用した評価関数を学習した際の記録

v5.33.iteration=2 … 今回作成した評価関数を学習した際の記録

レーティング測定

対局数=5000 同時対局数=64 ハッシュサイズ=768 開始手数=24 最大手数=320 開始局面ファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\TanukiColiseum\taya36_2020-11-06.sfen NUMAノード数=2 表示更新間隔(ms)=3600000

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\regression.v5.33.iteration=2\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale1=20

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\regression.v5.33\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=20

対局数5000 先手勝ち2178(53.1%) 後手勝ち1922(46.9%) 引き分け900

engine1

勝ち1994(48.6% R-7.8 +-9.6) 先手勝ち1070(26.1%) 後手勝ち924(22.5%)

宣言勝ち199 先手宣言勝ち107 後手宣言勝ち92 先手引き分け431 後手引き分け469

engine2

勝ち2106(51.4%) 先手勝ち1108(27.0%) 後手勝ち998(24.3%)

宣言勝ち94 先手宣言勝ち47 後手宣言勝ち47 先手引き分け469 後手引き分け431

1994,900,2106

学習ロスと検証ロスは、元の評価関数に比べて、大きかった。また、元の評価関数に比べて、下がり幅が小さかった。

平手局面の評価値は、元の評価関数に比べて、ほとんど変わらなかった。

評価値の絶対値は、元の評価関数と比べて、やや小さかった。

レーティングは、元の評価関数と比べて R-7.8 低かったが、有意差はなかった。

考察

学習ロスと検証ロスが、元の評価関数と異なっている点については、学習データが異なるため、自然なことだと考える。

また、元の評価関数より大きかった点については、今回の学習データと、評価関数の出力との相互エントロピーが大きいという事であるので、評価関数が学習データから学習できた部分が少ないという事なのだと思われる。おそらく halfkp_256x2-32-32 の表現能力の限界に到達してしてしまっているのだと思われる。

平手局面の評価値については、学習に大きな問題が発生しなかったという事を表しているものと思われる。

評価値の絶対値については、今回使用した学習データのほうが、評価値の絶対値が小さい局面の割合が大きいという事なのだと思われる。

レーティングについては、学習ロスと検証ロスと同様、 halfkp_256x2-32-32 の表現能力の限界に到達してしまっているのだと思われる。現在の表現能力のままレーティングを上げるためには、ネットワークパラメーターを、将棋の勝敗に直結する局面に対する解像度を上げる方向に割り当てる必要があると思われる。このためには、学習データに、そのような局面、および周辺の局面を多く含められるような、学習データ生成手法・パラメーターが必要だと思われる。

まとめ

「tanuki- 2022-06-07 やねうら王学習部リグレッション調査」で作成した評価関数が思いのほか強かったので、そこからの強化学習を行い、レーティングの変化を測定した。

結果、レーティングは向上しなかった。学習データ生成手法・パラメーターの改善が必要だと思われる。

2022-07-02

tanuki- 2022-07-02 FV_SCALE 調整

将棋コンピュータ将棋

tanuki- 2022-07-02 FV_SCALE 調整

実験内容

水匠 5 を用いて生成した学習データを用いて学習した評価関数で、 FV_SCALE の値を変化させたときの、レーティングの変化を調べる。

水匠 5 が、 FV_SCALE を変化させることでレーティングが変化するのであれば、それを用いて学習させた評価関数も、同様のことが起こるのではないかと予想した。

棋譜生成

生成ルーチン	tanuki-棋譜生成ルーチン
評価関数	水匠5 FV_SCALE=16
1手あたりの思考	深さ最大 9 思考ノード数最大 50,000 ノード
開始局面	foodgate の 2020 年～ 2021 年の棋譜のうち、レーティング 3900 以上同士の対局の 32 手目までから 1 局面ランダムに選択し、その局面を開始局面としたランダムムーブなし
生成局面数	10 億局面 × 8 セット
生成条件	対局は打ち切らず詰みの局面まで学習データに出力した

機械学習

機械学習ルーチン	やねうら王機械学習ルーチン
学習モデル	halfkp_256x2-32-32
学習手法	SGD ミニバッチ法
USI_Hash	1024
Threads	64
loop	100
batchsize	1000000
lambda	0.5
eta	eta1=1e-8 eta2=1.0 eta1_epoch=100
newbob_decay	0.5
nn_batch_size	1000
eval_save_interval	100000000
loss_output_interval	1000000
mirror_percentage	50
eval_limit	32000
weight_by_progress	無効
次元下げ	K・P・相対KP
学習データ内で重複した局面の除外	バージョンのデフォルトに依存する
初期ネットワークパラメーター	tanuki-wcsc29
勝敗項の教師信号	1.0
やねうら王バージョン	V5.33

レーティング測定

対局相手	tanuki-wcsc32-2022-05-06
思考時間	持ち時間 300 秒 + 1 手 2 秒加算
対局数	2000
同時対局数	64
ハッシュサイズ	768
開始局面	たややん互換局面集

実験結果

機械学習

https://docs.google.com/document/d/1Lup-hHFH2_QWqEfe56obJ6OEwj15P-C0VO6pWV9-vgo/edit?usp=sharing

に掲載されているものと同じ。

レーティング測定

対局数=2000 同時対局数=64 ハッシュサイズ=640 開始手数=24 最大手数=320 開始局面ファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\TanukiColiseum\taya36_2020-11-06.sfen NUMAノード数=2 表示更新間隔(ms)=3600000

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価

関数フォルダパス=D:\hnoda\shogi\eval\regression.v5.33\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させ

る=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale1=16

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価

関数フォルダパス=D:\hnoda\tanuki-wcsc32-2022-05-06\eval 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=16

対局数2000 先手勝ち906(50.7%) 後手勝ち881(49.3%) 引き分け213

engine1

勝ち923(51.7% R10.3 +-15.2) 先手勝ち470(26.3%) 後手勝ち453(25.3%)

宣言勝ち43 先手宣言勝ち24 後手宣言勝ち19 先手引き分け103 後手引き分け110

engine2

勝ち864(48.3%) 先手勝ち436(24.4%) 後手勝ち428(24.0%)

宣言勝ち2 先手宣言勝ち0 後手宣言勝ち2 先手引き分け110 後手引き分け103

923,213,864

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価

対局数2000 先手勝ち908(51.7%) 後手勝ち849(48.3%) 引き分け243

engine1

勝ち932(53.0% R18.6 +-15.3) 先手勝ち481(27.4%) 後手勝ち451(25.7%)

宣言勝ち53 先手宣言勝ち27 後手宣言勝ち26 先手引き分け121 後手引き分け122

engine2

勝ち825(47.0%) 先手勝ち427(24.3%) 後手勝ち398(22.7%)

宣言勝ち1 先手宣言勝ち1 後手宣言勝ち0 先手引き分け122 後手引き分け121

932,243,825

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価

対局数2000 先手勝ち885(51.3%) 後手勝ち840(48.7%) 引き分け275

engine1

勝ち855(49.6% R-2.6 +-15.2) 先手勝ち435(25.2%) 後手勝ち420(24.3%)

宣言勝ち43 先手宣言勝ち29 後手宣言勝ち14 先手引き分け140 後手引き分け135

engine2

勝ち870(50.4%) 先手勝ち450(26.1%) 後手勝ち420(24.3%)

宣言勝ち2 先手宣言勝ち1 後手宣言勝ち1 先手引き分け135 後手引き分け140

855,275,870

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価

対局数2000 先手勝ち938(54.0%) 後手勝ち799(46.0%) 引き分け263

engine1

勝ち803(46.2% R-22.8 +-15.3) 先手勝ち427(24.6%) 後手勝ち376(21.6%)

宣言勝ち42 先手宣言勝ち22 後手宣言勝ち20 先手引き分け149 後手引き分け114

engine2

勝ち934(53.8%) 先手勝ち511(29.4%) 後手勝ち423(24.4%)

宣言勝ち4 先手宣言勝ち1 後手宣言勝ち3 先手引き分け114 後手引き分け149

803,263,934

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価

対局数2000 先手勝ち954(54.2%) 後手勝ち807(45.8%) 引き分け239

engine1

勝ち808(45.9% R-25.2 +-15.3) 先手勝ち434(24.6%) 後手勝ち374(21.2%)

宣言勝ち47 先手宣言勝ち19 後手宣言勝ち28 先手引き分け132 後手引き分け107

engine2

勝ち953(54.1%) 先手勝ち520(29.5%) 後手勝ち433(24.6%)

宣言勝ち2 先手宣言勝ち2 後手宣言勝ち0 先手引き分け107 後手引き分け132

808,239,953

FV_SCALE=20 のときに、最もレーティングが高くなった。また、 FV_SCALE=20 から離れるほど、レーティングは下がっていった。

考察

水匠 5 同様、水匠 5 の学習データを元に学習させた評価関数も、 FV_SCALE を調整する事により、レーティングを伸ばすことができるのだと思われる。ただし、教師信号の勝敗項の勝率を調整した場合、評価値のスケールが変化するため、この限りではない可能性がある。

まとめ

水匠 5 を用いて生成した学習データを用いて学習した評価関数で、 FV_SCALE の値を変化させたときの、レーティングの変化を調べた。結果、今回実験に使用した評価関数については、 FV_SCALE=20 のときに、最もレーティングが高くなった。今後評価関数を大会で使用する際は、直前に、最適な FV_SCALE の値を調べたい。

2022-06-27

tanuki- 2022-06-27 nnue-pytorch step と gamma の調整

将棋コンピュータ将棋

tanuki- 2022-06-27 nnue-pytorch step と gamma の調整

実験内容

nnue-pytorch を用いた学習で、 StepLR の step と gamma を、 nnue-pytorch 本家最新版に変更し、レーティングを測定する。

棋譜生成

生成ルーチン	tanuki-棋譜生成ルーチン
評価関数	水匠5 FV_SCALE=16
1手あたりの思考	深さ最大 9 思考ノード数最大 50,000 ノード
開始局面	foodgate の 2020 年～ 2021 年の棋譜のうち、レーティング 3900 以上同士の対局の 32 手目までから 1 局面ランダムに選択し、その局面を開始局面としたランダムムーブなし
生成局面数	10 億局面 × 8 セット
生成条件	対局は打ち切らず詰みの局面まで学習データに出力した

シャッフル条件

生成ルーチン	tanuki-シャッフルルーチン
qsearch()	あり
置換表	無効

機械学習

機械学習ルーチン	nnue-pytorch + やねうら王 https://github.com/nodchip/nnue-pytorch/tree/shogi.2022-05-23
学習モデル	halfkp_256x2-32-32
学習手法	SGD ミニバッチ法
最適化手法	Ranger
学習率調整手法	StepLR step=1 gamma=0.992
batch-size	16384
threads	2
num-workers	2
gpus	1
features	HalfKP
max_epoch	300
scaling (kPonanzaConstant)	361
lambda	0.5
勝敗項の教師信号	1.0

レーティング測定

対局相手	tanuki- 2022-04-01 halfkp_256x2-32-32 再実験 https://docs.google.com/document/d/1U2dtYgksApn9GYIUJEUtceE0Yc-0dfmx6kA44FopDXc/edit
思考時間	持ち時間 300 秒 + 1 手 2 秒加算
対局数	5000
同時対局数	64
ハッシュサイズ	768
開始局面	たややん互換局面集

実験結果

機械学習

レーティング測定

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\tanuki-.nnue-pytorch-2022-06-29 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale1=16

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\suisho5.halfkp_256x2-32-32.80G\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=16

対局数5000 先手勝ち2231(51.0%) 後手勝ち2141(49.0%) 引き分け628

engine1

勝ち2021(46.2% R-23.0 +-9.7) 先手勝ち1041(23.8%) 後手勝ち980(22.4%)

宣言勝ち19 先手宣言勝ち11 後手宣言勝ち8 先手引き分け299 後手引き分け329

engine2

勝ち2351(53.8%) 先手勝ち1190(27.2%) 後手勝ち1161(26.6%)

宣言勝ち64 先手宣言勝ち26 後手宣言勝ち38 先手引き分け329 後手引き分け299

2021,628,2351

学習ロスは、パラメーター調整前と比べて同じか、やや下がった。

検証ロスは、パラメーター調整前は、学習率が下がったときに急激に下がり、その後徐々に上がるのを繰り返していた。パラメーター調整後は、おおよそなだらかに下がり続けるようになった。

レーティングは、あくまで共通の対局相手とのレーティング差の比較になるが、パラメーター調整前に比べ、 R+14.8 程度上がった。ただし、直接対局させたわけではないため、本当にレーティングが上がったかどうかは分からない。

考察

学習ロスと検証ロスを見る限り、パラメーター調整後のほうが良く学習できているように思われる。

また、レーティングについては、パラメーター調整後のほうが強くなっているように思われる。ただし、できれば直接パラメーター調整前との対局をさせるべきだった。なお、今から直接パラメーター調整前との対局をさせた場合、多重検定の罠に引っかかるため、好ましくないと思われる。

まとめ

nnue-pytorch を用いた学習で、 StepLR の step と gamma を、 nnue-pytorch 本家最新版に変更し、レーティングを測定した。結果、パラメーター調整後のほうが、レーティングが伸びた可能性がある。今後は、このパラメーターを用いて実験していきたい。また、最適化手法についても、 Ranger 以外のものを試してみたい。

2022-06-27

tanuki- 2022-06-27 nnue-pytorch halfkp_1024x2-8-32

将棋コンピュータ将棋

tanuki- 2022-06-27 nnue-pytorch halfkp_1024x2-8-32

実験内容

nnue-pytorch を用いた学習で、 halfkp_1024x2-8-32 を用いて学習し、レーティングを測定する。

棋譜生成

生成ルーチン	tanuki-棋譜生成ルーチン
評価関数	水匠5 FV_SCALE=16
1手あたりの思考	深さ最大 9 思考ノード数最大 50,000 ノード
開始局面	foodgate の 2020 年～ 2021 年の棋譜のうち、レーティング 3900 以上同士の対局の 32 手目までから 1 局面ランダムに選択し、その局面を開始局面としたランダムムーブなし
生成局面数	10 億局面 × 8 セット
生成条件	対局は打ち切らず詰みの局面まで学習データに出力した

シャッフル条件

生成ルーチン	tanuki-シャッフルルーチン
qsearch()	あり
置換表	無効

機械学習

機械学習ルーチン	nnue-pytorch + やねうら王 https://github.com/nodchip/nnue-pytorch/tree/shogi.2022-05-23
学習モデル	halfkp_1024x2-8-32
学習手法	SGD ミニバッチ法
最適化手法	Ranger
学習率調整手法	StepLR step=75 gamma=0.3
batch-size	16384
threads	2
num-workers	2
gpus	1
features	HalfKP
max_epoch	300
scaling (kPonanzaConstant)	361
lambda	0.5
勝敗項の教師信号	1.0

レーティング測定

対局相手	tanuki- 2022-04-01 halfkp_256x2-32-32 再実験 https://docs.google.com/document/d/1U2dtYgksApn9GYIUJEUtceE0Yc-0dfmx6kA44FopDXc/edit
思考時間	持ち時間 300 秒 + 1 手 2 秒加算
対局数	5000
同時対局数	64
ハッシュサイズ	640
開始局面	たややん互換局面集

実験結果

機械学習

レーティング測定

対局数=5000 同時対局数=64 ハッシュサイズ=640 開始手数=24 最大手数=320 開始局面ファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\TanukiColiseum\taya36_2020-11-06.sfen NUMAノード数=2 表示更新間隔(ms)=3600000

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\tanuki-.nnue-pytorch-2022-06-27 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale1=16

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\suisho5.halfkp_256x2-32-32.80G\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=16

対局数5000 先手勝ち2336(51.9%) 後手勝ち2169(48.1%) 引き分け495

engine1

勝ち1725(38.3% R-74.4 +-9.9) 先手勝ち915(20.3%) 後手勝ち810(18.0%)

宣言勝ち8 先手宣言勝ち3 後手宣言勝ち5 先手引き分け225 後手引き分け270

engine2

勝ち2780(61.7%) 先手勝ち1421(31.5%) 後手勝ち1359(30.2%)

宣言勝ち82 先手宣言勝ち54 後手宣言勝ち28 先手引き分け270 後手引き分け225

1725,495,2780

学習ロスは、 halfkp_256x2-32-32 と比べて下がった。

検証ロスは、 halfkp_256x2-32-32 と比べて、初めのうちは下がった。しかし、その後上昇し、学習率が下がった際にまた下がるを繰り返した。最終的には halfkp_256x2-32-32 より上がった。

また、学習ロスは下がり傾向だったが、検証ロスは途中から下がらなくなった。

レーティングは、対局相手と比べ、下がった。これは、 halfkp_256x2-32-32 と比べてだいぶ下がっている。

考察

学習ロスと検証ロスについては、過学習を起こしていると考えられる。レーティングの低下も、過学習が理由だと考えられる。

まとめ

nnue-pytorch を用いた学習で、 halfkp_1024x2-8-32 を用いて学習し、レーティングを測定した。

今回の実験では、過学習により、レーティングが halfkp_256x2-32-32 に比べて伸びなかった。

最適化手法と学習率調整手法について、実験してみたい。

2022-06-20

tanuki- 2022-06-20 nnue-pytorch HalfKP^

将棋コンピュータ将棋

tanuki- 2022-06-20 nnue-pytorch HalfKP^

実験内容

nnue-pytorch を用いた学習で、 HalfKP^ (HalfKP + K 次元下げ + P 次元下げ) を用いて学習させ、レーティングの変化を調べる。

棋譜生成

生成ルーチン	tanuki-棋譜生成ルーチン
評価関数	水匠5 FV_SCALE=16
1手あたりの思考	深さ最大 9 思考ノード数最大 50,000 ノード
開始局面	foodgate の 2020 年～ 2021 年の棋譜のうち、レーティング 3900 以上同士の対局の 32 手目までから 1 局面ランダムに選択し、その局面を開始局面としたランダムムーブなし
生成局面数	10 億局面 × 8 セット
生成条件	対局は打ち切らず詰みの局面まで学習データに出力した

シャッフル条件

生成ルーチン	tanuki-シャッフルルーチン
qsearch()	あり
置換表	無効

機械学習

機械学習ルーチン	nnue-pytorch + やねうら王 https://github.com/nodchip/nnue-pytorch/tree/shogi.2022-05-23
学習モデル	halfkp_256x2-32-32
学習手法	SGD ミニバッチ法 Ranger
batch-size	16384
threads	2
num-workers	2
gpus	1
features	HalfKP^
max_epoch	300
scaling (kPonanzaConstant)	361
lambda	0.5
勝敗項の教師信号	1.0

レーティング測定

対局相手	tanuki- 2022-04-01 halfkp_256x2-32-32 再実験 https://docs.google.com/document/d/1U2dtYgksApn9GYIUJEUtceE0Yc-0dfmx6kA44FopDXc/edit
思考時間	持ち時間 300 秒 + 1 手 2 秒加算
対局数	5000
同時対局数	64
ハッシュサイズ	768
開始局面	たややん互換局面集

実験結果

機械学習

レーティング測定

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\tanuki-.nnue-pytorch-2022-06-19 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale1=16

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\suisho5.halfkp_256x2-32-32.80G\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=16

対局数5000 先手勝ち2280(52.7%) 後手勝ち2050(47.3%) 引き分け670

engine1

勝ち1847(42.7% R-44.4 +-9.7) 先手勝ち987(22.8%) 後手勝ち860(19.9%)

宣言勝ち27 先手宣言勝ち13 後手宣言勝ち14 先手引き分け320 後手引き分け350

engine2

勝ち2483(57.3%) 先手勝ち1293(29.9%) 後手勝ち1190(27.5%)

宣言勝ち72 先手宣言勝ち37 後手宣言勝ち35 先手引き分け350 後手引き分け320

1847,670,2483

まとめ

nnue-pytorch を用いた学習で、 HalfKP^ (HalfKP + K 次元下げ + P 次元下げ) を用いて学習させ、レーティングの変化を調べた。

学習ロスと検証ロスは、 HalfKP の場合と比べ、初めは速く下がった。一方、最終的には HalfKP より高くなった。

レーティングは、比較対象と比べて R-44.4 程度低かった。

学習ロスと検証ロスについては、正確な理由は不明。感覚的な話になるが、初めに早く下がったのは、 HalfKP と比べ、大まかな特徴を捉えやすいという事なのかもしれない。一方、最終的に HalfKP より高くなったのは、細かい特徴を捉えにくいという事なのかもしれない。

レーティングについては、 HalfKP^ は、レーティングには寄与しないことが分かった。

しばらくは、 HalfKP のまま実験を進めていきたい。

2022-06-18

tanuki- 2022-06-18 nnue-pytorch 勝敗項の教師信号

将棋コンピュータ将棋

tanuki- 2022-06-18 nnue-pytorch 勝敗項の教師信号

実験内容

nnue-pytorch を用いた学習で、勝敗項の教師信号を変更し、レーティングの変化を調べる。

棋譜生成

生成ルーチン	tanuki-棋譜生成ルーチン
評価関数	水匠5 FV_SCALE=16
1手あたりの思考	深さ最大 9 思考ノード数最大 50,000 ノード
開始局面	foodgate の 2020 年～ 2021 年の棋譜のうち、レーティング 3900 以上同士の対局の 32 手目までから 1 局面ランダムに選択し、その局面を開始局面としたランダムムーブなし
生成局面数	10 億局面 × 8 セット
生成条件	対局は打ち切らず詰みの局面まで学習データに出力した

シャッフル条件

生成ルーチン	tanuki-シャッフルルーチン
qsearch()	あり
置換表	無効

機械学習

機械学習ルーチン	nnue-pytorch + やねうら王 https://github.com/nodchip/nnue-pytorch/tree/shogi.2022-05-23
学習モデル	halfkp_256x2-32-32
学習手法	SGD ミニバッチ法 Ranger
batch-size	16384
threads	2
num-workers	2
gpus	1
features	HalfKP
max_epoch	300
scaling (kPonanzaConstant)	361
lambda	0.5
勝敗項の教師信号	0.8

レーティング測定

対局相手	tanuki- 2022-04-01 halfkp_256x2-32-32 再実験 https://docs.google.com/document/d/1U2dtYgksApn9GYIUJEUtceE0Yc-0dfmx6kA44FopDXc/edit
思考時間	持ち時間 300 秒 + 1 手 2 秒加算
対局数	5000
同時対局数	64
ハッシュサイズ	768
開始局面	たややん互換局面集

実験結果

機械学習

レーティング測定

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\tanuki-.nnue-pytorch-2022-06-16 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale1=16

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\suisho5.halfkp_256x2-32-32.80G\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=16

対局数5000 先手勝ち2322(55.1%) 後手勝ち1892(44.9%) 引き分け786

engine1

勝ち1475(35.0% R-89.8 +-10.0) 先手勝ち820(19.5%) 後手勝ち655(15.5%)

宣言勝ち30 先手宣言勝ち14 後手宣言勝ち16 先手引き分け444 後手引き分け342

engine2

勝ち2739(65.0%) 先手勝ち1502(35.6%) 後手勝ち1237(29.4%)

宣言勝ち60 先手宣言勝ち31 後手宣言勝ち29 先手引き分け342 後手引き分け444

1475,786,2739

まとめ

nnue-pytorch を用いた学習で、勝敗項の教師信号を変更し、レーティングの変化を調べた。

学習ロスと検証ロスは、 t=1.0 の場合と比べて下がった

レーティングは、比較対象と比べて R-89.8 程度低かった。

学習ロスと検証ロスについては、 t=0.8 とすることにより、教師信号の値が 0.5 に近づく。これにより、ロスの計算式の通りに下がるのだと考えられる。

レーティングについては、 nnue-pytorch を用いた学習においては、 t の値を変更しないほうが良い、または変更するとしても、変更量を抑えたほうが良いという事なのだと思われる。

しばらくは、元の実験パラメーターの t=1.0 のまま実験を進めていきたい。

2022-06-14

tanuki- 2022-06-14 nnue-pytorch lambda

将棋コンピュータ将棋

tanuki- 2022-06-14 nnue-pytorch lambda

実験内容

nnue-pytorch を用いた学習で、 lambda の設定がレーティングに与える影響を調べる。

棋譜生成

生成ルーチン	tanuki-棋譜生成ルーチン
評価関数	水匠5 FV_SCALE=16
1手あたりの思考	深さ最大 9 思考ノード数最大 50,000 ノード
開始局面	foodgate の 2020 年～ 2021 年の棋譜のうち、レーティング 3900 以上同士の対局の 32 手目までから 1 局面ランダムに選択し、その局面を開始局面としたランダムムーブなし
生成局面数	10 億局面 × 8 セット
生成条件	対局は打ち切らず詰みの局面まで学習データに出力した

シャッフル条件

生成ルーチン	tanuki-シャッフルルーチン
qsearch()	あり
置換表	無効

機械学習

機械学習ルーチン	nnue-pytorch + やねうら王 https://github.com/nodchip/nnue-pytorch/tree/shogi.2022-05-23
学習モデル	halfkp_256x2-32-32
学習手法	SGD ミニバッチ法 Ranger
batch-size	16384
threads	2
num-workers	2
gpus	1
features	HalfKP
max_epoch	300
scaling (kPonanzaConstant)	361
lambda	0.5
勝敗項の教師信号	1.0

レーティング測定

対局相手	tanuki- 2022-04-01 halfkp_256x2-32-32 再実験 https://docs.google.com/document/d/1U2dtYgksApn9GYIUJEUtceE0Yc-0dfmx6kA44FopDXc/edit
思考時間	持ち時間 300 秒 + 1 手 2 秒加算
対局数	5000
同時対局数	64
ハッシュサイズ	768
開始局面	たややん互換局面集

実験結果

機械学習

レーティング測定

思考エンジン1 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine1\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\tanuki-.nnue-pytorch-2022-06-13 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale1=16

思考エンジン2 name=YaneuraOu NNUE 7.10 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2022-05-02\engine2\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\suisho5.halfkp_256x2-32-32.80G\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=false 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=16

対局数5000 先手勝ち2265(52.7%) 後手勝ち2035(47.3%) 引き分け700

engine1

勝ち1879(43.7% R-37.8 +-9.7) 先手勝ち1003(23.3%) 後手勝ち876(20.4%)

宣言勝ち11 先手宣言勝ち4 後手宣言勝ち7 先手引き分け337 後手引き分け363

engine2

勝ち2421(56.3%) 先手勝ち1262(29.3%) 後手勝ち1159(27.0%)

宣言勝ち103 先手宣言勝ち53 後手宣言勝ち50 先手引き分け363 後手引き分け337

1879,700,2421

まとめ

nnue-pytorch を用いた学習で、 lambda の設定がレーティングに与える影響を調べた。

学習ロスと検証ロスは、 lambda=1.0 の場合と比べて上がった。

レーティングは、比較対象と比べて R-37.8 程度低かった。

学習ロスと検証ロスについては、ロスの計算式と矛盾はない。

レーティングについては、 lambda の値を調整することで、レーティングを向上させることができることを示唆している。

しばらくは lambda=0.5 というパラメーターで実験を進めていきたい。また、どこかのタイミングで、最適な lambda の値をグリッドサーチしたい。