tanuki- 2023-07-11 GCTの学習に使用されたデータセット 強化学習2

実験内容

GCTの学習に使用されたデータセットを用いて NNUE 評価関数の学習を行ったあと、強化学習の 2 周目を行い、レーティングを測定する。

棋譜生成

生成ルーチン	tanuki- 棋譜生成ルーチン
評価関数	https://docs.google.com/document/d/138x-zZpS_D-Y4C5Hu1C-HRqHk8_c9xgBMpWQTY1rsQ4/edit?usp=sharing gct.epoch=1000.iteration=2
1手あたりの思考	深さ 9 最大ノード数 50,000
開始局面	startpos.2023-06-09.sfen
開始局面後のランダムムーブ	なし
生成局面数	約 10 億局面 × 4
生成条件	対局は打ち切らず詰みの局面まで学習データに出力した

棋譜シャッフル

シャッフルルーチン	tanuki-棋譜シャッフルルーチン
qsearch	あり
最小手数	0
最大手数	10000
最小進行度	0.0
最大進行度	1.0

機械学習

機械学習ルーチン	やねうら王機械学習ルーチン
学習モデル	halfkp_256x2-32-32
学習手法	SGD ミニバッチ法
USI_Hash	1024
Threads	16
loop	100
batchsize	1000000
lambda	0.5
eta	eta1=1e-8 eta2=0.01 eta1_epoch=100
newbob_decay	0.5
nn_batch_size	1000
eval_save_interval	100000000
loss_output_interval	1000000
mirror_percentage	50
eval_limit	32000
weight_by_progress	無効
次元下げ	K・P・相対KP
教師局面内で重複した局面の除外	しない
初期ネットワークパラメーター	https://docs.google.com/document/d/138x-zZpS_D-Y4C5Hu1C-HRqHk8_c9xgBMpWQTY1rsQ4/edit?usp=sharing gct.epoch=1000.iteration=2
勝敗項の教師信号	0.999
やねうら王バージョン	V5.33 相当
学習局面数	収束するまで
Gaussian Lamabda	なし

レーティング測定

対局相手	https://docs.google.com/document/d/138x-zZpS_D-Y4C5Hu1C-HRqHk8_c9xgBMpWQTY1rsQ4/edit?usp=sharing gct.epoch=1000.iteration=2 tanuki-.halfkp_256x2-32-32.2023-05-08 ( Háo )
思考時間	持ち時間 300 秒 + 1 手 2 秒加算
対局数	5000
同時対局数	64
ハッシュサイズ	768
開始局面	たややん互換局面集

実験結果

機械学習

青は前回 (gct.epoch=1000.iteration=2) のもの。橙は今回 ( gct.epoch=1000.iteration=3) のもの。

レーティング測定

対局数=5000 同時対局数=64 ハッシュサイズ=768 開始手数=0 最大手数=320 開始局面ファイル=C:\Jenkins\workspace\TanukiColiseum.2023-04-16\TanukiColiseum\taya36_2020-11-06.sfen NUMAノード数=1 表示更新間隔(ms)=3600000

思考エンジン1 name=YaneuraOu NNUE 7.63 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2023-04-16\engine1\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\gct.epoch=1000.iteration=3\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=true 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale1=16 Depth1=0

思考エンジン2 name=YaneuraOu NNUE 7.63 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2023-04-16\engine2\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\gct.epoch=1000.iteration=2\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=true 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=16 Depth2=0

対局数5000 先手勝ち2513(57.3%) 後手勝ち1876(42.7%) 引き分け611

engine1

勝ち2098(47.8% R-13.4 +-9.6) 先手勝ち1194(27.2%) 後手勝ち904(20.6%)

宣言勝ち139 先手宣言勝ち62 後手宣言勝ち77 先手引き分け337 後手引き分け274

engine2

勝ち2291(52.2%) 先手勝ち1319(30.1%) 後手勝ち972(22.1%)

宣言勝ち120 先手宣言勝ち71 後手宣言勝ち49 先手引き分け274 後手引き分け337

2098,611,2291

思考エンジン2 name=YaneuraOu NNUE 7.63 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2023-04-16\engine2\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\tanuki-.halfkp_256x2-32-32.2023-05-08\eval 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=true 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=20 Depth2=0

対局数5000 先手勝ち2719(56.9%) 後手勝ち2056(43.1%) 引き分け225

engine1

勝ち1594(33.4% R-114.2 +-10.2) 先手勝ち960(20.1%) 後手勝ち634(13.3%)

宣言勝ち2 先手宣言勝ち2 後手宣言勝ち0 先手引き分け119 後手引き分け106

engine2

勝ち3181(66.6%) 先手勝ち1759(36.8%) 後手勝ち1422(29.8%)

宣言勝ち50 先手宣言勝ち24 後手宣言勝ち26 先手引き分け106 後手引き分け119

1594,225,3181

学習ロスは、ほとんど下がらなかった。また、 gct.epoch=1000.iteration=2 より小さかった。

訓練ロスは、初めにやや下がったあと、上がり、また下がったあと、収束した。また、 gct.epoch=1000.iteration=2 より小さかった。

学習率は、数エポックごとに下がっていった。また gct.epoch=1000.iteration=2 より早く収束した。

平手局面の評価値は、初期値の 70 付近から、上下したあと、最終的には 65 付近に収束した。

評価値の絶対値は、初期値の 9.6 * 10^8 からやや上がったあと、上下し、 9.75 * 10^8 付近に収束した。

レーティングは、 gct.epoch=1000.iteration=2 と比較し、 R-13.4 程度で、有意に低かった。また、 tanuki-.halfkp_256x2-32-32.2023-05-08 ( Háo ) と比較し、 R-114.2 程度で、有意に低かった。

考察

学習ロスと訓練ロスについては、標準 NNUE (halfkp_256x2-32-32) モデルの表現能力では、これ以上の学習は行えないことを表しているのだと思われる。

学習率については、学習が早く終わったのは、学習できる内容が前回に比べて少なかったためだと思われる。これも、表現能力の限界を表しているのだと思われる。

平手局面の評価値については、学習で大きな問題が起こらなかったことを表しているものと思われる。

評価値の絶対値については、学習前と学習後とで、差があまりなかったことから、前回学習した際の学習データと今回の学習データとで、評価値の絶対値がほとんど同じであったことを表しているものと思われる。

レーティングについては、モデルの表現能力の限界を表しているものと思われる。また、ランダムパラメーターからの学習において、 GCT の学習データを用いるのは好ましくないということを表しているものと思われる。この理由については、現時点では分かっていない。

まとめ

GCTの学習に使用されたデータセットを用いて NNUE 評価関数の学習を行ったあと、強化学習の 2 周目を行い、レーティングを測定した。

結果、gct.epoch=1000.iteration=2 と比較し、 R-13.4 程度で、有意に低かった。また、 tanuki-.halfkp_256x2-32-32.2023-05-08 ( Háo ) と比較し、 R-114.2 程度で、有意に低かった。これらより、ランダムパラメーターからの学習において、 GCT の学習データを用いるのは好ましくないと思われる。理由については、現時点では分かっていない。

次回は、やねうら王の学習器のリグレッションの原因を、より詳しく調査したい。

nodchipのコンピューター将棋ブログ

コンピューター将棋ソフト「tanuki-」シリーズの実験結果を掲載しています。

tanuki- 2023-07-11 GCTの学習に使用されたデータセット強化学習2

tanuki- 2023-07-11 GCTの学習に使用されたデータセット 強化学習2

実験内容

棋譜生成

棋譜シャッフル

機械学習

レーティング測定

実験結果

機械学習

レーティング測定

考察

まとめ

tanuki- 2023-07-11 GCTの学習に使用されたデータセット 強化学習2

実験内容

棋譜生成

棋譜シャッフル

機械学習

レーティング測定

実験結果

機械学習

レーティング測定

考察

まとめ

tanuki- 2023-07-11 GCTの学習に使用されたデータセット強化学習2