tanuki- 2023-08-08 tanuki- 学習データ生成時の開始局面の戦型の割合

実験内容

学習データ生成時の開始局面の戦型の割合を調整し、学習データを生成し、学習させ、レーティングを比較する。

角換わりの戦型が全体の 10% になるよう、間引いて調整する。

角換わりの判定は、 20 手めまでに、双方の駒台に角が置かれたことがあることとする。

レーティングの測定には dlshogi 互換局面集を使用する

dlshogi 互換局面集の戦型の割合は、角換わりが全体の 10% となるよう、間引いて調整する。

棋譜生成

生成ルーチン	tanuki-棋譜生成ルーチン
評価関数	tanuki-wcsc28 FV_SCALE=16
1手あたりの思考	深さ最大 9 思考ノード数最大 50,000 ノード
開始局面	foodgate の 2020 年～ 2021 年の棋譜のうち、レーティング 3900 以上同士の対局から、角換わりの戦型の対局を 10% になるよう間引いたのち、 32 手目までから 1 局面ランダムに選択し、その局面を開始局面としたランダムムーブなし
生成局面数	10 億局面
生成条件	対局は打ち切らず詰みの局面まで学習データに出力した対局開始時に置換表をクリアした

機械学習

機械学習ルーチン	やねうら王機械学習ルーチン
学習モデル	halfkp_256x2-32-32
学習手法	SGD ミニバッチ法
USI_Hash	1024
Threads	16
loop	1000
batchsize	1000000
lambda	0.5
eta	eta1=1e-8 eta2=0.01 eta1_epoch=100
newbob_decay	0.5
nn_batch_size	1000
eval_save_interval	100000000
loss_output_interval	1000000
mirror_percentage	50
eval_limit	32000
weight_by_progress	無効
次元下げ	K・P・相対KP
学習データ内で重複した局面の除外	バージョンのデフォルトに依存する
初期ネットワークパラメーター	tanuki-wcsc28
勝敗項の教師信号	0.999

レーティング測定

対局相手	対局開始時に置換表をクリアせずに生成した学習データを用いて学習させた評価関数
思考時間	持ち時間 300 秒 + 1 手 2 秒加算
対局数	5000
同時対局数	64
ハッシュサイズ	768
開始局面	たややん互角局面集 dlshogi 互角局面集 dlshogi 互角局面集の角換わりの割合が 10% になるよう間引いたもの

実験結果

機械学習

オレンジは開始局面の戦型の割合を調整したものを表す。青は開始局面の戦型の割合を調整していないものを表す。

レーティング測定

対局数=5000 同時対局数=64 ハッシュサイズ=768 開始手数=0 最大手数=320 開始局面ファイル=C:\Jenkins\workspace\TanukiColiseum.2023-04-16\TanukiColiseum\taya36_2020-11-06.sfen NUMAノード数=1 表示更新間隔(ms)=3600000

思考エンジン1 name=YaneuraOu NNUE 7.63 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2023-04-16\engine1\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\tnk-wcsc28-2018-05-05.clear=yes.adjust_bishop_exchange\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=true 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale1=16 Depth1=0

思考エンジン2 name=YaneuraOu NNUE 7.63 64ZEN2 TOURNAMENT author=by yaneurao exeファイル=C:\Jenkins\workspace\TanukiColiseum.2023-04-16\engine2\source\YaneuraOu-by-gcc.exe 評価関数フォルダパス=D:\hnoda\shogi\eval\tnk-wcsc28-2018-05-05.clear=yes\final 定跡手数=256 定跡ファイル名=no_book 思考ノード数=0 思考ノード数に加える乱数(%)=0 思考ノード数の乱数を1手毎に変化させる=False 持ち時間(ms)=300000 秒読み時間(ms)=0 加算時間(ms)=2000 乱数付き思考時間(ms)=0 スレッド数=1 BookEvalDiff=30 定跡の採択率を考慮する=true 定跡の手数を無視する=false SlowMover=100 DrawValue=-2 BookEvalBlackLimit=0 BookEvalWhiteLimit=-140 FVScale2=16 Depth2=0

対局数5000 先手勝ち2604(57.6%) 後手勝ち1914(42.4%) 引き分け482

engine1

勝ち2067(45.8% R-26.7 +-9.7) 先手勝ち1189(26.3%) 後手勝ち878(19.4%)

宣言勝ち121 先手宣言勝ち62 後手宣言勝ち59 先手引き分け272 後手引き分け210

engine2

勝ち2451(54.2%) 先手勝ち1415(31.3%) 後手勝ち1036(22.9%)

宣言勝ち141 先手宣言勝ち74 後手宣言勝ち67 先手引き分け210 後手引き分け272

2067,482,2451

対局数=5000 同時対局数=64 ハッシュサイズ=768 開始手数=0 最大手数=320 開始局面ファイル=C:\Jenkins\workspace\TanukiColiseum.2023-04-16\TanukiColiseum\floodgate32-80.sfen NUMAノード数=1 表示更新間隔(ms)=3600000

対局数5000 先手勝ち2557(57.7%) 後手勝ち1876(42.3%) 引き分け567

engine1

勝ち2078(46.9% R-19.3 +-9.6) 先手勝ち1189(26.8%) 後手勝ち889(20.1%)

宣言勝ち104 先手宣言勝ち54 後手宣言勝ち50 先手引き分け321 後手引き分け246

engine2

勝ち2355(53.1%) 先手勝ち1368(30.9%) 後手勝ち987(22.3%)

宣言勝ち146 先手宣言勝ち73 後手宣言勝ち73 先手引き分け246 後手引き分け321

2078,567,2355

対局数=5000 同時対局数=64 ハッシュサイズ=768 開始手数=0 最大手数=320 開始局面ファイル=C:\Jenkins\workspace\TanukiColiseum.2023-04-16\TanukiColiseum\floodgate32-80.adjust_bishop_exchange.sfen NUMAノード数=1 表示更新間隔(ms)=3600000

対局数5000 先手勝ち2652(58.5%) 後手勝ち1881(41.5%) 引き分け467

engine1

勝ち2071(45.7% R-27.2 +-9.7) 先手勝ち1224(27.0%) 後手勝ち847(18.7%)

宣言勝ち112 先手宣言勝ち57 後手宣言勝ち55 先手引き分け243 後手引き分け224

engine2

勝ち2462(54.3%) 先手勝ち1428(31.5%) 後手勝ち1034(22.8%)

宣言勝ち147 先手宣言勝ち79 後手宣言勝ち68 先手引き分け224 後手引き分け243

2071,467,2462

学習ロスと検証ロスは、それぞれ開始局面の戦型の割合を調整したほうが大きかった。

学習率は、割合を調整したほうが先に下がった。

平手局面の評価値は、 40 前後だった。

評価値のスケールは、どちらも 1 度上がったあと下がり、最終的には 1.13×10^9～1.14×10^9 付近に収束した。

レーティングは割合を調整したものはしていないものに対し、たややん互角局面集では R-26.7、dlshogi 互角局面集では R-19.3、 dlshogi 互角局面集の角換わりの割合が 10% になるよう間引いたもののでは R-27.2 となった。いずれも有意に低かった。

考察

学習ロスと検証ロスについては、開始局面の戦型の割合を調整したほうが、していないほうに比べて、学習が進んでいないということを表している。この原因として可能性が 2 つ考えられる。

1 つ目は、 NNUE 評価関数が、角換わり以外の戦型の学習に向いていないことである。角換わりは、角の打ち込みを避けるため、有効な手の数が他の戦型に比べて少なくなるとされている。この特性が、 NNUE 評価関数で学習に影響している可能性がある。

2 つ目は、ランダムパラメーターからの学習を、角換わりの局面を多く含む学習データで行ったことである。このため、評価関数内のニューロンの多くが、角換わりの局面に特化し、角換わり以外の局面の学習が難しくなっている可能性がある。

原因を調べるためには、角換わりの割合を減らした学習データと、そうでない学習データの両方で、ランダムパラメーターから学習させ、レーティングを比較すればよいと考える。減らした学習データで、角換わりを減らした互角局面集でレーティングが高くなる場合は、ランダムパラメーターからの学習が原因となる。そうでない場合は、 NNUE 評価関数が、角換わり以外の戦型の学習に向いていないことが原因となる。

学習率については、開始局面の戦型の割合を調整したほうが、学習が進まなかったことを表していると考える。

平手局面の評価値については、学習において大きな問題が起こらなかったことを表していると考える。

評価値のスケールについては、今回生成した 2 つの学習データの教師信号の平均値が、ほぼ同じであったことを表していると考える。

レーティングについては、今回の実験条件下においては、開始局面の戦型の割合を調整しないほうが、より強い評価関数を作ることができるということを表していると考える。

まとめ

学習データ生成時の開始局面の戦型の割合を調整し、学習データを生成し、学習させ、レーティングを比較した。戦型の割合は、角換わりの戦型が全体の 10% になるよう、間引いて調整した。角換わりの判定は、 20 手めまでに、双方の駒台に角が置かれたことがあることとした。また、レーティングの測定には dlshogi 互換局面集を使用した。 dlshogi 互換局面集の戦型の割合は、角換わりが全体の 10% となるよう、間引いて調整した。

結果、調整したほうが有意にレーティングが低かった。原因の可能性として、 NNUE 評価関数が角換わり以外の戦型の学習に向いていないこと、またはランダムパラメーターの学習を角換わりを多く含む学習データで行ったことが考えられる。

次回は、角換わりの割合を減らした学習データと、そうでない学習データの両方で、ランダムパラメーターから学習させ、レーティングを比較したい。