【2023年3月】sota optimizer（最適化手法）まとめ

MADGRAD, Adahessian, Ali-G, Lion

momentumとdual averagingを用いた、Adagrad系列の最適化手法

【プラスポイント】

・mirror descentよりも理論的前提条件が簡素なdual averagingを使用。

・dual averagingによって、各ステップに依存し、かつ学習の進行と共に弱まっていく正則化が導入されることを証明。

・Adamが良い成果を収められる問題と収められない問題、どちらにおいても、AdamやSGDと同等以上の精度を達成。

・Adamと違い、sparseなモデルでも使用可能。

・ハイパーパラメータのグリッドサーチをすべての最適化手法について行い比較することで、実際の優位性を報告。

【マイナスポイント】

・勾配の和をもとにモデルパラメータを更新するため、学習の進行と共に新しい情報を活用できなくなっていく。

・パラメータと同サイズのテンソルを３つ保持していなくてはならず、Adamと比較してメモリ使用量が多い（1.5倍）。

適応的に学習率を変化させる二次最適化手法

【プラスポイント】

・実用的な二次最適化手法

・Hutchinson近似の応用により、対角Hessianの計算を高速化。

・複数のタスクにおいてSGD, Adam, AdamWと同等以上の精度を達成。

・AdamWよりも学習率の選択に寛容。

・Hutchinson近似の計算頻度を減少させることによって、計算量を抑えながらもほぼ同等の精度を達成可能。

【マイナスポイント】

・一次最適化手法と比較して約２倍の計算時間とメモリ使用量。

・グリッドサーチを行わず、複数の最適化手法で同じパラメータを使用しているため、ハイパーパラメータをチェリーピッキングしている可能性がある。

１．目的関数の最小値が既知の場合、非確率的勾配の方向の適応的学習率を計算することができる

２．内挿モデルにおいて、そのような最小値は、おおよその値が知られている

この二つの前提から導かれた最適化手法

【プラスポイント】

・AdamW, Adagrad, AMSGrad, Yogi, DFW, L4Adam, L4Mom, SGDの内、各タスクにおいて最も精度が高かった手法と同等以上の精度を達成。

・一つのハイパーパラメータで、学習率パラメータと学習率スケジュールを代替。

・理論的に収束を証明。

・SGDとほぼ同じ計算量とメモリ使用量。

【マイナスポイント】

・比較実験において各最適化手法のハイパーパラメータ探索をある程度行っているものの、Ali-Gの優位性を確実に示すには不足している。

・損失の減少と共に更新量が少なくなっていくことで、ローカルミニマから抜け出しづらくなっていく。

進化的アルゴリズムによって導かれた最適化手法

【プラスポイント】

・複数のモデルとタスクにおいて、AdamWとSGDのどちらよりも優れた精度を達成。

・Adamよりも少ない計算量とメモリ使用量。

【マイナスポイント】

・比較実験において各最適化手法のハイパーパラメータ探索を行ったとは報告しているものの、具体的にどのように探索したのかは不明。

・強いaugmentationや低いバッチサイズを用いた場合、そしていくつかのタスクにおいては既存手法に対する優位性を示せず。

・進化アルゴリズムにおける探索範囲が限られており、AdamやSGDといった主要一次最適化手法への強いバイアスがある。

・更新量は常に一定であるため、学習率スケジュールの使用が必須。