|
人工知能
クープマン-ライプニッツ:高原を突破する数学最新のAIモデルを開発している人なら誰でも、この瞬間はよく経験しているはずだ。最初はすべてが完璧に進み、カーブは急な上昇を描いていたのに、突然何も機能しなくなる。システムは停滞してしまう。 サーバーのパワーを増やしたり、実行時間を長くしたりといったITの常套手段は、通常、問題を数日間先延ばしにするだけだ。研究からの新しいアプローチ、いわゆるクープマン・ライプニッツ・エンコーダーが、この閉塞状況を打破した。
1 - トレーニングのプラトー - 勾配が消えるとき定量的な金融データは、相関性の高いデータであり、S/N比は極めて低い。主な課題は、観測ウィンドウから生の値のシーケンシャル・シーケンスではなく、隠れたシステム・ダイナミクス(過渡パルス、周期的反転、エネルギッシュな状態変化)を抽出することである。これらの構造は確率的ノイズによって失われるため、標準的なアーキテクチャーは、表現形成のためだけにその能力の不釣り合いなほど大きな部分を消費する。 モデルがプラトーに達すると、損失勾配(∇ℒ)は崩壊する。勾配成分はゼロに収束するため、オプティマイザーはこの平坦なパラメータ領域で方向安定性を失います。この時点で、ネットワークは些細で支配的な分散成分しか学習していません。ネットワークの現在の数学的語彙では、ノイズからきれいに分離するのに十分でないため、市場のより深い予測構造には到達できないままである。 AdamWのような適応的最適化手法は、ここでは体系的な解決策を提供しない。スケーリングを修正することはできても、期待値が平均的にゼロであるベクトル場から方向性を抽出することはできない。従来の学習率の削減(ReduceLROnPlateau)でも、この停滞を打破することはできない。単に停滞を固めるだけである。ネットワークはフラットゾーンにとどまり、学習データの高周波ノイズ構造を記憶し始める。これはオーバーフィッティングへの直接の道であり、検証指標を時間遅れで劣化させる。
2 - 基礎 - クープマン:運動が線形代数になるときアメリカの数学者バーナード・クープマンが発表した論文3は、当時はほとんど誰にも必要とされなかったが、この10年間でデータ・ドリブン・ダイナミクスのすべての教科書に掲載されるようになった。一見したところ、彼の考えは逆説的である。システムが複雑な非線形の動きをする場合でも、線形に記述することができる。 これは悪いトレードオフのように聞こえるが、無限次元の線形問題に対して有限次元の非線形問題である。なぜなら、線形作用素には非線形関数には通常ないもの、すなわちスペクトルがあるからである。固有値と固有ベクトル。明確で分解可能な構成要素だ。あるシステムのクープマン演算子を知っている人なら誰でも、その固有モードを知っている。それは、あらゆる音が純粋なサイントーンで構成されるように、あらゆる実際の動きがそこから構成される基本的な振動パターンである。 誰も市場力学システムの正確なクープマン演算子を計算することはできない。しかし、データから有限次元の近似値を学習することは可能です。この方法はDynamic Mode Decomposition、略してDMDと呼ばれています。エンコーダーで使用されているようなカーネルベースの変形では、観測ウィンドウから小さな行列が自動的に得られ、その固有値が2つの質問に正確に答える。 図4-複素固有値の意味
このマップはエンコーダを理解するために必要な中心的な視覚化である。観測ウィンドウはこの複素平面上の10点にマッピングされる。各ポイントは、システムが現在含んでいる独立したタイプの動きです。実数部はこの動きが速度を上げているのか、それとも速度がなくなっているのかを示し、虚数部は振動の速さを示す。この10点から、数百の生数値を経由することなく、ウィンドウ全体を再構築することができる。 03 - スペクトルの削減 -システムプリミティブの分離クープマン空間のモデリングにおける構造的な課題は、その数値的な扱いにくさにある。この次元性を数学的に使いこなすことは、ゴットフリート・ヴィルヘルム・ライプニッツの『Characteristica Universalis』や彼の『Ars Combinatoria』と直接的に並列する。ライプニッツは『Alphabetum cogitationum humanarum』によって、複雑で連続的な力学を、直交する不可分の基本概念である原始概念の有限集合にまで遡らせる普遍的な体系を提唱した。複雑性は、カオス的な連続体としてではなく、離散的でプリミティブな構成要素の線形結合として理解される。 アルゴリズム的には、この合理的な削減が、RBFカーネルが暗黙のうちにまたがるヒルベルト空間Ȑ内でのランク切り捨ての基礎を形成する。類似行列K₀は観測窓の完全でノイズの多い軌跡を符号化しますが、続く対称固有値分解はk個の支配的な固有モードを分離します。これは原始的な分離の正式な行為であり、低次元のクープマン不変部分空間への射影である:
この切り捨てはエンコーダーの主要な正則化メカニズムとして働く。フィルタリングされていないスペクトル上で動作するニューラルネットワークは、必然的に学習サンプルの高周波数、確率的特異点を記憶してしまう。信号をk個の支配的なプリミティブに圧縮することで、このアーキテクチャは数学的抽象化を強制します:下流のレイヤーは、特定のウィンドウの一時的なノイズ構造を抽出するのではなく、システムダイナミクスの不変ジェネレーターを抽出します。 04 - 機械 -生信号からスペクトル指紋へエンコーダーが内部で行っていることは、6つの連続した段階として読み取ることができ、それぞれが特定の問題を解決している。コードのウォークスルーとしてではなく、それぞれのケースで質問に答える論証として。 最初のステップは比較可能性を確立する。その後に続くカーネルは、すぐに指数関数の距離を扱う。入力値が数値的に大きい場合、指数関数はゼロにつぶれ、パイプライン全体がゼロだけを生成する。したがって、各ウィンドウは局所的に標準化されます。
第2段階は、履歴を状態に変える。単一の観測はほとんど何も語らない。ダイナミクスとは、連続する状態間の関係である。ウィンドウは、2つの時間遅延バージョンに分割されます - 1番目は最後のステップまでのオブザベーションを含み、2番目は2番目のステップから最後までのオブザベーションを含みます。遷移ルールは、後でこれら2つのバージョンの比較から導かれる。これは古いタケンスのアイデアである。 第3のステップは実際の数学的トリックである:幾何学としての類似性である。手作業で指標を考案する代わりに、エンコーダーはデータの幾何学的形状に語らせる。ウィンドウ内の各時点について、それが他のすべての時点とどれだけ似ているかを測定する。類似性の尺度はRBFカーネルである:
こうしてウィンドウは、各エントリーが2時点間の類似度を表す類似度行列となる。これはもはや時系列ではなく、地形である。どの局面が似ていて、どの局面が似ていないか、そしてそれがウィンドウ全体にどのように分布しているか。2番目の類似度行列は、各時点とその後継点を比較し、遷移ルールのための情報を運ぶ。 第四のステップはアルファベットを見つけることである:最初の類似行列に固有値分解が適用される。最大の固有値は地形の支配的なパターンを示す。窓のライプニッツ・プリミティブである上位k個のモードだけが残る。 第5のステップは遷移則を構築する。支配的なモードの空間において、窓がある時間ステップから次の時間ステップにどのように進化するかを正確に記述する小さな行列が作られる:
6番目の最後のステップでは、本質を読み出す。2回目の固有値分解がこの小さな行列に適用される。各モードは複素固有値となる。実部が成長率、虚部が周波数である。このようにして、数百の生の値のウィンドウは、2×kの値になる。つまり、10のモードに対して20の数値があり、これらがウィンドウの全ダイナミクスを担っている。 05 - 実装 - 計算を行うコアこの実装で注目すべき点は、その長さではなく、簡潔さである。理論的には専門的な講義のように聞こえるものでも、PyTorchではわずか数行の正確なものです。スペクトル装置全体は固有値分解のための2つの組み込みルーチンの中にあります。これにより、エンコーダーは読みやすいだけでなく、完全に微分可能になる。このエンコーダーは任意のニューラルネットワークにレイヤーとして組み込むことができ、バックプロパゲーションによって学習させることができる。
したがって、エンコーダーは上流のデータツールではなく、アーキテクチャーの不可欠なコンポーネントなのだ。エンコーダーが生成するのは、観測窓のスペクトル・フィンガープリントであり、支配的な市場モードの成長、減衰、周波数を要約した20の値である。この情報がどのようにしてモデルに取り込まれるのかが、本当に興味深い部分であり、この記事が最初に書かれた理由でもある。 06 - アプリケーション -プラトーブレーカーチームの調査中、特殊な出力分岐と複数の時間平面を持つ変圧器ベースのシステムである大規模なメインモデルは、ステージ4でプラトーを繰り返した。損失は6~8エポックにわたってきれいに減少し、その後横ばいになりました。検証メトリクスはわずかに増加し、トレーニングの仕様に適応し始めた最初の兆候となった。従来の対策は効かなかった。学習率を下げると症状が悪化した。より多くのデータによりわずかな改善が見られたが、複数回の実行による分散で失われた。問題は構造的なもので、モデルは局所的な統計的特徴からできる限りのものを抽出していた。必要なのは別の最適化ではなく、新しい情報だったのだ。 ここでクープマン・ライプニッツ・エンコーダーが登場するのだが、本来の目的とは異なる役割を果たすことになる。エンコーダーはモデルの前にある第一のエンコーダーとしてではなく、並列の情報チャネルとして、つまりグローバルな市場モードをすでに学習済みのモデルにいくつかの時間レベルにわたって供給する第二のデータパイプラインとして使用される。この接続はクロスアテンションレイヤーを介して行われます:メインモデルはスペクトルフィンガープリントに欠けている情報を求め、その答えを内部表現に統合します。 トレーニングの途中でのこのような拡張は通常リスクが高い。追加の分岐は勾配の風景を急激に変化させます。最悪の場合、数週間かけて積み上げてきたものが不安定になる。まさにここで、この実験の2つ目の、ほとんどより重要な構成要素であるゼロ・イン・ゲートが登場する。 図02-プラトーでのゲートの挙動
ゲートは数学的には単一のスカラー量であり、αと呼ぶ。ゲートはちょうどゼロの値で初期化され、メインモデルに戻る前に新しいスペクトルチャネルの寄与を乗算します:
この構成が理論的核心である。右辺の第2項は最初から正確にゼロであり、小さくもなく、無視できるものでもなく、解析的にゼロである。メインモデルは何の変化も見ず、以前の損失ランドスケープで実行し続け、すべての重みを安定に保つ。唯一の変化は、勾配が定義されたパラメータαが存在することだ。αを増やせば損失が減るとバックプロパゲーション経路が判断した場合、その時だけゲートが開く。 他のすべての勾配が消滅したプラトーでは、αに関する勾配が、通常、まだ明確なシグナルを伝える唯一の勾配となります。オプティマイザには損失を減らす方法が他にないため、αを最小限に増やすようになります。その後、スペクトル・チャンネルはメイン・モデルに情報を送り始めます。平坦であったロスのランドスケープは、新たな方向性を持つようになる。プラトーは崩れる。
この構成は数学的にエレガントであるが、2つの特性により、研究用途において特に価値がある。第一に、リスクゼロの拡張である。モデルが助けなしに進行する限り、拡張は効果がない。安定性のトレードオフも、進行中の最適化の中断も、訓練スケジュールの新たなチューニングもない。第二に、プラトーの症状に対処するのではなく、その原因に対処します。ReduceLROnPlateauのような伝統的なメソッドは、動作が止まったときに動きを鈍らせる。プラトーブレーカーはその代わりに、モデルに根本的に新しい情報を加える。つまり、ローカルな入力特徴には数学的に存在しなかった、複数の時間レベルにまたがるグローバルな市場モードである。 広範な研究において、このメカニズムはReZeroや LayerScaleのような手法と関連しており、どちらもゼロから始まる学習可能なスケーリング係数によって寄与が制御される残差パスを扱う。プラトーブレーカーと異なるのは、その機能である。残差拡張はメッシュに深さを加えるのではなく、エンコーダーが明示的に抽出するスペクトルシステムモードという特定のクラスの情報を加える。それはもはやモデル容量ではなく、異なる表現基盤である。 07 - オチ - 連動する3つの特性時系列分析におけるスペクトル法は新しいものではない。Koopman-Leibnizの変形が、この組み合わせ(エンコーダー+ゼロインゲート+クロスアテンション)において質的に新しいのは、互いに補強しあう3つの特性である。 レベル不変である。ウィンドウごとの局所的な正規化により、エンコーダーはレベルではなく動きを見る。このメカニズムで動作するモデルは、絶対値の範囲に左右されることなく、どのようなマーケット・ダイナミクス・システムでも動作させることができる。 非線形の特徴を考案することなく、非線形の特徴が得られます。RBFカーネルは、複雑な非線形関係が線形構造になる無限次元空間に暗黙のうちにデータを埋め込む。システムが必要とする指標を推測する必要はなく、データの形状が非線形関係そのものを生成する。 それはスペクトル的に解釈できる。出力されるのは、神秘的な潜在変数ではなく、明確な動的意味を持つ成長値と頻度値である。あるモデルがある状況においてある決定を下した理由を知りたければ、スペクトルのフィンガープリントを見て、文字通りシステムがその時置かれていた動的状態を読み取ることができる。
意味上の違いはない。未加工の時系列をモデルに与えると、モデルは、重み行列の全容量とトレーニングの全労力を使って、ダイナミクスへの変換を自ら行うことになる。事前にダイナミクスを与えることで、モデルが実際の意思決定に使用できる容量が突然解放されるのだ。 これは、特別なトレーニング補助目標(小さなサイドアウトプット)の背後にあるのと同じメカニズムである。この小さなサイドアウトプットは、ネットワークに、1レベルだけ深い初期の層で関連する量を明示的に再構成させる。このような補助目標は、決定する前に、バックボーンに世界を理解させる。クープマン・ライプニッツ・エンコーダーは、入力データがモデルに到達する前に、そのダイナミクスを明らかにさせる。プラトー・ブレーカーのセットアップでは、これが3つ目の性質となる:モデルは、実際には学習が止まっているにもかかわらず、学習を続けることができる。 08 - 展望 -次に来るものバーナード・クープマン(Bernard Koopman 1931)、フローリス・タケンス(Floris Takens 1981)、標準的な統計ツールボックスのRBFカーネル、最近のディープラーニング研究の残差学習技術など、数学的ツールはすべて古典的なレパートリーである。変わったのはハードウェアだ。数十年前、固有値分解は深刻な数値作業だった。今日では、GPU上のPyTorchフォワードパスでマイクロ秒単位で行うことができ、しかも微分可能で、勾配ベースの学習パイプラインに組み込むことができる。 これは、特徴エンジニアリングと考えられているものをシフトさせます。手作業で指標を選択したり、ネットワークに独自の表現を考えさせるのではなく、数学的構造(スペクトル分解、トポロジー、微分演算子)をデータフローに直接書き込むエンコーダーの全クラスを構築することができる。クープマン・ライプニッツ・エンコーダーはその一例である。ゼロ・イン・ゲートと組み合わせることで、これまでの一般的なMLの実践に欠けていたもの、つまり、トレーニングの停滞という症状ではなく、その数学的原因と闘うツールになる。 このように、特定のアプリケーションを超えた境界線が生まれつつある。OpenAI、Anthropic、Google DeepMindといった企業が提供する大規模な言語モデルから最新の生成変換器まで、現在の主流となっているAIアーキテクチャは、本質的に人間中心的な設計となっている(ギリシャ語のánthropos「人間」に由来):人間の言語、人間の知覚、人間の意思決定をモデル化し、学習された離散的なパラメータ空間に固定される。一方、クープマン・ライプニッツ作用素は、不変システム法則の連続スペクトル空間で働く。つまり、人間のデータからではなく、観測されたシステム自体のダイナミクスから表現を導き出す生成的適応変換器である。 現在のテストでは、エンコーダーは容量を追加することでプラトーを突破するのではなく、システムダイナミクスをより正確にフィルタリングすることでプラトーを突破することが示されている。エンコーダーは選択的なトリガーとして機能し、モデルが独立して収束する局面では活動を停止し、勾配の停滞が危惧される場合にのみ介入する。こうしてシステムは、既存の学習された特徴語彙を損なうことなく安定性を獲得する。
さらに調べる
|
|