Искусственный интеллект

Коопман-Лейбниц: математика, которая прорывается сквозь плато

Любому, кто разрабатывает современные модели ИИ, знаком этот момент: сначала все идет отлично, кривая направлена круто вверх - а потом вдруг вообще ничего не работает. Система стагнирует.

Обычные IT-ухищрения, такие как увеличение мощности сервера или увеличение времени работы, обычно лишь откладывают проблему на несколько дней. Новый исследовательский подход - так называемый кодировщик Купмана-Лейбница - теперь прорывает эту блокаду: не за счет грубой вычислительной мощности, а за счет совершенно новой, умной структуризации системных данных.

01 - Плато обучения - когда градиент исчезает

Количественные финансовые данные - это высококоррелированные данные с крайне низким соотношением сигнал/шум. Основная задача - извлечь из окна наблюдения не последовательность необработанных значений, а скрытую динамику системы - переходные импульсы, циклические развороты и энергичные изменения состояния. Поскольку эти структуры теряются в стохастическом шуме, стандартная архитектура расходует непропорционально большую часть своих возможностей только на формирование представлений.

Если модель достигает плато, градиент потерь (∇ℒ) разрушается. Оптимизатор теряет свою направленную стабильность в этой плоской области параметров, потому что компоненты градиента сходятся к нулю. В этот момент сеть усвоила только тривиальные, доминирующие компоненты дисперсии. Более глубокие, прогностические структуры рынка остаются недостижимыми, так как текущего математического словаря сети недостаточно, чтобы выделить их из шума.

Адаптивные методы оптимизации, такие как AdamW, не дают системного решения: хотя они и корректируют масштабирование, они не могут извлечь направление из векторного поля, ожидаемое значение которого в среднем равно нулю. Даже обычное снижение скорости обучения(ReduceLROnPlateau) не разрушает этот застой. Оно лишь закрепляет его. Сеть остается в плоской зоне и начинает запоминать высокочастотные шумовые структуры обучающих данных - прямой путь к оверфиттингу, который приводит к тому, что метрика валидации ухудшается с задержкой во времени.

Плато - это не конец обучения. Это конец текущего словаря.
- Диагностика проблемы стагнации

02 - Основа - Купман: когда движение становится линейной алгеброй

Американский математик Бернард Купман опубликовал работу 1931, которая в то время почти никому не была нужна, а за последние десять лет попала в каждый учебник по динамике, управляемой данными. На первый взгляд, его идея парадоксальна: если система движется сложным нелинейным образом, ее все равно можно описать линейно - если ты готов перейти в бесконечно-мерное пространство, в котором развиваются не сами состояния, а функции над состояниями.

Это звучит как плохой компромисс - конечно-размерная нелинейная задача для бесконечно-размерной линейной. На самом деле это отличный обмен, потому что у линейных операторов есть то, чего обычно нет у нелинейных функций: спектр. Собственные значения и собственные векторы. Четкие, поддающиеся разложению строительные блоки. Любой, кто знает оператор Купмана системы, знает и ее собственные моды - фундаментальные схемы колебаний, из которых складывается каждое реальное движение, так же как каждый звук может быть составлен из чистых синусоидальных тонов.

Никто не может вычислить точный оператор Купмана системы рыночной динамики. Но можно выучить конечно-размерное приближение из данных - метод называется Dynamic Mode Decomposition, или сокращенно DMD. В его ядерном варианте, используемом кодером, из окна наблюдения автоматически получается небольшая матрица, собственные значения которой точно отвечают на два вопроса: с какой скоростью колеблется эта динамика и набирает или теряет ли она энергию.

Диаграмма 01 - Что означает комплексное собственное значение
Каждая точка в комплексной плоскости представляет собой целый режим движения - частота и рост в одном числе

Komplexe Eigenwert-Ebene: Energie-aufbauende Moden (Realteil > 0) und Energie-abbauende Moden (Realteil < 0), mit Stabilitätsgrenze

Режимы, накапливающие энергию (реальная часть > 0) - оранжевый
Режимы, разрушающие энергию (реальная часть < 0) - темный
Предел стабильности - пунктирный круг

Эта карта - центральная визуализация, необходимая для понимания работы кодера. Окно наблюдения отображается на десять точек в этой комплексной плоскости. Каждая точка - это независимый тип движения, который в данный момент содержит система. Реальная часть говорит тебе о том, набирает ли это движение скорость или исчерпывает ее; мнимая часть говорит тебе о том, как быстро оно колеблется. Из этих десяти точек можно реконструировать все окно, не отвлекаясь на несколько сотен необработанных чисел.

03 - Спектральная редукция - выделение системных примитивов

Структурная сложность моделирования пространства Купмана заключается в его численной громоздкости: оно бесконечно мерно по своей конструкции. Математическое освоение этой размерности проводит прямую параллель с Characteristica Universalis Готфрида Вильгельма Лейбница и его Ars Combinatoria. В "Alphabetum cogitationum humanarum " Лейбниц постулировал универсальную систему, которая прослеживает сложную, непрерывную динамику до конечного набора ортогональных, неделимых базовых понятий - notiones primitivae. Сложность здесь понимается не как хаотический континуум, а как линейная комбинация дискретных, примитивных строительных блоков.

Алгоритмически эта рациональная редукция формирует основу для рангового усечения в гильбертовом пространстве ℋ, которое неявно охватывает RBF-ядро. В то время как матрица сходства K₀ кодирует полную, зашумленную траекторию окна наблюдения, последующее симметричное разложение на собственные значения изолирует k доминирующих собственных мод. Это и есть формальный акт примитивной изоляции - проекция на низкоразмерное, инвариантное по Коопману подпространство:

Спектральная проекция - уменьшение ранга Лейбница
ℋ  ⟶  ?ₖ
ℋ представляет собой бесконечно-мерное гильбертово пространство как формальный носитель всей потенциальной динамики. ₖ определяет k-мерное подпространство, охватываемое доминирующими собственными модами; в стандартной установке k = 10. Все спектральные компоненты за этим пределом аналитически отбрасываются как переходный шум.

Это усечение работает как основной механизм регуляризации кодера. Нейронная сеть, работающая с нефильтрованным спектром, неизбежно запоминает высокочастотные стохастические сингулярности обучающей выборки. Сжимая сигнал до k доминирующих примитивов, архитектура навязывает математическую абстракцию: последующие слои извлекают не эфемерные шумовые структуры конкретного окна, а инвариантные генераторы динамики системы.

04 - Машина - от сырого сигнала к спектральному отпечатку пальца

То, что делает кодер внутри, можно представить как шесть последовательных этапов, каждый из которых решает определенную задачу. Мы проходим центральные этапы математически - не как прохождение кода, а как аргументация, которая отвечает на вопрос в каждом случае.

На первом этапе устанавливается сопоставимость. Ядро, которое следует сразу за ним, работает с расстояниями в экспоненциальной функции. Если входные значения численно велики, экспоненциальная функция сводится к нулю, и весь конвейер выдает одни нули. Поэтому каждое окно стандартизируется локально.

Локальная стандартизация
x̂ = (x − μ) / (σ + ε)
Каждое значение уменьшается на среднее значение окна μ и делится на стандартное отклонение окна σ. Небольшое слагаемое ε предотвращает деление на ноль для спокойных фаз. Это делает кодировщик инвариантным к уровню: движение на один процент выглядит для него одинаково, независимо от абсолютного уровня, на котором оно происходит. Модель учится динамике, а не абсолютным значениям.

Второй шаг превращает историю в состояние. Одно наблюдение почти ничего не говорит. Динамика - это взаимосвязь между последовательными состояниями. Окно разбивается на две сдвинутые по времени версии - первая содержит наблюдения до предпоследнего шага, вторая - наблюдения со второго шага и до конца. Правило перехода позже будет выведено из сравнения этих двух версий. Это старая идея Такенса: прогрессия - это состояние.

Третий шаг - это собственно математический трюк: сходство как геометрия. Вместо того чтобы вручную придумывать индикаторы, кодер позволяет геометрии данных говорить самой за себя. Для каждой точки времени в окне он измеряет, насколько она похожа на все остальные точки времени. Мерой сходства является RBF-ядро:

RBF-ядро - мера сходства
k(x, y) = exp(−γ · ‖x − y‖²)
Выражение ‖x - y‖² - это квадрат евклидова расстояния между двумя состояниями, то есть насколько далеко они находятся друг от друга в пространстве. Экспоненциальная функция сжимает его до значения между 0 и 1: одинаковые состояния дают ровно 1, далекие - практически 0. Параметр γ управляет тем, как быстро сходство уменьшается с увеличением расстояния - это, так сказать, резкость, с которой система отделяет "похожее" от "разного".

Таким образом, окно превращается в матрицу сходства, в которой каждая запись - это значение сходства между двумя точками во времени. Это уже не временной ряд - это топография. Какие фазы похожи, какие нет, и как это распределено по окну. Вторая матрица сходства сравнивает каждую временную точку с ее преемником и будет нести информацию для правила перехода.

На четвертом этапе находится алфавит: К первой матрице сходства применяется разложение по собственным значениям. Самые большие собственные значения показывают доминирующие закономерности рельефа. Остаются только топ-к режимы - примитивы Лейбница окна.

На пятом шаге строится правило перехода. В пространстве доминирующих мод строится небольшая матрица, которая описывает, как именно окно эволюционирует от одного временного шага к другому:

Редуцированная матрица Купмана в пространстве мод
Ã = Σ⁻¹ · Vᵀ · K₁ · V · Σ⁻¹
V содержит топ-к собственных векторов первой матрицы сходства - алфавита. K₁ - это сдвинутая по времени матрица сходства, которая кодирует переход от одного временного шага к другому. Σ-¹ нормализует длины собственных векторов, чтобы результирующая матрица не искажалась из-за разницы масштабов. Остается только линейный оператор на нелинейно порожденном пространстве - оригинальная идея Купмана, здесь в сокращенном виде.

Шестой и последний шаг вычитывает суть. К этой маленькой матрице применяется второе разложение по собственным значениям - на этот раз такое, которое допускает комплексные значения. Каждая мода становится комплексным собственным значением. Его действительная часть - это скорость роста, а мнимая - частота. Таким образом, окно из нескольких сотен необработанных значений превращается в 2 × k значений - то есть двадцать чисел для десяти мод, которые вместе несут всю динамику окна.

05 - Реализация - ядро, которое делает математику

Что примечательно в этой реализации, так это не ее длина, а ее краткость. То, что в теории звучит как специализированная лекция, в PyTorch укладывается всего в несколько точных строк - и при этом не нужно писать ни одного цикла. Весь спектральный аппарат живет в двух встроенных подпрограммах для разложения по собственным значениям. Это делает кодер не только читаемым - он становится полностью дифференцируемым. Его можно встроить в любую нейронную сеть в качестве слоя и обучить методом обратного распространения.

# proprietary — interne Implementierung gekürzt
class KoopmanLeibnizEncoder(nn.Module):
    def __init__(self, rank=10, gamma=0.1):
        super().__init__()
        self.rank  = rank     # Anzahl beibehaltener Leibniz-Primitive
        self.gamma = gamma    # Breite des RBF-Kernels

    def forward(self, x):
        # Lokale Standardisierung pro Fenster — gegen Kernel-Kollaps
        x = (x - x.mean(dim=1, keepdim=True)) / (x.std(dim=1, keepdim=True) + 1e-6)

        # [...] Takens-Einbettung, RBF-Kernel, Spektrum, reduzierte Koopman-Matrix
        # [...] interne Pipeline — Details proprietär
        A_tilde = _internal_spectral_pipeline(x, self.rank, self.gamma)

        # Komplexe Eigenwerte → Wachstum (Re) + Frequenz (|Im|)
        koop_vals, _ = torch.linalg.eig(A_tilde)
        return torch.cat([koop_vals.real, torch.abs(koop_vals.imag)], dim=-1)
                              PYTHON

Таким образом, кодировщик - это не вспомогательный инструмент для работы с данными, а неотъемлемый компонент архитектуры. То, что он производит, - это спектральный отпечаток окна наблюдения: двадцать значений, суммирующих рост, затухание и частоту доминирующих режимов рынка. То, как эта информация попадает в модель, является действительно интересной частью - и причиной, по которой эта статья была написана в первую очередь.

06 - Применение - разрушитель плато

Во время исследований команды большая основная модель - система на основе трансформатора со специализированными выходными ветвями и несколькими временными плоскостями - неоднократно выходила на плато в четвертой стадии. В течение шести-восьми эпох потери чисто падали, а затем оставались неизменными. Показатели валидации немного выросли - первый признак зарождающейся адаптации к особенностям обучения. Традиционные противоядия не сработали. Снижение скорости обучения усугубляло симптомы. Увеличение количества данных давало небольшие улучшения, которые терялись в дисперсии множества прогонов. Проблема была структурной: модель извлекла из локальных статистических особенностей все, что могла. Ей нужна была не очередная оптимизация, а новая информация.

Именно здесь в игру вступает кодер Купмана-Лейбница, но в роли, для которой он изначально не предназначался. Вместо того чтобы быть основным кодером перед моделью, он используется как параллельный информационный канал - второй конвейер данных, который подает глобальные режимы рынка в уже обученную модель на нескольких временных уровнях. Связь осуществляется через слой перекрестного внимания: основная модель запрашивает у спектрального отпечатка информацию, которой ей не хватает, и интегрирует ответ в свои внутренние представления.

Такое расширение в середине обучения обычно рискованно. Дополнительная ветвь резко меняет ландшафт градиента. В худшем случае она дестабилизирует то, что создавалось неделями. Именно здесь вступает в игру второй, едва ли не более важный компонент эксперимента: ворота нулевого инита.

Диаграмма 02 - Поведение врат на плато
Как ворота, запущенные в ноль, открываются именно тогда, когда исчезает градиент потерь

Trainings-Loss-Kurve flacht in der Plateau-Zone ab, während der Gate-Wert α von 0 auf 1 hochläuft und spektrale Anreicherung einsetzt

Фаза 1 - Базовая линия стабильна, ворота остаются закрытыми - никакого вмешательства в существующее обучение.
Фаза 2 - Потери сглаживаются, градиенты разрушаются, ворота открываются автоматически, и начинает действовать спектральный канал.

С математической точки зрения ворота представляют собой одну скалярную величину - мы называем ее α. Он инициализируется значением, равным ровно нулю, и умножает вклад нового спектрального канала, прежде чем он перетечет обратно в основную модель:

Остаточное вмешательство через ворота
h_neu = h_alt + α · CrossAttn(h_alt, z_spektral)
h_alt - это предыдущее внутреннее представление основной модели. z_spectral - это последовательность спектральных отпечатков от кодера Коопмана-Лейбница в нескольких временных плоскостях. Операция CrossAttn позволяет основной модели получить особый доступ к информации из спектрального канала. Пока α = 0, весь дополнительный член равен ровно нулю, и модель ведет себя идентично предыдущей.

Эта конструкция является теоретическим ядром. Второй член в правой части в самом начале точно равен нулю - не маленький, не пренебрежимо малый, а аналитически нулевой. Основная модель не видит никаких изменений, продолжает работать на прежнем ландшафте потерь, сохраняя все веса стабильными. Единственное, что меняется, - это то, что теперь есть параметр α с определенным градиентом. Если траектория обратного распространения определит, что увеличение α уменьшит потери, тогда - и только тогда - ворота откроются.

На плато, где все остальные градиенты исчезают, градиент, связанный с α, обычно является единственным, который все еще несет четкий сигнал. У оптимизатора нет другого способа уменьшить потери - поэтому он начинает минимально увеличивать α. После этого спектральный канал начинает подавать информацию в основную модель. Ландшафт потерь, который был просто плоским, приобретает новое направление. Плато ломается.

Пока модель сходится стабильно, дополнительный путь остается нейтральным. Только когда градиент застаивается, спектральный канал становится эффективным путем обновления.
- Как работает механизм нулевого входа

Эта конструкция математически элегантна, но два свойства делают ее особенно ценной в исследовательских приложениях. Во-первых, это расширение с нулевым риском: пока модель прогрессирует без посторонней помощи, расширение неэффективно. Не нужно искать компромисс между стабильностью, не нужно нарушать текущую оптимизацию, не нужно настраивать новые графики обучения. Во-вторых, оно борется не с симптомом плато, а с его причиной. Традиционные методы вроде ReduceLROnPlateau замедляют движение, когда оно перестает работать, - точнее, они делают не то, что нужно. Вместо этого плато-брейкер добавляет в модель принципиально новую информацию: глобальные режимы рынка на нескольких временных уровнях, которые математически не присутствовали в локальных входных характеристиках.

В более широком исследовательском каноне этот механизм связан с такими методами, как ReZero и LayerScale - оба работают с остаточными путями, вклад которых контролируется обучаемым масштабным коэффициентом, начинающимся с нуля. Что отличает Plateau-Breaker, так это его функция: остаточное расширение добавляет не глубину сетки, а особый класс информации - спектральные режимы системы, которые кодер извлекает в явном виде. Это уже не емкость модели, а другая основа представления.

07 - Развязка - три свойства, которые работают вместе

Спектральные методы в анализе временных рядов не представляют собой ничего нового. Что делает вариант Коопмана-Лейбница качественно новым в этой комбинации - кодер плюс нулевые ворота плюс перекрестное внимание - так это три свойства, которые усиливают друг друга.

Он инвариантен по уровню. Благодаря локальной нормализации на окно кодер видит движения, а не уровни. Модель, работающая с этим механизмом, может работать в любой системе рыночной динамики, при этом диапазоны абсолютных значений никогда не играют роли.

Она нелинейна без необходимости изобретать нелинейные функции. Ядро RBF неявно встраивает данные в бесконечно-мерное пространство, в котором сложные нелинейные отношения становятся линейными структурами. Никому не нужно гадать, какие показатели могут понадобиться системе, - геометрия данных сама генерирует нелинейные отношения.

Ее можно интерпретировать спектрально. На выходе получаются не загадочные латентные переменные, а значения роста и частоты с четким динамическим смыслом. Если ты хочешь узнать, почему модель приняла определенное решение в определенной ситуации, ты можешь посмотреть на спектральный отпечаток и буквально считать с него динамическое состояние, в котором находилась система в тот момент.

Классические шкальники нормализуют числа. Кодировщик Купмана-Лейбница нормализует смысл.
- На простом языке

Spektrale Zerlegung: Ein zackiges Rohsignal („Zahlen") läuft durch das Koopman-Leibniz-Prisma und tritt als wenige saubere, benannte Schwingungsmoden wieder aus — Trend, Zyklus und Rauschen. Die Dynamik hinter dem Rauschen wird sichtbar („Bedeutung").

Никакой смысловой разницы нет. Если дать модели необработанные временные ряды, то она будет вынуждена сама переводить их в динамику - со всей мощностью своих весовых матриц и всеми усилиями по обучению. Если же дать ей динамику заранее, то внезапно высвободится потенциал, который модель сможет использовать для принятия реальных решений.

Тот же механизм лежит в основе специализированных вспомогательных целей обучения - небольших побочных выходов, которые заставляют сеть явно реконструировать соответствующие величины в ранних слоях - только на один уровень глубже. Такие вспомогательные цели заставляют магистраль понимать мир, прежде чем принимать решения. Кодировщик Купмана-Лейбница заставляет входные данные раскрывать свою динамику еще до того, как они попадут в модель. В установке "плато-брейкер" это становится третьим свойством: модели разрешается продолжать обучение именно тогда, когда она фактически остановилась.

08 - Перспективы - что будет дальше

Все математические инструменты взяты из классического репертуара - Бернард Купман 1931 года, Флорис Такенс 1981 года, ядро RBF из стандартного набора статистических инструментов, методы остаточного обучения из недавних исследований в области глубокого обучения. Что изменилось, так это аппаратное обеспечение. Несколько десятилетий назад разложение собственных значений требовало серьезных численных усилий. Сегодня оно выполняется в PyTorch на GPU за микросекунды - и, главное, дифференцируемо, то есть встраивается в любой градиентный обучающий конвейер.

Это меняет представление об инженерии признаков. Вместо того чтобы выбирать показатели вручную или предоставлять сети самой придумывать свои представления, можно построить целый класс кодировщиков, которые записывают математические структуры - спектральные разложения, топологии, дифференциальные операторы - прямо в поток данных. Примером такого кодера является кодер Купмана-Лейбница. В сочетании с zero-init гейтами он становится тем, чего до сих пор не хватало в обычной практике ML: инструментом, который борется не с симптомом застоя в обучении, а с его математической причиной.

Таким образом, появляется разделительная линия, выходящая за рамки конкретного приложения. Доминирующие на сегодняшний день архитектуры ИИ - от больших языковых моделей таких компаний, как OpenAI, Anthropic или Google DeepMind, до новейших генеративных трансформаторов - по своей сути являются антропоцентричными (от греческого ánthropos, "человек"): Они моделируют человеческий язык, человеческое восприятие, человеческое принятие решений, и они застыли в выученном, дискретном пространстве параметров, геометрию которого они никогда не покидают после обучения. Операторы Купмана-Лейбница, с другой стороны, работают в непрерывном спектральном пространстве инвариантных системных законов. Это открывает отдельную область исследований за пределами класса моделей, ориентированных на человека: генеративные адаптивные преобразователи, которые черпают свое представление не из данных человека, а из динамики самой наблюдаемой системы.

Текущее тестирование показывает, что кодер преодолевает плато не за счет добавления мощности, а за счет более точной фильтрации динамики системы. Он действует как селективный триггер - остается неактивным в фазах, в которых модель сходится самостоятельно, и вмешивается только тогда, когда возникает угроза стагнации градиента. Таким образом, система обретает стабильность без ущерба для существующего, выученного словаря признаков.

Если сеть застаивается на плато, то ей уже не хватает не столько входных данных, сколько разрешения, чтобы чисто извлечь сигнал из шума.
- Принцип работы метода Купмана-Лейбница

Об авторе Konstantin Stratigenas
Главный технический директор (CTO)

Константин Стратигенас является директором по технологиям (CTO) в Langmeier Software и в значительной степени отвечает за дальнейшее развитие aBusiness Suite. Его цель - поддерживать компании современными, поддерживаемыми искусственным интеллектом решениями, которые упрощают работу, ускоряют процессы и экономят время и деньги. Со своей страстью к удобным технологиям он стремится к тому, чтобы каждый человек во всем мире мог воспользоваться преимуществами aBusiness Suite.

Смотри дальше:

Коопман-Лейбниц, математика, Плато, Глубокое обучение, Динамические системы, Искусственный интеллект, динамика системы, Энкодер, Алгоритмы оптимизации, скорость обучения, Внутренние ценности, собственные векторы, Rbf-kernel, уменьшение спектра, Примитивная изоляция

Статьи, относящиеся к теме

Как на самом деле правильно разговаривать с ИИ?
Centrics - последний кусочек головоломки для общего искусственного интеллекта (AGI)?
Значение «чистого кода» для конкурентоспособности

Оставь комментарий здесь...

Langmeier Backup

Свяжитесь с Langmeier Software

Партнер-реселлер

О компании

Выбери свой регион

Коопман-Лейбниц: математика, которая прорывается сквозь плато

01 - Плато обучения - когда градиент исчезает

02 - Основа - Купман: когда движение становится линейной алгеброй

03 - Спектральная редукция - выделение системных примитивов

04 - Машина - от сырого сигнала к спектральному отпечатку пальца

05 - Реализация - ядро, которое делает математику

06 - Применение - разрушитель плато

07 - Развязка - три свойства, которые работают вместе

08 - Перспективы - что будет дальше

Протестируй aBusiness прямо сейчас в течение 14 дней бесплатно

Статьи, относящиеся к теме

Решения

Последние новости

компания

Юридическая информация