Штучний інтелект

Купман-Лейбніц: математика, яка проривається через плато

Будь-хто, хто розробляє сучасні моделі ШІ, знайомий з цим моментом: спочатку все йде ідеально, крива стрімко прямує вгору - а потім раптом нічого не працює. Система стагнує.

Звичайні ІТ-хитрощі, такі як збільшення потужності сервера або збільшення часу роботи, зазвичай лише відтерміновують проблему на кілька днів. Новий підхід з досліджень - так званий кодер Купмана-Лейбніца - тепер прориває цю блокаду: не за рахунок грубої обчислювальної потужності, а за рахунок абсолютно нового, розумного структурування системних даних.

01 - Плато навчання - коли градієнт зникає

Кількісні фінансові дані - це висококорельовані дані з надзвичайно низьким співвідношенням сигнал/шум. Основний виклик полягає в тому, щоб витягти з вікна спостереження не послідовність сирих значень, а приховану динаміку системи - перехідні імпульси, циклічні розвороти та зміни енергетичного стану. Оскільки ці структури губляться в стохастичному шумі, стандартна архітектура витрачає непропорційно велику частину своєї потужності лише на формування представлення.

Якщо модель досягає плато, градієнт втрат (∇ℒ) падає. Оптимізатор втрачає стабільність напрямку в цій пласкій області параметрів, оскільки компоненти градієнта сходяться до нуля. На цьому етапі мережа вивчила лише тривіальні, домінуючі компоненти дисперсії. Глибші, передбачувані структури ринку залишаються недосяжними, оскільки поточний математичний словник мережі не є достатнім для їх чистої ізоляції від шуму.

Методи адаптивної оптимізації, такі як AdamW, не пропонують тут системного рішення: хоча вони виправляють масштабування, вони не можуть виділити напрямок з векторного поля, очікуване значення якого в середньому дорівнює нулю. Навіть звичайне зменшення швидкості навчання(ReduceLROnPlateau) не може подолати цю стагнацію. Воно лише цементує його. Мережа залишається в плато і починає запам'ятовувати високочастотні шумові структури навчальних даних - прямий шлях до перенавчання, що призводить до погіршення валідаційної метрики із затримкою в часі.

Плато - це не кінець навчання. Це кінець поточного словника.
- Діагностика проблеми стагнації

02 - Фундамент - Купман: Коли рух стає лінійною алгеброю

Американський математик Бернард Купман опублікував статтю 1931, яка на той час була мало кому потрібна, а за останні десять років увійшла до кожного підручника з динаміки, керованої даними. На перший погляд, його ідея парадоксальна: якщо система рухається складним нелінійним чином, її все одно можна описати лінійно - якщо ви готові перейти до нескінченновимірного простору, в якому розвиваються не самі стани, а функції над станами.

Це звучить як поганий компроміс - скінченновимірна нелінійна задача в обмін на нескінченновимірну лінійну. Насправді це чудовий обмін, тому що лінійні оператори мають те, чого нелінійні функції зазвичай не мають: спектр. Власні значення та власні вектори. Зрозумілі, розкладні будівельні блоки. Кожен, хто знає оператор Купмана системи, знає її власні моди - фундаментальні моделі коливань, з яких складається кожен реальний рух, так само, як кожен звук може складатися з чистих синусоїдальних тонів.

Ніхто не може обчислити точний оператор Купмана системи ринкової динаміки. Але можна вивчити скінченновимірне наближення на основі даних - метод називається декомпозиція динамічного режиму, або скорочено DMD ( Dynamic Mode Decomposition). У його варіанті на основі ядра, який використовується кодувальником, з вікна спостереження автоматично отримується невелика матриця, власні значення якої точно відповідають на два питання: як швидко коливається ця динаміка, і чи отримує вона енергію або втрачає її.

Діаграма 01 - Що означає комплексне власне значення
Кожна точка на комплексній площині - це цілий режим руху - частота і приріст в одному числі

Komplexe Eigenwert-Ebene: Energie-aufbauende Moden (Realteil > 0) und Energie-abbauende Moden (Realteil < 0), mit Stabilitätsgrenze

Режими, щонакопичують енергію (дійсна частина > 0) - помаранчевий
Режими, щовиснажують енергію (дійсна частина < 0) - темний
Межа стійкості - пунктирне коло

Ця карта є центральною візуалізацією, необхідною для розуміння роботи енкодера. Вікно спостереження співвідноситься з десятьма точками на цій складній площині. Кожна точка - це незалежний тип руху, який наразі містить система. Реальна частина показує, чи цей рух набирає швидкість, чи вичерпує її; уявна частина показує, з якою швидкістю він коливається. Все вікно може бути реконструйоване з цих десяти точок, без відволікань через кілька сотень сирих чисел.

03 - Спектральна редукція - виділення примітивів системи

Структурна проблема моделювання простору Купмана полягає в його чисельній громіздкості: він є нескінченновимірним за своєю конструкцією. Математичне освоєння цієї розмірності проводить пряму паралель з " Універсальною характеристикою " Готфріда Вільгельма Лейбніца та його "Мистецтвом комбінаторики" (Ars Combinatoria). В " Алфавіті мислення людського " Лейбніц постулював універсальну систему, яка простежує складну, безперервну динаміку до кінцевого набору ортогональних, неподільних базових понять - notiones primitivae (первісних понять). Складність тут розуміється не як хаотичний континуум, а як лінійна комбінація дискретних, примітивних будівельних блоків.

Алгоритмічно ця раціональна редукція формує основу для усікання рангу в гільбертовому просторі ℋ, який неявно охоплює ядро RBF. Хоча матриця подібності K₀ кодує повну, зашумлену траєкторію вікна спостереження, подальше симетричне розкладання за власними значеннями ізолює k домінуючих власних мод. Це формальний акт примітивної ізоляції - проекція на низьковимірний, купманівсько-інваріантний підпростір:

Спектральна проекція - редукція рангу Лейбніца
ℋ  ⟶  ?ₖ
ℋ представляє нескінченновимірний гільбертовий простір як формальний носій всієї потенційної динаміки. ?ₖ визначає k-вимірний підпростір, охоплений домінуючими власними модами; у стандартній постановці k = 10. Всі спектральні компоненти, що виходять за цю межу, аналітично відкидаються як перехідні шуми.

Це усічення працює як основний механізм регуляризації кодера. Нейронна мережа, що працює на нефільтрованому спектрі, неминуче запам'ятовує високочастотні, стохастичні сингулярності навчальної вибірки. Стискаючи сигнал до k домінантних примітивів, архітектура забезпечує математичну абстракцію: наступні шари витягують не ефемерні шумові структури конкретного вікна, а інваріантні генератори динаміки системи.

04 - Машина - Від сирого сигналу до спектрального відбитка

Те, що кодер робить всередині, можна прочитати як шість послідовних кроків, кожен з яких вирішує певну задачу. Ми розглядаємо центральні кроки математично - не як проходження коду, а як аргументацію, що відповідає на питання в кожному конкретному випадку.

Перший крок встановлює порівнянність. Наступне ядро одразу працює з відстанями у вигляді експоненціальної функції. Якщо вхідні значення чисельно великі, експоненціальна функція згортається до нуля, і весь конвеєр видає лише нулі. Тому кожне вікно стандартизується локально.

Локальна стандартизація
x̂ = (x − μ) / (σ + ε)
Кожне значення зменшується на середнє значення вікна μ і ділиться на стандартне відхилення вікна σ. Малий доданок ε запобігає діленню на нуль для тихих фаз. Це робить енкодер інваріантним до рівня: рух в один відсоток виглядає для нього однаково, незалежно від абсолютного рівня, на якому він відбувається. Модель вивчає динаміку, а не абсолютні значення.

Другий крок перетворює історію на стан. Окреме спостереження майже нічого не говорить. Динаміка - це взаємозв'язок між послідовними станами. Вікно розбивається на дві зсунуті в часі версії - перша містить спостереження до передостаннього кроку, друга - спостереження від другого кроку до кінця. Правило переходу пізніше буде отримано з порівняння цих двох версій. Це стара ідея Такенса: прогресія - це стан.

Третій крок - це власне математичний трюк: подібність як геометрія. Замість того, щоб вручну вигадувати індикатори, кодер дозволяє геометрії даних говорити за себе. Для кожного моменту часу у вікні він вимірює, наскільки він схожий на всі інші моменти часу. Мірою подібності є ядро RBF:

Ядро RBF - міра подібності
k(x, y) = exp(−γ · ‖x − y‖²)
Вираз "x - y"² є квадратом евклідової відстані між двома станами - наскільки вони віддалені один від одного в просторі. Експоненціальна функція стискає його до значення між 0 і 1: ідентичні стани дають рівно 1, віддалені - практично 0. Параметр γ контролює, наскільки швидко схожість зменшується зі збільшенням відстані - це, так би мовити, різкість, з якою система відокремлює "схоже" від "відмінного".

Таким чином, вікно перетворюється на матрицю подібності, в якій кожен елемент є значенням подібності між двома точками в часі. Це вже не часовий ряд - це топографія. Які фази схожі, а які ні, і як вони розподілені у вікні. Друга матриця подібності порівнює кожну точку часу з її наступником і містить інформацію для правила переходу.

На четвертому кроці знаходиться алфавіт: До першої матриці подібності застосовується розкладання за власними значеннями. Найбільші власні значення показують домінуючі моделі топографії. Залишаються лише верхні k мод, примітиви Лейбніца вікна.

На п'ятому кроці будується правило переходу. У просторі домінуючих мод будується невелика матриця, яка точно описує, як вікно еволюціонує від одного часового кроку до іншого:

Скорочена матриця Купмана у просторі мод
Ã = Σ⁻¹ · Vᵀ · K₁ · V · Σ⁻¹
V містить верхні k власних векторів першої матриці подібності - алфавіту. K₁ - це зсунута за часом матриця подібності, яка кодує перехід від одного часового кроку до іншого. Σ-¹ нормалізує довжини власних векторів так, щоб результуюча матриця не була спотворена різницею масштабів. Залишається лінійний оператор на нелінійно породженому просторі - оригінальна ідея Купмана, тут у скороченому вигляді.

Шостий і останній крок відчитує суть. До цієї маленької матриці застосовується друге розкладання за власними значеннями - цього разу таке, що допускає комплексні значення. Кожна мода стає комплексним власним значенням. Її дійсна частина - це швидкість росту, а уявна частина - частота. Таким чином, вікно з декількох сотень вихідних значень перетворюється на 2 × k значень - тобто двадцять чисел для десяти режимів, які разом несуть всю динаміку вікна.

05 - Реалізація - ядро, яке робить математику

Реалізація вражає не своєю довжиною, а стислістю. Те, що в теорії звучить як спеціалізована лекція, в PyTorch - це лише кілька точних рядків, без написання жодного циклу. Весь спектральний апарат живе у двох вбудованих процедурах для розкладання за власними значеннями. Це робить кодер не тільки читабельним, але й повністю диференційованим. Його можна вбудувати в будь-яку нейронну мережу як шар і навчити зворотному поширенню.

# proprietary — interne Implementierung gekürzt
class KoopmanLeibnizEncoder(nn.Module):
    def __init__(self, rank=10, gamma=0.1):
        super().__init__()
        self.rank  = rank     # Anzahl beibehaltener Leibniz-Primitive
        self.gamma = gamma    # Breite des RBF-Kernels

    def forward(self, x):
        # Lokale Standardisierung pro Fenster — gegen Kernel-Kollaps
        x = (x - x.mean(dim=1, keepdim=True)) / (x.std(dim=1, keepdim=True) + 1e-6)

        # [...] Takens-Einbettung, RBF-Kernel, Spektrum, reduzierte Koopman-Matrix
        # [...] interne Pipeline — Details proprietär
        A_tilde = _internal_spectral_pipeline(x, self.rank, self.gamma)

        # Komplexe Eigenwerte → Wachstum (Re) + Frequenz (|Im|)
        koop_vals, _ = torch.linalg.eig(A_tilde)
        return torch.cat([koop_vals.real, torch.abs(koop_vals.imag)], dim=-1)
                              PYTHON

Таким чином, кодер не є інструментом попередньої обробки даних, а невід'ємним компонентом архітектури. Те, що він виробляє - це спектральний відбиток вікна спостереження: двадцять значень, що підсумовують зростання, затухання і частоту домінуючих ринкових режимів. Те, як ця інформація потрапляє в модель, є дійсно цікавою частиною - і причиною, чому ця стаття була написана в першу чергу.

06 - Застосування - вимикач плато

Під час досліджень команди велика основна модель, трансформаторна система зі спеціалізованими вихідними гілками і декількома часовими площинами, неодноразово виходила на плато на стадії 4. Втрати повністю знизилися протягом шести-восьми епох, а потім залишилися на одному рівні. Показники валідації дещо зросли - перша ознака початкової адаптації до специфіки навчання. Традиційні антидоти не спрацювали. Зниження швидкості навчання посилювало симптоми. Більша кількість даних давала незначні покращення, які губилися в дисперсії багаторазових запусків. Проблема була структурною: модель витягла все, що могла, з локальних статистичних особливостей. Їй потрібна була не ще одна оптимізація, а нова інформація.

Саме тут у гру вступає кодер Купмана-Лейбніца, але в ролі, для якої він спочатку не призначався. Замість того, щоб бути основним кодувальником перед моделлю, він використовується як паралельний інформаційний канал - другий інформаційний конвеєр, який подає режими глобального ринку на вже навчену модель на декількох часових рівнях. Зв'язок здійснюється через шар перехресної уваги: основна модель запитує у спектрального відбитка інформацію, якої їй бракує, та інтегрує відповідь у свої внутрішні уявлення.

Таке розширення в середині навчання зазвичай є ризикованим. Додаткова гілка різко змінює градієнтний ландшафт. У найгіршому випадку це дестабілізує те, що створювалося тижнями. Саме тут в гру вступає другий, майже більш важливий компонент експерименту: ворота нульового входу.

Діаграма 02 - Поведінка воріт на плато
Як вентиль, запущений з нуля, відкривається саме тоді, коли градієнт втрат зникає

Trainings-Loss-Kurve flacht in der Plateau-Zone ab, während der Gate-Wert α von 0 auf 1 hochläuft und spektrale Anreicherung einsetzt

Фаза 1 - Базова лінія стабільна, вентиль залишається закритим - ніякого втручання в існуюче навчання.
Фаза 2 - Втрати вирівнюються, градієнти зникають, вентиль відкривається автоматично і спектральний канал починає діяти.

Математично воріт є єдиною скалярною величиною - ми називаємо її α. Вона ініціалізується значенням, рівним нулю, і примножує внесок нового спектрального каналу, перш ніж він повертається назад в основну модель:

Залишкове втручання через вентиль
h_neu = h_alt + α · CrossAttn(h_alt, z_spektral)
h_alt - попереднє внутрішнє представлення основної моделі. z_spectral - послідовність спектральних відбитків від кодера Купмана-Лейбніца на декількох часових площинах. Операція CrossAttn дозволяє головній моделі отримати доступ до інформації зі спектрального каналу. Поки α = 0, весь додатковий член дорівнює нулю, і модель поводиться так само, як і раніше.

Ця конструкція є теоретичним ядром. Другий доданок у правій частині від самого початку дорівнює нулю - не малому, не мізерному, але аналітично нулю. Основна модель не бачить ніяких змін, продовжує працювати на попередньому ландшафті втрат, зберігає всі ваги стабільними. Єдине, що змінюється, це те, що з'являється параметр α з певним градієнтом. Якщо шлях зворотного розповсюдження визначає, що збільшення α зменшить втрати, тоді - і тільки тоді - ворота відкриються.

На плато, де всі інші градієнти зникають, градієнт, пов'язаний з α, як правило, є єдиним, який все ще несе чіткий сигнал. Оптимізатор не має іншого способу зменшити втрати - тому він починає мінімально збільшувати α. Після цього спектральний канал починає подавати інформацію в основну модель. Ландшафт втрат, який щойно був плоским, набуває нового напрямку. Плато розривається.

Поки модель стабільно збігається, додатковий шлях залишається нейтральним. Лише коли градієнт стагнує, спектральний канал стає ефективним шляхом оновлення.
- Як працює механізм нульового початку

Ця конструкція є математично елегантною, але дві властивості роблять її особливо цінною для дослідницьких застосувань. По-перше, це розширення з нульовим ризиком: поки модель прогресує без сторонньої допомоги, розширення є неефективним. Немає ніякого компромісу щодо стабільності, ніякого порушення поточної оптимізації, ніякого нового налаштування розкладу навчання. По-друге, воно бореться не з симптомом плато, а з причиною. Традиційні методи, такі як ReduceLROnPlateau, сповільнюють рух, коли він перестає працювати - точніше кажучи, вони роблять неправильну річ. Натомість "руйнівник плато" додає до моделі принципово нову інформацію: глобальні ринкові режими на різних часових рівнях, які не були математично присутні в локальних вхідних даних.

У ширшому дослідницькому каноні цей механізм пов'язаний з такими методами, як ReZero та LayerScale - обидва працюють із залишковими траєкторіями, внесок яких контролюється коефіцієнтом масштабування, який починається з нуля. Що відрізняє Plateau-Breaker, так це його функція: залишкове розширення додає не глибину до сіті, а певний клас інформації - режими спектральної системи, які кодер виокремлює в явному вигляді. Це вже не ємність моделі, а інша основа представлення.

07 - Кульмінація - Три властивості, які працюють разом

Спектральні методи в аналізі часових рядів не є чимось новим. Що робить варіант Купмана-Лейбніца якісно новим у цій комбінації - кодер плюс нульовий вхід плюс перехресна увага - це три властивості, які підсилюють одна одну.

Він є рівнево-інваріантним. Завдяки локальній нормалізації на вікно, енкодер бачить рухи, а не рівні. Модель, яка працює з цим механізмом, може працювати на будь-якій системі ринкової динаміки без абсолютних діапазонів значень, які коли-небудь грали роль.

Вона є нелінійною без необхідності вигадувати нелінійні характеристики. Ядро RBF неявно вбудовує дані в нескінченновимірний простір, в якому складні нелінійні зв'язки стають лінійними структурами. Ніхто не повинен здогадуватися, які показники можуть знадобитися системі - геометрія даних сама генерує нелінійні зв'язки.

Їх можна інтерпретувати спектрально. На виході ми отримуємо не таємничі латентні змінні, а значення зростання і частоти з чітким динамічним змістом. Якщо ви хочете дізнатися, чому модель прийняла певне рішення в певній ситуації, ви можете подивитися на спектральний відбиток і буквально зчитати динамічний стан, в якому перебувала система в той момент.

Класичні скалери нормалізують числа. Кодер Купмана-Лейбніца нормалізує значення.
- Якщо говорити простою мовою

Spektrale Zerlegung: Ein zackiges Rohsignal („Zahlen") läuft durch das Koopman-Leibniz-Prisma und tritt als wenige saubere, benannte Schwingungsmoden wieder aus — Trend, Zyklus und Rauschen. Die Dynamik hinter dem Rauschen wird sichtbar („Bedeutung").

Немає ніякої семантичної різниці. Надання моделі необроблених часових рядів змушує її виконувати переклад в динаміку самостійно - з повною потужністю її вагових матриць і повними зусиллями навчання. Надання моделі динаміки заздалегідь несподівано вивільняє потенціал, який модель може використати для прийняття реальних рішень.

Це той самий механізм, що стоїть за допоміжними цілями спеціалізованого навчання - невеликими побічними виходами, які змушують мережу явно реконструювати відповідні величини в ранніх шарах - лише на один рівень глибше. Такі допоміжні цілі змушують кістяк розуміти світ, перш ніж приймати рішення. Кодер Купмана-Лейбніца змушує вхідні дані розкривати свою динаміку ще до того, як вони потрапляють до моделі. У плато-руйнівнику це стає третьою властивістю: моделі дозволяється продовжувати навчання саме тоді, коли воно фактично зупинилося.

08 - Outlook - що буде далі

Математичні інструменти - все з класичного репертуару: Бернард Купман 1931 року, Флоріс Такенс 1981 року, ядро RBF зі стандартного статистичного інструментарію, методи залишкового навчання з недавніх досліджень у галузі глибокого навчання. Що змінилося, так це апаратне забезпечення. Кілька десятиліть тому розкладання за власними значеннями вимагало серйозних обчислювальних зусиль. Сьогодні це робиться за допомогою прямого проходу PyTorch на графічному процесорі за мікросекунди - і, перш за все, диференційовано, тобто може бути вбудовано в будь-який конвеєр навчання на основі градієнта.

Це змінює те, що вважається функціональною інженерією. Замість того, щоб вибирати індикатори вручну або надавати мережі можливість придумувати власні репрезентації, можна побудувати цілий клас кодерів, які записують математичні структури - спектральні розклади, топології, диференціальні оператори - безпосередньо в потік даних. Кодер Купмана-Лейбніца є прикладом цього. У поєднанні з нульовим початком він стає тим, чого досі не вистачало в сучасній практиці ML: інструментом, який бореться не з симптомом стагнації навчання, а з його математичною причиною.

Таким чином, з'являється лінія розмежування, яка виходить за рамки конкретного застосування. Домінуючі сьогодні архітектури ШІ - від великих мовних моделей від таких компаній, як OpenAI, Anthropic чи Google DeepMind, до новітніх генеративних трансформаторів - за своєю суттю є антропоцентричними (від грец. ánthropos- "людина"): Вони моделюють людську мову, людське сприйняття, людське прийняття рішень і застигають у вивченому, дискретному просторі параметрів, геометрію якого вони ніколи не залишають після навчання. Оператори Купмана-Лейбніца, з іншого боку, працюють у неперервному спектральному просторі інваріантних системних законів. Це відкриває окрему сферу досліджень за межами класу моделей, орієнтованих на людину: генеративні адаптивні трансформатори, які отримують своє представлення не з людських даних, а з динаміки самої системи, що спостерігається.

Поточне тестування показує, що кодер проривається через плато не за рахунок додавання потужності, а за рахунок більш точної фільтрації динаміки системи. Він діє як селективний тригер - залишається неактивним у фазах, коли модель сходиться самостійно, і втручається лише тоді, коли виникає загроза градієнтної стагнації. Таким чином, система набуває стабільності без шкоди для існуючого, вивченого словника ознак.

Якщо мережа стагнує на плато, їй більше не вистачає входу, але не вистачає роздільної здатності виокремити сигнал з шуму.
- Принцип роботи методу Купмана-Лейбніца

Про автора Konstantin Stratigenas
Головний технічний директор (CTO)

Костянтин Стратігенас є технічним директором (CTO) компанії Langmeier Software і в значній мірі відповідає за подальший розвиток aBusiness Suite. Його мета - надавати компаніям сучасні рішення з підтримкою штучного інтелекту, які спрощують роботу, прискорюють процеси та заощаджують час і гроші. Завдяки своїй пристрасті до зручних для користувача технологій, він прагне, щоб кожен у всьому світі міг скористатися перевагами aBusiness Suite.

Подивіться далі:

Купман-Лейбніц, математика, плато, Глибоке навчання, Динамічні системи, Штучний інтелект, системна динаміка, кодер, алгоритми оптимізації, швидкість навчання, внутрішні цінності, власні вектори, Rbf-ядро, спектральне зменшення, примітивна ізоляція

Відповідні статті

Як правильно розмовляти зі штучним інтелектом?
Центри - останній шматок головоломки для загального штучного інтелекту (AGI)?
Значення «чистого коду» для конкурентоспроможності

Залишити коментар тут...

Langmeier Backup

контакт

Партнер-реселер

Про компанію

Виберіть свій регіон

Купман-Лейбніц: математика, яка проривається через плато

01 - Плато навчання - коли градієнт зникає

02 - Фундамент - Купман: Коли рух стає лінійною алгеброю

03 - Спектральна редукція - виділення примітивів системи

04 - Машина - Від сирого сигналу до спектрального відбитка

05 - Реалізація - ядро, яке робить математику

06 - Застосування - вимикач плато

07 - Кульмінація - Три властивості, які працюють разом

08 - Outlook - що буде далі

Протестуйте aBusiness зараз протягом 14 днів безкоштовно

Відповідні статті

Рішення

Останні новини

компанія

Юридична інформація