|
Штучний інтелект
Купман-Лейбніц: математика, яка проривається через платоБудь-хто, хто розробляє сучасні моделі ШІ, знайомий з цим моментом: спочатку все йде ідеально, крива стрімко прямує вгору - а потім раптом нічого не працює. Система стагнує. Звичайні ІТ-хитрощі, такі як збільшення потужності сервера або збільшення часу роботи, зазвичай лише відтерміновують проблему на кілька днів. Новий підхід з досліджень - так званий кодер Купмана-Лейбніца - тепер прориває цю блокаду: не за рахунок грубої обчислювальної потужності, а за рахунок абсолютно нового, розумного структурування системних даних.
01 - Плато навчання - коли градієнт зникаєКількісні фінансові дані - це висококорельовані дані з надзвичайно низьким співвідношенням сигнал/шум. Основний виклик полягає в тому, щоб витягти з вікна спостереження не послідовність сирих значень, а приховану динаміку системи - перехідні імпульси, циклічні розвороти та зміни енергетичного стану. Оскільки ці структури губляться в стохастичному шумі, стандартна архітектура витрачає непропорційно велику частину своєї потужності лише на формування представлення. Якщо модель досягає плато, градієнт втрат (∇ℒ) падає. Оптимізатор втрачає стабільність напрямку в цій пласкій області параметрів, оскільки компоненти градієнта сходяться до нуля. На цьому етапі мережа вивчила лише тривіальні, домінуючі компоненти дисперсії. Глибші, передбачувані структури ринку залишаються недосяжними, оскільки поточний математичний словник мережі не є достатнім для їх чистої ізоляції від шуму. Методи адаптивної оптимізації, такі як AdamW, не пропонують тут системного рішення: хоча вони виправляють масштабування, вони не можуть виділити напрямок з векторного поля, очікуване значення якого в середньому дорівнює нулю. Навіть звичайне зменшення швидкості навчання(ReduceLROnPlateau) не може подолати цю стагнацію. Воно лише цементує його. Мережа залишається в плато і починає запам'ятовувати високочастотні шумові структури навчальних даних - прямий шлях до перенавчання, що призводить до погіршення валідаційної метрики із затримкою в часі.
02 - Фундамент - Купман: Коли рух стає лінійною алгеброюАмериканський математик Бернард Купман опублікував статтю 1931, яка на той час була мало кому потрібна, а за останні десять років увійшла до кожного підручника з динаміки, керованої даними. На перший погляд, його ідея парадоксальна: якщо система рухається складним нелінійним чином, її все одно можна описати лінійно - якщо ви готові перейти до нескінченновимірного простору, в якому розвиваються не самі стани, а функції над станами. Це звучить як поганий компроміс - скінченновимірна нелінійна задача в обмін на нескінченновимірну лінійну. Насправді це чудовий обмін, тому що лінійні оператори мають те, чого нелінійні функції зазвичай не мають: спектр. Власні значення та власні вектори. Зрозумілі, розкладні будівельні блоки. Кожен, хто знає оператор Купмана системи, знає її власні моди - фундаментальні моделі коливань, з яких складається кожен реальний рух, так само, як кожен звук може складатися з чистих синусоїдальних тонів. Ніхто не може обчислити точний оператор Купмана системи ринкової динаміки. Але можна вивчити скінченновимірне наближення на основі даних - метод називається декомпозиція динамічного режиму, або скорочено DMD ( Dynamic Mode Decomposition). У його варіанті на основі ядра, який використовується кодувальником, з вікна спостереження автоматично отримується невелика матриця, власні значення якої точно відповідають на два питання: як швидко коливається ця динаміка, і чи отримує вона енергію або втрачає її. Діаграма 01 - Що означає комплексне власне значення
Ця карта є центральною візуалізацією, необхідною для розуміння роботи енкодера. Вікно спостереження співвідноситься з десятьма точками на цій складній площині. Кожна точка - це незалежний тип руху, який наразі містить система. Реальна частина показує, чи цей рух набирає швидкість, чи вичерпує її; уявна частина показує, з якою швидкістю він коливається. Все вікно може бути реконструйоване з цих десяти точок, без відволікань через кілька сотень сирих чисел. 03 - Спектральна редукція - виділення примітивів системиСтруктурна проблема моделювання простору Купмана полягає в його чисельній громіздкості: він є нескінченновимірним за своєю конструкцією. Математичне освоєння цієї розмірності проводить пряму паралель з " Універсальною характеристикою " Готфріда Вільгельма Лейбніца та його "Мистецтвом комбінаторики" (Ars Combinatoria). В " Алфавіті мислення людського " Лейбніц постулював універсальну систему, яка простежує складну, безперервну динаміку до кінцевого набору ортогональних, неподільних базових понять - notiones primitivae (первісних понять). Складність тут розуміється не як хаотичний континуум, а як лінійна комбінація дискретних, примітивних будівельних блоків. Алгоритмічно ця раціональна редукція формує основу для усікання рангу в гільбертовому просторі ℋ, який неявно охоплює ядро RBF. Хоча матриця подібності K₀ кодує повну, зашумлену траєкторію вікна спостереження, подальше симетричне розкладання за власними значеннями ізолює k домінуючих власних мод. Це формальний акт примітивної ізоляції - проекція на низьковимірний, купманівсько-інваріантний підпростір:
Це усічення працює як основний механізм регуляризації кодера. Нейронна мережа, що працює на нефільтрованому спектрі, неминуче запам'ятовує високочастотні, стохастичні сингулярності навчальної вибірки. Стискаючи сигнал до k домінантних примітивів, архітектура забезпечує математичну абстракцію: наступні шари витягують не ефемерні шумові структури конкретного вікна, а інваріантні генератори динаміки системи. 04 - Машина - Від сирого сигналу до спектрального відбиткаТе, що кодер робить всередині, можна прочитати як шість послідовних кроків, кожен з яких вирішує певну задачу. Ми розглядаємо центральні кроки математично - не як проходження коду, а як аргументацію, що відповідає на питання в кожному конкретному випадку. Перший крок встановлює порівнянність. Наступне ядро одразу працює з відстанями у вигляді експоненціальної функції. Якщо вхідні значення чисельно великі, експоненціальна функція згортається до нуля, і весь конвеєр видає лише нулі. Тому кожне вікно стандартизується локально.
Другий крок перетворює історію на стан. Окреме спостереження майже нічого не говорить. Динаміка - це взаємозв'язок між послідовними станами. Вікно розбивається на дві зсунуті в часі версії - перша містить спостереження до передостаннього кроку, друга - спостереження від другого кроку до кінця. Правило переходу пізніше буде отримано з порівняння цих двох версій. Це стара ідея Такенса: прогресія - це стан. Третій крок - це власне математичний трюк: подібність як геометрія. Замість того, щоб вручну вигадувати індикатори, кодер дозволяє геометрії даних говорити за себе. Для кожного моменту часу у вікні він вимірює, наскільки він схожий на всі інші моменти часу. Мірою подібності є ядро RBF:
Таким чином, вікно перетворюється на матрицю подібності, в якій кожен елемент є значенням подібності між двома точками в часі. Це вже не часовий ряд - це топографія. Які фази схожі, а які ні, і як вони розподілені у вікні. Друга матриця подібності порівнює кожну точку часу з її наступником і містить інформацію для правила переходу. На четвертому кроці знаходиться алфавіт: До першої матриці подібності застосовується розкладання за власними значеннями. Найбільші власні значення показують домінуючі моделі топографії. Залишаються лише верхні k мод, примітиви Лейбніца вікна. На п'ятому кроці будується правило переходу. У просторі домінуючих мод будується невелика матриця, яка точно описує, як вікно еволюціонує від одного часового кроку до іншого:
Шостий і останній крок відчитує суть. До цієї маленької матриці застосовується друге розкладання за власними значеннями - цього разу таке, що допускає комплексні значення. Кожна мода стає комплексним власним значенням. Її дійсна частина - це швидкість росту, а уявна частина - частота. Таким чином, вікно з декількох сотень вихідних значень перетворюється на 2 × k значень - тобто двадцять чисел для десяти режимів, які разом несуть всю динаміку вікна. 05 - Реалізація - ядро, яке робить математикуРеалізація вражає не своєю довжиною, а стислістю. Те, що в теорії звучить як спеціалізована лекція, в PyTorch - це лише кілька точних рядків, без написання жодного циклу. Весь спектральний апарат живе у двох вбудованих процедурах для розкладання за власними значеннями. Це робить кодер не тільки читабельним, але й повністю диференційованим. Його можна вбудувати в будь-яку нейронну мережу як шар і навчити зворотному поширенню.
Таким чином, кодер не є інструментом попередньої обробки даних, а невід'ємним компонентом архітектури. Те, що він виробляє - це спектральний відбиток вікна спостереження: двадцять значень, що підсумовують зростання, затухання і частоту домінуючих ринкових режимів. Те, як ця інформація потрапляє в модель, є дійсно цікавою частиною - і причиною, чому ця стаття була написана в першу чергу. 06 - Застосування - вимикач платоПід час досліджень команди велика основна модель, трансформаторна система зі спеціалізованими вихідними гілками і декількома часовими площинами, неодноразово виходила на плато на стадії 4. Втрати повністю знизилися протягом шести-восьми епох, а потім залишилися на одному рівні. Показники валідації дещо зросли - перша ознака початкової адаптації до специфіки навчання. Традиційні антидоти не спрацювали. Зниження швидкості навчання посилювало симптоми. Більша кількість даних давала незначні покращення, які губилися в дисперсії багаторазових запусків. Проблема була структурною: модель витягла все, що могла, з локальних статистичних особливостей. Їй потрібна була не ще одна оптимізація, а нова інформація. Саме тут у гру вступає кодер Купмана-Лейбніца, але в ролі, для якої він спочатку не призначався. Замість того, щоб бути основним кодувальником перед моделлю, він використовується як паралельний інформаційний канал - другий інформаційний конвеєр, який подає режими глобального ринку на вже навчену модель на декількох часових рівнях. Зв'язок здійснюється через шар перехресної уваги: основна модель запитує у спектрального відбитка інформацію, якої їй бракує, та інтегрує відповідь у свої внутрішні уявлення. Таке розширення в середині навчання зазвичай є ризикованим. Додаткова гілка різко змінює градієнтний ландшафт. У найгіршому випадку це дестабілізує те, що створювалося тижнями. Саме тут в гру вступає другий, майже більш важливий компонент експерименту: ворота нульового входу. Діаграма 02 - Поведінка воріт на плато
Математично воріт є єдиною скалярною величиною - ми називаємо її α. Вона ініціалізується значенням, рівним нулю, і примножує внесок нового спектрального каналу, перш ніж він повертається назад в основну модель:
Ця конструкція є теоретичним ядром. Другий доданок у правій частині від самого початку дорівнює нулю - не малому, не мізерному, але аналітично нулю. Основна модель не бачить ніяких змін, продовжує працювати на попередньому ландшафті втрат, зберігає всі ваги стабільними. Єдине, що змінюється, це те, що з'являється параметр α з певним градієнтом. Якщо шлях зворотного розповсюдження визначає, що збільшення α зменшить втрати, тоді - і тільки тоді - ворота відкриються. На плато, де всі інші градієнти зникають, градієнт, пов'язаний з α, як правило, є єдиним, який все ще несе чіткий сигнал. Оптимізатор не має іншого способу зменшити втрати - тому він починає мінімально збільшувати α. Після цього спектральний канал починає подавати інформацію в основну модель. Ландшафт втрат, який щойно був плоским, набуває нового напрямку. Плато розривається.
Ця конструкція є математично елегантною, але дві властивості роблять її особливо цінною для дослідницьких застосувань. По-перше, це розширення з нульовим ризиком: поки модель прогресує без сторонньої допомоги, розширення є неефективним. Немає ніякого компромісу щодо стабільності, ніякого порушення поточної оптимізації, ніякого нового налаштування розкладу навчання. По-друге, воно бореться не з симптомом плато, а з причиною. Традиційні методи, такі як ReduceLROnPlateau, сповільнюють рух, коли він перестає працювати - точніше кажучи, вони роблять неправильну річ. Натомість "руйнівник плато" додає до моделі принципово нову інформацію: глобальні ринкові режими на різних часових рівнях, які не були математично присутні в локальних вхідних даних. У ширшому дослідницькому каноні цей механізм пов'язаний з такими методами, як ReZero та LayerScale - обидва працюють із залишковими траєкторіями, внесок яких контролюється коефіцієнтом масштабування, який починається з нуля. Що відрізняє Plateau-Breaker, так це його функція: залишкове розширення додає не глибину до сіті, а певний клас інформації - режими спектральної системи, які кодер виокремлює в явному вигляді. Це вже не ємність моделі, а інша основа представлення. 07 - Кульмінація - Три властивості, які працюють разомСпектральні методи в аналізі часових рядів не є чимось новим. Що робить варіант Купмана-Лейбніца якісно новим у цій комбінації - кодер плюс нульовий вхід плюс перехресна увага - це три властивості, які підсилюють одна одну. Він є рівнево-інваріантним. Завдяки локальній нормалізації на вікно, енкодер бачить рухи, а не рівні. Модель, яка працює з цим механізмом, може працювати на будь-якій системі ринкової динаміки без абсолютних діапазонів значень, які коли-небудь грали роль. Вона є нелінійною без необхідності вигадувати нелінійні характеристики. Ядро RBF неявно вбудовує дані в нескінченновимірний простір, в якому складні нелінійні зв'язки стають лінійними структурами. Ніхто не повинен здогадуватися, які показники можуть знадобитися системі - геометрія даних сама генерує нелінійні зв'язки. Їх можна інтерпретувати спектрально. На виході ми отримуємо не таємничі латентні змінні, а значення зростання і частоти з чітким динамічним змістом. Якщо ви хочете дізнатися, чому модель прийняла певне рішення в певній ситуації, ви можете подивитися на спектральний відбиток і буквально зчитати динамічний стан, в якому перебувала система в той момент.
Немає ніякої семантичної різниці. Надання моделі необроблених часових рядів змушує її виконувати переклад в динаміку самостійно - з повною потужністю її вагових матриць і повними зусиллями навчання. Надання моделі динаміки заздалегідь несподівано вивільняє потенціал, який модель може використати для прийняття реальних рішень. Це той самий механізм, що стоїть за допоміжними цілями спеціалізованого навчання - невеликими побічними виходами, які змушують мережу явно реконструювати відповідні величини в ранніх шарах - лише на один рівень глибше. Такі допоміжні цілі змушують кістяк розуміти світ, перш ніж приймати рішення. Кодер Купмана-Лейбніца змушує вхідні дані розкривати свою динаміку ще до того, як вони потрапляють до моделі. У плато-руйнівнику це стає третьою властивістю: моделі дозволяється продовжувати навчання саме тоді, коли воно фактично зупинилося. 08 - Outlook - що буде даліМатематичні інструменти - все з класичного репертуару: Бернард Купман 1931 року, Флоріс Такенс 1981 року, ядро RBF зі стандартного статистичного інструментарію, методи залишкового навчання з недавніх досліджень у галузі глибокого навчання. Що змінилося, так це апаратне забезпечення. Кілька десятиліть тому розкладання за власними значеннями вимагало серйозних обчислювальних зусиль. Сьогодні це робиться за допомогою прямого проходу PyTorch на графічному процесорі за мікросекунди - і, перш за все, диференційовано, тобто може бути вбудовано в будь-який конвеєр навчання на основі градієнта. Це змінює те, що вважається функціональною інженерією. Замість того, щоб вибирати індикатори вручну або надавати мережі можливість придумувати власні репрезентації, можна побудувати цілий клас кодерів, які записують математичні структури - спектральні розклади, топології, диференціальні оператори - безпосередньо в потік даних. Кодер Купмана-Лейбніца є прикладом цього. У поєднанні з нульовим початком він стає тим, чого досі не вистачало в сучасній практиці ML: інструментом, який бореться не з симптомом стагнації навчання, а з його математичною причиною. Таким чином, з'являється лінія розмежування, яка виходить за рамки конкретного застосування. Домінуючі сьогодні архітектури ШІ - від великих мовних моделей від таких компаній, як OpenAI, Anthropic чи Google DeepMind, до новітніх генеративних трансформаторів - за своєю суттю є антропоцентричними (від грец. ánthropos- "людина"): Вони моделюють людську мову, людське сприйняття, людське прийняття рішень і застигають у вивченому, дискретному просторі параметрів, геометрію якого вони ніколи не залишають після навчання. Оператори Купмана-Лейбніца, з іншого боку, працюють у неперервному спектральному просторі інваріантних системних законів. Це відкриває окрему сферу досліджень за межами класу моделей, орієнтованих на людину: генеративні адаптивні трансформатори, які отримують своє представлення не з людських даних, а з динаміки самої системи, що спостерігається. Поточне тестування показує, що кодер проривається через плато не за рахунок додавання потужності, а за рахунок більш точної фільтрації динаміки системи. Він діє як селективний тригер - залишається неактивним у фазах, коли модель сходиться самостійно, і втручається лише тоді, коли виникає загроза градієнтної стагнації. Таким чином, система набуває стабільності без шкоди для існуючого, вивченого словника ознак.
Подивіться далі:
Відповідні статті
Залишити коментар тут...
|
|