|
Искусственный интеллект
Коопман-Лейбниц: математика, которая прорывается сквозь платоЛюбому, кто разрабатывает современные модели ИИ, знаком этот момент: сначала все идет отлично, кривая направлена круто вверх - а потом вдруг вообще ничего не работает. Система стагнирует. Обычные IT-ухищрения, такие как увеличение мощности сервера или увеличение времени работы, обычно лишь откладывают проблему на несколько дней. Новый исследовательский подход - так называемый кодировщик Купмана-Лейбница - теперь прорывает эту блокаду: не за счет грубой вычислительной мощности, а за счет совершенно новой, умной структуризации системных данных.
01 - Плато обучения - когда градиент исчезаетКоличественные финансовые данные - это высококоррелированные данные с крайне низким соотношением сигнал/шум. Основная задача - извлечь из окна наблюдения не последовательность необработанных значений, а скрытую динамику системы - переходные импульсы, циклические развороты и энергичные изменения состояния. Поскольку эти структуры теряются в стохастическом шуме, стандартная архитектура расходует непропорционально большую часть своих возможностей только на формирование представлений. Если модель достигает плато, градиент потерь (∇ℒ) разрушается. Оптимизатор теряет свою направленную стабильность в этой плоской области параметров, потому что компоненты градиента сходятся к нулю. В этот момент сеть усвоила только тривиальные, доминирующие компоненты дисперсии. Более глубокие, прогностические структуры рынка остаются недостижимыми, так как текущего математического словаря сети недостаточно, чтобы выделить их из шума. Адаптивные методы оптимизации, такие как AdamW, не дают системного решения: хотя они и корректируют масштабирование, они не могут извлечь направление из векторного поля, ожидаемое значение которого в среднем равно нулю. Даже обычное снижение скорости обучения(ReduceLROnPlateau) не разрушает этот застой. Оно лишь закрепляет его. Сеть остается в плоской зоне и начинает запоминать высокочастотные шумовые структуры обучающих данных - прямой путь к оверфиттингу, который приводит к тому, что метрика валидации ухудшается с задержкой во времени.
02 - Основа - Купман: когда движение становится линейной алгебройАмериканский математик Бернард Купман опубликовал работу 1931, которая в то время почти никому не была нужна, а за последние десять лет попала в каждый учебник по динамике, управляемой данными. На первый взгляд, его идея парадоксальна: если система движется сложным нелинейным образом, ее все равно можно описать линейно - если ты готов перейти в бесконечно-мерное пространство, в котором развиваются не сами состояния, а функции над состояниями. Это звучит как плохой компромисс - конечно-размерная нелинейная задача для бесконечно-размерной линейной. На самом деле это отличный обмен, потому что у линейных операторов есть то, чего обычно нет у нелинейных функций: спектр. Собственные значения и собственные векторы. Четкие, поддающиеся разложению строительные блоки. Любой, кто знает оператор Купмана системы, знает и ее собственные моды - фундаментальные схемы колебаний, из которых складывается каждое реальное движение, так же как каждый звук может быть составлен из чистых синусоидальных тонов. Никто не может вычислить точный оператор Купмана системы рыночной динамики. Но можно выучить конечно-размерное приближение из данных - метод называется Dynamic Mode Decomposition, или сокращенно DMD. В его ядерном варианте, используемом кодером, из окна наблюдения автоматически получается небольшая матрица, собственные значения которой точно отвечают на два вопроса: с какой скоростью колеблется эта динамика и набирает или теряет ли она энергию. Диаграмма 01 - Что означает комплексное собственное значение
Эта карта - центральная визуализация, необходимая для понимания работы кодера. Окно наблюдения отображается на десять точек в этой комплексной плоскости. Каждая точка - это независимый тип движения, который в данный момент содержит система. Реальная часть говорит тебе о том, набирает ли это движение скорость или исчерпывает ее; мнимая часть говорит тебе о том, как быстро оно колеблется. Из этих десяти точек можно реконструировать все окно, не отвлекаясь на несколько сотен необработанных чисел. 03 - Спектральная редукция - выделение системных примитивовСтруктурная сложность моделирования пространства Купмана заключается в его численной громоздкости: оно бесконечно мерно по своей конструкции. Математическое освоение этой размерности проводит прямую параллель с Characteristica Universalis Готфрида Вильгельма Лейбница и его Ars Combinatoria. В "Alphabetum cogitationum humanarum " Лейбниц постулировал универсальную систему, которая прослеживает сложную, непрерывную динамику до конечного набора ортогональных, неделимых базовых понятий - notiones primitivae. Сложность здесь понимается не как хаотический континуум, а как линейная комбинация дискретных, примитивных строительных блоков. Алгоритмически эта рациональная редукция формирует основу для рангового усечения в гильбертовом пространстве ℋ, которое неявно охватывает RBF-ядро. В то время как матрица сходства K₀ кодирует полную, зашумленную траекторию окна наблюдения, последующее симметричное разложение на собственные значения изолирует k доминирующих собственных мод. Это и есть формальный акт примитивной изоляции - проекция на низкоразмерное, инвариантное по Коопману подпространство:
Это усечение работает как основной механизм регуляризации кодера. Нейронная сеть, работающая с нефильтрованным спектром, неизбежно запоминает высокочастотные стохастические сингулярности обучающей выборки. Сжимая сигнал до k доминирующих примитивов, архитектура навязывает математическую абстракцию: последующие слои извлекают не эфемерные шумовые структуры конкретного окна, а инвариантные генераторы динамики системы. 04 - Машина - от сырого сигнала к спектральному отпечатку пальцаТо, что делает кодер внутри, можно представить как шесть последовательных этапов, каждый из которых решает определенную задачу. Мы проходим центральные этапы математически - не как прохождение кода, а как аргументация, которая отвечает на вопрос в каждом случае. На первом этапе устанавливается сопоставимость. Ядро, которое следует сразу за ним, работает с расстояниями в экспоненциальной функции. Если входные значения численно велики, экспоненциальная функция сводится к нулю, и весь конвейер выдает одни нули. Поэтому каждое окно стандартизируется локально.
Второй шаг превращает историю в состояние. Одно наблюдение почти ничего не говорит. Динамика - это взаимосвязь между последовательными состояниями. Окно разбивается на две сдвинутые по времени версии - первая содержит наблюдения до предпоследнего шага, вторая - наблюдения со второго шага и до конца. Правило перехода позже будет выведено из сравнения этих двух версий. Это старая идея Такенса: прогрессия - это состояние. Третий шаг - это собственно математический трюк: сходство как геометрия. Вместо того чтобы вручную придумывать индикаторы, кодер позволяет геометрии данных говорить самой за себя. Для каждой точки времени в окне он измеряет, насколько она похожа на все остальные точки времени. Мерой сходства является RBF-ядро:
Таким образом, окно превращается в матрицу сходства, в которой каждая запись - это значение сходства между двумя точками во времени. Это уже не временной ряд - это топография. Какие фазы похожи, какие нет, и как это распределено по окну. Вторая матрица сходства сравнивает каждую временную точку с ее преемником и будет нести информацию для правила перехода. На четвертом этапе находится алфавит: К первой матрице сходства применяется разложение по собственным значениям. Самые большие собственные значения показывают доминирующие закономерности рельефа. Остаются только топ-к режимы - примитивы Лейбница окна. На пятом шаге строится правило перехода. В пространстве доминирующих мод строится небольшая матрица, которая описывает, как именно окно эволюционирует от одного временного шага к другому:
Шестой и последний шаг вычитывает суть. К этой маленькой матрице применяется второе разложение по собственным значениям - на этот раз такое, которое допускает комплексные значения. Каждая мода становится комплексным собственным значением. Его действительная часть - это скорость роста, а мнимая - частота. Таким образом, окно из нескольких сотен необработанных значений превращается в 2 × k значений - то есть двадцать чисел для десяти мод, которые вместе несут всю динамику окна. 05 - Реализация - ядро, которое делает математикуЧто примечательно в этой реализации, так это не ее длина, а ее краткость. То, что в теории звучит как специализированная лекция, в PyTorch укладывается всего в несколько точных строк - и при этом не нужно писать ни одного цикла. Весь спектральный аппарат живет в двух встроенных подпрограммах для разложения по собственным значениям. Это делает кодер не только читаемым - он становится полностью дифференцируемым. Его можно встроить в любую нейронную сеть в качестве слоя и обучить методом обратного распространения.
Таким образом, кодировщик - это не вспомогательный инструмент для работы с данными, а неотъемлемый компонент архитектуры. То, что он производит, - это спектральный отпечаток окна наблюдения: двадцать значений, суммирующих рост, затухание и частоту доминирующих режимов рынка. То, как эта информация попадает в модель, является действительно интересной частью - и причиной, по которой эта статья была написана в первую очередь. 06 - Применение - разрушитель платоВо время исследований команды большая основная модель - система на основе трансформатора со специализированными выходными ветвями и несколькими временными плоскостями - неоднократно выходила на плато в четвертой стадии. В течение шести-восьми эпох потери чисто падали, а затем оставались неизменными. Показатели валидации немного выросли - первый признак зарождающейся адаптации к особенностям обучения. Традиционные противоядия не сработали. Снижение скорости обучения усугубляло симптомы. Увеличение количества данных давало небольшие улучшения, которые терялись в дисперсии множества прогонов. Проблема была структурной: модель извлекла из локальных статистических особенностей все, что могла. Ей нужна была не очередная оптимизация, а новая информация. Именно здесь в игру вступает кодер Купмана-Лейбница, но в роли, для которой он изначально не предназначался. Вместо того чтобы быть основным кодером перед моделью, он используется как параллельный информационный канал - второй конвейер данных, который подает глобальные режимы рынка в уже обученную модель на нескольких временных уровнях. Связь осуществляется через слой перекрестного внимания: основная модель запрашивает у спектрального отпечатка информацию, которой ей не хватает, и интегрирует ответ в свои внутренние представления. Такое расширение в середине обучения обычно рискованно. Дополнительная ветвь резко меняет ландшафт градиента. В худшем случае она дестабилизирует то, что создавалось неделями. Именно здесь вступает в игру второй, едва ли не более важный компонент эксперимента: ворота нулевого инита. Диаграмма 02 - Поведение врат на плато
С математической точки зрения ворота представляют собой одну скалярную величину - мы называем ее α. Он инициализируется значением, равным ровно нулю, и умножает вклад нового спектрального канала, прежде чем он перетечет обратно в основную модель:
Эта конструкция является теоретическим ядром. Второй член в правой части в самом начале точно равен нулю - не маленький, не пренебрежимо малый, а аналитически нулевой. Основная модель не видит никаких изменений, продолжает работать на прежнем ландшафте потерь, сохраняя все веса стабильными. Единственное, что меняется, - это то, что теперь есть параметр α с определенным градиентом. Если траектория обратного распространения определит, что увеличение α уменьшит потери, тогда - и только тогда - ворота откроются. На плато, где все остальные градиенты исчезают, градиент, связанный с α, обычно является единственным, который все еще несет четкий сигнал. У оптимизатора нет другого способа уменьшить потери - поэтому он начинает минимально увеличивать α. После этого спектральный канал начинает подавать информацию в основную модель. Ландшафт потерь, который был просто плоским, приобретает новое направление. Плато ломается.
Эта конструкция математически элегантна, но два свойства делают ее особенно ценной в исследовательских приложениях. Во-первых, это расширение с нулевым риском: пока модель прогрессирует без посторонней помощи, расширение неэффективно. Не нужно искать компромисс между стабильностью, не нужно нарушать текущую оптимизацию, не нужно настраивать новые графики обучения. Во-вторых, оно борется не с симптомом плато, а с его причиной. Традиционные методы вроде ReduceLROnPlateau замедляют движение, когда оно перестает работать, - точнее, они делают не то, что нужно. Вместо этого плато-брейкер добавляет в модель принципиально новую информацию: глобальные режимы рынка на нескольких временных уровнях, которые математически не присутствовали в локальных входных характеристиках. В более широком исследовательском каноне этот механизм связан с такими методами, как ReZero и LayerScale - оба работают с остаточными путями, вклад которых контролируется обучаемым масштабным коэффициентом, начинающимся с нуля. Что отличает Plateau-Breaker, так это его функция: остаточное расширение добавляет не глубину сетки, а особый класс информации - спектральные режимы системы, которые кодер извлекает в явном виде. Это уже не емкость модели, а другая основа представления. 07 - Развязка - три свойства, которые работают вместеСпектральные методы в анализе временных рядов не представляют собой ничего нового. Что делает вариант Коопмана-Лейбница качественно новым в этой комбинации - кодер плюс нулевые ворота плюс перекрестное внимание - так это три свойства, которые усиливают друг друга. Он инвариантен по уровню. Благодаря локальной нормализации на окно кодер видит движения, а не уровни. Модель, работающая с этим механизмом, может работать в любой системе рыночной динамики, при этом диапазоны абсолютных значений никогда не играют роли. Она нелинейна без необходимости изобретать нелинейные функции. Ядро RBF неявно встраивает данные в бесконечно-мерное пространство, в котором сложные нелинейные отношения становятся линейными структурами. Никому не нужно гадать, какие показатели могут понадобиться системе, - геометрия данных сама генерирует нелинейные отношения. Ее можно интерпретировать спектрально. На выходе получаются не загадочные латентные переменные, а значения роста и частоты с четким динамическим смыслом. Если ты хочешь узнать, почему модель приняла определенное решение в определенной ситуации, ты можешь посмотреть на спектральный отпечаток и буквально считать с него динамическое состояние, в котором находилась система в тот момент.
Никакой смысловой разницы нет. Если дать модели необработанные временные ряды, то она будет вынуждена сама переводить их в динамику - со всей мощностью своих весовых матриц и всеми усилиями по обучению. Если же дать ей динамику заранее, то внезапно высвободится потенциал, который модель сможет использовать для принятия реальных решений. Тот же механизм лежит в основе специализированных вспомогательных целей обучения - небольших побочных выходов, которые заставляют сеть явно реконструировать соответствующие величины в ранних слоях - только на один уровень глубже. Такие вспомогательные цели заставляют магистраль понимать мир, прежде чем принимать решения. Кодировщик Купмана-Лейбница заставляет входные данные раскрывать свою динамику еще до того, как они попадут в модель. В установке "плато-брейкер" это становится третьим свойством: модели разрешается продолжать обучение именно тогда, когда она фактически остановилась. 08 - Перспективы - что будет дальшеВсе математические инструменты взяты из классического репертуара - Бернард Купман 1931 года, Флорис Такенс 1981 года, ядро RBF из стандартного набора статистических инструментов, методы остаточного обучения из недавних исследований в области глубокого обучения. Что изменилось, так это аппаратное обеспечение. Несколько десятилетий назад разложение собственных значений требовало серьезных численных усилий. Сегодня оно выполняется в PyTorch на GPU за микросекунды - и, главное, дифференцируемо, то есть встраивается в любой градиентный обучающий конвейер. Это меняет представление об инженерии признаков. Вместо того чтобы выбирать показатели вручную или предоставлять сети самой придумывать свои представления, можно построить целый класс кодировщиков, которые записывают математические структуры - спектральные разложения, топологии, дифференциальные операторы - прямо в поток данных. Примером такого кодера является кодер Купмана-Лейбница. В сочетании с zero-init гейтами он становится тем, чего до сих пор не хватало в обычной практике ML: инструментом, который борется не с симптомом застоя в обучении, а с его математической причиной. Таким образом, появляется разделительная линия, выходящая за рамки конкретного приложения. Доминирующие на сегодняшний день архитектуры ИИ - от больших языковых моделей таких компаний, как OpenAI, Anthropic или Google DeepMind, до новейших генеративных трансформаторов - по своей сути являются антропоцентричными (от греческого ánthropos, "человек"): Они моделируют человеческий язык, человеческое восприятие, человеческое принятие решений, и они застыли в выученном, дискретном пространстве параметров, геометрию которого они никогда не покидают после обучения. Операторы Купмана-Лейбница, с другой стороны, работают в непрерывном спектральном пространстве инвариантных системных законов. Это открывает отдельную область исследований за пределами класса моделей, ориентированных на человека: генеративные адаптивные преобразователи, которые черпают свое представление не из данных человека, а из динамики самой наблюдаемой системы. Текущее тестирование показывает, что кодер преодолевает плато не за счет добавления мощности, а за счет более точной фильтрации динамики системы. Он действует как селективный триггер - остается неактивным в фазах, в которых модель сходится самостоятельно, и вмешивается только тогда, когда возникает угроза стагнации градиента. Таким образом, система обретает стабильность без ущерба для существующего, выученного словаря признаков.
Смотри дальше:
Статьи, относящиеся к теме
Оставь комментарий здесь...
|
|