|
人工智能
库普曼-莱布尼兹:突破高原的数学任何开发现代人工智能模型的人都对这一时刻深有体会:起初,一切都进展得很顺利,曲线陡然向上--然后突然间,一切都不听使唤了。系统停滞不前。 通常的 IT 技巧,如增加服务器功率或延长运行时间,通常只能将问题推迟几天。现在,一种新的研究方法--所谓的Koopman-Leibniz 编码器--打破了这一僵局:不是通过强大的计算能力,而是通过全新的、巧妙的系统数据结构。
01 - 训练高原 - 梯度消失时定量金融数据是高度相关的数据,信噪比极低。从观测窗口中提取的主要挑战不是原始值的顺序序列,而是隐藏的系统动态--瞬时脉冲、周期性逆转和能量状态变化。由于这些结构会在随机噪声中丢失,因此标准架构仅在表征形成方面就会消耗掉不成比例的大量能力。 如果模型达到高原,损失梯度(∇ℒ)就会崩溃。在这一平坦参数区域,优化器失去了方向稳定性,因为梯度分量趋于零。此时,网络只学习到了琐碎的、占主导地位的方差成分。市场中更深层次的预测结构仍未被触及,因为当前网络的数学词汇不足以将它们从噪声中清晰地分离出来。 自适应优化方法(如 AdamW)并不能提供系统性的补救措施:虽然它们能纠正缩放,但无法从平均预期值为零的向量场中提取方向。即使是传统的降低学习率(ReduceLROnPlateau)也无法打破这种停滞状态。它只是巩固了这一停滞。网络仍停留在平坦区域,并开始记忆训练数据中的高频噪声结构--这是过拟合的直接途径,而过拟合会导致验证指标随着时间的延迟而下降。
02 - 基础 - 库普曼:当运动变成线性代数美国数学家伯纳德-库普曼(Bernard Koopman)发表了一篇当时几乎无人问津的论文1931,而在过去十年中,这篇论文已被编入所有有关数据驱动动力学的教科书中。初看之下,他的想法自相矛盾:如果一个系统以复杂的非线性方式运动,它仍然可以被线性描述--如果你准备转换到一个无限维空间,在这个空间中,发展的不是状态本身,而是状态上的函数。 这听起来像是一种糟糕的权衡--用有限维的非线性问题换取无限维的线性问题。实际上,这是一种极好的交换,因为线性算子具有非线性函数通常没有的东西:频谱。特征值和特征向量。清晰、可分解的构件。任何了解一个系统的库普曼算子的人都知道它的特征模态--基本振荡模式,每个实际运动都是由这些基本振荡模式组成的,就像每个声音都可以由纯正弦音组成一样。 没有人能准确计算出市场动态系统的库普曼算子。但从数据中学习有限维近似值是可能的,这种方法被称为动态模式分解,简称 DMD。在编码器使用的基于内核的变体中,可以从观测窗口自动获得一个小矩阵,其特征值可以精确回答两个问题:该动态振荡的速度有多快,以及它是获得能量还是失去能量。 图 01 - 复特征值的含义
该图是理解编码器所需的核心可视化图。一个观察窗映射到这个复平面上的十个点。每个点都是系统当前包含的独立运动类型。实部告诉你这个运动是在加速还是在减速;虚部告诉你它的摆动速度有多快。通过这十个点就可以重建整个窗口,而不需要通过几百个原始数据进行分流。 03 - 频谱还原--分离系统基元库普曼空间建模的结构性挑战在于它在数值上的不稳定性:它的结构是无限维的。对这一维度的数学掌握与戈特弗里德-威廉-莱布尼兹的《普遍特性论》(Characteristica Universalis)和他的《组合论》(Ars Combinatoria)直接相似。通过《Alphabetum cogitationum humanarum》,莱布尼茨提出了一个普遍系统,将复杂、连续的动态追溯到一组有限的、正交的、不可分割的基本概念--原始概念(notionses primitivae)。在这里,复杂性并不是被理解为混乱的连续体,而是离散的原始构件的线性组合。 从算法上讲,这种理性还原构成了在希尔伯特空间ℋ 内进行秩截断的基础,而 RBF 内核隐含地跨越了这个空间。虽然相似性矩阵 K₀ 编码了观测窗口的完整噪声轨迹,但随后的对称特征值分解隔离了k 个主要特征模式。这就是形式上的原始隔离--投影到低维的Koopman 不变子空间:
这种截断是编码器的主要正则化机制。在未过滤频谱上运行的神经网络不可避免地会记住训练样本的高频随机奇异点。通过将信号压缩到k 个主要基元,该架构实现了数学抽象:下游层提取的不是特定窗口中短暂的噪声结构,而是系统动态的不变发生器。 04 - 机器--从原始信号到频谱指纹编码器的内部工作可以理解为六个连续的步骤,每个步骤解决一个特定的问题。我们将以数学的方式来介绍这些核心步骤--不是代码演练,而是在每种情况下回答一个问题的论证。 第一步建立可比性。接下来的内核会立即处理指数函数中的距离。如果输入值在数值上很大,指数函数就会坍缩为零,整个管道只产生零。因此,每个窗口都要进行局部标准化。
第二步是将历史转化为状态。单一的观察结果几乎说明不了什么。动态是连续状态之间的关系。窗口分为两个延时版本--第一个窗口包含倒数第二步之前的观测数据,第二个窗口包含从第二步到最后一步的观测数据。过渡规则将从这两个版本的比较中得出。这就是古老的塔肯斯思想:进展即状态。 第三步是真正的数学技巧:相似性即几何。编码器不需要手动发明指标,而是让数据的几何形状自己说话。对于窗口中的每个时间点,编码器都会测量它与所有其他时间点的相似度。衡量相似度的指标就是RBF 核:
这样,窗口就变成了一个相似性矩阵,其中每个条目都是两个时间点之间的相似性值。这不再是一个时间序列,而是一个地形图。哪些阶段相似,哪些不相似,在窗口中的分布情况如何。第二个相似性矩阵将每个时间点与其后续时间点进行比较,并为过渡规则提供信息。 第四步是找到字母表:对第一个相似性矩阵进行特征值分解。最大的特征值显示了地形的主要模式。只保留前 k 个模式,即窗口的莱布尼兹基元。 第五步是构建过渡规则。在主要模式的空间中,建立一个小矩阵,准确描述窗口如何从一个时间步演变到下一个时间步:
第六步,也是最后一步,读出本质。对这个小矩阵进行第二次特征值分解,这一次允许使用复数值。每个模式都成为一个复特征值。它的实部是增长率,虚部是频率。这样,一个包含数百个原始值的窗口就变成了 2 × k 值,即十种模式的二十个数字,它们共同承载着窗口的整个动态变化。 05 - 实现 - 执行数学运算的核心实现过程的难点不在于它的长度,而在于它的简洁。在理论上听起来像一场专业讲座的内容,在 PyTorch 中却只需几行精确的代码--无需编写任何循环。整个频谱装置包含在两个用于特征值分解的内置例程中。这使得编码器不仅可读,而且完全可微分。它可以作为一个层内置到任何神经网络中,并通过反向传播进行训练。
因此,编码器不是一个上游数据工具,而是架构的一个组成部分。编码器生成的是观测窗口的光谱指纹:二十个值概括了主要市场模式的增长、衰减和频率。这些信息如何进入模型才是真正有趣的部分,也是本文写作的初衷。 06 - 应用--高原断路器在研究小组的研究过程中,大型主模型(一个基于变压器的系统,具有专门的输出分支和多个时间平面)在第 4 阶段反复出现高原现象。损耗在六到八个历时周期内明显下降,然后保持平稳。验证指标略有上升,这是初步适应特定训练的第一个迹象。传统的解药不起作用。降低学习率会加重症状。更多的数据带来了轻微的改善,但这些改善在多次运行的差异中消失了。问题是结构性的:模型已经从局部统计特征中提取了它所能提取的一切。它需要的不是另一次优化,而是新的信息。 这就是库普曼-莱布尼兹编码器发挥作用的地方,但它所扮演的角色并非最初设计的初衷。它不再是模型前的主要编码器,而是作为一个并行的信息通道--第二个数据管道,将全球市场模式输入到已经训练好的模型中的多个时间层次。这种连接是通过交叉关注层实现的:主模型向频谱指纹询问它所缺少的信息,并将答案整合到其内部表征中。 在训练过程中进行这种扩展通常是有风险的。额外的分支会突然改变梯度景观。在最坏的情况下,它会破坏几周来建立起来的成果。这正是本实验的第二个、几乎更为重要的组成部分--零入门--发挥作用的地方。 图 02 - 门在高原上的行为
闸门在数学上是一个标量,我们称之为α。它的初始值恰好为零,在流回主模型之前会乘以新光谱通道的贡献值:
这个结构就是理论核心。右侧的第二个项在开始时正好为零--不是很小,也不是可以忽略,而是分析上的零。主模型没有任何变化,继续按照以前的损失情况运行,所有权重保持稳定。唯一的变化是现在有了一个梯度确定的参数α。如果反向传播路径认为增加α会减少损失,那么--也只有这样--闸门才会打开。 在所有其他梯度都消失的高原上,与α相关的梯度通常是唯一一个仍带有明确信号的梯度。优化器没有其他方法来减少损耗,因此它开始将α提升到最低限度。然后,频谱信道开始向主模型提供信息。原本平缓的损耗情况出现了新的变化。高原打破了。
这种结构在数学上非常优雅,但有两个特性使其在研究应用中尤为重要。首先,它是一种零风险扩展:只要模型在没有帮助的情况下前进,扩展就是无效的。不存在稳定性权衡,不中断正在进行的优化,也不对训练计划进行新的调整。其次,它不是针对高原的症状,而是针对其原因。当运动停止时,ReduceLROnPlateau 等传统方法会减慢运动速度--更准确地说,它们做错了事。高原断路器反而从根本上为模型增加了新的信息:跨越多个时间层次的全球市场模式,而这些模式在数学上并不存在于本地输入特征中。 在更广泛的研究领域中,这种机制与ReZero和LayerScale等方法相关--这两种方法都使用残差路径,而残差路径的贡献由一个可学习的缩放因子控制,该因子从零开始。高原破坏者的与众不同之处在于它的功能:残差扩展并没有增加网格的深度,而是增加了一类特定的信息--编码器明确提取的频谱系统模式。它不再是模型容量,而是一种不同的表示基础。 07 - 点睛之笔--共同作用的三个特性时间序列分析中的频谱方法并不新鲜。库普曼-莱布尼兹变体之所以能在编码器、零初始栅极和交叉注意这三种组合中脱颖而出,是因为它具有三种相互促进的特性。 它是水平不变的。由于每个窗口的局部归一化,编码器看到的是运动,而不是水平。使用这种机制的模型可以在任何市场动态系统中运行,而绝对值范围永远不会发挥作用。 它是非线性的,无需发明非线性特征。RBF 内核将数据隐含在一个无限维空间中,在这个空间中,复杂的非线性关系变成了线性结构。没有人需要猜测系统可能需要哪些指标,数据的几何形状本身就会产生非线性关系。 它可以用光谱来解释。输出的不是神秘的潜在变量,而是具有明确动态含义的增长值和频率值。如果你想知道一个模型为什么会在某种情况下做出某种决定,你可以查看频谱指纹,并从字面上读出系统当时所处的动态状态。
没有语义上的区别。给模型提供原始的时间序列,会迫使它自己将其转换为动力学--利用其权重矩阵的全部容量和训练的全部努力。而提前给模型提供动态数据,则会突然释放出模型可以用于实际决策的能力。 这与专门训练辅助目标背后的机制如出一辙,这些辅助目标是迫使网络在早期层中明确重构相关数量的小型侧输出,只不过是更深一层而已。这些辅助目标迫使骨干网络在做出决策前了解世界。库普曼-莱布尼兹编码器迫使输入数据在进入模型之前就显示出其动态性。在 "高原破坏者 "设置中,这成为第三个特性:当模型实际上已经停止学习时,它还能继续学习。 08 - 展望 -下一步数学工具全部来自经典曲目--伯纳德-库普曼(Bernard Koopman 1931 年)、弗洛里斯-塔肯斯(Floris Takens 1981 年)、标准统计工具箱中的 RBF 内核、最新深度学习研究中的残差学习技术。发生变化的是硬件。几十年前,特征值分解是一项严肃的数值工作。如今,它可以在 GPU 上通过 PyTorch 前向传递以微秒级的速度完成,而且最重要的是,它是可微分的,即可以嵌入到任何基于梯度的训练管道中。 这改变了特征工程的概念。我们可以构建一整套编码器,将数学结构--频谱分解、拓扑结构、微分算子--直接写入数据流中,而不是手工选择指标或让网络自行表征。Koopman-Leibniz 编码器就是这样一个例子。它与零入门相结合,成为迄今为止常见的 ML 实践中所缺少的东西:一种不是针对训练停滞的症状,而是针对其数学原因的工具。 因此,一条超越具体应用的分界线正在出现。从OpenAI、Anthropic 或谷歌 DeepMind等公司的大型语言模型到最新的生成式转换器,当今主流的人工智能架构在设计上基本上都是以人类为中心的(源自希腊语ánthropos ,"人类"):它们模拟人类的语言、人类的感知和人类的决策,而且它们被冻结在一个学习过的、离散的参数空间中,在训练之后,它们永远不会离开这个几何空间。另一方面,库普曼-莱布尼兹算子则在一个连续的不变量系统规律谱空间中工作。这就在以人为中心的模型类别之外开辟了一个独立的研究领域:生成式自适应变换器,其表征不是来自人类数据,而是来自所观察系统本身的动态。 目前的测试表明,编码器不是通过增加容量来突破高原,而是通过更精确地过滤系统动态。它起到了选择性触发器的作用--在模型独立收敛的阶段,它保持不活动,只有在梯度停滞受到威胁时才进行干预。因此,系统在获得稳定性的同时,不会影响现有的、已学习的特征词汇。
进一步了解:
在此发表评论...
|
|