Inteligencia artificial

koopman-Leibniz: las matemáticas que rompen la meseta

Cualquiera que desarrolle modelos modernos de inteligencia artificial conoce este momento: al principio todo va perfectamente, la curva apunta hacia arriba y, de repente, nada funciona. El sistema se estanca.

Los trucos informáticos habituales, como más potencia de servidor o tiempos de ejecución más largos, suelen aplazar el problema sólo unos días. Un nuevo enfoque de la investigación -el llamado codificador Koopman-Leibniz- rompe ahora este bloqueo: no mediante potencia bruta de cálculo, sino mediante una estructuración completamente nueva e inteligente de los datos del sistema.

01 - La meseta de entrenamiento - Cuando desaparece el gradiente

Los datos financieros cuantitativos son datos muy correlacionados con una relación señal-ruido extremadamente baja. El principal reto consiste en extraer de una ventana de observación no la secuencia secuencial de valores brutos, sino la dinámica oculta del sistema: impulsos transitorios, inversiones cíclicas y cambios de estado enérgicos. Como estas estructuras se pierden en el ruido estocástico, una arquitectura estándar consume una parte desproporcionadamente grande de su capacidad sólo para la formación de representaciones.

Si el modelo alcanza una meseta, el gradiente de pérdida (∇ℒ) se colapsa. El optimizador pierde su estabilidad direccional en esta región plana de parámetros porque los componentes del gradiente convergen a cero. En este punto, la red sólo ha aprendido los componentes de varianza triviales y dominantes. Las estructuras predictivas más profundas del mercado siguen sin alcanzarse, ya que el vocabulario matemático actual de la red no es suficiente para aislarlas limpiamente del ruido.

Los métodos de optimización adaptativa como AdamW no ofrecen aquí un remedio sistémico: aunque corrigen el escalado, no pueden extraer una dirección de un campo vectorial cuyo valor esperado es cero por término medio. Incluso la reducción convencional de la tasa de aprendizaje(ReduceLROnPlateau) no rompe este estancamiento. Se limita a consolidarlo. La red permanece en la zona plana y comienza a memorizar las estructuras de ruido de alta frecuencia de los datos de entrenamiento, el camino directo hacia el sobreajuste, que hace que la métrica de validación se degrade con un retraso de tiempo.

La meseta no es el final del aprendizaje. Es el final del vocabulario actual.
- Diagnóstico del problema de estancamiento

02 - El fundamento - Koopman: cuando el movimiento se convierte en álgebra lineal

El matemático estadounidense Bernard Koopman publicó un artículo 1931 que casi nadie necesitaba en su momento y que se ha colado en todos los libros de texto sobre dinámica basada en datos de los últimos diez años. A primera vista, su idea es paradójica: si un sistema se mueve de forma no lineal complicada, aún puede describirse linealmente, si se está dispuesto a cambiar a un espacio de dimensiones infinitas en el que no son los propios estados los que se desarrollan, sino las funciones sobre los estados.

Parece un mal intercambio: un problema no lineal de dimensión finita por uno lineal de dimensión infinita. En realidad, es un intercambio excelente, porque los operadores lineales tienen algo que las funciones no lineales no suelen tener: un espectro. Valores y vectores propios. Bloques de construcción claros y descomponibles. Cualquiera que conozca el operador de Koopman de un sistema conoce sus modos propios, los patrones de oscilación fundamentales de los que se compone todo movimiento real, del mismo modo que todo sonido puede componerse de tonos sinusoidales puros.

Nadie puede calcular el operador de Koopman exacto de un sistema de dinámica de mercado. Pero es posible aprender una aproximación finita a partir de los datos: el método se denomina descomposición dinámica de modos o DMD, por sus siglas en inglés. En su variante basada en núcleos, como la utilizada por el codificador, se obtiene automáticamente una pequeña matriz a partir de una ventana de observación cuyos valores propios responden con precisión a dos preguntas: a qué velocidad oscila esta dinámica y si gana o pierde energía.

Diagrama 01 - Qué significa un valor propio complejo
Cada punto del plano complejo es un modo completo de movimiento: frecuencia y crecimiento en un solo número

Komplexe Eigenwert-Ebene: Energie-aufbauende Moden (Realteil > 0) und Energie-abbauende Moden (Realteil < 0), mit Stabilitätsgrenze

  • Modos de acumulación de energía (parte real > 0) - naranja
  • Modos que consumen energía (parte real < 0) - oscuro
  • Límite de estabilidad - círculo discontinuo

Este mapa es la visualización central necesaria para comprender el codificador. Una ventana de observación se representa en diez puntos de este plano complejo. Cada punto es un tipo de movimiento independiente que contiene actualmente el sistema. La parte real le indica si este movimiento está adquiriendo velocidad o se está quedando sin ella; la parte imaginaria le indica la velocidad a la que oscila. A partir de estos diez puntos se puede reconstruir toda la ventana, sin desviarse a través de varios centenares de números brutos.

03 - Reducción espectral: aislar las primitivas del sistema

El reto estructural de la modelización del espacio de Koopman reside en su complejidad numérica: es infinito por construcción. El dominio matemático de esta dimensionalidad establece un paralelismo directo con la Characteristica Universalis de Gottfried Wilhelm Leibniz y su Ars Combinatoria. Con el Alphabetum cogitationum humanarum, Leibniz postuló un sistema universal que remonta la dinámica compleja y continua a un conjunto finito de conceptos básicos ortogonales e indivisibles: las notiones primitivae. La complejidad no se entiende aquí como un continuo caótico, sino como una combinación lineal de bloques de construcción discretos y primitivos.

Algorítmicamente, esta reducción racional constituye la base del truncamiento de rangos dentro del espacio de Hilbert ℋ, que el núcleo RBF abarca implícitamente. Mientras que la matriz de similitud K₀ codifica la trayectoria completa y ruidosa de la ventana de observación, la posterior descomposición simétrica de valores propios aísla los k modos propios dominantes. Este es el acto formal del aislamiento primitivo: una proyección en el subespacio invariante de Koopman de baja dimensión:

Proyección espectral - reducción del rango de Leibniz

ℋ  ⟶  ?ₖ

representa el espacio de Hilbert infinito-dimensional como el portador formal de toda la dinámica potencial. define el subespacio k-dimensional abarcado por los modos propios dominantes; en la configuración estándar, k = 10. Todos los componentes espectrales más allá de este límite se descartan analíticamente como ruido transitorio.

Este truncamiento es el principal mecanismo de regularización del codificador. Una red neuronal que trabaja con el espectro sin filtrar memoriza inevitablemente las singularidades estocásticas de alta frecuencia de la muestra de entrenamiento. Al comprimir la señal en las k primitivas dominantes, la arquitectura impone una abstracción matemática: las capas posteriores no extraen las estructuras de ruido efímero de una ventana específica, sino los generadores invariantes de la dinámica del sistema.

04 - La máquina - De señal bruta a huella espectral

Lo que hace internamente el codificador puede leerse como seis pasos sucesivos, cada uno de los cuales resuelve un problema específico. Recorremos los pasos centrales matemáticamente, no como un paseo por el código, sino como una argumentación que responde a una pregunta en cada caso.

El primer paso establece la comparabilidad. El núcleo que sigue inmediatamente trabaja con distancias en una función exponencial. Si los valores de entrada son numéricamente grandes, la función exponencial colapsa a cero y todo el proceso sólo produce ceros. Por tanto, cada ventana se normaliza localmente.

Normalización local

x̂ = (x − μ) / (σ + ε)

Cada valor se reduce por el valor medio de la ventana μ y se divide por la desviación típica de la ventana σ. El pequeño sumando ε evita la división por cero para las fases tranquilas. Esto hace que el codificador sea invariable en cuanto al nivel: un movimiento del uno por ciento le parece igual, independientemente del nivel absoluto en el que se produzca. El modelo aprende dinámica, no valores absolutos.

El segundo paso convierte la historia en un estado. Una sola observación no dice casi nada. La dinámica es la relación entre estados sucesivos. La ventana se divide en dos versiones retardadas: la primera contiene las observaciones hasta el penúltimo paso, la segunda las observaciones desde el segundo paso hasta el final. La regla de transición se derivará posteriormente de la comparación de estas dos versiones. Es la vieja idea de Takens: la progresión es el estado.

El tercer paso es el verdadero truco matemático: la similitud como geometría. En lugar de inventar indicadores manualmente, el codificador deja que la geometría de los datos hable por sí misma. Para cada punto temporal de la ventana, mide su similitud con todos los demás puntos temporales. La medida de similitud es el kernel RBF:

Núcleo RBF - la medida de similitud

k(x, y) = exp(−γ · ‖x − y‖²)

La expresión ‖x - y‖² es el cuadrado de la distancia euclidiana entre dos estados, es decir, la distancia que los separa en el espacio. La función exponencial lo comprime a un valor entre 0 y 1: los estados idénticos dan exactamente 1, los estados distantes dan prácticamente 0. El parámetro γ controla la rapidez con la que disminuye la similitud al aumentar la distancia: es, por así decirlo, la nitidez con la que el sistema separa lo "similar" de lo "diferente".

La ventana se convierte así en una matriz de similitud en la que cada entrada es un valor de similitud entre dos puntos en el tiempo. Ya no se trata de una serie temporal, sino de una topografía. Qué fases son similares, cuáles no, y cómo se distribuye esto a lo largo de la ventana. Una segunda matriz de similitud compara cada punto temporal con su sucesor y llevará la información para la regla de transición.

El cuarto paso busca el alfabeto: Se aplica una descomposición de valores propios a la primera matriz de similitud. Los mayores valores propios muestran los patrones dominantes de la topografía. Sólo quedan los modos top-k, las primitivas de Leibniz de la ventana.

El quinto paso construye la regla de transición. En el espacio de los modos dominantes, se construye una pequeña matriz que describe exactamente cómo evoluciona la ventana de un paso temporal al siguiente:

Matriz de Koopman reducida en el espacio de los modos

à = Σ⁻¹ · Vᵀ · K₁ · V · Σ⁻¹

V contiene los k vectores propios superiores de la primera matriz de similitud: el alfabeto. K₁ es la matriz de similitud desplazada en el tiempo que codifica la transición de un paso temporal al siguiente. Σ-¹ normaliza las longitudes de los vectores propios para que la matriz resultante no esté distorsionada por diferencias de escala. Lo que queda es un operador lineal en un espacio generado no linealmente: la idea original de Koopman, aquí en forma reducida.

El sexto y último paso lee la esencia. A esta pequeña matriz se le aplica una segunda descomposición de valores propios, esta vez con valores complejos. Cada modo se convierte en un valor propio complejo. Su parte real es la tasa de crecimiento, su parte imaginaria es la frecuencia. De este modo, una ventana de varios centenares de valores brutos se convierte en 2 × k valores, es decir, veinte números para diez modos, que en conjunto transmiten toda la dinámica de la ventana.

05 - La aplicación - El núcleo matemático

Lo más destacable de la aplicación no es su longitud, sino su brevedad. Lo que en teoría parece una conferencia especializada, en PyTorch sólo son unas pocas líneas precisas, sin tener que escribir ni un solo bucle. Todo el aparato espectral vive en dos rutinas incorporadas para descomposiciones de valores propios. Esto hace que el codificador no sólo sea legible, sino totalmente diferenciable. Puede integrarse en cualquier red neuronal como una capa y entrenarse por retropropagación.

# proprietary — interne Implementierung gekürzt
class KoopmanLeibnizEncoder(nn.Module):
    def __init__(self, rank=10, gamma=0.1):
        super().__init__()
        self.rank  = rank     # Anzahl beibehaltener Leibniz-Primitive
        self.gamma = gamma    # Breite des RBF-Kernels

    def forward(self, x):
        # Lokale Standardisierung pro Fenster — gegen Kernel-Kollaps
        x = (x - x.mean(dim=1, keepdim=True)) / (x.std(dim=1, keepdim=True) + 1e-6)

        # [...] Takens-Einbettung, RBF-Kernel, Spektrum, reduzierte Koopman-Matrix
        # [...] interne Pipeline — Details proprietär
        A_tilde = _internal_spectral_pipeline(x, self.rank, self.gamma)

        # Komplexe Eigenwerte → Wachstum (Re) + Frequenz (|Im|)
        koop_vals, _ = torch.linalg.eig(A_tilde)
        return torch.cat([koop_vals.real, torch.abs(koop_vals.imag)], dim=-1)
                              PYTHON
                            

Por tanto, el codificador no es una herramienta de datos previa, sino un componente integral de la arquitectura. Lo que produce es una huella espectral de la ventana de observación: veinte valores que resumen el crecimiento, la atenuación y la frecuencia de los modos dominantes del mercado. La forma en que esta información se integra en el modelo es lo realmente interesante, y la razón de ser de este artículo.

06 - La aplicación: el rompedor de meseta

Durante la investigación del equipo, el modelo principal de gran tamaño, un sistema basado en transformadores con ramas de salida especializadas y múltiples planos temporales, se estancó repetidamente en la fase 4. La pérdida se redujo limpiamente de seis a siete veces. La pérdida cayó limpiamente durante seis a ocho épocas, y luego permaneció plana. Las métricas de validación aumentaron ligeramente, el primer indicio de una incipiente adaptación a las especificidades del entrenamiento. Los antídotos tradicionales no funcionaron. La reducción de la tasa de aprendizaje exacerbó los síntomas. Más datos proporcionaron ligeras mejoras que se perdieron en la varianza de múltiples ejecuciones. El problema era estructural: el modelo había extraído todo lo que podía de las características estadísticas locales. Lo que necesitaba no era otra optimización, sino nueva información.

Aquí es donde entra en juego el codificador Koopman-Leibniz, pero en un papel para el que no estaba pensado originalmente. En lugar de ser el codificador primario frente al modelo, se utiliza como un canal de información paralelo: una segunda canalización de datos que introduce los modos de mercado globales en el modelo ya entrenado a lo largo de varios niveles temporales. La conexión se realiza a través de una capa de atención cruzada: el modelo principal pide a la huella espectral información que le falta e integra la respuesta en sus representaciones internas.

Una ampliación de este tipo en mitad del entrenamiento suele ser arriesgada. Una rama adicional cambia bruscamente el paisaje del gradiente. En el peor de los casos, desestabiliza lo que se ha ido construyendo durante semanas. Aquí es exactamente donde entra en juego el segundo componente, casi más importante, del experimento: la puerta cero-init.

Diagrama 02 - Comportamiento de la puerta en la meseta
Cómo una puerta iniciada en cero se abre exactamente cuando desaparece el gradiente de pérdidas

Trainings-Loss-Kurve flacht in der Plateau-Zone ab, während der Gate-Wert α von 0 auf 1 hochläuft und spektrale Anreicherung einsetzt

  • Fase 1 - La línea de base es estable, la puerta permanece cerrada - no se interviene en el aprendizaje existente.
  • Fase 2 - La pérdida se aplana, los gradientes se desploman, la puerta se abre automáticamente y el canal espectral empieza a surtir efecto.

La puerta es matemáticamente una cantidad escalar única, que llamamos α. Se inicializa con un valor exactamente cero y multiplica la contribución del nuevo canal espectral antes de que vuelva al modelo principal:

Intervención residual a través de la puerta

h_neu = h_alt + α · CrossAttn(h_alt, z_spektral)

h_alt es la representación interna anterior del modelo principal. z_spectral es la secuencia de huellas espectrales del codificador Koopman-Leibniz en varios planos temporales. La operación CrossAttn permite al modelo principal acceder específicamente a la información del canal espectral. Mientras α = 0, todo el término adicional es exactamente cero y el modelo se comporta de forma idéntica al anterior.

Esta construcción es el núcleo teórico. El segundo término del lado derecho es exactamente cero al principio, no es pequeño ni despreciable, sino analíticamente cero. El modelo principal no ve ningún cambio, sigue funcionando en su paisaje de pérdidas anterior, mantiene estables todas las ponderaciones. Lo único que cambia es que ahora hay un parámetro α con un gradiente definido. Si la trayectoria de retropropagación determina que un aumento de α reduciría la pérdida, entonces -y sólo entonces- se abrirá la puerta.

En una meseta en la que todos los demás gradientes desaparecen, el gradiente relativo a α suele ser el único que aún transmite una señal clara. El optimizador no tiene otra forma de reducir la pérdida, así que empieza a aumentar α mínimamente. El canal espectral empieza entonces a aportar información al modelo principal. El panorama de pérdidas, que era plano, toma una nueva dirección. La meseta se rompe.

Mientras el modelo converge de forma estable, el canal adicional permanece neutral. Sólo cuando el gradiente se estanca, el canal espectral se convierte en una vía de actualización efectiva.
- Cómo funciona el mecanismo cero-init

Esta construcción es matemáticamente elegante, pero hay dos propiedades que la hacen especialmente valiosa en aplicaciones de investigación. En primer lugar, se trata de una ampliación de riesgo cero: mientras el modelo progrese sin ayuda, la ampliación es ineficaz. No hay compromiso de estabilidad, ni interrupción de la optimización en curso, ni nuevos ajustes de los programas de entrenamiento. En segundo lugar, no combate el síntoma de la meseta, sino la causa. Los métodos tradicionales como ReduceLROnPlateau ralentizan el movimiento cuando deja de funcionar - hacen lo incorrecto con mayor precisión. En cambio, ReduceLROnPlateau añade información fundamentalmente nueva al modelo: modos globales del mercado a través de múltiples niveles temporales que no estaban matemáticamente presentes en las características locales de entrada.

En el canon de investigación más amplio, este mecanismo está relacionado con métodos como ReZero y LayerScale: ambos trabajan con trayectorias residuales cuya contribución está controlada por un factor de escala aprendible que empieza en cero. Lo que distingue al Plateau-Breaker es su función: la extensión residual no añade profundidad a la malla, sino una clase específica de información: modos espectrales del sistema que el codificador extrae explícitamente. Ya no se trata de la capacidad del modelo, sino de una base de representación diferente.

07 - El remate - Tres propiedades que funcionan juntas

Los métodos espectrales en el análisis de series temporales no son nada nuevo. Lo que hace que la variante Koopman-Leibniz sea cualitativamente nueva en esta combinación - codificador más zero-init-gate más atención cruzada - son tres propiedades que se refuerzan mutuamente.

Es invariante de nivel. Debido a la normalización local por ventana, el codificador ve movimientos, no niveles. El modelo que funciona con este mecanismo puede ejecutarse en cualquier sistema de dinámica de mercado sin que los rangos de valores absolutos desempeñen nunca un papel.

Es no lineal sin tener que inventar características no lineales. El núcleo RBF incorpora implícitamente los datos en un espacio de dimensiones infinitas en el que las complicadas relaciones no lineales se convierten en estructuras lineales. Nadie tiene que adivinar qué indicadores puede necesitar el sistema: la propia geometría de los datos genera las relaciones no lineales.

Puede interpretarse espectralmente. Lo que llega a la salida no son variables latentes misteriosas, sino valores de crecimiento y frecuencia con un significado dinámico claro. Si se quiere saber por qué un modelo tomó una determinada decisión en una determinada situación, se puede mirar la huella espectral y leer literalmente el estado dinámico en el que se encontraba el sistema en ese momento.

Los escaladores clásicos normalizan los números. El codificador Koopman-Leibniz normaliza el significado.
- En lenguaje llano

Spektrale Zerlegung: Ein zackiges Rohsignal („Zahlen") läuft durch das Koopman-Leibniz-Prisma und tritt als wenige saubere, benannte Schwingungsmoden wieder aus — Trend, Zyklus und Rauschen. Die Dynamik hinter dem Rauschen wird sichtbar („Bedeutung").

No hay diferencia semántica. Dar a un modelo series temporales sin procesar le obliga a realizar la traducción a dinámica por sí mismo, con toda la capacidad de sus matrices de pesos y todo el esfuerzo del entrenamiento. Darle la dinámica por adelantado libera de repente capacidad que el modelo puede utilizar para tomar decisiones reales.

Es el mismo mecanismo que subyace a los objetivos auxiliares de entrenamiento especializados -pequeñas salidas laterales que obligan a la red a reconstruir explícitamente cantidades relevantes en capas tempranas- sólo que a un nivel más profundo. Tales objetivos auxiliares obligan a la red troncal a comprender el mundo antes de decidir. El codificador Koopman-Leibniz obliga a los datos de entrada a revelar su dinámica antes incluso de llegar al modelo. En la configuración del rompedor de meseta, esto se convierte en una tercera propiedad: se permite al modelo seguir aprendiendo exactamente cuando en realidad se había detenido.

08 - Perspectivas - El futuro

Todas las herramientas matemáticas proceden del repertorio clásico: Bernard Koopman 1931, Floris Takens 1981, el núcleo RBF de la caja de herramientas estadística estándar, las técnicas de aprendizaje residual de la investigación reciente sobre aprendizaje profundo. Lo que ha cambiado es el hardware. Hace unas décadas, la descomposición de valores propios suponía un gran esfuerzo numérico. Hoy en día, se realiza en una pasada previa de PyTorch en la GPU en microsegundos y, sobre todo, es diferenciable, es decir, integrable en cualquier canal de formación basado en gradientes.

Esto cambia lo que se considera ingeniería de características. En lugar de seleccionar los indicadores a mano o dejar que la red elabore sus propias representaciones, se puede construir toda una clase de codificadores que escriben estructuras matemáticas -descomposiciones espectrales, topologías, operadores diferenciales- directamente en el flujo de datos. El codificador Koopman-Leibniz es un ejemplo de ello. Combinado con las puertas zero-init, se convierte en algo que ha faltado hasta ahora en la práctica común del ML: una herramienta que no combate el síntoma del estancamiento de la formación, sino su causa matemática.

Surge así una línea divisoria que va más allá de la aplicación específica. Las arquitecturas de IA dominantes en la actualidad -desde los grandes modelos lingüísticos de empresas como OpenAI, Anthropic o Google DeepMind hasta los últimos transformadores generativos- tienen un diseño esencialmente antropocéntrico (del griego ánthropos, "humano"): Modelan el lenguaje humano, la percepción humana, la toma de decisiones humana, y están congelados en un espacio de parámetros aprendido y discreto cuya geometría nunca abandonan después del entrenamiento. En cambio, los operadores de Koopman-Leibniz trabajan en un espacio espectral continuo de leyes invariantes del sistema. Esto abre un campo de investigación aparte, más allá de la clase de modelos centrados en el ser humano: los transformadores adaptativos generativos que no derivan su representación de los datos humanos, sino de la dinámica del propio sistema observado.

Las pruebas actuales demuestran que el codificador no supera la meseta añadiendo capacidad, sino filtrando la dinámica del sistema con mayor precisión. Actúa como un activador selectivo: permanece inactivo en las fases en las que el modelo converge de forma independiente y sólo interviene cuando amenaza el estancamiento del gradiente. De este modo, el sistema gana estabilidad sin comprometer el vocabulario de características existente y aprendido.

Si la red se estanca en la meseta, ya no le falta la entrada, sino la resolución para extraer limpiamente la señal del ruido.
- Principio de funcionamiento del método Koopman-Leibniz

pruebe aBusiness gratis durante 14 días

¿Le interesa aBusiness? Pruébelo ahora gratis.
Sobre el autor
Director de Tecnología (CTO)
Konstantin Stratigenas es Director de Tecnología (CTO) en Langmeier Software y es el principal responsable del desarrollo de aBusiness Suite. Su objetivo es ayudar a las empresas con soluciones modernas basadas en IA que simplifiquen el trabajo, aceleren los procesos y ahorren tiempo y dinero. Con su pasión por las tecnologías fáciles de usar, persigue la visión de que todo el mundo se beneficie de las ventajas de aBusiness Suite.
 
Busque más: