|
Inteligencia artificial
koopman-Leibniz: las matemáticas que rompen la mesetaCualquiera que desarrolle modelos modernos de inteligencia artificial conoce este momento: al principio todo va perfectamente, la curva apunta hacia arriba y, de repente, nada funciona. El sistema se estanca. Los trucos informáticos habituales, como más potencia de servidor o tiempos de ejecución más largos, suelen aplazar el problema sólo unos días. Un nuevo enfoque de la investigación -el llamado codificador Koopman-Leibniz- rompe ahora este bloqueo: no mediante potencia bruta de cálculo, sino mediante una estructuración completamente nueva e inteligente de los datos del sistema.
01 - La meseta de entrenamiento - Cuando desaparece el gradienteLos datos financieros cuantitativos son datos muy correlacionados con una relación señal-ruido extremadamente baja. El principal reto consiste en extraer de una ventana de observación no la secuencia secuencial de valores brutos, sino la dinámica oculta del sistema: impulsos transitorios, inversiones cíclicas y cambios de estado enérgicos. Como estas estructuras se pierden en el ruido estocástico, una arquitectura estándar consume una parte desproporcionadamente grande de su capacidad sólo para la formación de representaciones. Si el modelo alcanza una meseta, el gradiente de pérdida (∇ℒ) se colapsa. El optimizador pierde su estabilidad direccional en esta región plana de parámetros porque los componentes del gradiente convergen a cero. En este punto, la red sólo ha aprendido los componentes de varianza triviales y dominantes. Las estructuras predictivas más profundas del mercado siguen sin alcanzarse, ya que el vocabulario matemático actual de la red no es suficiente para aislarlas limpiamente del ruido. Los métodos de optimización adaptativa como AdamW no ofrecen aquí un remedio sistémico: aunque corrigen el escalado, no pueden extraer una dirección de un campo vectorial cuyo valor esperado es cero por término medio. Incluso la reducción convencional de la tasa de aprendizaje(ReduceLROnPlateau) no rompe este estancamiento. Se limita a consolidarlo. La red permanece en la zona plana y comienza a memorizar las estructuras de ruido de alta frecuencia de los datos de entrenamiento, el camino directo hacia el sobreajuste, que hace que la métrica de validación se degrade con un retraso de tiempo.
02 - El fundamento - Koopman: cuando el movimiento se convierte en álgebra linealEl matemático estadounidense Bernard Koopman publicó un artículo 1931 que casi nadie necesitaba en su momento y que se ha colado en todos los libros de texto sobre dinámica basada en datos de los últimos diez años. A primera vista, su idea es paradójica: si un sistema se mueve de forma no lineal complicada, aún puede describirse linealmente, si se está dispuesto a cambiar a un espacio de dimensiones infinitas en el que no son los propios estados los que se desarrollan, sino las funciones sobre los estados. Parece un mal intercambio: un problema no lineal de dimensión finita por uno lineal de dimensión infinita. En realidad, es un intercambio excelente, porque los operadores lineales tienen algo que las funciones no lineales no suelen tener: un espectro. Valores y vectores propios. Bloques de construcción claros y descomponibles. Cualquiera que conozca el operador de Koopman de un sistema conoce sus modos propios, los patrones de oscilación fundamentales de los que se compone todo movimiento real, del mismo modo que todo sonido puede componerse de tonos sinusoidales puros. Nadie puede calcular el operador de Koopman exacto de un sistema de dinámica de mercado. Pero es posible aprender una aproximación finita a partir de los datos: el método se denomina descomposición dinámica de modos o DMD, por sus siglas en inglés. En su variante basada en núcleos, como la utilizada por el codificador, se obtiene automáticamente una pequeña matriz a partir de una ventana de observación cuyos valores propios responden con precisión a dos preguntas: a qué velocidad oscila esta dinámica y si gana o pierde energía. Diagrama 01 - Qué significa un valor propio complejo
Este mapa es la visualización central necesaria para comprender el codificador. Una ventana de observación se representa en diez puntos de este plano complejo. Cada punto es un tipo de movimiento independiente que contiene actualmente el sistema. La parte real le indica si este movimiento está adquiriendo velocidad o se está quedando sin ella; la parte imaginaria le indica la velocidad a la que oscila. A partir de estos diez puntos se puede reconstruir toda la ventana, sin desviarse a través de varios centenares de números brutos. 03 - Reducción espectral: aislar las primitivas del sistemaEl reto estructural de la modelización del espacio de Koopman reside en su complejidad numérica: es infinito por construcción. El dominio matemático de esta dimensionalidad establece un paralelismo directo con la Characteristica Universalis de Gottfried Wilhelm Leibniz y su Ars Combinatoria. Con el Alphabetum cogitationum humanarum, Leibniz postuló un sistema universal que remonta la dinámica compleja y continua a un conjunto finito de conceptos básicos ortogonales e indivisibles: las notiones primitivae. La complejidad no se entiende aquí como un continuo caótico, sino como una combinación lineal de bloques de construcción discretos y primitivos. Algorítmicamente, esta reducción racional constituye la base del truncamiento de rangos dentro del espacio de Hilbert ℋ, que el núcleo RBF abarca implícitamente. Mientras que la matriz de similitud K₀ codifica la trayectoria completa y ruidosa de la ventana de observación, la posterior descomposición simétrica de valores propios aísla los k modos propios dominantes. Este es el acto formal del aislamiento primitivo: una proyección en el subespacio invariante de Koopman de baja dimensión:
Este truncamiento es el principal mecanismo de regularización del codificador. Una red neuronal que trabaja con el espectro sin filtrar memoriza inevitablemente las singularidades estocásticas de alta frecuencia de la muestra de entrenamiento. Al comprimir la señal en las k primitivas dominantes, la arquitectura impone una abstracción matemática: las capas posteriores no extraen las estructuras de ruido efímero de una ventana específica, sino los generadores invariantes de la dinámica del sistema. 04 - La máquina - De señal bruta a huella espectralLo que hace internamente el codificador puede leerse como seis pasos sucesivos, cada uno de los cuales resuelve un problema específico. Recorremos los pasos centrales matemáticamente, no como un paseo por el código, sino como una argumentación que responde a una pregunta en cada caso. El primer paso establece la comparabilidad. El núcleo que sigue inmediatamente trabaja con distancias en una función exponencial. Si los valores de entrada son numéricamente grandes, la función exponencial colapsa a cero y todo el proceso sólo produce ceros. Por tanto, cada ventana se normaliza localmente.
El segundo paso convierte la historia en un estado. Una sola observación no dice casi nada. La dinámica es la relación entre estados sucesivos. La ventana se divide en dos versiones retardadas: la primera contiene las observaciones hasta el penúltimo paso, la segunda las observaciones desde el segundo paso hasta el final. La regla de transición se derivará posteriormente de la comparación de estas dos versiones. Es la vieja idea de Takens: la progresión es el estado. El tercer paso es el verdadero truco matemático: la similitud como geometría. En lugar de inventar indicadores manualmente, el codificador deja que la geometría de los datos hable por sí misma. Para cada punto temporal de la ventana, mide su similitud con todos los demás puntos temporales. La medida de similitud es el kernel RBF:
La ventana se convierte así en una matriz de similitud en la que cada entrada es un valor de similitud entre dos puntos en el tiempo. Ya no se trata de una serie temporal, sino de una topografía. Qué fases son similares, cuáles no, y cómo se distribuye esto a lo largo de la ventana. Una segunda matriz de similitud compara cada punto temporal con su sucesor y llevará la información para la regla de transición. El cuarto paso busca el alfabeto: Se aplica una descomposición de valores propios a la primera matriz de similitud. Los mayores valores propios muestran los patrones dominantes de la topografía. Sólo quedan los modos top-k, las primitivas de Leibniz de la ventana. El quinto paso construye la regla de transición. En el espacio de los modos dominantes, se construye una pequeña matriz que describe exactamente cómo evoluciona la ventana de un paso temporal al siguiente:
El sexto y último paso lee la esencia. A esta pequeña matriz se le aplica una segunda descomposición de valores propios, esta vez con valores complejos. Cada modo se convierte en un valor propio complejo. Su parte real es la tasa de crecimiento, su parte imaginaria es la frecuencia. De este modo, una ventana de varios centenares de valores brutos se convierte en 2 × k valores, es decir, veinte números para diez modos, que en conjunto transmiten toda la dinámica de la ventana. 05 - La aplicación - El núcleo matemáticoLo más destacable de la aplicación no es su longitud, sino su brevedad. Lo que en teoría parece una conferencia especializada, en PyTorch sólo son unas pocas líneas precisas, sin tener que escribir ni un solo bucle. Todo el aparato espectral vive en dos rutinas incorporadas para descomposiciones de valores propios. Esto hace que el codificador no sólo sea legible, sino totalmente diferenciable. Puede integrarse en cualquier red neuronal como una capa y entrenarse por retropropagación.
Por tanto, el codificador no es una herramienta de datos previa, sino un componente integral de la arquitectura. Lo que produce es una huella espectral de la ventana de observación: veinte valores que resumen el crecimiento, la atenuación y la frecuencia de los modos dominantes del mercado. La forma en que esta información se integra en el modelo es lo realmente interesante, y la razón de ser de este artículo. 06 - La aplicación: el rompedor de mesetaDurante la investigación del equipo, el modelo principal de gran tamaño, un sistema basado en transformadores con ramas de salida especializadas y múltiples planos temporales, se estancó repetidamente en la fase 4. La pérdida se redujo limpiamente de seis a siete veces. La pérdida cayó limpiamente durante seis a ocho épocas, y luego permaneció plana. Las métricas de validación aumentaron ligeramente, el primer indicio de una incipiente adaptación a las especificidades del entrenamiento. Los antídotos tradicionales no funcionaron. La reducción de la tasa de aprendizaje exacerbó los síntomas. Más datos proporcionaron ligeras mejoras que se perdieron en la varianza de múltiples ejecuciones. El problema era estructural: el modelo había extraído todo lo que podía de las características estadísticas locales. Lo que necesitaba no era otra optimización, sino nueva información. Aquí es donde entra en juego el codificador Koopman-Leibniz, pero en un papel para el que no estaba pensado originalmente. En lugar de ser el codificador primario frente al modelo, se utiliza como un canal de información paralelo: una segunda canalización de datos que introduce los modos de mercado globales en el modelo ya entrenado a lo largo de varios niveles temporales. La conexión se realiza a través de una capa de atención cruzada: el modelo principal pide a la huella espectral información que le falta e integra la respuesta en sus representaciones internas. Una ampliación de este tipo en mitad del entrenamiento suele ser arriesgada. Una rama adicional cambia bruscamente el paisaje del gradiente. En el peor de los casos, desestabiliza lo que se ha ido construyendo durante semanas. Aquí es exactamente donde entra en juego el segundo componente, casi más importante, del experimento: la puerta cero-init. Diagrama 02 - Comportamiento de la puerta en la meseta
La puerta es matemáticamente una cantidad escalar única, que llamamos α. Se inicializa con un valor exactamente cero y multiplica la contribución del nuevo canal espectral antes de que vuelva al modelo principal:
Esta construcción es el núcleo teórico. El segundo término del lado derecho es exactamente cero al principio, no es pequeño ni despreciable, sino analíticamente cero. El modelo principal no ve ningún cambio, sigue funcionando en su paisaje de pérdidas anterior, mantiene estables todas las ponderaciones. Lo único que cambia es que ahora hay un parámetro α con un gradiente definido. Si la trayectoria de retropropagación determina que un aumento de α reduciría la pérdida, entonces -y sólo entonces- se abrirá la puerta. En una meseta en la que todos los demás gradientes desaparecen, el gradiente relativo a α suele ser el único que aún transmite una señal clara. El optimizador no tiene otra forma de reducir la pérdida, así que empieza a aumentar α mínimamente. El canal espectral empieza entonces a aportar información al modelo principal. El panorama de pérdidas, que era plano, toma una nueva dirección. La meseta se rompe.
Esta construcción es matemáticamente elegante, pero hay dos propiedades que la hacen especialmente valiosa en aplicaciones de investigación. En primer lugar, se trata de una ampliación de riesgo cero: mientras el modelo progrese sin ayuda, la ampliación es ineficaz. No hay compromiso de estabilidad, ni interrupción de la optimización en curso, ni nuevos ajustes de los programas de entrenamiento. En segundo lugar, no combate el síntoma de la meseta, sino la causa. Los métodos tradicionales como ReduceLROnPlateau ralentizan el movimiento cuando deja de funcionar - hacen lo incorrecto con mayor precisión. En cambio, ReduceLROnPlateau añade información fundamentalmente nueva al modelo: modos globales del mercado a través de múltiples niveles temporales que no estaban matemáticamente presentes en las características locales de entrada. En el canon de investigación más amplio, este mecanismo está relacionado con métodos como ReZero y LayerScale: ambos trabajan con trayectorias residuales cuya contribución está controlada por un factor de escala aprendible que empieza en cero. Lo que distingue al Plateau-Breaker es su función: la extensión residual no añade profundidad a la malla, sino una clase específica de información: modos espectrales del sistema que el codificador extrae explícitamente. Ya no se trata de la capacidad del modelo, sino de una base de representación diferente. 07 - El remate - Tres propiedades que funcionan juntasLos métodos espectrales en el análisis de series temporales no son nada nuevo. Lo que hace que la variante Koopman-Leibniz sea cualitativamente nueva en esta combinación - codificador más zero-init-gate más atención cruzada - son tres propiedades que se refuerzan mutuamente. Es invariante de nivel. Debido a la normalización local por ventana, el codificador ve movimientos, no niveles. El modelo que funciona con este mecanismo puede ejecutarse en cualquier sistema de dinámica de mercado sin que los rangos de valores absolutos desempeñen nunca un papel. Es no lineal sin tener que inventar características no lineales. El núcleo RBF incorpora implícitamente los datos en un espacio de dimensiones infinitas en el que las complicadas relaciones no lineales se convierten en estructuras lineales. Nadie tiene que adivinar qué indicadores puede necesitar el sistema: la propia geometría de los datos genera las relaciones no lineales. Puede interpretarse espectralmente. Lo que llega a la salida no son variables latentes misteriosas, sino valores de crecimiento y frecuencia con un significado dinámico claro. Si se quiere saber por qué un modelo tomó una determinada decisión en una determinada situación, se puede mirar la huella espectral y leer literalmente el estado dinámico en el que se encontraba el sistema en ese momento.
No hay diferencia semántica. Dar a un modelo series temporales sin procesar le obliga a realizar la traducción a dinámica por sí mismo, con toda la capacidad de sus matrices de pesos y todo el esfuerzo del entrenamiento. Darle la dinámica por adelantado libera de repente capacidad que el modelo puede utilizar para tomar decisiones reales. Es el mismo mecanismo que subyace a los objetivos auxiliares de entrenamiento especializados -pequeñas salidas laterales que obligan a la red a reconstruir explícitamente cantidades relevantes en capas tempranas- sólo que a un nivel más profundo. Tales objetivos auxiliares obligan a la red troncal a comprender el mundo antes de decidir. El codificador Koopman-Leibniz obliga a los datos de entrada a revelar su dinámica antes incluso de llegar al modelo. En la configuración del rompedor de meseta, esto se convierte en una tercera propiedad: se permite al modelo seguir aprendiendo exactamente cuando en realidad se había detenido. 08 - Perspectivas - El futuroTodas las herramientas matemáticas proceden del repertorio clásico: Bernard Koopman 1931, Floris Takens 1981, el núcleo RBF de la caja de herramientas estadística estándar, las técnicas de aprendizaje residual de la investigación reciente sobre aprendizaje profundo. Lo que ha cambiado es el hardware. Hace unas décadas, la descomposición de valores propios suponía un gran esfuerzo numérico. Hoy en día, se realiza en una pasada previa de PyTorch en la GPU en microsegundos y, sobre todo, es diferenciable, es decir, integrable en cualquier canal de formación basado en gradientes. Esto cambia lo que se considera ingeniería de características. En lugar de seleccionar los indicadores a mano o dejar que la red elabore sus propias representaciones, se puede construir toda una clase de codificadores que escriben estructuras matemáticas -descomposiciones espectrales, topologías, operadores diferenciales- directamente en el flujo de datos. El codificador Koopman-Leibniz es un ejemplo de ello. Combinado con las puertas zero-init, se convierte en algo que ha faltado hasta ahora en la práctica común del ML: una herramienta que no combate el síntoma del estancamiento de la formación, sino su causa matemática. Surge así una línea divisoria que va más allá de la aplicación específica. Las arquitecturas de IA dominantes en la actualidad -desde los grandes modelos lingüísticos de empresas como OpenAI, Anthropic o Google DeepMind hasta los últimos transformadores generativos- tienen un diseño esencialmente antropocéntrico (del griego ánthropos, "humano"): Modelan el lenguaje humano, la percepción humana, la toma de decisiones humana, y están congelados en un espacio de parámetros aprendido y discreto cuya geometría nunca abandonan después del entrenamiento. En cambio, los operadores de Koopman-Leibniz trabajan en un espacio espectral continuo de leyes invariantes del sistema. Esto abre un campo de investigación aparte, más allá de la clase de modelos centrados en el ser humano: los transformadores adaptativos generativos que no derivan su representación de los datos humanos, sino de la dinámica del propio sistema observado. Las pruebas actuales demuestran que el codificador no supera la meseta añadiendo capacidad, sino filtrando la dinámica del sistema con mayor precisión. Actúa como un activador selectivo: permanece inactivo en las fases en las que el modelo converge de forma independiente y sólo interviene cuando amenaza el estancamiento del gradiente. De este modo, el sistema gana estabilidad sin comprometer el vocabulario de características existente y aprendido.
Busque más:
Artículos relacionados |
|