Inteligência artificial

koopman-Leibniz: A matemática que rompe o planalto

Qualquer pessoa que desenvolva modelos modernos de IA está familiarizada com este momento: no início, tudo está a correr na perfeição, a curva está a apontar acentuadamente para cima - e , de repente, nada funciona. O sistema estagna.

Os truques habituais de TI, como mais potência no servidor ou tempos de execução mais longos, normalmente só adiam o problema por alguns dias. Uma nova abordagem da investigação - o chamado codificador Koopman-Leibniz - rompe agora este bloqueio: não através da potência bruta de computação, mas através de uma estruturação completamente nova e inteligente dos dados do sistema.

01 - O patamar de treino - Quando o gradiente desaparece

Os dados financeiros quantitativos são dados altamente correlacionados com um rácio sinal/ruído extremamente baixo. O principal desafio é extrair de uma janela de observação não a sequência sequencial de valores brutos, mas a dinâmica oculta do sistema - impulsos transitórios, inversões cíclicas e mudanças de estado energético. Como estas estruturas se perdem no ruído estocástico, uma arquitetura padrão consome uma quantidade desproporcionada da sua capacidade apenas para a formação de representações.

Se o modelo atingir um patamar, o gradiente de perda (∇ℒ) entra em colapso. O optimizador perde a sua estabilidade direcional nesta região de parâmetros planos porque os componentes do gradiente convergem para zero. Neste ponto, a rede apenas aprendeu os componentes de variância triviais e dominantes. As estruturas mais profundas e preditivas do mercado permanecem inalcançadas, uma vez que o atual vocabulário matemático da rede não é suficiente para as isolar claramente do ruído.

Os métodos de otimização adaptativa, como o AdamW, não oferecem aqui uma solução sistémica: embora corrijam o escalonamento, não conseguem extrair uma direção de um campo vetorial cujo valor esperado é, em média, zero. Mesmo a redução convencional da taxa de aprendizagem(ReduceLROnPlateau) não quebra esta estagnação. Apenas a cimenta. A rede permanece na zona plana e começa a memorizar as estruturas de ruído de alta frequência dos dados de treino - o caminho direto para o sobreajuste, que faz com que a métrica de validação se degrade com um atraso de tempo.

O patamar não é o fim da aprendizagem. É o fim do vocabulário atual.
- Diagnóstico do problema da estagnação

02 - A base - Koopman: Quando o movimento se torna álgebra linear

O matemático americano Bernard Koopman publicou um artigo 1931 de que quase ninguém precisava na altura e que, nos últimos dez anos, foi incluído em todos os manuais de dinâmica baseada em dados. À primeira vista, a sua ideia é paradoxal: se um sistema se move de uma forma não linear complicada, ainda pode ser descrito linearmente - se estiveres preparado para mudar para um espaço de dimensão infinita no qual não são os estados em si que se desenvolvem, mas funções sobre estados.

Isto parece uma má troca - um problema não linear de dimensão finita por um problema linear de dimensão infinita. Na realidade, é uma excelente troca, porque os operadores lineares têm algo que as funções não lineares normalmente não têm: um espetro. Valores próprios e vectores próprios. Blocos de construção claros e decomponíveis. Qualquer pessoa que conheça o operador Koopman de um sistema conhece os seus modos próprios - os padrões de oscilação fundamentais a partir dos quais cada movimento real é composto, tal como cada som pode ser composto por tons sinusoidais puros.

Ninguém pode calcular o operador Koopman exato de um sistema de dinâmica de mercado. Mas é possível aprender uma aproximação de dimensão finita a partir dos dados - o método é chamado de Decomposição de Modo Dinâmico, ou DMD para abreviar. Na sua variante baseada em kernel, tal como utilizada pelo codificador, obtém-se automaticamente uma pequena matriz a partir de uma janela de observação cujos valores próprios respondem com precisão a duas questões: a que velocidade oscila esta dinâmica e se ganha ou perde energia.

Diagrama 01 - O que significa um valor próprio complexo
Cada ponto no plano complexo é um modo inteiro de movimento - frequência e crescimento num só número

Komplexe Eigenwert-Ebene: Energie-aufbauende Moden (Realteil > 0) und Energie-abbauende Moden (Realteil < 0), mit Stabilitätsgrenze

Modos de acumulação de energia (parte real > 0) - laranja
Modos de esgotamento de energia (parte real < 0) - escuro
Limite de estabilidade - círculo tracejado

Este mapa é a visualização central necessária para compreender o codificador. Uma janela de observação é mapeada para dez pontos neste plano complexo. Cada ponto é um tipo de movimento independente que o sistema contém atualmente. A parte real diz-te se este movimento está a ganhar ou a perder velocidade; a parte imaginária diz-te a que velocidade está a oscilar. A janela inteira pode ser reconstruída a partir destes dez pontos, sem os desvios de várias centenas de números brutos.

03 - Redução espetral - isolar as primitivas do sistema

O desafio estrutural da modelação do espaço de Koopman reside na sua dificuldade numérica: é infinitamente dimensional por construção. O domínio matemático desta dimensionalidade estabelece um paralelo direto com a Characteristica Universalis de Gottfried Wilhelm Leibniz e a sua Ars Combinatoria. Com o Alphabetum cogitationum humanarum, Leibniz postulou um sistema universal que traça uma dinâmica complexa e contínua até um conjunto finito de conceitos básicos ortogonais e indivisíveis - as notiones primitivae. A complexidade não é entendida aqui como um continuum caótico, mas como uma combinação linear de blocos de construção discretos e primitivos.

Algoritmicamente, esta redução racional forma a base para o truncamento de classificação dentro do espaço de Hilbert ℋ, que o núcleo RBF implicitamente abrange. Enquanto a matriz de similaridade K₀ codifica a trajetória completa e ruidosa da janela de observação, a subsequente decomposição simétrica de valores próprios isola os k modos próprios dominantes. Este é o ato formal do isolamento primitivo - uma projeção no subespaço de baixa dimensão, invariante de Koopman:

Projeção espetral - redução do grau de Leibniz
ℋ  ⟶  ?ₖ
ℋ representa o espaço de Hilbert de dimensão infinita como o portador formal de toda a dinâmica potencial. ?ₖ define o subespaço k-dimensional abrangido pelos modos próprios dominantes; na configuração padrão, k = 10. Todos os componentes espectrais para além deste limite são analiticamente descartados como ruído transitório.

Este truncamento funciona como o principal mecanismo de regularização do codificador. Uma rede neural que opera no espetro não filtrado memoriza inevitavelmente as singularidades estocásticas de alta frequência da amostra de treino. Ao comprimir o sinal para as k primitivas dominantes, a arquitetura impõe uma abstração matemática: as camadas a jusante não extraem as estruturas de ruído efémero de uma janela específica, mas os geradores invariantes da dinâmica do sistema.

04 - A máquina - Do sinal bruto à impressão digital espetral

O que o codificador faz internamente pode ser lido como seis passos sucessivos, cada um dos quais resolve um problema específico. Percorremos os passos centrais matematicamente - não como uma passagem de código, mas como uma argumentação que responde a uma pergunta em cada caso.

O primeiro passo estabelece a comparabilidade. O núcleo que se segue trabalha imediatamente com distâncias numa função exponencial. Se os valores de entrada forem numericamente grandes, a função exponencial colapsa para zero e todo o pipeline produz apenas zeros. Assim, cada janela é normalizada localmente.

Normalização local
x̂ = (x − μ) / (σ + ε)
Cada valor é reduzido pelo valor médio da janela μ e dividido pelo desvio padrão da janela σ. O pequeno somatório ε impede a divisão por zero para fases silenciosas. Isto torna o codificador invariante em termos de nível: um movimento de um por cento parece-lhe igual, independentemente do nível absoluto em que ocorre. O modelo aprende a dinâmica, não os valores absolutos.

O segundo passo transforma a história num estado. Uma única observação não diz quase nada. A dinâmica é a relação entre estados sucessivos. A janela é dividida em duas versões temporais - a primeira contém as observações até ao penúltimo passo, a segunda as observações do segundo passo até ao fim. A regra de transição será mais tarde derivada da comparação destas duas versões. É a velha ideia de Takens: a progressão é o estado.

A terceira etapa é o verdadeiro truque matemático: a semelhança como geometria. Em vez de inventares manualmente indicadores, o codificador deixa que a geometria dos dados fale por si. Para cada ponto no tempo na janela, mede a sua semelhança com todos os outros pontos no tempo. A medida de semelhança é o núcleo RBF:

Núcleo RBF - a medida de semelhança
k(x, y) = exp(−γ · ‖x − y‖²)
A expressão ‖x - y‖² é o quadrado da distância euclidiana entre dois estados - a distância que os separa no espaço. A função exponencial comprime isto para um valor entre 0 e 1: estados idênticos resultam exatamente em 1, estados distantes resultam praticamente em 0. O parâmetro γ controla a rapidez com que a semelhança diminui com o aumento da distância - é, por assim dizer, a nitidez com que o sistema separa "semelhante" de "diferente".

A janela torna-se assim uma matriz de semelhança em que cada entrada é um valor de semelhança entre dois pontos no tempo. Já não se trata de uma série temporal - é uma topografia. Quais as fases que são semelhantes, quais as que não são, e como é que isso se distribui pela janela. Uma segunda matriz de semelhança compara cada ponto no tempo com o seu sucessor e contém a informação para a regra de transição.

O quarto passo encontra o alfabeto: Aplica uma decomposição de valores próprios à primeira matriz de semelhança. Os maiores valores próprios mostram os padrões dominantes da topografia. Apenas os modos top-k permanecem, as primitivas de Leibniz da janela.

O quinto passo constrói a regra de transição. No espaço dos modos dominantes, é construída uma pequena matriz que descreve exatamente como a janela evolui de um passo de tempo para o seguinte:

Matriz de Koopman reduzida no espaço de modos
Ã = Σ⁻¹ · Vᵀ · K₁ · V · Σ⁻¹
V contém os top-k eigenvectors da primeira matriz de similaridade - o alfabeto. K₁ é a matriz de similaridade deslocada no tempo que codifica a transição de um passo de tempo para o seguinte. Σ-¹ normaliza os comprimentos dos vectores próprios para que a matriz resultante não seja distorcida por diferenças de escala. O que resta é um operador linear num espaço gerado de forma não linear - a ideia original de Koopman, aqui em forma reduzida.

O sexto e último passo lê a essência. Aplica-se uma segunda decomposição de valores próprios a esta pequena matriz - desta vez uma que permite valores complexos. Cada modo torna-se um valor próprio complexo. A sua parte real é a taxa de crescimento, a sua parte imaginária é a frequência. Uma janela de várias centenas de valores brutos transforma-se assim em 2 × k valores - ou seja, vinte números para dez modos, que, em conjunto, transportam toda a dinâmica da janela.

05 - A implementação - O núcleo que faz as contas

O que é notável na implementação não é a sua extensão, mas a sua brevidade. O que parece uma aula especializada em teoria é apenas algumas linhas precisas em PyTorch - sem que um único loop tenha de ser escrito. Todo o aparelho espetral reside em duas rotinas incorporadas para decomposições de valores próprios. Isto torna o codificador não só legível - torna-o totalmente diferenciável. Pode ser integrado em qualquer rede neuronal como uma camada e treinado por retropropagação.

# proprietary — interne Implementierung gekürzt
class KoopmanLeibnizEncoder(nn.Module):
    def __init__(self, rank=10, gamma=0.1):
        super().__init__()
        self.rank  = rank     # Anzahl beibehaltener Leibniz-Primitive
        self.gamma = gamma    # Breite des RBF-Kernels

    def forward(self, x):
        # Lokale Standardisierung pro Fenster — gegen Kernel-Kollaps
        x = (x - x.mean(dim=1, keepdim=True)) / (x.std(dim=1, keepdim=True) + 1e-6)

        # [...] Takens-Einbettung, RBF-Kernel, Spektrum, reduzierte Koopman-Matrix
        # [...] interne Pipeline — Details proprietär
        A_tilde = _internal_spectral_pipeline(x, self.rank, self.gamma)

        # Komplexe Eigenwerte → Wachstum (Re) + Frequenz (|Im|)
        koop_vals, _ = torch.linalg.eig(A_tilde)
        return torch.cat([koop_vals.real, torch.abs(koop_vals.imag)], dim=-1)
                              PYTHON

O codificador não é, portanto, uma ferramenta de dados a montante, mas um componente integral da arquitetura. O que produz é uma impressão digital espetral da janela de observação: vinte valores que resumem o crescimento, a atenuação e a frequência dos modos de mercado dominantes. A forma como esta informação entra no modelo é a parte realmente interessante - e a razão pela qual este artigo foi escrito em primeiro lugar.

06 - A aplicação - o quebra-platô

Durante a investigação da equipa, o grande modelo principal, um sistema baseado num transformador com ramos de saída especializados e vários planos temporais, atingiu repetidamente um patamar na Fase 4. A perda diminuiu claramente ao longo de seis a oito épocas e depois manteve-se estável. As métricas de validação aumentaram ligeiramente - a primeira indicação de uma adaptação incipiente às especificidades do treino. Os antídotos tradicionais não funcionaram. Reduzir a taxa de aprendizagem exacerbou os sintomas. Mais dados proporcionaram ligeiras melhorias que se perderam na variância de várias execuções. O problema era estrutural: o modelo tinha extraído tudo o que podia das caraterísticas estatísticas locais. O que ele precisava não era de outra otimização - mas de novas informações.

É aqui que o codificador Koopman-Leibniz entra em ação, mas num papel para o qual não foi originalmente concebido. Em vez de ser o codificador primário em frente ao modelo, é utilizado como um canal de informação paralelo - um segundo canal de dados que alimenta os modos de mercado globais para o modelo já treinado em vários níveis de tempo. A ligação é feita através de uma camada de atenção cruzada: o modelo principal pede à impressão digital espetral a informação que lhe falta e integra a resposta nas suas representações internas.

Esta extensão a meio do treino é normalmente arriscada. Um ramo adicional altera abruptamente a paisagem do gradiente. No pior dos casos, desestabiliza o que foi construído ao longo de semanas. É exatamente aqui que entra em jogo a segunda componente, quase mais importante, da experiência: a porta de zero-init.

Diagrama 02 - O comportamento do portão no planalto
Como um portão iniciado em zero abre exatamente quando o gradiente de perda desaparece

Trainings-Loss-Kurve flacht in der Plateau-Zone ab, während der Gate-Wert α von 0 auf 1 hochläuft und spektrale Anreicherung einsetzt

Fase 1 - A linha de base é estável, o portão permanece fechado - não há intervenção na aprendizagem existente.
Fase 2 - A perda estabiliza, os gradientes colapsam, o portão abre-se automaticamente e o canal espetral começa a ter efeito.

O portão é matematicamente uma única quantidade escalar - chamamos-lhe α. É inicializada com um valor exatamente igual a zero e multiplica a contribuição do novo canal espetral antes de voltar a fluir para o modelo principal:

Intervenção residual através do portão
h_neu = h_alt + α · CrossAttn(h_alt, z_spektral)
h_alt é a representação interna anterior do modelo principal. z_spectral é a sequência de impressões digitais espectrais do codificador Koopman-Leibniz em vários planos temporais. A operação CrossAttn permite que o modelo principal aceda especificamente à informação do canal espetral. Desde que α = 0, todo o termo adicional é exatamente zero e o modelo comporta-se de forma idêntica ao anterior.

Esta construção é o núcleo teórico. O segundo termo do lado direito é exatamente zero no início - não é pequeno, nem negligenciável, mas analiticamente zero. O modelo principal não vê qualquer alteração, continua a funcionar no seu cenário de perdas anterior, mantém todos os pesos estáveis. A única coisa que muda é que agora existe um parâmetro α com um gradiente definido. Se o caminho de retropropagação determinar que um aumento em α reduziria a perda, então - e somente então - o portão será aberto.

Num patamar em que todos os outros gradientes desaparecem, o gradiente relativo a α é tipicamente o único que ainda tem um sinal claro. O optimizador não tem outra forma de reduzir a perda - por isso começa a aumentar α minimamente. O canal espetral começa então a fornecer informações ao modelo principal. A paisagem de perdas, que era apenas plana, toma uma nova direção. Rompe o patamar.

Enquanto o modelo converge de forma estável, o caminho adicional permanece neutro. Só quando o gradiente estagna é que o canal espetral se torna um caminho de atualização eficaz.
- Como funciona o mecanismo de zero-init

Esta construção é matematicamente elegante, mas duas propriedades tornam-na particularmente valiosa em aplicações de investigação. Em primeiro lugar, é uma extensão de risco zero: enquanto o modelo progredir sem ajuda, a extensão é ineficaz. Não há compromisso de estabilidade, não há perturbação da otimização em curso, não há nova afinação dos programas de treino. Em segundo lugar, não combate o sintoma do plateau, mas a causa. Os métodos tradicionais, como o ReduceLROnPlateau, abrandam o movimento quando este deixa de funcionar - fazem mais precisamente a coisa errada. Em vez disso, o quebra-platô acrescenta informações fundamentalmente novas ao modelo: modos de mercado globais em vários níveis de tempo que não estavam matematicamente presentes nas caraterísticas de entrada locais.

No cânone mais amplo da investigação, este mecanismo está relacionado com métodos como o ReZero e o LayerScale - ambos trabalham com caminhos residuais cuja contribuição é controlada por um fator de escala aprendível que começa em zero. O que distingue o Plateau-Breaker é a sua função: a extensão residual não acrescenta profundidade à malha, mas uma classe específica de informação - modos de sistema espectrais que o codificador extrai explicitamente. Já não se trata da capacidade do modelo, mas de uma base de representação diferente.

07 - A piada - Três propriedades que funcionam em conjunto

Os métodos espectrais na análise de séries temporais não são novidade. O que torna a variante Koopman-Leibniz qualitativamente nova nesta combinação - codificador mais zero-init-gate mais cross-attention - são três propriedades que se reforçam mutuamente.

É invariante de nível. Devido à normalização local por janela, o codificador vê movimentos e não níveis. O modelo que funciona com este mecanismo pode ser executado em qualquer sistema de dinâmica de mercado sem que os intervalos de valores absolutos desempenhem qualquer papel.

É não-linear sem ter de inventar caraterísticas não-lineares. O núcleo RBF incorpora implicitamente os dados num espaço de dimensão infinita, no qual relações não lineares complicadas se tornam estruturas lineares. Ninguém tem de adivinhar quais os indicadores de que o sistema pode necessitar - a geometria dos dados gera ela própria as relações não lineares.

Pode ser interpretada de forma espetral. O que chega à saída não são variáveis latentes misteriosas, mas valores de crescimento e frequência com um significado dinâmico claro. Se quiseres saber porque é que um modelo tomou uma determinada decisão numa determinada situação, podes olhar para a impressão digital espetral e ler literalmente o estado dinâmico em que o sistema se encontrava na altura.

Os escaladores clássicos normalizam os números. O codificador Koopman-Leibniz normaliza o significado.
- Em linguagem simples

Spektrale Zerlegung: Ein zackiges Rohsignal („Zahlen") läuft durch das Koopman-Leibniz-Prisma und tritt als wenige saubere, benannte Schwingungsmoden wieder aus — Trend, Zyklus und Rauschen. Die Dynamik hinter dem Rauschen wird sichtbar („Bedeutung").

Não há diferença semântica. Dar a um modelo séries temporais em bruto obriga-o a efetuar a tradução para a dinâmica - com toda a capacidade das suas matrizes de pesos e todo o esforço de treino. Dar-lhe a dinâmica antecipadamente liberta subitamente a capacidade que o modelo pode utilizar para as decisões reais.

É o mesmo mecanismo que está por detrás dos objectivos auxiliares de formação especializada - pequenos resultados laterais que forçam a rede a reconstruir explicitamente quantidades relevantes nas camadas iniciais - apenas um nível mais profundo. Estes objectivos auxiliares forçam a espinha dorsal a compreender o mundo antes de decidir. O codificador Koopman-Leibniz força os dados de entrada a revelarem a sua dinâmica antes mesmo de chegarem ao modelo. Na configuração do "plateau-breaker", isto torna-se uma terceira propriedade: o modelo é autorizado a continuar a aprender exatamente quando tinha parado.

08 - Perspectivas - O que vem a seguir

As ferramentas matemáticas são todas do repertório clássico - Bernard Koopman 1931, Floris Takens 1981, o kernel RBF da caixa de ferramentas estatísticas padrão, técnicas de aprendizagem residual da pesquisa recente de aprendizagem profunda. O que mudou foi o hardware. Há algumas décadas, a decomposição de valores próprios era um esforço numérico sério. Hoje em dia, é feita numa passagem avançada do PyTorch na GPU em microssegundos - e, acima de tudo, diferenciável, ou seja, incorporável em qualquer pipeline de formação baseada em gradientes.

Isto muda o que é considerado engenharia de caraterísticas. Em vez de selecionar indicadores à mão ou deixar que a rede crie as suas próprias representações, pode ser criada toda uma classe de codificadores que escrevem estruturas matemáticas - decomposições espectrais, topologias, operadores diferenciais - diretamente no fluxo de dados. O codificador Koopman-Leibniz é um exemplo disso. Combinado com as portas de zero-init, torna-se algo que tem faltado na prática atual do ML até à data: uma ferramenta que não combate o sintoma da estagnação da formação, mas sim a sua causa matemática.

Surge assim uma linha divisória que ultrapassa a aplicação específica. As arquitecturas de IA dominantes hoje em dia - desde os grandes modelos linguísticos de empresas como a OpenAI, a Anthropic ou a Google DeepMind até aos mais recentes transformadores generativos - são essencialmente antropocêntricas na sua conceção (do grego ánthropos, "humano"): Modelam a linguagem humana, a perceção humana, a tomada de decisões humana e estão congelados num espaço de parâmetros discreto e aprendido, cuja geometria nunca abandonam após o treino. Os operadores de Koopman-Leibniz, por outro lado, trabalham num espaço espetral contínuo de leis invariantes do sistema. Isto abre um campo de investigação separado para além da classe de modelos centrados no ser humano: transformadores adaptativos generativos que não derivam a sua representação de dados humanos, mas da dinâmica do próprio sistema observado.

Os testes actuais mostram que o codificador não ultrapassa o patamar acrescentando capacidade, mas filtrando a dinâmica do sistema de forma mais precisa. Actua como um gatilho seletivo - permanece inativo nas fases em que o modelo converge de forma independente e só intervém quando o gradiente ameaça estagnar. Assim, o sistema ganha estabilidade sem comprometer o vocabulário de caraterísticas existente e aprendido.

Se a rede estagnar no patamar, já não lhe falta o input, mas sim a resolução para extrair o sinal de forma limpa do ruído.
- Princípio de funcionamento do método Koopman-Leibniz

Sobre o autor Konstantin Stratigenas
Diretor de tecnologia (CTO)

Konstantin Stratigenas é Diretor de Tecnologia (CTO) da Langmeier Software e é o principal responsável pelo desenvolvimento do aBusiness Suite. Seu objetivo é dar suporte às empresas com soluções modernas, apoiadas por IA, que simplificam o trabalho, aceleram os processos e economizam tempo e dinheiro. Com sua paixão por tecnologias fáceis de usar, ele busca a visão de que todos em todo o mundo devem se beneficiar das vantagens do aBusiness Suite.

Procura mais:

Koopman-leibniz, Matemática, Planalto, Aprendizagem profunda, Sistemas dinâmicos, Inteligência artificial, Dinâmica do sistema, Codificador, Algoritmos de otimização, Taxa de aprendizagem, Valores intrínsecos, Vectores próprios, Rbf-kernel, Redução espetral, Isolamento primitivo

Artigos relevantes

Como é que falas com uma IA?
Centrics - A peça final do puzzle da inteligência artificial geral (AGI)?
A importância do Clean Code para a competitividade

Publica um comentário aqui...

Langmeier Backup

Contacta a Langmeier Software

Parceiro Revendedor

Sobre a empresa

Seleciona a tua região

koopman-Leibniz: A matemática que rompe o planalto

01 - O patamar de treino - Quando o gradiente desaparece

02 - A base - Koopman: Quando o movimento se torna álgebra linear

03 - Redução espetral - isolar as primitivas do sistema

04 - A máquina - Do sinal bruto à impressão digital espetral

05 - A implementação - O núcleo que faz as contas

06 - A aplicação - o quebra-platô

07 - A piada - Três propriedades que funcionam em conjunto

08 - Perspectivas - O que vem a seguir

testa o aBusiness agora durante 14 dias gratuitamente

Artigos relevantes

Soluções

Últimas notícias

Empresa

Informação legal