|
Inteligência artificial
koopman-Leibniz: A matemática que rompe o planaltoQualquer pessoa que desenvolva modelos modernos de IA está familiarizada com este momento: no início, tudo está a correr na perfeição, a curva está a apontar acentuadamente para cima - e , de repente, nada funciona. O sistema estagna. Os truques habituais de TI, como mais potência no servidor ou tempos de execução mais longos, normalmente só adiam o problema por alguns dias. Uma nova abordagem da investigação - o chamado codificador Koopman-Leibniz - rompe agora este bloqueio: não através da potência bruta de computação, mas através de uma estruturação completamente nova e inteligente dos dados do sistema.
01 - O patamar de treino - Quando o gradiente desapareceOs dados financeiros quantitativos são dados altamente correlacionados com um rácio sinal/ruído extremamente baixo. O principal desafio é extrair de uma janela de observação não a sequência sequencial de valores brutos, mas a dinâmica oculta do sistema - impulsos transitórios, inversões cíclicas e mudanças de estado energético. Como estas estruturas se perdem no ruído estocástico, uma arquitetura padrão consome uma quantidade desproporcionada da sua capacidade apenas para a formação de representações. Se o modelo atingir um patamar, o gradiente de perda (∇ℒ) entra em colapso. O optimizador perde a sua estabilidade direcional nesta região de parâmetros planos porque os componentes do gradiente convergem para zero. Neste ponto, a rede apenas aprendeu os componentes de variância triviais e dominantes. As estruturas mais profundas e preditivas do mercado permanecem inalcançadas, uma vez que o atual vocabulário matemático da rede não é suficiente para as isolar claramente do ruído. Os métodos de otimização adaptativa, como o AdamW, não oferecem aqui uma solução sistémica: embora corrijam o escalonamento, não conseguem extrair uma direção de um campo vetorial cujo valor esperado é, em média, zero. Mesmo a redução convencional da taxa de aprendizagem(ReduceLROnPlateau) não quebra esta estagnação. Apenas a cimenta. A rede permanece na zona plana e começa a memorizar as estruturas de ruído de alta frequência dos dados de treino - o caminho direto para o sobreajuste, que faz com que a métrica de validação se degrade com um atraso de tempo.
02 - A base - Koopman: Quando o movimento se torna álgebra linearO matemático americano Bernard Koopman publicou um artigo 1931 de que quase ninguém precisava na altura e que, nos últimos dez anos, foi incluído em todos os manuais de dinâmica baseada em dados. À primeira vista, a sua ideia é paradoxal: se um sistema se move de uma forma não linear complicada, ainda pode ser descrito linearmente - se estiveres preparado para mudar para um espaço de dimensão infinita no qual não são os estados em si que se desenvolvem, mas funções sobre estados. Isto parece uma má troca - um problema não linear de dimensão finita por um problema linear de dimensão infinita. Na realidade, é uma excelente troca, porque os operadores lineares têm algo que as funções não lineares normalmente não têm: um espetro. Valores próprios e vectores próprios. Blocos de construção claros e decomponíveis. Qualquer pessoa que conheça o operador Koopman de um sistema conhece os seus modos próprios - os padrões de oscilação fundamentais a partir dos quais cada movimento real é composto, tal como cada som pode ser composto por tons sinusoidais puros. Ninguém pode calcular o operador Koopman exato de um sistema de dinâmica de mercado. Mas é possível aprender uma aproximação de dimensão finita a partir dos dados - o método é chamado de Decomposição de Modo Dinâmico, ou DMD para abreviar. Na sua variante baseada em kernel, tal como utilizada pelo codificador, obtém-se automaticamente uma pequena matriz a partir de uma janela de observação cujos valores próprios respondem com precisão a duas questões: a que velocidade oscila esta dinâmica e se ganha ou perde energia. Diagrama 01 - O que significa um valor próprio complexo
Este mapa é a visualização central necessária para compreender o codificador. Uma janela de observação é mapeada para dez pontos neste plano complexo. Cada ponto é um tipo de movimento independente que o sistema contém atualmente. A parte real diz-te se este movimento está a ganhar ou a perder velocidade; a parte imaginária diz-te a que velocidade está a oscilar. A janela inteira pode ser reconstruída a partir destes dez pontos, sem os desvios de várias centenas de números brutos. 03 - Redução espetral - isolar as primitivas do sistemaO desafio estrutural da modelação do espaço de Koopman reside na sua dificuldade numérica: é infinitamente dimensional por construção. O domínio matemático desta dimensionalidade estabelece um paralelo direto com a Characteristica Universalis de Gottfried Wilhelm Leibniz e a sua Ars Combinatoria. Com o Alphabetum cogitationum humanarum, Leibniz postulou um sistema universal que traça uma dinâmica complexa e contínua até um conjunto finito de conceitos básicos ortogonais e indivisíveis - as notiones primitivae. A complexidade não é entendida aqui como um continuum caótico, mas como uma combinação linear de blocos de construção discretos e primitivos. Algoritmicamente, esta redução racional forma a base para o truncamento de classificação dentro do espaço de Hilbert ℋ, que o núcleo RBF implicitamente abrange. Enquanto a matriz de similaridade K₀ codifica a trajetória completa e ruidosa da janela de observação, a subsequente decomposição simétrica de valores próprios isola os k modos próprios dominantes. Este é o ato formal do isolamento primitivo - uma projeção no subespaço de baixa dimensão, invariante de Koopman:
Este truncamento funciona como o principal mecanismo de regularização do codificador. Uma rede neural que opera no espetro não filtrado memoriza inevitavelmente as singularidades estocásticas de alta frequência da amostra de treino. Ao comprimir o sinal para as k primitivas dominantes, a arquitetura impõe uma abstração matemática: as camadas a jusante não extraem as estruturas de ruído efémero de uma janela específica, mas os geradores invariantes da dinâmica do sistema. 04 - A máquina - Do sinal bruto à impressão digital espetralO que o codificador faz internamente pode ser lido como seis passos sucessivos, cada um dos quais resolve um problema específico. Percorremos os passos centrais matematicamente - não como uma passagem de código, mas como uma argumentação que responde a uma pergunta em cada caso. O primeiro passo estabelece a comparabilidade. O núcleo que se segue trabalha imediatamente com distâncias numa função exponencial. Se os valores de entrada forem numericamente grandes, a função exponencial colapsa para zero e todo o pipeline produz apenas zeros. Assim, cada janela é normalizada localmente.
O segundo passo transforma a história num estado. Uma única observação não diz quase nada. A dinâmica é a relação entre estados sucessivos. A janela é dividida em duas versões temporais - a primeira contém as observações até ao penúltimo passo, a segunda as observações do segundo passo até ao fim. A regra de transição será mais tarde derivada da comparação destas duas versões. É a velha ideia de Takens: a progressão é o estado. A terceira etapa é o verdadeiro truque matemático: a semelhança como geometria. Em vez de inventares manualmente indicadores, o codificador deixa que a geometria dos dados fale por si. Para cada ponto no tempo na janela, mede a sua semelhança com todos os outros pontos no tempo. A medida de semelhança é o núcleo RBF:
A janela torna-se assim uma matriz de semelhança em que cada entrada é um valor de semelhança entre dois pontos no tempo. Já não se trata de uma série temporal - é uma topografia. Quais as fases que são semelhantes, quais as que não são, e como é que isso se distribui pela janela. Uma segunda matriz de semelhança compara cada ponto no tempo com o seu sucessor e contém a informação para a regra de transição. O quarto passo encontra o alfabeto: Aplica uma decomposição de valores próprios à primeira matriz de semelhança. Os maiores valores próprios mostram os padrões dominantes da topografia. Apenas os modos top-k permanecem, as primitivas de Leibniz da janela. O quinto passo constrói a regra de transição. No espaço dos modos dominantes, é construída uma pequena matriz que descreve exatamente como a janela evolui de um passo de tempo para o seguinte:
O sexto e último passo lê a essência. Aplica-se uma segunda decomposição de valores próprios a esta pequena matriz - desta vez uma que permite valores complexos. Cada modo torna-se um valor próprio complexo. A sua parte real é a taxa de crescimento, a sua parte imaginária é a frequência. Uma janela de várias centenas de valores brutos transforma-se assim em 2 × k valores - ou seja, vinte números para dez modos, que, em conjunto, transportam toda a dinâmica da janela. 05 - A implementação - O núcleo que faz as contasO que é notável na implementação não é a sua extensão, mas a sua brevidade. O que parece uma aula especializada em teoria é apenas algumas linhas precisas em PyTorch - sem que um único loop tenha de ser escrito. Todo o aparelho espetral reside em duas rotinas incorporadas para decomposições de valores próprios. Isto torna o codificador não só legível - torna-o totalmente diferenciável. Pode ser integrado em qualquer rede neuronal como uma camada e treinado por retropropagação.
O codificador não é, portanto, uma ferramenta de dados a montante, mas um componente integral da arquitetura. O que produz é uma impressão digital espetral da janela de observação: vinte valores que resumem o crescimento, a atenuação e a frequência dos modos de mercado dominantes. A forma como esta informação entra no modelo é a parte realmente interessante - e a razão pela qual este artigo foi escrito em primeiro lugar. 06 - A aplicação - o quebra-platôDurante a investigação da equipa, o grande modelo principal, um sistema baseado num transformador com ramos de saída especializados e vários planos temporais, atingiu repetidamente um patamar na Fase 4. A perda diminuiu claramente ao longo de seis a oito épocas e depois manteve-se estável. As métricas de validação aumentaram ligeiramente - a primeira indicação de uma adaptação incipiente às especificidades do treino. Os antídotos tradicionais não funcionaram. Reduzir a taxa de aprendizagem exacerbou os sintomas. Mais dados proporcionaram ligeiras melhorias que se perderam na variância de várias execuções. O problema era estrutural: o modelo tinha extraído tudo o que podia das caraterísticas estatísticas locais. O que ele precisava não era de outra otimização - mas de novas informações. É aqui que o codificador Koopman-Leibniz entra em ação, mas num papel para o qual não foi originalmente concebido. Em vez de ser o codificador primário em frente ao modelo, é utilizado como um canal de informação paralelo - um segundo canal de dados que alimenta os modos de mercado globais para o modelo já treinado em vários níveis de tempo. A ligação é feita através de uma camada de atenção cruzada: o modelo principal pede à impressão digital espetral a informação que lhe falta e integra a resposta nas suas representações internas. Esta extensão a meio do treino é normalmente arriscada. Um ramo adicional altera abruptamente a paisagem do gradiente. No pior dos casos, desestabiliza o que foi construído ao longo de semanas. É exatamente aqui que entra em jogo a segunda componente, quase mais importante, da experiência: a porta de zero-init. Diagrama 02 - O comportamento do portão no planalto
O portão é matematicamente uma única quantidade escalar - chamamos-lhe α. É inicializada com um valor exatamente igual a zero e multiplica a contribuição do novo canal espetral antes de voltar a fluir para o modelo principal:
Esta construção é o núcleo teórico. O segundo termo do lado direito é exatamente zero no início - não é pequeno, nem negligenciável, mas analiticamente zero. O modelo principal não vê qualquer alteração, continua a funcionar no seu cenário de perdas anterior, mantém todos os pesos estáveis. A única coisa que muda é que agora existe um parâmetro α com um gradiente definido. Se o caminho de retropropagação determinar que um aumento em α reduziria a perda, então - e somente então - o portão será aberto. Num patamar em que todos os outros gradientes desaparecem, o gradiente relativo a α é tipicamente o único que ainda tem um sinal claro. O optimizador não tem outra forma de reduzir a perda - por isso começa a aumentar α minimamente. O canal espetral começa então a fornecer informações ao modelo principal. A paisagem de perdas, que era apenas plana, toma uma nova direção. Rompe o patamar.
Esta construção é matematicamente elegante, mas duas propriedades tornam-na particularmente valiosa em aplicações de investigação. Em primeiro lugar, é uma extensão de risco zero: enquanto o modelo progredir sem ajuda, a extensão é ineficaz. Não há compromisso de estabilidade, não há perturbação da otimização em curso, não há nova afinação dos programas de treino. Em segundo lugar, não combate o sintoma do plateau, mas a causa. Os métodos tradicionais, como o ReduceLROnPlateau, abrandam o movimento quando este deixa de funcionar - fazem mais precisamente a coisa errada. Em vez disso, o quebra-platô acrescenta informações fundamentalmente novas ao modelo: modos de mercado globais em vários níveis de tempo que não estavam matematicamente presentes nas caraterísticas de entrada locais. No cânone mais amplo da investigação, este mecanismo está relacionado com métodos como o ReZero e o LayerScale - ambos trabalham com caminhos residuais cuja contribuição é controlada por um fator de escala aprendível que começa em zero. O que distingue o Plateau-Breaker é a sua função: a extensão residual não acrescenta profundidade à malha, mas uma classe específica de informação - modos de sistema espectrais que o codificador extrai explicitamente. Já não se trata da capacidade do modelo, mas de uma base de representação diferente. 07 - A piada - Três propriedades que funcionam em conjuntoOs métodos espectrais na análise de séries temporais não são novidade. O que torna a variante Koopman-Leibniz qualitativamente nova nesta combinação - codificador mais zero-init-gate mais cross-attention - são três propriedades que se reforçam mutuamente. É invariante de nível. Devido à normalização local por janela, o codificador vê movimentos e não níveis. O modelo que funciona com este mecanismo pode ser executado em qualquer sistema de dinâmica de mercado sem que os intervalos de valores absolutos desempenhem qualquer papel. É não-linear sem ter de inventar caraterísticas não-lineares. O núcleo RBF incorpora implicitamente os dados num espaço de dimensão infinita, no qual relações não lineares complicadas se tornam estruturas lineares. Ninguém tem de adivinhar quais os indicadores de que o sistema pode necessitar - a geometria dos dados gera ela própria as relações não lineares. Pode ser interpretada de forma espetral. O que chega à saída não são variáveis latentes misteriosas, mas valores de crescimento e frequência com um significado dinâmico claro. Se quiseres saber porque é que um modelo tomou uma determinada decisão numa determinada situação, podes olhar para a impressão digital espetral e ler literalmente o estado dinâmico em que o sistema se encontrava na altura.
Não há diferença semântica. Dar a um modelo séries temporais em bruto obriga-o a efetuar a tradução para a dinâmica - com toda a capacidade das suas matrizes de pesos e todo o esforço de treino. Dar-lhe a dinâmica antecipadamente liberta subitamente a capacidade que o modelo pode utilizar para as decisões reais. É o mesmo mecanismo que está por detrás dos objectivos auxiliares de formação especializada - pequenos resultados laterais que forçam a rede a reconstruir explicitamente quantidades relevantes nas camadas iniciais - apenas um nível mais profundo. Estes objectivos auxiliares forçam a espinha dorsal a compreender o mundo antes de decidir. O codificador Koopman-Leibniz força os dados de entrada a revelarem a sua dinâmica antes mesmo de chegarem ao modelo. Na configuração do "plateau-breaker", isto torna-se uma terceira propriedade: o modelo é autorizado a continuar a aprender exatamente quando tinha parado. 08 - Perspectivas - O que vem a seguirAs ferramentas matemáticas são todas do repertório clássico - Bernard Koopman 1931, Floris Takens 1981, o kernel RBF da caixa de ferramentas estatísticas padrão, técnicas de aprendizagem residual da pesquisa recente de aprendizagem profunda. O que mudou foi o hardware. Há algumas décadas, a decomposição de valores próprios era um esforço numérico sério. Hoje em dia, é feita numa passagem avançada do PyTorch na GPU em microssegundos - e, acima de tudo, diferenciável, ou seja, incorporável em qualquer pipeline de formação baseada em gradientes. Isto muda o que é considerado engenharia de caraterísticas. Em vez de selecionar indicadores à mão ou deixar que a rede crie as suas próprias representações, pode ser criada toda uma classe de codificadores que escrevem estruturas matemáticas - decomposições espectrais, topologias, operadores diferenciais - diretamente no fluxo de dados. O codificador Koopman-Leibniz é um exemplo disso. Combinado com as portas de zero-init, torna-se algo que tem faltado na prática atual do ML até à data: uma ferramenta que não combate o sintoma da estagnação da formação, mas sim a sua causa matemática. Surge assim uma linha divisória que ultrapassa a aplicação específica. As arquitecturas de IA dominantes hoje em dia - desde os grandes modelos linguísticos de empresas como a OpenAI, a Anthropic ou a Google DeepMind até aos mais recentes transformadores generativos - são essencialmente antropocêntricas na sua conceção (do grego ánthropos, "humano"): Modelam a linguagem humana, a perceção humana, a tomada de decisões humana e estão congelados num espaço de parâmetros discreto e aprendido, cuja geometria nunca abandonam após o treino. Os operadores de Koopman-Leibniz, por outro lado, trabalham num espaço espetral contínuo de leis invariantes do sistema. Isto abre um campo de investigação separado para além da classe de modelos centrados no ser humano: transformadores adaptativos generativos que não derivam a sua representação de dados humanos, mas da dinâmica do próprio sistema observado. Os testes actuais mostram que o codificador não ultrapassa o patamar acrescentando capacidade, mas filtrando a dinâmica do sistema de forma mais precisa. Actua como um gatilho seletivo - permanece inativo nas fases em que o modelo converge de forma independente e só intervém quando o gradiente ameaça estagnar. Assim, o sistema ganha estabilidade sem comprometer o vocabulário de caraterísticas existente e aprendido.
Procura mais:
Artigos relevantes
Publica um comentário aqui...
|
|