|
Yapay Zeka
koopman-Leibniz: Platoyu aşan matematikModern yapay zeka modelleri geliştiren herkes bu ana aşinadır: başlangıçta her şey mükemmel gidiyor, eğri dik bir şekilde yukarı doğru işaret ediyor - ve sonra aniden hiçbir şey çalışmıyor. Sistem durgunlaşır. Daha fazla sunucu gücü veya daha uzun çalışma süreleri gibi olağan BT hileleri genellikle sorunu yalnızca birkaç gün erteler. Koopman-Leibniz kodlayıcısı olarak adlandırılan yeni bir araştırma yaklaşımı artık bu ablukayı kırıyor: kaba hesaplama gücüyle değil, sistem verilerinin tamamen yeni ve akıllıca yapılandırılmasıyla.
1 - Eğitim platosu - Gradyan kaybolduğundaKantitatif finansal veriler, son derece düşük sinyal/gürültü oranına sahip yüksek korelasyonlu verilerdir. Birincil zorluk, bir gözlem penceresinden ham değerlerin sıralı dizisini değil, gizli sistem dinamiklerini - geçici darbeler, döngüsel geri dönüşler ve enerjik durum değişiklikleri - çıkarmaktır. Bu yapılar stokastik gürültü içinde kaybolduğundan, standart bir mimari sadece temsil oluşturma kapasitesinin orantısız bir miktarını tüketir. Model bir platoya ulaşırsa, kayıp gradyanı (∇ℒ) çöker. Optimize edici bu düz parametre bölgesinde yön kararlılığını kaybeder çünkü gradyan bileşenleri sıfıra yakınsar. Bu noktada, ağ yalnızca önemsiz, baskın varyans bileşenlerini öğrenmiştir. Piyasanın daha derin, öngörülü yapılarına ulaşılamaz, çünkü ağın mevcut matematiksel kelime dağarcığı bunları gürültüden temiz bir şekilde izole etmek için yeterli değildir. AdamW gibi uyarlanabilir optimizasyon yöntemleri burada sistemik bir çözüm sunmamaktadır: ölçeklendirmeyi düzeltmelerine rağmen, beklenen değeri ortalama olarak sıfır olan bir vektör alanından bir yön çıkaramazlar. Öğrenme oranının geleneksel olarak azaltılması(ReduceLROnPlateau) bile bu durgunluğu kırmaz. Sadece onu sağlamlaştırır. Ağ düz bölgede kalır ve eğitim verilerinin yüksek frekanslı gürültü yapılarını ezberlemeye başlar - aşırı uyuma giden doğrudan yol, bu da doğrulama metriğinin zaman gecikmesiyle bozulmasına neden olur.
2 - Temel - Koopman: Hareket doğrusal cebire dönüştüğündeAmerikalı matematikçi Bernard Koopman, o zamanlar neredeyse hiç kimsenin ihtiyaç duymadığı ve son on yılda veriye dayalı dinamiklerle ilgili her ders kitabında kendine yer bulan bir makale yayınladı. İlk bakışta fikri paradoksaldır: bir sistem doğrusal olmayan karmaşık bir şekilde hareket ediyorsa, yine de doğrusal olarak tanımlanabilir - eğer gelişen şeyin durumların kendileri değil, durumlar üzerindeki fonksiyonlar olduğu sonsuz boyutlu bir uzaya geçmeye hazırsanız. Bu kulağa kötü bir değiş tokuş gibi geliyor - sonsuz boyutlu doğrusal bir probleme karşılık sonlu boyutlu doğrusal olmayan bir problem. Gerçekte bu mükemmel bir değiş tokuştur, çünkü doğrusal operatörler doğrusal olmayan fonksiyonların genellikle sahip olmadığı bir şeye sahiptir: bir spektrum. Özdeğerler ve özvektörler. Açık, ayrıştırılabilir yapı taşları. Bir sistemin Koopman operatörünü bilen herkes onun özmodlarını da bilir - tıpkı her sesin saf sinüs tonlarından oluşması gibi, her gerçek hareketin oluştuğu temel salınım modelleri. Hiç kimse bir piyasa dinamiği sisteminin Koopman operatörünü tam olarak hesaplayamaz. Ancak verilerden sonlu boyutlu bir yaklaşımı öğrenmek mümkündür - bu yönteme Dinamik Mod Ayrıştırma ya da kısaca DMD denir. Kodlayıcı tarafından kullanılan çekirdek tabanlı varyantında, özdeğerleri iki soruyu tam olarak yanıtlayan bir gözlem penceresinden otomatik olarak küçük bir matris elde edilir: bu dinamik ne kadar hızlı salınır ve enerji kazanır mı yoksa kaybeder mi? Diyagram 01 - Karmaşık bir özdeğer ne anlama gelir
Bu harita, kodlayıcıyı anlamak için gereken merkezi görselleştirmedir. Bir gözlem penceresi bu karmaşık düzlemde on nokta ile eşleştirilir. Her nokta, sistemin o anda içerdiği bağımsız bir hareket türüdür. Gerçek kısım size bu hareketin hız kazanıp kazanmadığını ya da hızının tükenip tükenmediğini; hayali kısım ise ne kadar hızlı salınım yaptığını söyler. Tüm pencere bu on noktadan, yüzlerce ham sayı üzerinden sapmalar olmadan yeniden yapılandırılabilir. 03 - Spektral indirgeme - sistem ilkellerini izole etmeKoopman uzayının modellenmesindeki yapısal zorluk sayısal hantallığında yatmaktadır: yapı itibariyle sonsuz boyutludur. Bu boyutluluğun matematiksel ustalığı, Gottfried Wilhelm Leibniz'in Characteristica Universalis 'i ve Ars Combinatoria'sı ile doğrudan paralellik göstermektedir. Alphabetum cogitationum humanarum ile Leibniz, karmaşık, sürekli dinamiklerin izini sonlu bir ortogonal, bölünemez temel kavramlar kümesine ( notiones primitivae ) kadar süren evrensel bir sistem öne sürmüştür. Karmaşıklık burada kaotik bir süreklilik olarak değil, ayrık, ilkel yapı taşlarının doğrusal bir kombinasyonu olarak anlaşılmaktadır. Algoritmik olarak, bu rasyonel indirgeme, RBF çekirdeğinin dolaylı olarak kapsadığı Hilbert uzayı ℋ içindeki rütbe kesmesinin temelini oluşturur. Benzerlik matrisi K₀ gözlem penceresinin tam ve gürültülü yörüngesini kodlarken, sonraki simetrik özdeğer ayrışımı k baskın özmodları izole eder. Bu, ilkel izolasyonun resmi eylemidir - düşük boyutlu, Koopman ile değişmeyen alt uzaya bir projeksiyon:
Bu kesme işlemi, kodlayıcının birincil düzenleme mekanizması olarak çalışır. Filtrelenmemiş spektrum üzerinde çalışan bir sinir ağı kaçınılmaz olarak eğitim örneğinin yüksek frekanslı, stokastik tekilliklerini hafızasına alır. Mimari, sinyali k baskın ilkeye sıkıştırarak matematiksel bir soyutlamayı zorunlu kılar: aşağı akış katmanları belirli bir pencerenin geçici gürültü yapılarını değil, sistem dinamiklerinin değişmez jeneratörlerini çıkarır. 04 - Makine - Ham sinyalden spektral parmak izineKodlayıcının dahili olarak yaptığı şey, her biri belirli bir sorunu çözen altı ardışık adım olarak okunabilir. Temel adımları matematiksel olarak gözden geçiriyoruz - bir kod kılavuzu olarak değil, her durumda bir soruyu yanıtlayan bir argümantasyon olarak. İlk adım karşılaştırılabilirliği sağlar. Hemen ardından gelen çekirdek, üstel bir işlevdeki mesafelerle çalışır. Giriş değerleri sayısal olarak büyükse, üstel fonksiyon sıfıra çöker ve tüm boru hattı yalnızca sıfırlar üretir. Bu nedenle her pencere yerel olarak standartlaştırılmıştır.
İkinci adım, geçmişi bir duruma dönüştürür. Tek bir gözlem neredeyse hiçbir şey söylemez. Dinamik, birbirini izleyen durumlar arasındaki ilişkidir. Pencere iki zaman kaydırmalı versiyona ayrılır - ilki sondan bir önceki adıma kadar olan gözlemleri, ikincisi ise ikinci adımdan sonuna kadar olan gözlemleri içerir. Geçiş kuralı daha sonra bu iki versiyonun karşılaştırılmasından türetilecektir. Bu eski Takens fikridir: ilerleme durumdur. Üçüncü adım ise asıl matematiksel numaradır: geometri olarak benzerlik. Kodlayıcı, göstergeleri elle icat etmek yerine verilerin geometrisinin kendi adına konuşmasına izin verir. Penceredeki her bir zaman noktası için, zaman içindeki diğer tüm noktalara ne kadar benzer olduğunu ölçer. Benzerlik ölçüsü RBF çekirdeğidir:
Böylece pencere, her bir girdinin zaman içindeki iki nokta arasındaki benzerlik değeri olduğu bir benzerlik matrisi haline gelir. Bu artık bir zaman serisi değil, bir topografyadır. Hangi aşamalar benzer, hangileri değil ve bu pencere boyunca nasıl dağılıyor. İkinci bir benzerlik matrisi her bir zaman noktasını ardılı ile karşılaştırır ve geçiş kuralı için bilgi taşır. Dördüncü adım alfabeyi bulur: İlk benzerlik matrisine bir özdeğer ayrıştırması uygulanır. En büyük özdeğerler topografyanın baskın modellerini gösterir. Geriye sadece pencerenin Leibniz ilkelleri olan en iyi k modları kalır. Beşinci adım geçiş kuralını oluşturur. Baskın modların uzayında, pencerenin bir zaman adımından diğerine nasıl geliştiğini tam olarak açıklayan küçük bir matris oluşturulur:
Altıncı ve son adım özü okur. Bu küçük matrise ikinci bir özdeğer ayrıştırması uygulanır - bu kez karmaşık değerlere izin veren bir matris. Her mod karmaşık bir özdeğer haline gelir. Gerçek kısmı büyüme oranı, hayali kısmı ise frekanstır. Böylece birkaç yüz ham değerden oluşan bir pencere 2 × k değerine dönüşür - yani on mod için yirmi sayı, birlikte pencerenin tüm dinamiğini taşır. 05 - Uygulama - Matematiği yapan çekirdekUygulama hakkında dikkat çekici olan şey uzunluğu değil, kısalığıdır. Teoride özel bir ders gibi görünen şey, PyTorch'ta sadece birkaç kesin satırdır - tek bir döngü yazılması gerekmeden. Tüm spektral aygıt, özdeğer ayrıştırmaları için iki yerleşik rutinde yaşıyor. Bu, kodlayıcıyı yalnızca okunabilir kılmakla kalmaz, aynı zamanda tamamen türevlenebilir hale getirir. Herhangi bir sinir ağına bir katman olarak yerleştirilebilir ve geriye yayılım ile eğitilebilir.
Bu nedenle kodlayıcı bir üst veri aracı değil, mimarinin ayrılmaz bir bileşenidir. Ürettiği şey, gözlem penceresinin spektral bir parmak izidir: baskın piyasa modlarının büyümesini, zayıflamasını ve frekansını özetleyen yirmi değer. Bu bilginin modele nasıl girdiği asıl ilginç olan kısımdır - ve bu makalenin ilk olarak yazılmasının nedenidir. 06 - Uygulama - plato kırıcıEkibin araştırması sırasında, özel çıkış dalları ve çoklu zaman düzlemleri olan Transformatör tabanlı bir sistem olan büyük ana model, Aşama 4'te tekrar tekrar plato çizdi. Kayıp altı ila sekiz epok boyunca temiz bir şekilde düştü, ardından sabit kaldı. Doğrulama ölçümleri hafifçe arttı - bu da eğitim özelliklerine yeni başlayan adaptasyonun ilk göstergesiydi. Geleneksel panzehirler işe yaramadı. Öğrenme hızının düşürülmesi semptomları daha da kötüleştirdi. Daha fazla veri, birden fazla çalıştırmanın varyansında kaybolan hafif iyileştirmeler sağladı. Sorun yapısaldı: model yerel istatistiksel özelliklerden çıkarabileceği her şeyi çıkarmıştı. İhtiyacı olan şey başka bir optimizasyon değil, yeni bilgilerdi. İşte Koopman-Leibniz kodlayıcısı burada devreye giriyor, ancak başlangıçta amaçlanmadığı bir rolde. Modelin önündeki birincil kodlayıcı olmak yerine, paralel bir bilgi kanalı olarak kullanılır - küresel piyasa modlarını çeşitli zaman seviyelerinde zaten eğitilmiş modele besleyen ikinci bir veri hattı. Bağlantı bir çapraz dikkat katmanı aracılığıyla yapılır: ana model spektral parmak izinden eksik olduğu bilgileri ister ve cevabı kendi iç temsillerine entegre eder. Eğitimin ortasında böyle bir genişletme genellikle risklidir. Ek bir dal, gradyan manzarasını aniden değiştirir. En kötü durumda, haftalar boyunca inşa edilen yapının dengesini bozar. İşte tam da bu noktada deneyin ikinci ve neredeyse daha önemli bileşeni devreye giriyor: sıfır-init kapısı. Diyagram 02 - Platodaki kapı davranışı
Geçit matematiksel olarak tek bir skaler niceliktir - biz buna α diyoruz. Tam olarak sıfır değeriyle başlatılır ve ana modele geri akmadan önce yeni spektral kanalın katkısını çarpar:
Bu yapı teorik çekirdeği oluşturmaktadır. Sağ taraftaki ikinci terim başlangıçta tam olarak sıfırdır - küçük değil, ihmal edilebilir değil, analitik olarak sıfırdır. Ana model hiçbir değişiklik görmez, önceki kayıp manzarasında çalışmaya devam eder, tüm ağırlıkları sabit tutar. Değişen tek şey, artık tanımlanmış bir gradyana sahip bir α parametresinin olmasıdır. Geriye yayılma yolu α 'daki bir artışın kaybı azaltacağını belirlerse, o zaman - ve ancak o zaman - kapı açılacaktır. Diğer tüm gradyanların kaybolduğu bir platoda, α ile ilgili gradyan tipik olarak hala net bir sinyal taşıyan tek gradyandır. Optimize edicinin kaybı azaltmak için başka bir yolu yoktur - bu nedenle α 'yı minimum düzeyde artırmaya başlar. Spektral kanal daha sonra ana modele bilgi beslemeye başlar. Sadece düz olan kayıp manzarası yeni bir yön alır. Plato kırılır.
Bu yapı matematiksel olarak zariftir, ancak iki özelliği onu araştırma uygulamalarında özellikle değerli kılmaktadır. Birincisi, sıfır riskli bir genişletmedir: model yardım almadan ilerlediği sürece, genişletme etkisizdir. İstikrardan ödün verilmez, devam eden optimizasyon kesintiye uğramaz, eğitim programlarında yeni bir ayarlama yapılmaz. İkinci olarak, platonun belirtisiyle değil, nedeniyle mücadele eder. ReduceLROnPlateau gibi geleneksel yöntemler, çalışmayı durdurduğunda hareketi yavaşlatır - daha doğrusu yanlış şeyi yaparlar. Plato kırıcı bunun yerine modele temelde yeni bilgiler ekler: yerel girdi özelliklerinde matematiksel olarak mevcut olmayan çoklu zaman seviyelerindeki küresel piyasa modları. Daha geniş araştırma kanonunda bu mekanizma ReZero ve LayerScale gibi yöntemlerle ilişkilidir - her ikisi de katkısı sıfırdan başlayan öğrenilebilir bir ölçekleme faktörü tarafından kontrol edilen artık yollarla çalışır. Plateau-Breaker'ı farklı kılan ise işlevidir: artık uzantı ağa derinlik katmaz, belirli bir bilgi sınıfı ekler - kodlayıcının açıkça çıkardığı spektral sistem modları. Artık model kapasitesi değil, farklı bir temsil esası söz konusudur. 07 - Can alıcı nokta - Birlikte çalışan üç özellikZaman serisi analizinde spektral yöntemler yeni bir şey değildir. Koopman-Leibniz varyantını bu kombinasyonda niteliksel olarak yeni kılan şey - kodlayıcı artı sıfır giriş kapısı artı çapraz dikkat - birbirini güçlendiren üç özelliktir. Seviye değişmezdir. Pencere başına yerel normalizasyon nedeniyle, kodlayıcı seviyeleri değil hareketleri görür. Bu mekanizma ile çalışan model, mutlak değer aralıkları hiçbir zaman rol oynamadan herhangi bir piyasa dinamiği sistemi üzerinde çalışabilir. Doğrusal olmayan özellikler icat etmek zorunda kalmadan doğrusal değildir. RBF çekirdeği, verileri karmaşık doğrusal olmayan ilişkilerin doğrusal yapılar haline geldiği sonsuz boyutlu bir uzaya dolaylı olarak yerleştirir. Kimse sistemin hangi göstergelere ihtiyaç duyabileceğini tahmin etmek zorunda değildir - verilerin geometrisi doğrusal olmayan ilişkileri kendisi üretir. Spektral olarak yorumlanabilir. Çıktıya ulaşan şey gizemli gizli değişkenler değil, net bir dinamik anlamı olan büyüme ve frekans değerleridir. Bir modelin belirli bir durumda neden belirli bir karar verdiğini bilmek istiyorsanız, spektral parmak izine bakabilir ve sistemin o anda içinde bulunduğu dinamik durumu tam anlamıyla okuyabilirsiniz.
Anlamsal bir fark yoktur. Bir modele ham zaman serileri vermek, onu ağırlık matrislerinin tüm kapasitesi ve eğitimin tüm çabasıyla dinamiğe çevirme işlemini kendisi yapmaya zorlar. Dinamikleri önceden vermek, modelin gerçek kararlar için kullanabileceği kapasiteyi aniden serbest bırakır. Bu, özel eğitim yardımcı hedeflerinin arkasındaki aynı mekanizmadır - ağı erken katmanlardaki ilgili büyüklükleri açıkça yeniden yapılandırmaya zorlayan küçük yan çıktılar - sadece bir seviye daha derin. Bu tür yardımcı hedefler, omurgayı karar vermeden önce dünyayı anlamaya zorlar. Koopman-Leibniz kodlayıcı, girdi verilerini daha modele ulaşmadan dinamiklerini ortaya çıkarmaya zorlar. Plato kırıcı kurulumunda bu üçüncü bir özellik haline gelir: modelin tam olarak durduğu anda öğrenmeye devam etmesine izin verilir. 08 - Genel Bakış - Sırada ne varMatematiksel araçların hepsi klasik repertuardan - Bernard Koopman 1931, Floris Takens 1981, standart istatistiksel araç kutusundan RBF çekirdeği, son derin öğrenme araştırmalarından artık öğrenme teknikleri. Değişen şey donanımdır. Birkaç on yıl önce, özdeğer ayrıştırması ciddi bir sayısal çabaydı. Bugün ise GPU üzerinde PyTorch ileri geçişiyle mikrosaniyeler içinde yapılabiliyor ve hepsinden önemlisi farklılaştırılabiliyor, yani herhangi bir gradyan tabanlı eğitim hattına yerleştirilebiliyor. Bu, özellik mühendisliği olarak kabul edilen şeyi değiştirir. Göstergeleri elle seçmek veya kendi temsillerini bulmayı ağa bırakmak yerine, matematiksel yapıları (spektral ayrışımlar, topolojiler, diferansiyel operatörler) doğrudan veri akışına yazan bütün bir kodlayıcı sınıfı oluşturulabilir. Koopman-Leibniz kodlayıcı bunun bir örneğidir. Sıfır başlangıçlı kapılarla birleştirildiğinde, bugüne kadar mevcut makine öğrenimi uygulamalarında eksik olan bir şey haline gelir: durgun eğitimin semptomuyla değil, matematiksel nedeniyle mücadele eden bir araç. Böylece belirli bir uygulamanın ötesine geçen bir ayrım çizgisi ortaya çıkıyor. Günümüzün baskın YZ mimarileri - OpenAI, Anthropic veya Google DeepMind gibi şirketlerin büyük dil modellerinden en yeni üretken dönüştürücülere kadar - tasarım açısından esasen antroposentriktir (Yunanca ánthropos, "insan"): İnsan dilini, insan algısını, insan karar verme mekanizmasını modellerler ve eğitimden sonra geometrisini asla terk etmedikleri öğrenilmiş, ayrık bir parametre uzayında dondurulurlar. Öte yandan Koopman-Leibniz operatörleri, değişmez sistem yasalarının sürekli bir spektral uzayında çalışır. Bu, insan merkezli model sınıfının ötesinde ayrı bir araştırma alanı açmaktadır: temsillerini insan verilerinden değil, gözlemlenen sistemin kendi dinamiklerinden türeten üretken uyarlanabilir dönüştürücüler. Mevcut testler, kodlayıcının platoyu kapasite ekleyerek değil, sistem dinamiklerini daha hassas bir şekilde filtreleyerek aştığını göstermektedir. Seçici bir tetikleyici olarak hareket eder - modelin bağımsız olarak yakınsadığı aşamalarda pasif kalır ve yalnızca gradyan durgunluğu tehdit ettiğinde müdahale eder. Sistem böylece mevcut, öğrenilmiş özellik dağarcığından ödün vermeden istikrar kazanır.
Daha fazla bak:
İlgili makaleler |
|