|
Kecerdasan buatan
koopman-Leibniz: Matematika yang menembus dataran tinggiSiapa pun yang mengembangkan model AI modern pasti sudah tidak asing lagi dengan momen ini: pada awalnya semuanya berjalan dengan sempurna, kurva mengarah ke atas dengan curam - lalu tiba-tiba tidak ada yang berfungsi sama sekali. Sistem mandek. Trik TI yang biasa dilakukan seperti menambah daya server atau waktu kerja yang lebih lama biasanya hanya menunda masalah selama beberapa hari. Sebuah pendekatan baru dari penelitian - yang disebut penyandi Koopman-Leibniz - sekarang memecah blokade ini: bukan melalui daya komputasi yang kasar, tetapi melalui penataan data sistem yang sama sekali baru dan cerdas.
01 - Dataran tinggi pelatihan - Ketika gradien menghilangData keuangan kuantitatif adalah data yang sangat berkorelasi dengan rasio signal-to-noise yang sangat rendah. Tantangan utamanya adalah mengekstrak dari jendela pengamatan bukan urutan berurutan dari nilai mentah, tetapi dinamika sistem yang tersembunyi - pulsa transien, pembalikan siklik, dan perubahan keadaan energik. Karena struktur-struktur ini hilang dalam derau stokastik, arsitektur standar menghabiskan sebagian besar kapasitasnya secara tidak proporsional untuk pembentukan representasi saja. Jika model mencapai dataran tinggi, gradien kerugian (∇ℒ) akan runtuh. Pengoptimal kehilangan stabilitas arahnya di wilayah parameter datar ini karena komponen gradien menyatu menjadi nol. Pada titik ini, jaringan hanya mempelajari komponen varians dominan yang sepele. Struktur pasar yang lebih dalam dan prediktif masih belum terjangkau, karena kosakata matematika jaringan saat ini tidak cukup untuk mengisolasi mereka dengan bersih dari noise. Metode optimasi adaptif seperti AdamW tidak menawarkan solusi sistemik di sini: meskipun metode ini mengoreksi penskalaan, metode ini tidak dapat mengekstrak arah dari bidang vektor yang nilai ekspektasinya rata-rata nol. Bahkan pengurangan laju pembelajaran konvensional(ReduceLROnPlateau) tidak dapat mematahkan stagnasi ini. Itu hanya memperkuatnya. Jaringan tetap berada di zona datar dan mulai mengingat struktur noise frekuensi tinggi dari data pelatihan - jalur langsung menuju overfitting, yang menyebabkan metrik validasi menurun dengan penundaan waktu.
02 - Fondasi - Koopman: Ketika gerakan menjadi aljabar linierMatematikawan Amerika Bernard Koopman menerbitkan sebuah makalah 1931 yang hampir tidak dibutuhkan siapa pun pada saat itu dan yang telah menemukan jalannya ke dalam setiap buku teks tentang dinamika berbasis data selama sepuluh tahun terakhir. Sekilas, idenya bersifat paradoks: jika sebuah sistem bergerak dengan cara non-linier yang rumit, sistem tersebut masih dapat digambarkan secara linier - jika Anda siap untuk beralih ke ruang berdimensi tak terbatas di mana bukan keadaan itu sendiri yang berkembang, tetapi fungsi-fungsi di atas keadaan. Ini terdengar seperti pertukaran yang buruk - masalah non-linier berdimensi terbatas untuk masalah linier berdimensi tak terbatas. Pada kenyataannya, ini adalah pertukaran yang sangat baik, karena operator linier memiliki sesuatu yang biasanya tidak dimiliki oleh fungsi non-linier: spektrum. Nilai eigen dan vektor eigen. Blok bangunan yang jelas dan dapat diuraikan. Siapa pun yang mengetahui operator Koopman dari sebuah sistem akan mengetahui eigenmode-nya - pola osilasi fundamental yang menjadi dasar dari setiap gerakan yang sebenarnya, seperti halnya setiap suara yang terdiri dari nada sinus murni. Tidak ada yang bisa menghitung operator Koopman yang tepat dari sistem dinamika pasar. Namun, kita dapat mempelajari perkiraan dimensi terbatas dari data - metode ini disebut Dekomposisi Mode Dinamis, atau disingkat DMD. Dalam varian berbasis kernel, seperti yang digunakan oleh encoder, sebuah matriks kecil secara otomatis diperoleh dari jendela observasi yang nilai eigennya secara tepat menjawab dua pertanyaan: seberapa cepat dinamika ini berosilasi, dan apakah dinamika ini mendapatkan atau kehilangan energi. Diagram 01 - Apa arti nilai eigen yang kompleks
Peta ini adalah visualisasi utama yang diperlukan untuk memahami penyandi. Jendela pengamatan dipetakan ke sepuluh titik dalam bidang yang kompleks ini. Setiap titik adalah jenis gerakan independen yang saat ini dimiliki oleh sistem. Bagian yang nyata memberi tahu Anda apakah gerakan ini menambah kecepatan atau kehabisan kecepatan; bagian imajiner memberi tahu Anda seberapa cepat gerakan itu berosilasi. Seluruh jendela dapat direkonstruksi dari sepuluh titik ini, tanpa pengalihan melalui beberapa ratus angka mentah. 03 - Pengurangan spektral - mengisolasi primitif sistemTantangan struktural dalam memodelkan ruang Koopman terletak pada ketidakberdayaan numeriknya: ruang ini berdimensi tak terbatas secara konstruksi. Penguasaan matematis dari dimensi ini menarik paralel langsung dengan Characteristica Universalis dari Gottfried Wilhelm Leibniz dan Ars Combinatoria-nya. Dengan Alphabetum cogitationum humanarum, Leibniz mendalilkan sebuah sistem universal yang melacak dinamika yang kompleks dan terus menerus kembali ke seperangkat konsep dasar ortogonal yang tak terpisahkan - notiones primitivae. Kompleksitas tidak dipahami di sini sebagai sebuah kontinum yang kacau, tetapi sebagai kombinasi linier dari blok bangunan yang diskrit dan primitif. Secara algoritmik, reduksi rasional ini membentuk fondasi untuk pemotongan pangkat dalam ruang Hilbert ℋ, yang secara implisit dijangkau oleh kernel RBF. Sementara matriks kemiripan K₀ mengkodekan lintasan lengkap dan berisik dari jendela observasi, dekomposisi nilai eigen simetris selanjutnya mengisolasi k eigenmode dominan. Ini adalah tindakan formal dari isolasi primitif - proyeksi ke subruang Koopman-invariant berdimensi rendah:
Pemotongan ini beroperasi sebagai mekanisme regularisasi utama dari encoder. Jaringan saraf yang beroperasi pada spektrum tanpa filter pasti akan mengingat frekuensi tinggi, singularitas stokastik dari sampel pelatihan. Dengan memampatkan sinyal ke k primitif dominan, arsitektur ini menerapkan abstraksi matematis: lapisan hilir tidak mengekstrak struktur derau fana dari jendela tertentu, tetapi generator invarian dari dinamika sistem. 04 - Mesin - Dari sinyal mentah hingga sidik jari spektralApa yang dilakukan oleh encoder secara internal dapat dibaca sebagai enam tahap yang berurutan, yang masing-masing memecahkan masalah tertentu. Kami membahas langkah-langkah utama secara matematis - bukan sebagai penelusuran kode, tetapi sebagai argumentasi yang menjawab pertanyaan dalam setiap kasus. Langkah pertama menetapkan perbandingan. Kernel yang mengikuti segera bekerja dengan jarak dalam fungsi eksponensial. Jika nilai masukannya besar secara numerik, fungsi eksponensial akan runtuh menjadi nol dan seluruh pipeline hanya menghasilkan angka nol. Oleh karena itu, setiap jendela distandarisasi secara lokal.
Langkah kedua mengubah sejarah menjadi keadaan. Sebuah pengamatan tunggal hampir tidak mengatakan apa-apa. Dinamika adalah hubungan antara keadaan yang berurutan. Jendela dibagi menjadi dua versi yang ditunda waktu - yang pertama berisi pengamatan hingga langkah kedua dari belakang, yang kedua pengamatan dari langkah kedua hingga akhir. Aturan transisi nantinya akan diturunkan dari perbandingan kedua versi ini. Ini adalah ide Takens yang lama: perkembangan adalah keadaan. Langkah ketiga adalah trik matematika yang sebenarnya: kemiripan sebagai geometri. Alih-alih menciptakan indikator secara manual, encoder membiarkan geometri data berbicara sendiri. Untuk setiap titik waktu dalam jendela, ia mengukur seberapa miripnya dengan semua titik waktu lainnya. Ukuran kemiripannya adalah kernel RBF:
Dengan demikian, jendela tersebut menjadi matriks kemiripan di mana setiap entri adalah nilai kemiripan antara dua titik waktu. Ini bukan lagi deret waktu - ini adalah topografi. Fase mana yang mirip, mana yang tidak, dan bagaimana hal ini didistribusikan di seluruh jendela. Matriks kemiripan kedua membandingkan setiap titik waktu dengan penggantinya dan akan membawa informasi untuk aturan transisi. Langkah keempat menemukan alfabet: Dekomposisi nilai eigen diterapkan pada matriks kemiripan pertama. Nilai eigen terbesar menunjukkan pola dominan dari topografi. Hanya mode k teratas yang tersisa, primitif Leibniz dari jendela. Langkah kelima membangun aturan transisi. Di dalam ruang mode dominan, sebuah matriks kecil dibangun yang menggambarkan dengan tepat bagaimana jendela berevolusi dari satu langkah waktu ke langkah waktu berikutnya:
Langkah keenam dan terakhir membacakan intinya. Dekomposisi nilai eigen kedua diterapkan pada matriks kecil ini - kali ini yang memungkinkan untuk nilai yang kompleks. Setiap mode menjadi nilai eigen yang kompleks. Bagian riilnya adalah tingkat pertumbuhan, bagian imajinernya adalah frekuensi. Sebuah jendela yang terdiri dari beberapa ratus nilai mentah menjadi nilai 2 × k - yaitu dua puluh angka untuk sepuluh mode, yang bersama-sama membawa seluruh dinamika jendela. 05 - Implementasi - Inti yang melakukan perhitunganYang luar biasa dari implementasi ini bukanlah panjangnya, tetapi ringkasnya. Apa yang terdengar seperti kuliah khusus dalam teori hanyalah beberapa baris yang tepat dalam PyTorch - tanpa satu pun perulangan yang harus ditulis. Seluruh peralatan spektral berada dalam dua rutinitas bawaan untuk dekomposisi nilai eigen. Hal ini membuat penyandi tidak hanya dapat dibaca - tetapi juga membuatnya dapat dibedakan sepenuhnya. Ini dapat dibangun ke dalam jaringan saraf apa pun sebagai lapisan dan dilatih dengan backpropagation.
Oleh karena itu, encoder bukanlah alat data hulu, tetapi merupakan komponen integral dari arsitektur. Apa yang dihasilkannya adalah sidik jari spektral dari jendela observasi: dua puluh nilai yang merangkum pertumbuhan, pelemahan, dan frekuensi mode pasar yang dominan. Bagaimana informasi ini masuk ke dalam model adalah bagian yang sangat menarik - dan alasan mengapa artikel ini ditulis. 06 - Aplikasi - pemecah dataran tinggiSelama penelitian tim, model utama yang besar, sistem berbasis Transformer dengan cabang keluaran khusus dan beberapa bidang waktu, berulang kali mengalami plateau di Tahap 4. Kerugiannya turun drastis selama enam hingga delapan zaman, kemudian tetap datar. Metrik validasi sedikit meningkat - indikasi pertama dari adaptasi yang baru jadi terhadap pelatihan yang spesifik. Penangkal tradisional tidak berhasil. Menurunkan tingkat pembelajaran memperburuk gejala. Lebih banyak data memberikan sedikit perbaikan yang hilang dalam varians dari beberapa kali proses. Masalahnya bersifat struktural: model telah mengekstraksi semua yang bisa dilakukannya dari fitur statistik lokal. Yang dibutuhkan bukanlah optimasi lain - tetapi informasi baru. Di sinilah penyandi Koopman-Leibniz berperan, tetapi dalam peran yang tidak dimaksudkan pada awalnya. Alih-alih menjadi penyandi utama di depan model, ini digunakan sebagai saluran informasi paralel - saluran data kedua yang memberi makan mode pasar global ke model yang sudah dilatih selama beberapa tingkat waktu. Koneksi dibuat melalui lapisan perhatian silang: model utama meminta sidik jari spektral untuk informasi yang tidak ada dan mengintegrasikan jawabannya ke dalam representasi internalnya. Perluasan seperti itu di tengah-tengah pelatihan biasanya berisiko. Cabang tambahan mengubah lanskap gradien secara tiba-tiba. Dalam kasus terburuk, hal ini mengacaukan apa yang telah dibangun selama berminggu-minggu. Di sinilah komponen kedua yang hampir lebih penting dari eksperimen ini berperan: gerbang zero-init. Diagram 02 - Perilaku gerbang di dataran tinggi
Gerbang secara matematis merupakan kuantitas skalar tunggal - kita menyebutnya α. Diinisialisasi dengan nilai tepat nol dan mengalikan kontribusi saluran spektral baru sebelum mengalir kembali ke model utama:
Konstruksi ini adalah inti teoritis. Suku kedua di sisi kanan tepat nol di awal - tidak kecil, tidak dapat diabaikan, tetapi secara analitis nol. Model utama tidak mengalami perubahan, terus berjalan pada lanskap kerugian sebelumnya, menjaga semua bobot tetap stabil. Satu-satunya hal yang berubah adalah sekarang ada parameter α dengan gradien yang ditentukan. Jika jalur backpropagation menentukan bahwa peningkatan α akan mengurangi kerugian, maka - dan hanya pada saat itu - gerbang akan terbuka. Pada dataran tinggi di mana semua gradien lainnya menghilang, gradien yang berhubungan dengan α biasanya merupakan satu-satunya gradien yang masih membawa sinyal yang jelas. Pengoptimal tidak memiliki cara lain untuk mengurangi kehilangan - jadi pengoptimal mulai meningkatkan α secara minimal. Saluran spektral kemudian mulai memasukkan informasi ke dalam model utama. Lanskap loss yang tadinya datar, berubah ke arah yang baru. Dataran tinggi pecah.
Konstruksi ini secara matematis sangat elegan, tetapi ada dua sifat yang membuatnya sangat berharga dalam aplikasi penelitian. Pertama, ini adalah ekstensi tanpa risiko: selama model berjalan tanpa bantuan, ekstensi tidak efektif. Tidak ada pertukaran stabilitas, tidak ada gangguan pada optimasi yang sedang berjalan, tidak ada penyetelan baru pada jadwal pelatihan. Kedua, ini tidak memerangi gejala plateau, tetapi penyebabnya. Metode tradisional seperti ReduceLROnPlateau memperlambat gerakan ketika berhenti bekerja - mereka melakukan hal yang salah dengan lebih tepat. Pemecah plateau justru menambahkan informasi baru yang fundamental pada model: mode pasar global di berbagai tingkat waktu yang tidak ada secara matematis dalam fitur input lokal. Dalam kanon penelitian yang lebih luas, mekanisme ini terkait dengan metode seperti ReZero dan LayerScale - keduanya bekerja dengan jalur residual yang kontribusinya dikontrol oleh faktor penskalaan yang dapat dipelajari yang dimulai dari nol. Yang membedakan Plateau-Breaker adalah fungsinya: ekstensi residual tidak menambah kedalaman pada mesh, tetapi kelas informasi tertentu - mode sistem spektral yang diekstrak secara eksplisit oleh pembuat enkode. Ini bukan lagi kapasitas model, tetapi dasar representasi yang berbeda. 07 - Inti - Tiga properti yang bekerja bersamaMetode spektral dalam analisis deret waktu bukanlah hal yang baru. Apa yang membuat varian Koopman-Leibniz secara kualitatif baru dalam kombinasi ini - penyandi ditambah zero-init-gate ditambah cross-attention - adalah tiga properti yang saling memperkuat satu sama lain. Ini adalah level-invariant. Karena normalisasi lokal per jendela, encoder melihat pergerakan, bukan level. Model yang bekerja dengan mekanisme ini dapat berjalan pada sistem dinamika pasar apa pun tanpa rentang nilai absolut yang berperan. Model ini bersifat non-linier tanpa harus menciptakan fitur non-linier. Kernel RBF secara implisit menyematkan data dalam ruang dimensi tak terbatas di mana hubungan non-linear yang rumit menjadi struktur linear. Tidak ada yang harus menebak indikator mana yang mungkin dibutuhkan oleh sistem - geometri data menghasilkan hubungan non-linear itu sendiri. Hal ini dapat ditafsirkan secara spektral. Apa yang dihasilkan bukanlah variabel laten yang misterius, tetapi nilai pertumbuhan dan frekuensi dengan makna dinamis yang jelas. Jika Anda ingin mengetahui mengapa suatu model membuat keputusan tertentu dalam situasi tertentu, Anda dapat melihat sidik jari spektral dan secara harfiah membaca kondisi dinamis sistem pada saat itu.
Tidak ada perbedaan semantik. Memberikan deret waktu mentah kepada model akan memaksanya untuk melakukan penerjemahan ke dalam dinamika itu sendiri - dengan kapasitas penuh dari matriks bobot dan upaya penuh pelatihan. Memberikannya dinamika di awal secara tiba-tiba membebaskan kapasitas yang dapat digunakan model untuk membuat keputusan yang sebenarnya. Ini adalah mekanisme yang sama di balik target tambahan pelatihan khusus - output sampingan kecil yang memaksa jaringan untuk secara eksplisit merekonstruksi jumlah yang relevan di lapisan awal - hanya satu tingkat lebih dalam. Sasaran tambahan tersebut memaksa jaringan syaraf tiruan untuk memahami dunia sebelum memutuskan. Penyandi Koopman-Leibniz memaksa data masukan untuk mengungkapkan dinamikanya bahkan sebelum mencapai model. Dalam pengaturan pemutus dataran tinggi, ini menjadi properti ketiga: model diizinkan untuk terus belajar tepat ketika ia benar-benar berhenti. 08 - Prospek - Apa yang akan terjadi selanjutnyaAlat-alat matematika semuanya berasal dari repertoar klasik - Bernard Koopman 1931, Floris Takens 1981, kernel RBF dari kotak peralatan statistik standar, teknik pembelajaran residual dari penelitian pembelajaran mendalam baru-baru ini. Yang berubah adalah perangkat kerasnya. Beberapa dekade yang lalu, dekomposisi nilai eigen adalah upaya numerik yang serius. Saat ini, hal tersebut dilakukan dalam forward pass PyTorch pada GPU dalam mikrodetik - dan yang terpenting adalah dapat dibedakan, yaitu dapat disematkan dalam pipa pelatihan berbasis gradien. Hal ini menggeser apa yang dianggap sebagai rekayasa fitur. Alih-alih memilih indikator dengan tangan atau menyerahkannya kepada jaringan untuk menghasilkan representasinya sendiri, seluruh kelas penyandi dapat dibangun yang menulis struktur matematika - dekomposisi spektral, topologi, operator diferensial - langsung ke dalam aliran data. Penyandi Koopman-Leibniz adalah contohnya. Dikombinasikan dengan gerbang zero-init, ini menjadi sesuatu yang telah hilang dalam praktik ML yang umum sampai sekarang: alat yang tidak memerangi gejala pelatihan yang mandek, tetapi penyebab matematisnya. Dengan demikian, sebuah garis pemisah muncul yang melampaui aplikasi spesifik. Arsitektur AI yang dominan saat ini - mulai dari model bahasa yang besar dari perusahaan seperti OpenAI, Anthropic, atau Google DeepMind hingga transformator generatif terbaru - pada dasarnya bersifat antroposentris (dari bahasa Yunani ánthropos, "manusia"): Mereka memodelkan bahasa manusia, persepsi manusia, pengambilan keputusan manusia, dan mereka dibekukan dalam ruang parameter diskrit yang dipelajari yang geometrinya tidak pernah mereka tinggalkan setelah pelatihan. Operator Koopman-Leibniz, di sisi lain, bekerja dalam ruang spektral kontinu dari hukum sistem yang tidak berubah. Hal ini membuka bidang penelitian yang terpisah di luar kelas model yang berpusat pada manusia: transformator adaptif generatif yang tidak memperoleh representasi mereka dari data manusia, tetapi dari dinamika sistem yang diamati itu sendiri. Pengujian saat ini menunjukkan bahwa encoder tidak menerobos dataran tinggi dengan menambahkan kapasitas, tetapi dengan menyaring dinamika sistem secara lebih tepat. Ini bertindak sebagai pemicu selektif - tetap tidak aktif dalam fase di mana model menyatu secara independen dan hanya mengintervensi ketika stagnasi gradien mengancam. Dengan demikian, sistem memperoleh stabilitas tanpa mengorbankan kosakata fitur yang sudah dipelajari.
Cari lebih jauh:
Artikel yang relevan
Kirimkan komentar di sini...
|
|