|
Τεχνητή νοημοσύνη
koopman-Leibniz: Τα μαθηματικά που ξεπερνούν το οροπέδιοΌποιος αναπτύσσει σύγχρονα μοντέλα τεχνητής νοημοσύνης είναι εξοικειωμένος με αυτή τη στιγμή: στην αρχή όλα πάνε τέλεια, η καμπύλη δείχνει απότομα προς τα πάνω - και ξαφνικά τίποτα δεν λειτουργεί καθόλου. Το σύστημα μένει στάσιμο. Τα συνήθη τεχνάσματα της πληροφορικής, όπως περισσότερη ισχύς διακομιστή ή μεγαλύτεροι χρόνοι εκτέλεσης, συνήθως αναβάλλουν το πρόβλημα μόνο για λίγες ημέρες. Μια νέα προσέγγιση από την έρευνα - ο λεγόμενος κωδικοποιητής Koopman-Leibniz - σπάει τώρα αυτό το μπλοκάρισμα: όχι μέσω ωμής υπολογιστικής ισχύος, αλλά μέσω μιας εντελώς νέας, έξυπνης δόμησης των δεδομένων του συστήματος.
01 - Το οροπέδιο εκπαίδευσης - Όταν η κλίση εξαφανίζεταιΤα ποσοτικά χρηματοοικονομικά δεδομένα είναι εξαιρετικά συσχετισμένα δεδομένα με εξαιρετικά χαμηλό λόγο σήματος προς θόρυβο. Η πρωταρχική πρόκληση είναι να εξαχθεί από ένα παράθυρο παρατήρησης όχι η διαδοχική ακολουθία των ακατέργαστων τιμών, αλλά η κρυμμένη δυναμική του συστήματος - παροδικοί παλμοί, κυκλικές ανατροπές και ενεργητικές αλλαγές κατάστασης. Δεδομένου ότι αυτές οι δομές χάνονται στο στοχαστικό θόρυβο, μια τυπική αρχιτεκτονική καταναλώνει δυσανάλογα μεγάλο μέρος της χωρητικότητάς της μόνο για το σχηματισμό αναπαραστάσεων. Εάν το πρότυπο φτάσει σε ένα οροπέδιο, η κλίση απώλειας (∇ℒ) καταρρέει. Ο βελτιστοποιητής χάνει την κατευθυντική του σταθερότητα σε αυτή την επίπεδη περιοχή παραμέτρων, επειδή οι συνιστώσες της κλίσης συγκλίνουν στο μηδέν. Σε αυτό το σημείο, το δίκτυο έχει μάθει μόνο τις τετριμμένες, κυρίαρχες συνιστώσες διακύμανσης. Οι βαθύτερες, προβλεπτικές δομές της αγοράς παραμένουν απρόσιτες, καθώς το τρέχον μαθηματικό λεξιλόγιο του δικτύου δεν επαρκεί για να τις απομονώσει καθαρά από το θόρυβο. Οι προσαρμοστικές μέθοδοι βελτιστοποίησης, όπως η AdamW, δεν προσφέρουν συστημική θεραπεία εδώ: αν και διορθώνουν την κλιμάκωση, δεν μπορούν να εξάγουν μια κατεύθυνση από ένα διανυσματικό πεδίο του οποίου η αναμενόμενη τιμή είναι κατά μέσο όρο μηδέν. Ακόμη και η συμβατική μείωση του ρυθμού μάθησης(ReduceLROnPlateau) δεν σπάει αυτή τη στασιμότητα. Απλώς την τσιμεντοποιεί. Το δίκτυο παραμένει στην επίπεδη ζώνη και αρχίζει να απομνημονεύει τις δομές θορύβου υψηλής συχνότητας των δεδομένων εκπαίδευσης - ο άμεσος δρόμος προς την υπερπροσαρμογή, η οποία προκαλεί την υποβάθμιση της μετρικής επικύρωσης με χρονική καθυστέρηση.
02 - Τα θεμέλια - Koopman: Όταν η κίνηση γίνεται γραμμική άλγεβραΟ Αμερικανός μαθηματικός Bernard Koopman δημοσίευσε μια εργασία 1931 την οποία τότε δεν χρειαζόταν σχεδόν κανείς και η οποία τα τελευταία δέκα χρόνια έχει βρει τον δρόμο της σε κάθε εγχειρίδιο για τη δυναμική με βάση τα δεδομένα. Με την πρώτη ματιά, η ιδέα του είναι παράδοξη: αν ένα σύστημα κινείται με έναν περίπλοκο μη γραμμικό τρόπο, μπορεί να περιγραφεί ακόμα γραμμικά - αν είστε έτοιμοι να μεταβείτε σε έναν άπειρο-διάστατο χώρο στον οποίο δεν είναι οι ίδιες οι καταστάσεις που αναπτύσσονται, αλλά οι συναρτήσεις επί των καταστάσεων. Αυτό ακούγεται σαν ένας κακός συμβιβασμός - ένα πεπερασμένης διάστασης μη γραμμικό πρόβλημα για ένα άπειρης διάστασης γραμμικό. Στην πραγματικότητα, πρόκειται για μια εξαιρετική ανταλλαγή, επειδή οι γραμμικοί τελεστές έχουν κάτι που οι μη γραμμικές συναρτήσεις συνήθως δεν έχουν: ένα φάσμα. Ιδιοτιμές και ιδιοδιανύσματα. Ξεκάθαρα, διασπώμενα δομικά στοιχεία. Όποιος γνωρίζει τον τελεστή Koopman ενός συστήματος γνωρίζει τις ιδιομορφές του - τα θεμελιώδη μοτίβα ταλάντωσης από τα οποία συντίθεται κάθε πραγματική κίνηση, όπως ακριβώς κάθε ήχος μπορεί να αποτελείται από καθαρά ημιτόνια. Κανείς δεν μπορεί να υπολογίσει τον ακριβή τελεστή Koopman ενός συστήματος δυναμικής της αγοράς. Είναι όμως δυνατό να μάθουμε μια πεπερασμένης διάστασης προσέγγιση από τα δεδομένα - η μέθοδος ονομάζεται Dynamic Mode Decomposition, ή εν συντομία DMD. Στην παραλλαγή της με βάση τον πυρήνα, όπως χρησιμοποιείται από τον κωδικοποιητή, λαμβάνεται αυτόματα ένας μικρός πίνακας από ένα παράθυρο παρατήρησης, του οποίου οι ιδιοτιμές απαντούν με ακρίβεια σε δύο ερωτήματα: πόσο γρήγορα ταλαντώνεται αυτή η δυναμική και κερδίζει ή χάνει ενέργεια. Διάγραμμα 01 - Τι σημαίνει μια μιγαδική ιδιοτιμή
Αυτός ο χάρτης είναι η κεντρική οπτικοποίηση που απαιτείται για την κατανόηση του κωδικοποιητή. Ένα παράθυρο παρατήρησης απεικονίζεται σε δέκα σημεία σε αυτό το μιγαδικό επίπεδο. Κάθε σημείο είναι ένας ανεξάρτητος τύπος κίνησης που περιέχει επί του παρόντος το σύστημα. Το πραγματικό μέρος σας λέει αν αυτή η κίνηση παίρνει ταχύτητα ή εξαντλείται- το φανταστικό μέρος σας λέει πόσο γρήγορα ταλαντώνεται. Ολόκληρο το παράθυρο μπορεί να ανακατασκευαστεί από αυτά τα δέκα σημεία, χωρίς τις εκτροπές μέσω πολλών εκατοντάδων ακατέργαστων αριθμών. 03 - Φασματική μείωση - απομόνωση των πρωταρχικών στοιχείων του συστήματοςΗ δομική πρόκληση στη μοντελοποίηση του χώρου Koopman έγκειται στην αριθμητική δυσχρηστία του: είναι άπειρης διάστασης εκ κατασκευής. Η μαθηματική μαεστρία αυτής της διαστατικότητας παραλληλίζεται άμεσα με την Characteristica Universalis του Gottfried Wilhelm Leibniz και την Ars Combinatoria του. Με το Alphabetum cogitationum humanarum, ο Λάιμπνιτς διατύπωσε ένα καθολικό σύστημα που ανιχνεύει την πολύπλοκη, συνεχή δυναμική σε ένα πεπερασμένο σύνολο ορθογώνιων, αδιαίρετων βασικών εννοιών - τις notiones primitivae. Η πολυπλοκότητα δεν νοείται εδώ ως ένα χαοτικό συνεχές, αλλά ως γραμμικός συνδυασμός διακριτών, πρωταρχικών δομικών στοιχείων. Αλγοριθμικά, αυτή η ορθολογική αναγωγή αποτελεί το θεμέλιο για την αποκοπή βαθμίδας εντός του χώρου Hilbert ℋ, τον οποίο καλύπτει σιωπηρά ο πυρήνας RBF. Ενώ ο πίνακας ομοιότητας K₀ κωδικοποιεί την πλήρη, θορυβώδη τροχιά του παραθύρου παρατήρησης, η επακόλουθη συμμετρική ανάλυση ιδιοτιμών απομονώνει τις k κυρίαρχες ιδιομορφές. Αυτή είναι η τυπική πράξη της πρωταρχικής απομόνωσης - μια προβολή στον χαμηλής διάστασης, αναλλοίωτο υποχώρο Koopman:
Αυτή η αποκοπή λειτουργεί ως ο πρωταρχικός μηχανισμός κανονικοποίησης του κωδικοποιητή. Ένα νευρωνικό δίκτυο που λειτουργεί στο μη φιλτραρισμένο φάσμα απομνημονεύει αναπόφευκτα τις στοχαστικές ιδιομορφίες υψηλής συχνότητας του δείγματος εκπαίδευσης. Με τη συμπίεση του σήματος στα k κυρίαρχα πρωταρχικά στοιχεία, η αρχιτεκτονική επιβάλλει μια μαθηματική αφαίρεση: τα επόμενα στρώματα δεν εξάγουν τις εφήμερες δομές θορύβου ενός συγκεκριμένου παραθύρου, αλλά τις αναλλοίωτες γεννήτριες της δυναμικής του συστήματος. 04 - Η μηχανή - Από το ακατέργαστο σήμα στο φασματικό αποτύπωμαΑυτό που κάνει εσωτερικά ο κωδικοποιητής μπορεί να διαβαστεί ως έξι διαδοχικά στάδια, καθένα από τα οποία επιλύει ένα συγκεκριμένο πρόβλημα. Διατρέχουμε τα κεντρικά στάδια μαθηματικά - όχι ως περιδιάβαση κώδικα, αλλά ως επιχειρηματολογία που απαντά σε ένα ερώτημα σε κάθε περίπτωση. Το πρώτο βήμα καθιερώνει τη συγκρισιμότητα. Ο πυρήνας που ακολουθεί λειτουργεί αμέσως με αποστάσεις σε μια εκθετική συνάρτηση. Εάν οι τιμές εισόδου είναι αριθμητικά μεγάλες, η εκθετική συνάρτηση καταρρέει στο μηδέν και ολόκληρη η διοχέτευση παράγει μόνο μηδενικά. Συνεπώς, κάθε παράθυρο τυποποιείται τοπικά.
Το δεύτερο βήμα μετατρέπει την ιστορία σε κατάσταση. Μια απλή παρατήρηση δεν λέει σχεδόν τίποτα. Η δυναμική είναι η σχέση μεταξύ διαδοχικών καταστάσεων. Το παράθυρο χωρίζεται σε δύο χρονικά μετατοπισμένες εκδοχές - το πρώτο περιέχει τις παρατηρήσεις μέχρι το προτελευταίο βήμα, το δεύτερο τις παρατηρήσεις από το δεύτερο βήμα μέχρι το τέλος. Ο κανόνας μετάβασης θα προκύψει αργότερα από τη σύγκριση αυτών των δύο εκδόσεων. Είναι η παλιά ιδέα του Takens: η εξέλιξη είναι κατάσταση. Το τρίτο βήμα είναι το πραγματικό μαθηματικό τέχνασμα: η ομοιότητα ως γεωμετρία. Αντί να επινοεί χειροκίνητα δείκτες, ο κωδικοποιητής αφήνει τη γεωμετρία των δεδομένων να μιλήσει από μόνη της. Για κάθε χρονικό σημείο στο παράθυρο, μετράει πόσο παρόμοιο είναι με όλα τα άλλα χρονικά σημεία. Το μέτρο της ομοιότητας είναι ο πυρήνας RBF:
Το παράθυρο γίνεται έτσι ένας πίνακας ομοιότητας στον οποίο κάθε εγγραφή είναι μια τιμή ομοιότητας μεταξύ δύο χρονικών σημείων. Αυτό δεν είναι πλέον μια χρονοσειρά - είναι μια τοπογραφία. Ποιες φάσεις είναι παρόμοιες, ποιες όχι, και πώς κατανέμεται αυτό στο παράθυρο. Ένας δεύτερος πίνακας ομοιότητας συγκρίνει κάθε χρονικό σημείο με το διάδοχό του και θα μεταφέρει τις πληροφορίες για τον κανόνα μετάβασης. Το τέταρτο βήμα βρίσκει το αλφάβητο: Εφαρμόζεται μια ανάλυση ιδιοτιμών στον πρώτο πίνακα ομοιότητας. Οι μεγαλύτερες ιδιοτιμές δείχνουν τα κυρίαρχα μοτίβα της τοπογραφίας. Απομένουν μόνο οι κορυφαίοι k τρόποι, τα πρωταρχικά στοιχεία Leibniz του παραθύρου. Το πέμπτο βήμα κατασκευάζει τον κανόνα μετάβασης. Στο χώρο των κυρίαρχων τρόπων, κατασκευάζεται ένας μικρός πίνακας που περιγράφει ακριβώς πώς εξελίσσεται το παράθυρο από το ένα χρονικό βήμα στο επόμενο:
Το έκτο και τελευταίο βήμα διαβάζει την ουσία. Εφαρμόζεται μια δεύτερη ανάλυση ιδιοτιμών σε αυτόν τον μικρό πίνακα - αυτή τη φορά μια ανάλυση που επιτρέπει σύνθετες τιμές. Κάθε τρόπος γίνεται μια μιγαδική ιδιοτιμή. Το πραγματικό μέρος της είναι ο ρυθμός ανάπτυξης, το φανταστικό μέρος της είναι η συχνότητα. Ένα παράθυρο με αρκετές εκατοντάδες ακατέργαστες τιμές γίνεται έτσι 2 × k τιμές - δηλαδή είκοσι αριθμοί για δέκα τρόπους, οι οποίοι μαζί μεταφέρουν ολόκληρη τη δυναμική του παραθύρου. 05 - Η υλοποίηση - Ο πυρήνας που κάνει τα μαθηματικάΑυτό που είναι αξιοσημείωτο στην υλοποίηση δεν είναι το μήκος της, αλλά η συντομία της. Αυτό που ακούγεται σαν εξειδικευμένη διάλεξη στη θεωρία είναι μόνο μερικές ακριβείς γραμμές στο PyTorch - χωρίς να χρειάζεται να γραφτεί ούτε ένας βρόχος. Ολόκληρη η φασματική συσκευή ζει σε δύο ενσωματωμένες ρουτίνες για αναλύσεις ιδιοτιμών. Αυτό καθιστά τον κωδικοποιητή όχι μόνο ευανάγνωστο - τον καθιστά πλήρως διαφοροποιήσιμο. Μπορεί να ενσωματωθεί σε οποιοδήποτε νευρωνικό δίκτυο ως επίπεδο και να εκπαιδευτεί με οπισθοδιάδοση.
Συνεπώς, ο κωδικοποιητής δεν είναι ένα εργαλείο δεδομένων, αλλά ένα αναπόσπαστο στοιχείο της αρχιτεκτονικής. Αυτό που παράγει είναι ένα φασματικό αποτύπωμα του παραθύρου παρατήρησης: είκοσι τιμές που συνοψίζουν την αύξηση, την εξασθένηση και τη συχνότητα των κυρίαρχων τρόπων της αγοράς. Ο τρόπος με τον οποίο αυτές οι πληροφορίες βρίσκουν το δρόμο τους στο μοντέλο είναι το πραγματικά ενδιαφέρον μέρος - και ο λόγος για τον οποίο γράφτηκε αυτό το άρθρο. 06 - Η εφαρμογή - ο διακόπτης οροπεδίουΚατά τη διάρκεια της έρευνας της ομάδας, το μεγάλο κύριο μοντέλο, ένα σύστημα βασισμένο σε μετασχηματιστή με εξειδικευμένους κλάδους εξόδου και πολλαπλά χρονικά επίπεδα, παρουσίαζε επανειλημμένα πλατώ στο στάδιο 4. Η απώλεια έπεφτε καθαρά για έξι έως οκτώ εποχές και στη συνέχεια παρέμενε σταθερή. Οι μετρικές επικύρωσης αυξήθηκαν ελαφρώς - η πρώτη ένδειξη αρχόμενης προσαρμογής στις ιδιαιτερότητες της εκπαίδευσης. Τα παραδοσιακά αντίδοτα δεν λειτούργησαν. Η μείωση του ρυθμού μάθησης επιδείνωσε τα συμπτώματα. Περισσότερα δεδομένα παρείχαν μικρές βελτιώσεις που χάθηκαν στη διακύμανση των πολλαπλών εκτελέσεων. Το πρόβλημα ήταν δομικό: το μοντέλο είχε εξάγει ό,τι μπορούσε από τα τοπικά στατιστικά χαρακτηριστικά. Αυτό που χρειαζόταν δεν ήταν άλλη μια βελτιστοποίηση - αλλά νέες πληροφορίες. Εδώ είναι που μπαίνει στο παιχνίδι ο κωδικοποιητής Koopman-Leibniz, αλλά σε έναν ρόλο για τον οποίο δεν προοριζόταν αρχικά. Αντί να είναι ο πρωταρχικός κωδικοποιητής μπροστά από το μοντέλο, χρησιμοποιείται ως παράλληλος δίαυλος πληροφοριών - ένας δεύτερος αγωγός δεδομένων που τροφοδοτεί τους παγκόσμιους τρόπους αγοράς στο ήδη εκπαιδευμένο μοντέλο σε διάφορα χρονικά επίπεδα. Η σύνδεση γίνεται μέσω ενός επιπέδου διασταυρούμενης προσοχής: το κύριο μοντέλο ζητά από το φασματικό αποτύπωμα πληροφορίες που του λείπουν και ενσωματώνει την απάντηση στις εσωτερικές του αναπαραστάσεις. Μια τέτοια επέκταση στη μέση της εκπαίδευσης είναι συνήθως ριψοκίνδυνη. Μια πρόσθετη διακλάδωση αλλάζει απότομα το τοπίο της κλίσης. Στη χειρότερη περίπτωση, αποσταθεροποιεί ό,τι έχει δημιουργηθεί επί εβδομάδες. Εδώ ακριβώς μπαίνει στο παιχνίδι το δεύτερο, σχεδόν πιο σημαντικό στοιχείο του πειράματος: η πύλη μηδενικής εκκίνησης. Διάγραμμα 02 - Η συμπεριφορά της πύλης στο οροπέδιο
Η πύλη είναι μαθηματικά μια ενιαία κλιμακωτή ποσότητα - την ονομάζουμε α. Αρχικοποιείται με μια τιμή ακριβώς μηδέν και πολλαπλασιάζει τη συνεισφορά του νέου φασματικού καναλιού πριν εισρεύσει πίσω στο κύριο μοντέλο:
Αυτή η κατασκευή αποτελεί τον θεωρητικό πυρήνα. Ο δεύτερος όρος στη δεξιά πλευρά είναι ακριβώς μηδέν στην αρχή - όχι μικρός, όχι αμελητέος, αλλά αναλυτικά μηδέν. Το κύριο μοντέλο δεν βλέπει καμία αλλαγή, συνεχίζει να τρέχει στο προηγούμενο τοπίο απωλειών του, διατηρεί όλα τα βάρη σταθερά. Το μόνο πράγμα που αλλάζει είναι ότι υπάρχει τώρα μια παράμετρος α με καθορισμένη κλίση. Εάν το μονοπάτι οπισθοδιάδοσης διαπιστώσει ότι μια αύξηση του α θα μείωνε την απώλεια, τότε - και μόνο τότε - θα ανοίξει η πύλη. Σε ένα οροπέδιο όπου όλες οι άλλες κλίσεις εξαφανίζονται, η κλίση που σχετίζεται με το α είναι συνήθως η μόνη που εξακολουθεί να μεταφέρει ένα σαφές σήμα. Ο βελτιστοποιητής δεν έχει άλλον τρόπο να μειώσει την απώλεια - έτσι αρχίζει να αυξάνει το α ελάχιστα. Το φασματικό κανάλι αρχίζει στη συνέχεια να τροφοδοτεί πληροφορίες στο κύριο μοντέλο. Το τοπίο των απωλειών, το οποίο ήταν απλώς επίπεδο, παίρνει νέα κατεύθυνση. Το οροπέδιο σπάει.
Αυτή η κατασκευή είναι μαθηματικά κομψή, αλλά δύο ιδιότητες την καθιστούν ιδιαίτερα πολύτιμη σε ερευνητικές εφαρμογές. Πρώτον, είναι μια επέκταση μηδενικού κινδύνου: όσο το μοντέλο εξελίσσεται χωρίς βοήθεια, η επέκταση είναι αναποτελεσματική. Δεν υπάρχει καμία αντιστάθμιση σταθερότητας, καμία διακοπή της τρέχουσας βελτιστοποίησης, καμία νέα ρύθμιση των χρονοδιαγραμμάτων εκπαίδευσης. Δεύτερον, δεν καταπολεμά το σύμπτωμα του οροπεδίου, αλλά την αιτία. Οι παραδοσιακές μέθοδοι όπως το ReduceLROnPlateau επιβραδύνουν την κίνηση όταν αυτή σταματά να λειτουργεί - κάνουν το λάθος πράγμα πιο συγκεκριμένα. Αντ' αυτού, ο διακόπτης πλατώ προσθέτει θεμελιωδώς νέες πληροφορίες στο μοντέλο: παγκόσμιες λειτουργίες της αγοράς σε πολλαπλά χρονικά επίπεδα που δεν υπήρχαν μαθηματικά στα τοπικά χαρακτηριστικά εισόδου. Στον ευρύτερο ερευνητικό κανόνα, αυτός ο μηχανισμός σχετίζεται με μεθόδους όπως η ReZero και η LayerScale - και οι δύο λειτουργούν με υπολειμματικές διαδρομές των οποίων η συμβολή ελέγχεται από έναν μαθησιακό παράγοντα κλιμάκωσης που ξεκινά από το μηδέν. Αυτό που διακρίνει το Plateau-Breaker είναι η λειτουργία του: η υπολειμματική επέκταση δεν προσθέτει βάθος στο πλέγμα, αλλά μια συγκεκριμένη κατηγορία πληροφοριών - φασματικές λειτουργίες του συστήματος που ο κωδικοποιητής εξάγει ρητά. Δεν πρόκειται πλέον για χωρητικότητα μοντέλου, αλλά για μια διαφορετική βάση αναπαράστασης. 07 - Η ατάκα - Τρεις ιδιότητες που συνεργάζονταιΟι φασματικές μέθοδοι στην ανάλυση χρονοσειρών δεν είναι κάτι καινούργιο. Αυτό που κάνει την παραλλαγή Koopman-Leibniz ποιοτικά νέα σε αυτόν τον συνδυασμό - κωδικοποιητής συν μηδενική πύλη εκκίνησης συν διασταυρούμενη προσοχή - είναι τρεις ιδιότητες που ενισχύουν η μία την άλλη. Είναι αναλλοίωτη ως προς το επίπεδο. Λόγω της τοπικής κανονικοποίησης ανά παράθυρο, ο κωδικοποιητής βλέπει κινήσεις και όχι επίπεδα. Το μοντέλο που λειτουργεί με αυτόν τον μηχανισμό μπορεί να τρέξει σε οποιοδήποτε σύστημα δυναμικής της αγοράς χωρίς να παίζουν ποτέ ρόλο τα εύρη απόλυτων τιμών. Είναι μη γραμμικό χωρίς να χρειάζεται να επινοηθούν μη γραμμικά χαρακτηριστικά. Ο πυρήνας RBF ενσωματώνει σιωπηρά τα δεδομένα σε έναν χώρο άπειρων διαστάσεων στον οποίο οι περίπλοκες μη γραμμικές σχέσεις γίνονται γραμμικές δομές. Κανείς δεν χρειάζεται να μαντέψει ποιους δείκτες μπορεί να χρειαστεί το σύστημα - η γεωμετρία των δεδομένων δημιουργεί η ίδια τις μη γραμμικές σχέσεις. Μπορεί να ερμηνευθεί φασματικά. Αυτό που φτάνει στην έξοδο δεν είναι μυστηριώδεις λανθάνουσες μεταβλητές, αλλά τιμές αύξησης και συχνότητας με σαφές δυναμικό νόημα. Αν θέλετε να μάθετε γιατί ένα μοντέλο πήρε μια συγκεκριμένη απόφαση σε μια συγκεκριμένη κατάσταση, μπορείτε να εξετάσετε το φασματικό αποτύπωμα και να διαβάσετε κυριολεκτικά τη δυναμική κατάσταση στην οποία βρισκόταν το σύστημα εκείνη τη στιγμή.
Δεν υπάρχει καμία σημασιολογική διαφορά. Δίνοντας σε ένα μοντέλο ακατέργαστη χρονοσειρά το αναγκάζει να εκτελέσει το ίδιο τη μετάφραση σε δυναμική - με την πλήρη χωρητικότητα των πινάκων βαρών του και την πλήρη προσπάθεια εκπαίδευσης. Δίνοντάς του εκ των προτέρων τη δυναμική, ξαφνικά απελευθερώνεται χωρητικότητα που το μοντέλο μπορεί να χρησιμοποιήσει για πραγματικές αποφάσεις. Είναι ο ίδιος μηχανισμός πίσω από τους εξειδικευμένους βοηθητικούς στόχους εκπαίδευσης - μικρές πλευρικές εξόδους που αναγκάζουν το δίκτυο να ανακατασκευάσει ρητά τις σχετικές ποσότητες στα πρώιμα στρώματα - μόνο ένα επίπεδο βαθύτερα. Τέτοιοι βοηθητικοί στόχοι αναγκάζουν τη ραχοκοκαλιά να κατανοήσει τον κόσμο προτού αποφασίσει. Ο κωδικοποιητής Koopman-Leibniz αναγκάζει τα δεδομένα εισόδου να αποκαλύψουν τη δυναμική τους πριν καν φτάσουν στο μοντέλο. Στη ρύθμιση plateau-breaker, αυτό γίνεται μια τρίτη ιδιότητα: το μοντέλο επιτρέπεται να συνεχίσει να μαθαίνει ακριβώς όταν στην πραγματικότητα είχε σταματήσει. 08 - Προοπτικές - Τι ακολουθείΤα μαθηματικά εργαλεία είναι όλα από το κλασικό ρεπερτόριο - Bernard Koopman 1931, Floris Takens 1981, ο πυρήνας RBF από την τυπική στατιστική εργαλειοθήκη, τεχνικές μάθησης υπολειμμάτων από πρόσφατες έρευνες βαθιάς μάθησης. Αυτό που έχει αλλάξει είναι το υλικό. Πριν από μερικές δεκαετίες, η αποσύνθεση ιδιοτιμών ήταν μια σοβαρή αριθμητική προσπάθεια. Σήμερα, γίνεται σε ένα forward pass του PyTorch στην GPU σε μικροδευτερόλεπτα - και πάνω απ' όλα διαφοροποιήσιμη, δηλαδή ενσωματώσιμη σε οποιαδήποτε αγωγό εκπαίδευσης βασισμένη στην κλίση. Αυτό μετατοπίζει αυτό που θεωρείται μηχανική χαρακτηριστικών. Αντί να επιλέγουμε δείκτες με το χέρι ή να το αφήνουμε στο δίκτυο να βρει τις δικές του αναπαραστάσεις, μπορεί να δημιουργηθεί μια ολόκληρη κατηγορία κωδικοποιητών που γράφουν μαθηματικές δομές - φασματικές αποσυνθέσεις, τοπολογίες, διαφορικούς τελεστές - απευθείας στη ροή δεδομένων. Ο κωδικοποιητής Koopman-Leibniz είναι μια τέτοια περίπτωση. Σε συνδυασμό με τις πύλες μηδενικής εκκίνησης, γίνεται κάτι που έλειπε από την κοινή πρακτική της ML μέχρι τώρα: ένα εργαλείο που δεν καταπολεμά το σύμπτωμα της στασιμότητας της εκπαίδευσης, αλλά τη μαθηματική αιτία του. Αναδύεται έτσι μια διαχωριστική γραμμή που υπερβαίνει τη συγκεκριμένη εφαρμογή. Οι κυρίαρχες αρχιτεκτονικές ΤΝ που κυριαρχούν σήμερα - από τα μεγάλα γλωσσικά μοντέλα εταιρειών όπως η OpenAI, η Anthropic ή η Google DeepMind μέχρι τους τελευταίους γενετικούς μετασχηματιστές - είναι ουσιαστικά ανθρωποκεντρικές στο σχεδιασμό τους (από το ελληνικό ἄνθρωπος, "άνθρωπος"): Μοντελοποιούν την ανθρώπινη γλώσσα, την ανθρώπινη αντίληψη, την ανθρώπινη λήψη αποφάσεων, και είναι παγωμένα σε έναν μαθημένο, διακριτό χώρο παραμέτρων, τη γεωμετρία του οποίου δεν εγκαταλείπουν ποτέ μετά την εκπαίδευση. Οι τελεστές Koopman-Leibniz, από την άλλη πλευρά, λειτουργούν σε έναν συνεχή φασματικό χώρο αμετάβλητων νόμων του συστήματος. Αυτό ανοίγει ένα ξεχωριστό πεδίο έρευνας πέρα από την κατηγορία των ανθρωποκεντρικών μοντέλων: γεννητικοί προσαρμοστικοί μετασχηματιστές που δεν αντλούν την αναπαράστασή τους από ανθρώπινα δεδομένα, αλλά από τη δυναμική του ίδιου του παρατηρούμενου συστήματος. Οι τρέχουσες δοκιμές δείχνουν ότι ο κωδικοποιητής δεν ξεπερνά το οροπέδιο προσθέτοντας χωρητικότητα, αλλά φιλτράροντας με μεγαλύτερη ακρίβεια τη δυναμική του συστήματος. Λειτουργεί ως επιλεκτικός ενεργοποιητής - παραμένει ανενεργός σε φάσεις στις οποίες το μοντέλο συγκλίνει ανεξάρτητα και παρεμβαίνει μόνο όταν απειλείται στασιμότητα της κλίσης. Το σύστημα αποκτά έτσι σταθερότητα χωρίς να θέτει σε κίνδυνο το υπάρχον, μαθημένο λεξιλόγιο χαρακτηριστικών.
Ανατρέξτε περαιτέρω:
Σχετικά άρθρα |
|