|
الذكاء الاصطناعي
كوبمان-لايبنتز: الرياضيات التي تخترق الهضبةأي شخص يقوم بتطوير نماذج الذكاء الاصطناعي الحديثة على دراية بهذه اللحظة: في البداية يسير كل شيء على أكمل وجه، ويتجه المنحنى بشكل حاد نحو الأعلى - ثم فجأة لا يعمل أي شيء على الإطلاق. ويصاب النظام بالركود. عادةً ما تؤدي حيل تكنولوجيا المعلومات المعتادة مثل زيادة طاقة الخادم أو أوقات تشغيل أطول إلى تأجيل المشكلة لبضعة أيام فقط. هناك نهج جديد من البحث - ما يسمى بتشفير كوبمان-لايبنيز - يكسر الآن هذا الحصار: ليس من خلال قوة الحوسبة الغاشمة، ولكن من خلال هيكلة جديدة تمامًا وذكية لبيانات النظام.
01 - هضبة التدريب - عندما يختفي التدرجالبيانات المالية الكمية هي بيانات مترابطة للغاية مع نسبة إشارة إلى ضوضاء منخفضة للغاية. ويتمثل التحدي الأساسي في استخراج التسلسل المتسلسل للقيم الأولية من نافذة المراقبة ليس من خلال التسلسل المتسلسل للقيم الخام، ولكن من ديناميكيات النظام المخفية - النبضات العابرة والانعكاسات الدورية والتغيرات النشطة في الحالة. نظرًا لأن هذه البنى تضيع في الضوضاء العشوائية، فإن البنية القياسية تستهلك قدرًا غير متناسب من قدرتها على تكوين التمثيل فقط. إذا وصل النموذج إلى هضبة، ينهار تدرج الخسارة (ℒ). يفقد المُحسِّن استقراره الاتجاهي في منطقة البارامترات المسطحة هذه لأن مكونات التدرج تتقارب إلى الصفر. عند هذه النقطة، تكون الشبكة قد تعلمت فقط مكونات التباين التافهة والمهيمنة. وتظل الهياكل الأعمق والتنبؤية للسوق غير متاحة، حيث إن المفردات الرياضية الحالية للشبكة ليست كافية لعزلها بشكل واضح عن الضوضاء. لا تقدم طرق التحسين التكيفي مثل AdamW علاجًا منهجيًا هنا: على الرغم من أنها تصحح القياس، إلا أنها لا تستطيع استخراج اتجاه من حقل متجه قيمته المتوقعة صفر في المتوسط. حتى التخفيض التقليدي لمعدل التعلم(ReduceLROnPlateau) لا يكسر هذا الركود. بل يعززه فقط. تظل الشبكة في المنطقة المسطحة وتبدأ في حفظ هياكل الضوضاء عالية التردد لبيانات التدريب - وهو الطريق المباشر إلى الإفراط في التكييف، مما يؤدي إلى تدهور مقياس التحقق من الصحة مع تأخير زمني.
02 - الأساس - كوبمان: عندما تصبح الحركة جبرًا خطيًانشر عالم الرياضيات الأمريكي برنارد كوبمان ورقة بحثية 1931 لم يكن أحد بحاجة إليها في ذلك الوقت، وقد وجدت طريقها إلى كل الكتب الدراسية عن الديناميكيات القائمة على البيانات في السنوات العشر الأخيرة. للوهلة الأولى، تبدو فكرته متناقضة: إذا كان النظام يتحرك بطريقة غير خطية معقدة، فلا يزال من الممكن وصفه خطيًا - إذا كنت مستعدًا للتحول إلى فضاء لا نهائي الأبعاد لا تتطور فيه الحالات نفسها، بل الدوال على الحالات. يبدو هذا وكأنه مقايضة سيئة - مشكلة غير خطية محدودة الأبعاد لمشكلة خطية لا نهائية الأبعاد. في الواقع، إنها مبادلة ممتازة، لأن المشغلات الخطية لديها شيء لا تمتلكه الدوال غير الخطية عادةً: الطيف. قيم أصلية ومتجهات أصلية. لبنات بناء واضحة وقابلة للتحلل. أي شخص يعرف مشغل كوبمان لنظام ما يعرف أنماطه الذاتية - أنماط التذبذب الأساسية التي تتكون منها كل حركة فعلية، تمامًا كما يمكن أن يتكون كل صوت من نغمات جيبية نقية. لا يمكن لأحد حساب مشغل كوبمان الدقيق لنظام ديناميكيات السوق. ولكن من الممكن تعلّم تقريب محدود الأبعاد من البيانات - وتسمى هذه الطريقة باسم " تحليل الوضع الديناميكي" أو اختصارًا "DMD". في متغيرها القائم على النواة، كما يستخدمه المشفر، يتم الحصول تلقائيًا على مصفوفة صغيرة من نافذة مراقبة تجيب قيمها الأصلية بدقة على سؤالين: ما مدى سرعة تذبذب هذه الديناميكية وهل تكتسب أو تفقد الطاقة. الرسم البياني 01 - ما تعنيه القيمة الذاتية المركّبة
هذه الخريطة هي التصور المركزي اللازم لفهم المشفر. يتم تعيين نافذة المراقبة إلى عشر نقاط في هذا المستوى المعقد. كل نقطة هي نوع مستقل من الحركة التي يحتوي عليها النظام حاليًا. يخبرك الجزء الحقيقي ما إذا كانت هذه الحركة تزداد سرعتها أو تنفد، أما الجزء التخيلي فيخبرك بمدى سرعة تذبذبها. يمكن إعادة بناء النافذة بأكملها من هذه النقاط العشر، دون تحويلات عبر عدة مئات من الأرقام الخام. 03 - الاختزال الطيفي - عزل أوليات النظاميكمن التحدّي الهيكلي في نمذجة فضاء كوبمان في عدم قابليته العددية: فهو غير محدود الأبعاد بالتركيب. إن الإتقان الرياضي لهذا البُعد يوازي مباشرةً كتاب غوتفريد فيلهلم لايبنتز " Characteristica Universalis " وكتابه " Ars Combinatoria". افترض لايبنتز في كتابه " ألفبتيستيكيتوم كوجيتكوم هيوم هيوماناروم " نظامًا كونيًا يتتبع الديناميكيات المعقدة والمستمرة إلى مجموعة محدودة من المفاهيم الأساسية المتعامدة وغير القابلة للتجزئة - المفاهيم الأولية. لا يُفهم التعقيد هنا على أنه سلسلة متصلة فوضوية، بل على أنه مزيج خطي من اللبنات الأساسية المنفصلة والبدائية. من الناحية الخوارزمية، يشكّل هذا الاختزال المنطقي أساس اقتطاع الرتبة داخل فضاء هيلبرت ℋ، الذي تمتد عليه نواة الترددات الراديوية ضمنيًا. بينما ترمز مصفوفة التشابه K₀ إلى المسار الكامل الصاخب لنافذة المراقبة، فإن التحلل اللاحق للقيمة الذاتية المتماثلة يعزل الأنماط الذاتية المهيمنة k. هذا هو الفعل الشكلي للعزل البدائي - إسقاط على الفضاء الفرعي منخفض الأبعاد، المتغير من كوبمان:
يعمل هذا الاقتطاع كآلية تنظيم أساسية للتشفير. تقوم الشبكة العصبية التي تعمل على الطيف غير المُصفّى حتمًا بحفظ التفردات العشوائية عالية التردد لعينة التدريب. من خلال ضغط الإشارة إلى الأوليات السائدة k، تفرض البنية تجريدًا رياضيًا: لا تستخرج الطبقات النهائية هياكل الضوضاء سريعة الزوال لنافذة محددة، بل المولدات الثابتة لديناميكيات النظام. 04 - الآلة - من الإشارة الخام إلى البصمة الطيفيةيمكن قراءة ما يفعله المشفر داخلياً على أنه ست مراحل متتالية، كل منها يحل مشكلة محددة. نمر بالخطوات المركزية رياضياً - ليس على شكل شيفرة إرشادية بل على شكل جدل يجيب عن سؤال في كل حالة. تؤسس الخطوة الأولى إمكانية المقارنة. تعمل النواة التي تليها على الفور مع المسافات في دالة أسية. إذا كانت قيم المدخلات كبيرة عدديًا، فإن الدالة الأسية تنهار إلى الصفر وينتج خط الأنابيب بأكمله أصفارًا فقط. وبالتالي يتم توحيد كل نافذة محليًا.
الخطوة الثانية تحوّل التاريخ إلى حالة. ملاحظة واحدة لا تقول شيئًا تقريبًا. الديناميكيات هي العلاقة بين الحالات المتعاقبة. تُقسّم النافذة إلى نسختين متباعدتين زمنيًا - الأولى تحتوي على الملاحظات حتى الخطوة قبل الأخيرة، والثانية الملاحظات من الخطوة الثانية حتى النهاية. سيتم اشتقاق قاعدة الانتقال لاحقًا من مقارنة هاتين النسختين. إنها فكرة تاكينز القديمة: التدرج هو الحالة. الخطوة الثالثة هي الخدعة الرياضية الفعلية: التشابه كهندسة. بدلًا من اختراع المؤشرات يدويًا، تسمح أداة التشفير لهندسة البيانات بالتحدث عن نفسها. لكل نقطة زمنية في النافذة، يقيس مدى تشابهها مع جميع النقاط الزمنية الأخرى. مقياس التشابه هو نواة RBF:
وبالتالي، تصبح النافذة مصفوفة تشابه يمثل كل عنصر فيها قيمة تشابه بين نقطتين زمنيتين. لم تعد هذه سلسلة زمنية - بل هي طوبوغرافيا. أي المراحل متشابهة وأيها غير متشابهة، وكيف يتم توزيعها عبر النافذة. تقارن مصفوفة تشابه ثانية بين كل نقطة في الزمن مع تاليتها وستحمل المعلومات الخاصة بقاعدة الانتقال. الخطوة الرابعة إيجاد الأبجدية: يتم تطبيق تحليل القيمة الذاتية على مصفوفة التشابه الأولى. تُظهر أكبر القيم الذاتية الأنماط المهيمنة للتضاريس. تبقى الأنماط الأعلى-ك فقط، وهي أنماط لايبنيز الأولية للنافذة. تُنشئ الخطوة الخامسة قاعدة الانتقال. في فضاء الأنماط المهيمنة، يتم بناء مصفوفة صغيرة تصف بالضبط كيفية تطور النافذة من خطوة زمنية إلى أخرى:
الخطوة السادسة والأخيرة هي قراءة الجوهر. يتم تطبيق تحلل قيمة أصلية ثانية على هذه المصفوفة الصغيرة - وهذه المرة مصفوفة تسمح بقيم مركبة. يصبح كل وضع قيمة أصلية مركبة. الجزء الحقيقي منه هو معدل النمو، والجزء التخيلي هو التردد. وهكذا تصبح نافذة مكونة من عدة مئات من القيم الخام 2 × k قيمتين - أي عشرين رقمًا لعشرة أوضاع، والتي تحمل معًا ديناميكيات النافذة بأكملها. 05 - التنفيذ - النواة التي تقوم بالعمليات الحسابيةما يلفت النظر في التنفيذ ليس طوله، بل إيجازه. ما يبدو كمحاضرة متخصصة من الناحية النظرية هو مجرد بضعة أسطر دقيقة في PyTorch - دون الحاجة إلى كتابة حلقة واحدة. يعيش الجهاز الطيفي بأكمله في اثنين من الإجراءات الروتينية المدمجة لتحلل القيم الذاتية. هذا لا يجعل المشفر قابلاً للقراءة فقط - بل يجعله قابلاً للاشتقاق بالكامل. يمكن تضمينها في أي شبكة عصبية كطبقة وتدريبها عن طريق الترحيل الخلفي.
وبالتالي فإن أداة التشفير ليست أداة بيانات أولية، بل هي جزء لا يتجزأ من البنية. ما ينتجه هو بصمة طيفية لنافذة المراقبة: عشرون قيمة تلخص نمو وتوهين وتواتر أنماط السوق السائدة. كيف تجد هذه المعلومات طريقها إلى النموذج هو الجزء المثير للاهتمام حقًا - والسبب وراء كتابة هذه المقالة في المقام الأول. 06 - التطبيق - قاطع الهضبةخلال البحث الذي أجراه الفريق، كان النموذج الرئيسي الكبير، وهو نظام قائم على المحولات مع فروع مخرجات متخصصة ومستويات زمنية متعددة، قد استقر مرارًا وتكرارًا في المرحلة 4. انخفضت الخسارة بشكل نظيف على مدى ست إلى ثماني حقب، ثم ظلت ثابتة. زادت مقاييس التحقق من الصحة بشكل طفيف - وهو أول مؤشر على التكيف الأولي مع تفاصيل التدريب. لم تنجح الترياق التقليدي. أدى خفض معدل التعلم إلى تفاقم الأعراض. وفرت المزيد من البيانات تحسينات طفيفة ضاعت في تباين الأشواط المتعددة. كانت المشكلة هيكلية: استخرج النموذج كل ما يمكنه استخلاصه من السمات الإحصائية المحلية. ما كان يحتاجه ليس تحسينًا آخر - بل معلومات جديدة. وهنا يأتي دور مُشفّر كوبمان-ليبنيز ولكن في دور لم يكن مخصصًا له في الأصل. فبدلاً من أن يكون المشفر الأساسي أمام النموذج، يتم استخدامه كقناة معلومات موازية - خط أنابيب بيانات ثانٍ يغذي أوضاع السوق العالمية إلى النموذج المدرّب بالفعل على عدة مستويات زمنية. يتم الربط عبر طبقة انتباه متقاطعة: يسأل النموذج الرئيسي البصمة الطيفية عن المعلومات المفقودة لديه ويدمج الإجابة في تمثيلاته الداخلية. عادةً ما يكون هذا التوسيع في منتصف التدريب محفوفًا بالمخاطر. إذ يؤدي الفرع الإضافي إلى تغيير مشهد التدرج بشكل مفاجئ. وفي أسوأ الحالات، يزعزع استقرار ما تم بناؤه على مدار أسابيع. وهنا بالضبط يأتي دور المكون الثاني والأكثر أهمية تقريبًا في التجربة: بوابة الدخول الصفري. الرسم البياني 02 - سلوك البوابة عند الهضبة
البوابة رياضيًا هي كمية قياسية واحدة - نسميها α. يتم تهيئتها بقيمة صفر تمامًا وتضاعف مساهمة القناة الطيفية الجديدة قبل أن تتدفق مرة أخرى إلى النموذج الرئيسي:
هذا البناء هو الأساس النظري. الحد الثاني في الطرف الأيمن يساوي صفرًا بالضبط في البداية - ليس صغيرًا ولا مهملًا بل صفرًا تحليليًا. لا يشهد النموذج الرئيسي أي تغيير، ويستمر في العمل على مشهد الخسارة السابق، ويحافظ على استقرار جميع الأوزان. الشيء الوحيد الذي يتغير هو أن هناك الآن معلمة α ذات تدرج محدد. إذا حدد مسار الترحيل العكسي أن زيادة في α من شأنها أن تقلل من الخسارة، عندها - وعندها فقط - ستفتح البوابة. في الهضبة التي تختفي فيها جميع التدرجات الأخرى، عادةً ما يكون التدرج المتعلق بـ α هو الوحيد الذي لا يزال يحمل إشارة واضحة. ليس لدى المُحسِّن أي طريقة أخرى لتقليل الفقد - لذا يبدأ في زيادة α إلى الحد الأدنى. ثم تبدأ القناة الطيفية في تغذية المعلومات في النموذج الرئيسي. يأخذ مشهد الخسارة، الذي كان مسطحًا فقط، اتجاهًا جديدًا. تنكسر الهضبة.
هذا البناء أنيق من الناحية الرياضية، لكن هناك خاصيتان تجعلانه ذا قيمة خاصة في التطبيقات البحثية. أولاً، إنه امتداد ذو مخاطر صفرية: طالما أن النموذج يتقدم دون مساعدة، فإن الامتداد غير فعال. لا توجد مقايضة للاستقرار، ولا يوجد أي تعطيل للتحسين المستمر، ولا يوجد ضبط جديد لجداول التدريب. وثانيًا، لا يكافح هذا الحل أعراض الهضبة، بل يكافح السبب. فالطرق التقليدية مثل ReduceLROnPlateau تبطئ الحركة عندما تتوقف عن العمل - فهي تقوم بالشيء الخطأ بشكل أكثر دقة. وبدلاً من ذلك، يضيف قاطع الهضبة معلومات جديدة بشكل أساسي إلى النموذج: أوضاع السوق العالمية عبر مستويات زمنية متعددة لم تكن موجودة رياضيًا في سمات المدخلات المحلية. في القانون البحثي الأوسع، ترتبط هذه الآلية بأساليب مثل ReZero وLayerScale - وكلاهما يعملان مع المسارات المتبقية التي يتم التحكم في مساهمتها بواسطة عامل قياس قابل للتعلم يبدأ من الصفر. إن ما يميز طريقة Plateau-Breaker هو وظيفتها: لا يضيف الامتداد المتبقي عمقًا للشبكة، بل فئة محددة من المعلومات - أوضاع النظام الطيفي التي يستخرجها المشفر بشكل صريح. لم تعد سعة النموذج، بل أساس تمثيل مختلف. 07 - الحد الفاصل - ثلاث خصائص تعمل معًاالأساليب الطيفية في تحليل السلاسل الزمنية ليست شيئًا جديدًا. ما يجعل متغير Koopman-Leibniz جديدًا نوعيًا في هذا المزيج - المشفر زائد بوابة الدخول الصفرية زائد الانتباه المتقاطع - هو ثلاث خصائص تعزز بعضها البعض. إنه متغير المستوى. نظرًا للتطبيع المحلي لكل نافذة، يرى المشفر الحركات وليس المستويات. يمكن تشغيل النموذج الذي يعمل بهذه الآلية على أي نظام ديناميكيات السوق دون أن تلعب نطاقات القيمة المطلقة دورًا على الإطلاق. إنه غير خطي دون الحاجة إلى اختراع ميزات غير خطية. تقوم نواة RBF بتضمين البيانات ضمنيًا في مساحة لا نهائية الأبعاد تصبح فيها العلاقات غير الخطية المعقدة هياكل خطية. ولا يتعين على أحد تخمين المؤشرات التي قد يحتاجها النظام - فهندسة البيانات تولد العلاقات غير الخطية بنفسها. يمكن تفسيرها بشكل طيفي. ما يصل إلى الخرج ليس متغيرات كامنة غامضة، بل قيم نمو وتواتر ذات معنى ديناميكي واضح. إذا أردت أن تعرف لماذا اتخذ نموذج ما قرارًا معينًا في موقف معين، يمكنك النظر إلى البصمة الطيفية وقراءة الحالة الديناميكية التي كان عليها النظام في ذلك الوقت حرفيًا.
لا يوجد فرق دلالي. إن إعطاء النموذج سلاسل زمنية خام يجبره على إجراء الترجمة إلى ديناميكيات بنفسه - مع كامل سعة مصفوفات الأوزان الخاصة به وكامل جهد التدريب. إن إعطائه الديناميكيات مسبقًا يحرر فجأة القدرة التي يمكن للنموذج استخدامها لاتخاذ القرارات الفعلية. إنها نفس الآلية التي تقف وراء الأهداف المساعدة للتدريب المتخصص - وهي أهداف مساعدة صغيرة جانبية تجبر الشبكة على إعادة بناء الكميات ذات الصلة بشكل صريح في الطبقات المبكرة - ولكن بمستوى واحد أعمق. مثل هذه الأهداف المساعدة تجبر العمود الفقري على فهم العالم قبل أن يتخذ قراراته. يجبر مشفر كوبمان-ليبنيز بيانات المدخلات على الكشف عن ديناميكياتها قبل أن تصل إلى النموذج. في إعداد كاسر الهضبة، يصبح هذا خاصية ثالثة: يُسمح للنموذج بمواصلة التعلم بالضبط عندما يكون قد توقف بالفعل. 08 - النظرة المستقبلية - ماذا بعدالأدوات الرياضية كلها من الذخيرة الكلاسيكية - برنارد كوبمان 1931، وفلوريس تاكنز 1981، ونواة RBF من مجموعة الأدوات الإحصائية القياسية، وتقنيات التعلم المتبقية من أبحاث التعلم العميق الحديثة. ما تغير هو الأجهزة. فقبل بضعة عقود، كان تفكيك القيم الأصلية جهدًا عدديًا جادًا. أما اليوم، فيتم ذلك من خلال تمرير PyTorch إلى الأمام على وحدة معالجة الرسومات في ميكروثانية - وفوق كل ذلك يمكن التفريق بينهما، أي يمكن تضمينها في أي خط تدريب قائم على التدرج. هذا يغيّر ما يُعتبر هندسة الميزات. فبدلاً من اختيار المؤشرات يدويًا أو ترك الأمر للشبكة لتأتي بتمثيلاتها الخاصة، يمكن بناء فئة كاملة من أدوات التشفير التي تكتب البنى الرياضية - التحلل الطيفي، والطوبولوجيات، والمشغلات التفاضلية - مباشرةً في تدفق البيانات. مشفر كوبمان-ليبنيز هو مثال على ذلك. وبالاقتران مع بوابات الدخول الصفرية، يصبح هذا المشفّر شيئًا كان ينقص الممارسة الحالية لتعلّم الآلة حتى الآن: أداة لا تكافح أعراض ركود التدريب، بل تكافح سببه الرياضي. وهكذا يظهر خط فاصل يتجاوز التطبيق المحدد. إن بنيات الذكاء الاصطناعي السائدة في الوقت الحاضر - بدءًا من النماذج اللغوية الكبيرة من شركات مثل OpenAI أو أنثروبيك أو Google DeepMind إلى أحدث المحولات التوليدية - هي في الأساس ذات تصميم أنثروبوس (من اليونانية ánthropos، أي "الإنسان"): فهي تحاكي اللغة البشرية، والإدراك البشري، وصنع القرار البشري، وهي متجمدة في فضاء متغير متعلم ومنفصل لا تغادر هندسته بعد التدريب. من ناحية أخرى، تعمل مشغلات كوبمان-لايبنتز في فضاء طيفي مستمر لقوانين النظام الثابتة. وهذا يفتح مجالاً منفصلاً للبحث خارج فئة النماذج المتمحورة حول الإنسان: المحولات التوليدية التكيفية التي لا تستمد تمثيلها من البيانات البشرية، بل من ديناميكيات النظام المرصود نفسه. تُظهر الاختبارات الحالية أن المُشَفِّر لا يخترق الهضبة بإضافة السعة، بل بتصفية ديناميكيات النظام بشكل أكثر دقة. وهو يعمل كمحفز انتقائي - فهو يظل غير نشط في المراحل التي يتقارب فيها النموذج بشكل مستقل ولا يتدخل إلا عندما يهدد ركود التدرج. وبالتالي يكتسب النظام استقرارًا دون المساس بمفردات السمات الحالية المكتسبة.
ابحث عنها أكثر:
المقالات ذات الصلة
انشر تعليقاً هنا...
|
|