باختصار
بدأ باحثو «الذكاء الاصطناعي» في شركة «أوبن أي آي للأبحاث» بتطبيق طريقة جديدة تُعزز التعلم تسمى «تحسين سياسة الأقرب» لتدريب نماذج الذكاء الاصطناعي، فهذه الخوارزمية الجديدة تحسن الأداء وهي سهلة الاستخدام.

طرائق تدرج السياسة

تعتمد العديد من أنظمة «الذكاء الاصطناعي» حاليًا على «خوارزميات تعلم الآلة» اعتمادًا كبيرًا بالإضافة إلى الشبكات العصبية العميقة، ما يمكنها من أداء الوظائف كالبشر، بل أفضل منهم أحيانًا. ويعد الذكاء الاصطناعي لاعب لعبة جو الصينية «ألفاجو» على ديب مايند أحد أشهر الأمثلة على ذلك، إذ استطاع التغلب على محترفي تلك اللعبة في أكثر من مناسبة.

يُعزى نجاح أنظمة الذكاء الاصطناعي جزئيًا إلى تقنية تعزيز التعلم المسماة «طرائق تدرج السياسة،» لأنها تحسن سياسات الذكاء الاصطناعي التي تعمل وفق معايير محددة استنادًا إلى النتائج المتوقعة، إذ تُستخدم تلك التقنية للسيطرة على الشبكات العصبية العميقة في ألعاب الفيديو والحركة ثلاثية الأبعاد.

ويشير الباحثون في شركة «أوبن أي آي للأبحاث» إلى محدودية تلك الطرائق، لكن للتغلب على تلك القيود، بدأ الباحثون باستخدام نوع جديد من خوارزميات تعزيز التعلم يسمى «تحسين سياسة الأقرب- بي بي أو» التي أثبتت أنها سهلة التطبيق والضبط بدقة.

وكتب الباحثون في دراسة نُشرت مؤخرًا على الإنترنت، «نقترح الآن عائلةً جديدةً من طرائق تدرج السياسة لتعزيز التعلم، التي تتناوب على جمع البيانات عبر التفاعل مع البيئة وتحسين دالة موضوعية بديلة باستخدام الصعود المتدرج العشوائي.»

تحسين قدرة الذكاء الاصطناعي على التعلم

تقترح شركة أوبن أي آي الاعتماد على خوارزمية تحسين سياسة الأقرب لتحسين قدرة الذكاء الاصطناعي على التعلم والتأقلم مع المواقف الجديدة، إذ شرحت الشركة في مدونتها «تفرض الخوارزمية الجديدة توازنًا بين سهولة التطبيق وتعقيد العينة وسهولة الضبط ومحاولة حساب تحديث الخطوات التي تقلل دالة التكلفة مع التأكد من عدم الانحراف عن السياسة السابقة كثيرًا.»

وعرضت الشركة آلية عمل خوارزمية التحسين عبر تطوير عميل ذكاء اصطناعي تفاعلي في بيئة اصطناعية تسمى «روبوسكول،» فكتبت الشركة في مدونتها «تتيح لنا خوارزمية التحسين تدريب سياسات الذكاء الاصطناعي في بيئاتٍ مليئة بالتحديات، فهي تدرب عميل الذكاء الاصطناعي على الوصول إلى الهدف، وتعلم المشي، وتدربه أيضًا على الجري واتقان الالتفاف واستخدام كمية الحركة للتخلص من الضربات الطفيفة، بالإضافة إلى تدريبه على الوقوف بعد الوقوع على الأرض،» واستطاع العملاء التفاعليون تتبع مواقع الأهداف الجديدة التي تحددها لوحة المفاتيح، على الرغم من اختلاف تلك المهمة عن التدريبات الأولية. وباختصار، تعلم العملاء تعميم الأفكار بعد تعلمها.

ويمكن توظيف طريقة تعزيز التعلم تلك في تدريب الروبوتات على التأقلم مع البيئة، إذ اختبر الباحثون الفكرة عبر محاكاة الروبوت «أطلس» ثنائي القدمين الذي أنتجته شركة «بوسطن دايناميكس،» الذي كان أعقد من التجربة السابقة، بسبب مفاصله القليلة (17 مفصلًا فقط) التي يملكها أطلس بالمقارنة مع 30 مفصلًا يملكها عميل أوبن أي آي التفاعلي.

وتأمل أوبن أي آي عبر استخدامها لخوارزمية التحسين في تطوير ذكاء اصطناعي قادر على التأقلم مع البيئة بسرعة والتجاوب بفعالية أكثر، ولتحسين تلك الخوارزمية دعت الشركة حاليًا المطورين لتجربتها، فكتبت على موقعها «نبحث عمّن يساعدنا في بناء وتحسين الرموز الأساسية لخوارزمية تعزيز التعلم الخاصة بنا.»