البشر يعلّمون الروبوتات

يمتلك «الذكاء الاصطناعي» القدرة على التقدم بالبشرية والحضارات أكثر من أي تقنية مضت، لكن ذلك ينطوي على مخاطر كثيرة ومسؤولياتٍ ضخمة. وتتشارك شركة «ألفابت» المالكة «لديب مايند» -وهي الشركة الأم لشركة جوجل - وشركة الأبحاث غير الربحية «أوبن أي آي» معًا للتخفيف من تلك المخاوف، إذ تتعاون الشركتان مع البشر الذين لا يمتلكون بالضرورة مهاراتٍ تقنيةٍ عالية لتعليم الذكاء الاصطناعي، فتساعد تعليمات البشر الذكاء الاصطناعي على التعلم بفعالية أكثر بالإضافة لتوفيرها السلامة التقنية والسيطرة على النظام.

ومن أولى الاستنتاجات عن التعاون مع ديب مايند: يتعلم الذكاء الاصطناعي عبر التجربة والخطأ ولا يحتاج إلى البشر لتحديد هدف نهائي، الأمر الذي يُعد جيدًا، فمن المعروف أن تحديد أهدافٍ غير اعتيادية قد يؤدي إلى نتائج كارثية. وضمن إطار التجربة، استخدم النظام تعليمات البشر لتعليم روبوت محاكي الشقلبة الخلفية.

ديب مايند: كم يستطيع الإنسان أن يعلم الذكاء الاصطناعي؟
ديب مايند

يُعد ذلك النظام فريدًا لأنه يتعلم عبر تدريب «متوقِّع المكافآت -وهو عميل من الشبكة العصبية» بدلًا من البحث عن المكافآت في البيئة. إذ يستمر «عميل تعزيز التعلم» في استكشاف البيئة ليستقبل المراقبون مقاطع فيديو عن سلوكياته دوريًا، ثم يختار المراقب السلوك الأفضل المناسب لكل مهمة، وتسهم خيارات المراقبين في تدريب متوقِّع المكافآت الذي يدرب بدوره عميل التعلم، الذي يتعلم أخيرًا أفضل سبيل لتحسين سلوكه للحصول على مكافآتٍ أكثر، والتي لا يحصل عليها إلا بإرضاء البشر بسلوكياته.

أنظمة أكثر أمانًا

تتيح تلك الطريقة للبشر اكتشاف وتصحيح السلوكيات غير المرغوبة، ما يضمن الأمان ويزيح العبء عن كاهل المراقبين. ويعد ذلك جيدًا، لأن عليهم مراجعة نحو 0.1% من سلوك العميل لتعليمه، ولوهلة قد تبدو تلك النسبة بسيطة، لكنها تعني مراجعة آلاف المقاطع الفيديو.

تساعد تعليماتُ البشر الذكاءَ الاصطناعي في الوصول إلى نتائج خارقة، على الأقل في بعض ألعاب الفيديو. ويحلل الباحثون حاليًا سبب نجاح نظام التعليم البشري في بعض المهمات بنتائج مبهرة وعدم فعاليته في مهمات أخرى. فمثلًا؛ لا تستطيع تعليمات البشر مساعدة النظام في التفوق في لعبتي «كيوبيرت» «وبريكآوت.» ويعمل الباحثون أيضًا على حل مشكلة اختراق النظام لوظيفة المكافآت، إذ يسبب التوقف المبكر لتعليمات البشر في تلاعب النظام في وظيفة المكافآت ليعطي نتائج سلبية.

ومن المهم فهم تلك المشكلات لبناء نظام ذكاءٍ اصطناعي يتصرف بأمان وكفاءة كما نرغب، وقد تتضمن الأهداف المستقبلية تقليل تعليمات البشر المطلوبة أو تغيير آلية تقديمها، وربما يصبح تبادل التعليمات وجهًا لوجه ممكنًا يومًا، لإتاحة فرص أكثر للذكاء الاصطناعي للتعلم من سلوكيات البشر الحقيقية.