دقة مذهلة

أعلنت شركة «مايكروسوفت» مؤخرًا عن تحقيق «نظام المحادثة» الخاص بها «للتعرف على الكلام» أفضل مستوىً له حتى الآن بعد أن بلغ معدل الخطأ فيه 5.1%. ليتفوق على معدل الخطأ السابق البالغ 5.9% في أكتوبر/تشرين الأول عام 2016 ما يضعه في مستوى الدقة ذاته «لناسخي النص المحترفين» من البشر، الذين يستمعون إلى النص مراتٍ عديدة، ويفهمون السياق لكتابة النص بالإضافة إلى تعاونهم مع ناسخي نصوص آخرين عند الحاجة.

فبعد الدراسة التي أُجريت عام 2016، اعتمد الباحثون معدل الخطأ 5.1% كمعدل لكفاءة الناسخين البشريين ما يعني أن النظام استطاع تحقيق كفاءة البشر.

حقوق الصورة: مايك موزارت/فليكر.
حقوق الصورة: مايك موزارت/فليكر.

يعود مصدر التسجيلات المستخدمة في الدراستين إلى «مجموعة سويتشبورد،» وهي مجموعة للأبحاث تتضمن آلاف المحادثات الهاتفية المستخدمة لاختبار أنظمة التعرف على الكلام منذ أوائل تسعينيات القرن الماضي.

وتهدف الدراسة الأخيرة التي أجراها فريق قسم «الذكاء الاصطناعي والأبحاث التابع مايكروسوفت» إلى تحسين دقة النظام والوصول به إلى كفاءة البشر، على الرغم من تفوق البشر في فهم المعاني من السياق والتعاون بين بعضهم البعض بالإضافة لامتلاكهم الخبرة الوافية.

الصورة كاملة

تمكن الباحثون في تلك الدراسة من تقليل معدل الخطأ بنحو 12% عبر تحسين اللغة والنماذج السمعية المعتمدة على الشبكات العصبية لأنظمة مايكروسوفت للتعرف على الكلام، إذ اتاحوا لأداة التعرف على الصوت الاستفادة من المحادثات بأكملها بدلًا من استخدام مقتطفات منها، ما مكن الأداة من توقع الكلمات أو الجمل التي ستأتي في سياق المحادثة، وسمح هذا للنظام بتعديل نصوصه بنجاح مع السياق المطلوب، تمامًا كما يفعل البشر في محادثاتهم. وببساطة، علّم الباحثون النظام استيعاب الصورة كاملةً لفهم التسجيلات فهمًا أفضل أثناء نسخه للنصوص.

يُستخدم نظام مايكروسوفت للتعرف على الكلام حاليًا في كورتانا (المساعد الشخصي الذكي في نظام ويندوز 10) وفي مايكروسوفت للخدمات المعرفية وفي مترجم العروض التقديمية. وستؤدي برامج التعرف على الكلام المماثلة لكفاءة البشر مستقبلًا دورًا حيويًا في ابتكار ذكاء اصطناعي يتفاعل مع الإنسان ويعمل إلى جانبه بسلاسة كما يفعل البشر.

ويُعد معدل الخطأ 5.1% لنظام التعرف على الكلام إنجازًا عظيمًا، على الرغم من وجود تحدياتٍ أخرى تواجه مجتمع أبحاث الكلام. ويرى زميل مايكروسوفت التقني «تشودونغ هوانغ» أن تحقيق بعض الأهداف باستخدام بيانات تدريب محدودة ما زال بعيد المنال، مثل الوصول إلى قدرة البشر في التعرف على الكلام في بيئات مليئة بالضوضاء باستخدام الميكروفونات البعيدة، بالإضافة لتحقيق مستوياتٍ أعلى في التعرف على اللهجات وتمييز اللغات وأساليب الحديث.

ولا شك أن الهدف التالي والمهم لتقنية الكلام والذكاء الاصطناعي هو الارتقاء بالتقنية لتتخطى حدود نسخ الكلام إلى إنتاج نص مترابط لا غبار عليه عبر فهم المعنى المقصود واستيعابه.