باختصار
طور فريق مختبر «ألفابت لأبحاث الذكاء الاصطناعي» نظام تحدث اصطناعي يدعى «ويف نت،» ويعتمد في عمله على شبكات عصبية اصطناعية تنتج صوتًا للذكاء الاصطناعي يشبه الصوت البشري. وطور بعد ذلك نظام «تاكوترون 2» لتحويل النصوص إلى صوت، لنصل بذلك إلى الجيل الثاني من نظام التحدث الاصطناعي.

صوت الذكاء الاصطناعي

استخدم فريق مختبر «ألفابت لأبحاث الذكاء الاصطناعي» -التابع لجوجل- الذكاء الاصطناعي «لديب مايند» لتطوير نظام تحدث اصطناعي يُدعى «ويف نت» في العام 2016. وهو يعتمد في عمله على شبكات عصبية اصطناعية تنتج نماذجًا صوتيةً بجودة تفوق التقنيات الأخرى لتقترب جودة صوت الذكاء الاصطناعي من الصوت البشري. وحسّن الفريق مؤخرًا نظام ويف نت ليتوافق بكفاءة مع مساعد جوجل الذكي على جميع المنصات.

نشرت جوجل في يناير/كانون الثاني 2018 ورقةً بحثيةً تتحدث عن نظام تحويل النصوص إلى صوت يسمى «تاكوترون 2،» ثم طورت الجيل الثاني من نظام التحدث الاصطناعي الذي يجمع بين الشبكات العصبية العميقة لتاكوترون 2 وويف نت.

يحول تاكوترون 2 النص إلى هيئة مخطط مرئي لتغير الترددات الصوتية مع الزمن، يسمى «الرسم الطيفي،» ثم يقرأه ويف نت لإنشاء مخطط لعناصر الصوت الموافقة. ووفقًا للدراسة بلغت قيمة متوسط الرأي للنموذج 4.53، وهي قيمة قريبة من متوسط الرأي للحديث الاحترافي المُسجَّل والتي تبلغ 4.58، ما يعني أنه يشبه الصوت البشري كثيرًا.

وللمقارنة، نشرت جوجل تسجيلات صوت بشري مع نماذج صوت الذكاء الاصطناعي، وكان من الصعب التفريق بينهما، وإليك عينة منها.

نظام تحدث اصطناعي

تطورت قدرة أنظمة الذكاء الاصطناعي على الدمج بين الإنسان والآلة. إذ تمكنت بعض أنظمة الذكاء الاصطناعي من توليد صور لبشر غير حقيقيين يصعب تمييزها، وطورت أنظمة أخرى قادرة على إنشاء مقاطع فيديو غير حقيقية، بالإضافة إلى أنظمة أخرى تستطيع سرد القصص وإنشاء مقاطع موسيقية.

لطالما كان تقليد الصوت البشري تحديًا كبيرًا أمام شبكات الذكاء الاصطناعي، لكن نظم ديب مايند وويف نت وتاكوترون 2 استطاعت تحقيق ذلك بكفاءة مدهشة. ولا يلفظ الذكاء الاصطناعي الكلمات بوضوح فحسب، بل يستطيع التعامل مع الكلمات التي يصعب لفظها والأسماء أيضًا، بالإضافة إلى التركيز على الكلمات المناسبة بالاعتماد على علامات الترقيم. وإليك مثالًا عن ذلك.

لا يعني ذلك أن نظام الذكاء الاصطناعي الجديد قد وصل إلى الكمال، إذ درب الفريق النظام الحالي على استخدام صوت واحد سجلته جوجل لموظفة لديها. ويتطلب إدخال أصوات أخرى على نت ويف أو تاكوترون 2 إعادة تدريب النظام مرةً أخرى.

وقد يؤدي تطوير نظام تاكوترون 2 ليبلغ حد الاتقان إلى استخدامه في تطبيقات عديدة إلى جانب استخدامه في مساعد جوجل الذكي، وقد يتولى تنفيذ وظائف معينة تضاف إلى قائمة الوظائف الأخرى التي أصبح الذكاء الاصطناعي ماهرًا في أدائها.