إن سبق أن أجريت مكالمة جماعية فلا ريب أنك تعي مدى أهمية القدرة على تمييز الشخص من صوته، وإلا فسيكون التفاعل خلال هذه المكالمات صعبًا جدًا. قد يكون إتقان الذكاء الاصطناعي لهذه المهارة أكثر صعوبة من إتقان البشر لها، لكن شركة جوجل تقول أنها طورت نظامًا بارعًا في تمييز الأصوات في تطبيقات العالم الواقعي.

لا يعد تعرف الذكاء الاصطناعي على صوت مألوف سبق أن سمعه أمرًا صعبًا، فنحن قادرون على تدريب أجهزة الذكاء الاصطناعي مثل أليكسا وسيري على تمييز أصواتنا. لكن الصعوبة تكمن في أن يتعرف الذكاء الاصطناعي على أصوات لم يسبق له سماعها أوالتدرب على تمييزها بمجرد تحدثها.

نشر العالم في مجال أبحاث الذكاء الاصطناعي في شركة جوجل «تشونج وانج» يوم الإثنين، تدوينة توضح بالتفصيل كيف تمكن فريقه من ابتكار ذكاء اصطناعي حقق مستوى أفضل في عملية تقسيم مقطع صوتي يضم صوت أكثر من متحدث واحد إلى أقسام متعددة وفقًا لهوية المتحدث وفي أي لحظة محددة.

والتوضيح الذي قدمه وانج تقني بحت، وجوهره أن معظم أنظمة عمليات تقسيم المقاطع الصوتية وفقًا للشخص المتحدث تعتمد في عملها على التحليل العنقودي؛ وهي آلية في تقنية تعلم الآلة تركز على تجميع نقاط البيانات. واعتمد فريق عمل جوجل في نظامه الجديد على الشبكات العصبية المتكررة، وهي نموذج من تقنيات تعلم الآلة يعالج تسلسل نقاط البيانات.

وتمكن فريق جوجل بالاعتماد على هذه الطريقة من ابتكار ذكاء اصطناعي قادر على تقسيم مقطع صوتي يضم صوت أكثر من متحدث واحد إلى أقسام متعددة وفقًا لهوية المتحدث، بنسبة خطأ لا تتجاوز 7.6%. ويركز الفريق حاليًا على تحسين النظام أكثر ورفع نسبة دقته. وباشر بنشر الخوارزمية الخاصة بهذا المشروع على موقع «جيت هاب» ليتسنى لأي شخص تحميلها والاستفادة منها في بحوثه الخاصة، عسى أن نتمكن في نهاية المطاف من توفير ذكاء اصطناعي قادر على تمييز الأصوات بدقة عالية وسرعة فورية للاستفادة منه في تطبيقات عديدة لا حصر لها.