طور باحثو معهد ماساتشوستس للتقنية نظامًا لتوليد النصوص يستبدل المعلومات القديمة في مقالات ويكيبيديا ويحافظ على القواعد وأسلوب الكتابة ما يوفر جهد المحررين ووقتهم.

وتتضمن ويكيبيديا ملايين المقالات التي تحتاج إلى تعديلات مستمرة مثل إضافة تفاصيل جديدة أو إعادة صياغتها أو تعديل الأرقام والتواريخ والمواقع. ويجري حاليًا متطوعون هذه التعديلات. وعرض الباحثون دراسةً خلال مؤتمر إيه إيه إيه آي للذكاء الاصطناعي شرحوا فيها نظام توليد النصوص الحديد الذي يحدد المعلومات الخاطئة ويستبدلها في مقالات ويكيبيديا ويحافظ على أسلوب الكتابة البشري.

وتعتمد فكرة النظام على كتابة المحررين للمعلومات المحدثة بطريقة غير منظمة دون الحاجة إلى الاهتمام بالقواعد أو الأسلوب وبعد ذلك يبحث النظام عن الصفحة التي تتضمن المعلومات القديمة في ويكيبيديا ويعيد كتابتها بأسلوب مشابه لأسلوب البشر. وذكر الباحثون أن النظام قد يتطور مستقبلًا لاكتشاف المعلومات المحدثة على شبكة الإنترنت ويعيد كتابتها ويستبدل المعلومات القديمة في المقالات.

وقال دارش شاه طالب الدكتوراه في مختبر علوم الحاسوب والذكاء الاصطناعي وأحد مؤلفي الدراسة «تتطلب مقالات ويكيبيديا التعديل باستمرار، ولذا فإن إجراء هذه التعديلات بصورة مؤتمتة وتقليل التدخل البشري أمرٌ مفيد جدًا لأن الوقت اللازم لتعديل المقالات ويزيد دقتها.» وأضاف أن النظام الجديد يتفوق على الأنظمة التقليدية في أنه يحافظ على القواعد ويصيغ التعديلات بأسلوب مشابه للأسلوب البشري. وقال الباحث تال شوستر، الذي شارك في تأليف الدراسة، أن النظام الجديد يستخدم أيضًا في تطبيقات توليد النصوص الأخرى.

ويمتاز النظام بقدرٍ كبير من الإبداع في توليد النصوص، واكتشاف التناقض بين جملتين منفصلتين وإعادة صياغتهما. فعندما توجد جملة تتضمن معلومة قديمة وأخري تتضمن المعلومة المحدثة ضمن الجمل التي يدخلها المحرر بطريقة غير منظمة يكتشف النظام التضارب ويحذف المعلومات القديمة ويحافظ على القواعد ويعيد صياغة الجملة بطريقة مشابهة للأسلوب البشري. وعلى الرغم من أن هذه المهمة قد تبدو سهلة للبشر، لكنها تمثل تقدمًا كبيرًا بالنسبة للتعلم الآلي.

درب الباحثون النظام على قاعدة بيانات عامة تتضمن أزواج من نوعين من الجمل، النوع الأول يتضمن معلومات محدثة والنوع الثاني جمل من مقالات ويكيبيديا. وحمل كل زوجين من الجمل تصنيف من ثلاثة: الأول «أوافق» وتعني أن الجملتين تتضمنان معلومات متطابقة، والثاني «لا أوافق» وتعني أن الجملتين تتضمنان معلومات متناقضة، والثالث «محايد»، وتعني أن الجملتين لا تتضمنان معلومات كافية لتصنيفهما، وعمل النظام على تحويل الأزواج التي تحمل التصنيف «لا أوافق» إلى التصنيف «أوافق» من خلال حذف المعلومات القديمة واستبدالها بالمعلومات المحدثة وإعادة صياغتها والحفاظ على القواعد.

واختبر الباحثون النظام وأظهرت النتائج تفوقه على جميع الوسائل التقليدية، وقيّموه باستخدام تقنية تسمى «إس إيه آر آي» تقيس دقة الآلات في حذف الكلمات أو إضافتها أو عدم تعديلها بالمقارنة مع الأسلوب البشري الذي تمثّل في قاعدة بيانات تتضمن جمل من ويكيبيديا معدلة يدويًا. وأظهرت تقنية «إس إيه آر آي» أن النظام الجديد امتاز بدقته واقترابه من الأسلوب البشري. وأظهر اختبار آخر حصول النظام الجديد على 4 درجات من خمس في تحديث المعلومات والصياغة 3.85 درجة من خمس في الحفاظ على القواعد بالمقارنة مع الأسلوب البشري.

حذف الأخطاء

أظهرت الدراسة أيضًا أن النظام قد يستخدم في تقوية قواعد البيانات لحذف الأخطاء من خلال تدريب أدوات تكشف الأخبار المزيفة، وهي إحدى صور الدعاية التي تتضمن معلومات مضللة للقراء لزيادة المشاهدات أو توجيه الرأي العام. وذكر الباحثون أن النظام الجديد تفوق أيضًا على التقنيات التقليدية المستخدمة لاكتشاف الأخبار المزيفة إذ كانت نتائجه أفضل بنسبة 13% بالمقارنة معها.