خوارزمية مقترحة لتحسين استخراج المقاطع النصيّة في نظم إجابة الأسئلة بالعربي
الكلمات المفتاحية:
معالجة اللغات الطبيعية، الإجابة الآلية، استخراج المقاطع النصيّةالملخص
تعتبر نظم الإجابة الآلية اليوم بالغة الأهمية، ويعود ذلك لحجم المعطيات الكبير المتاح على الإنترنت، وبالتالي أصبح المستخدمين بحاجة نظم قادرة على تقديم إجابات مختصرة ودقيقة على استفساراتهم من ضمن هذه المعطيات، وتعد مرحلة استخراج المقاطع النصيّة من أهم المراحل في نظم الإجابة الآلية، وذلك لأن الحصول على إجابات صحيحة مرتبط باستخراج مقاطع نصيّة صحيحة، لذلك، ارتكز بحثنا على إيجاد خوارزمية لتحقيق مرحلة استخراج المقاطع النصيّة تُحسن من أداء نظم الإجابة الآلية بشكل عام. قمنا باقتراح خوارزمية تعتمد على دمج التشابه النحوي والدلالي ما بين نص السؤال والمقاطع النصيّة، حيث جرى قياس التشابه النحوي باستخدام خوارزمية BM25، وجرى قياس التشابه الدلالي باستخدام تقنية تضمين الكلمات وباعتماد نموذج AraVec المدرب مسبقاً. جرى اختبار الخوارزمية المقترحة باستخدام مجموعة بيانات منمّطة ARCD والمستخدمة ذاتها في أبحاث مشابهة سابقة، واستطعنا الحصول على مقاطع نصيّة صحيحة بدقة 92.4%، بحيث يعتبر المقطع النصي صحيح في حال احتوى على الإجابة الصحيحة المرفقة في عينة الاختبار.