بناء نظام تعرف الكلمات المفتاحية باللغة العربية باستخدام التعلم الخاضع للإشراف الذاتي
الكلمات المفتاحية:
التمثيل السياقي، التعلم الخاضع للإشراف الذاتي، تعرُّف الكلمات المفتاحية، مدوَّنةالملخص
تعرض هذه الورقة البحثية دراسةً لاستخدام نماذج التمثيل السياقي المدرَّبة باستخدام التعلُّم الخاضع للإشراف الذاتي في مسألة تعرُّف الكلمات المفتاحية باللغة العربية، بهدف تقليل كمية المعطيات اللازمة للتدريب، مع الحفاظ على دقة عالية في التعرُّف. تم استخدام نموذجHidden Unit Bidirectional Encoder Representations from Transformers (HuBERT) لاستخراج التمثيل السياقي للإشارة الكلامية المدرب مسبقاً على معطيات باللغة العربية وبناء نموذج رأسي خاص بمسألة التعرُّف، تبعه إجراء معايرة دقيقة للنموذج الكلي باستخدام المدوَّنة Arabic Speech Command، وتم إجراء سلسلة من التجارب بهدف تحديد الحد الأدنى من عينات التدريب اللازمة لتحقيق دقة تعرُّف معينة.
حققت البنية المقترحة دقة تعرُّف تجاوزت 98.5% باستخدام عشر عينات تدريب لكل كلمة فقط، وتجاوزت 99.7% بزيادة العدد إلى 11 عينة تدريب أو أكثر. تم اختبار البنية على اللغة الانكليزية أيضاً، بهدف المقارنة، وحققت نتائج مماثلة من حيث الدقة وعدد العينات اللازمة للتدريب. تبين النتائج فعالية التعلم الخاضع للإشراف الذاتي في مسألة تعرُّف الكلمات المفتاحية باللغة العربية فيما يتعلق بتقليل عدد العينات اللازمة للتدريب، وإمكانية استخدامه في تطبيقات أوسع لمعالجة الإشارة الكلامية.