تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي

رواد ملحم; د.م. آصف جعفر; د.م. أميمة الدكاك

المؤلفون

رواد ملحم
د.م. آصف جعفر جامعة دمشق
د.م. أميمة الدكاك جامعة دمشق

الكلمات المفتاحية:

فصل المتكلمين، مدوّنة التدريب، الأصوات المفردة، إشارة مزيج

الملخص

تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتكون من إشارات صوتية هي إشارة مزيج لصوتين والأصوات المفردة Ground Truths التي شكلت ذلك المزيج. صُممت إشارات المزيج في المدونات التركيبية باستخدام برامج محاكاة حاسوبية، لا تعكس بشكل كاف إشارات المزيج الواقعية التي يلتقطها الميكرفون. لا يوجد حتى الآن مدوّنة تدريب حقيقية أو واقعية لفصل المتكلمين، والعائق الرئيسي في ذلك هو صعوبة الحصول على الأصوات المفردة بعد تسجيل إشارة المزيج. نقدّم في هذه الورقة طريقة لبناء أول مدوّنة تدريب حقيقية لفصل المتكلمين تتضمن إشارات المزيج مع الأصوات المفردة الموافقة لكل مزيج. اختبرنا هذه المدوّنة على نموذج تعلم عميق وقارناه مع مدوّنة تركيبية حيث لاحظنا تحسّن دقة فصل المتكلمين بمقدار 1.65 dB حسب المعيار Scale Invariant Signal to Distortion Ratio (SI-SDR) في حالة المزج الحقيقي. أظهرت النتائج أهمية مجموعات التدريب الحقيقية في تحسين أداء خوارزميات فصل المتكلمين في بيئات حقيقية.

التنزيلات

تنزيل البيانات ليس متاحًا بعد.

تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي

المؤلفون

الكلمات المفتاحية:

الملخص

التنزيلات

التنزيلات

منشور

إصدار

القسم

كيفية الاقتباس

اللغة

المعلومات

الاستعراض

إنشاء طلب نشر