تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي
الكلمات المفتاحية:
فصل المتكلمين، مدوّنة التدريب، الأصوات المفردة، إشارة مزيجالملخص
تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتكون من إشارات صوتية هي إشارة مزيج لصوتين والأصوات المفردة Ground Truths التي شكلت ذلك المزيج. صُممت إشارات المزيج في المدونات التركيبية باستخدام برامج محاكاة حاسوبية، لا تعكس بشكل كاف إشارات المزيج الواقعية التي يلتقطها الميكرفون. لا يوجد حتى الآن مدوّنة تدريب حقيقية أو واقعية لفصل المتكلمين، والعائق الرئيسي في ذلك هو صعوبة الحصول على الأصوات المفردة بعد تسجيل إشارة المزيج. نقدّم في هذه الورقة طريقة لبناء أول مدوّنة تدريب حقيقية لفصل المتكلمين تتضمن إشارات المزيج مع الأصوات المفردة الموافقة لكل مزيج. اختبرنا هذه المدوّنة على نموذج تعلم عميق وقارناه مع مدوّنة تركيبية حيث لاحظنا تحسّن دقة فصل المتكلمين بمقدار 1.65 dB حسب المعيار Scale Invariant Signal to Distortion Ratio (SI-SDR) في حالة المزج الحقيقي. أظهرت النتائج أهمية مجموعات التدريب الحقيقية في تحسين أداء خوارزميات فصل المتكلمين في بيئات حقيقية.