استخدام التصنيف المسبق للصور لتحسين دقة أنظمة وصف الصور
الكلمات المفتاحية:
LSTMتأثير عملية، CNN شبكة، ResNet50شبكة، FastTextشبكة، التعلم العميق، أنظمة وصف الصور، نموذج التصنيف، مجموعات البيانات المصنفةالملخص
يعد التعلم العميق الذي يبنى على هدف وصف الصور وإظهار تسميات توضيحية لها أحد أهم التطبيقات الواعدة في مجال علوم الحاسب. حيث يتكون من جزئيين رئيسيين هما (نموذج وصف الصورة والنموذج النصي). قمنا في أبحاث سابقة بدراسة تأثير استخدام اللغات واختلاف مجموعة بيانات مختلفة على نماذج لوصف الصور، ولكن في هذه الورقة البحثية سندرس تأثير تصنيف مجموعات بيانات الصورة على دقة نماذج الوصف السابقة. تم انشاء مجموعة بيانات مؤلفة من 12000 صورة ومجمعة من مجموعتين للبيانات (Flickr2k و MS-COCO)، حيث أن هذه النماذج المصممة تدعم اللغتين العربية والإنكليزية، أما بالنسبة للجزء المختص بوصف الصورة تم استخدام سيناريوين مختلفين. في السيناريو الأول استخدمنا نماذج الصور مع شبكة CNN والنص LSTM ,بينما في السيناريو الثاني تم استخدام ResNet50 و FastText كنماذج وصف الصورة والنص على التوالي. تم تطبيق عملية التدريب لكل من الأصناف الداخلية والخارجية ثم تم تطبيق سيناريو الاختبار بعد انتهاء عملية التدريب وفقاً لحالتين وبأربع طرق مختلفة وهاتان الحالتان هما نماذج الوصف كلمة -كلمة ونموذج الوصف جملة -جملة. أثبتت نتائج تحليل الأداء أن الفئات المصنفة تتمتع بأداء أعلى من غير المصنفة في حالة مجموعة البيانات المستندة إلى التكرار وغير المتكررة في جميع السيناريوهات.