شماره ركورد
1361701
عنوان مقاله
توصيف محتواي تصاوير به صورت خودكار با بكارگيري شبكه عصبي كپسولي و روش تعبيه سازي ELMo
پديد آورندگان
جوانمردي ، شيما دانشگاه يزد , لطيف ، علي محمد دانشگاه يزد - دانشكده مهندسي كامپيوتر , صادقي ، محمدتقي دانشگاه يزد - دانشكده مهندسي برق
از صفحه
75
تا صفحه
91
كليدواژه
توصيف تصاوير , يادگيري عميق , شبكه كپسولي , شبكه عصبي پيچشي , پردازش زبان طبيعي
چكيده فارسي
توصيف محتواي تصوير به صورت خودكار توسط ماشين يك مشكل چالش برانگيز در بينايي كامپيوتر است و هدف آن توليد توضيحات قابل درك توسط كامپيوتر براي تصاوير مي باشد. استفاده از شبكه هاي عصبي پيچشي (CNN) نقش مهمي در زمينه توصيف تصاوير ايفا كرده است. با اين حال، در طول فرآيند توليد توصيفهاي مرتبط با تصوير دو چالش عمده براي CNN وجود دارد كه عبارتند از: عدم توجه آنها به روابط و ساختارهاي سلسله مراتبي مكاني بين اشياي درون تصوير، و عدم ثبات در مقابل تغييرات چرخشي تصاوير. به منظور رفع اين چالش ها اين مقاله با بهره گيري از يك شبكه كپسولي بهبود يافته، به توصيف محتواي تصوير با استفاده از پردازش زبان طبيعي مي پردازد. شبكه كپسولي با درنظر گرفتن موقعيت مكاني اشياي درون تصوير نسبت به يكديگر، اطلاعات مربوط به محتواي تصوير را ارائه مي دهد. يك كپسول شامل مجموعهاي از نورونها است كه پارامترهاي وضعيت اشيا درون تصوير مانند سايز، جهت، مقياس و روابط اشيا نسبت به هم را در نظر مي گيرند. اين كپسول ها تمركز ويژه اي بر استخراج ويژگي هاي معنادار براي استفاده در فرآيند توليد توضيحات مرتبط براي مجموعه اي معين از تصاوير دارند. آزمايشهاي كيفي روي مجموعه دادههاي MS-COCO با بهره گيري از شبكه كپسولي و روش تعبيه سازي ELMo، منجر به بهبود 2 تا 5 درصدي معيارهاي ارزيابي شده، در مقايسه با مدلهاي زيرنويس تصوير موجود شده است.
عنوان نشريه
ماشين بينايي و پردازش تصوير
عنوان نشريه
ماشين بينايي و پردازش تصوير
لينک به اين مدرک