• شماره ركورد
    1361701
  • عنوان مقاله

    توصيف محتواي تصاوير به صورت خودكار با بكارگيري شبكه عصبي كپسولي و روش تعبيه سازي ELMo

  • پديد آورندگان

    جوانمردي ، شيما دانشگاه يزد , لطيف ، علي محمد دانشگاه يزد - دانشكده مهندسي كامپيوتر , صادقي ، محمدتقي دانشگاه يزد - دانشكده مهندسي برق

  • از صفحه
    75
  • تا صفحه
    91
  • كليدواژه
    توصيف تصاوير , يادگيري عميق , شبكه كپسولي , شبكه عصبي پيچشي , پردازش زبان طبيعي
  • چكيده فارسي
    توصيف محتواي تصوير به صورت خودكار توسط ماشين يك مشكل چالش برانگيز در بينايي كامپيوتر است و هدف آن توليد توضيحات قابل درك توسط كامپيوتر براي تصاوير مي باشد. استفاده از شبكه هاي عصبي پيچشي (CNN) نقش مهمي در زمينه  توصيف تصاوير ايفا كرده است. با اين حال، در طول فرآيند توليد توصيف‌هاي مرتبط با تصوير دو چالش عمده براي CNN وجود دارد كه عبارتند از: عدم توجه آنها به روابط و ساختارهاي سلسله مراتبي مكاني بين اشياي درون تصوير، و عدم ثبات در مقابل تغييرات چرخشي تصاوير. به منظور رفع اين چالش ها اين مقاله با بهره گيري از يك شبكه كپسولي بهبود يافته، به توصيف محتواي تصوير با استفاده از پردازش زبان طبيعي مي پردازد. شبكه كپسولي با درنظر گرفتن موقعيت مكاني اشياي درون تصوير نسبت به يكديگر،  اطلاعات مربوط به محتواي تصوير را ارائه مي دهد. يك كپسول شامل مجموعه‌اي از نورون‌ها است كه پارامترهاي وضعيت اشيا درون تصوير مانند سايز، جهت، مقياس و روابط اشيا نسبت به هم را در نظر مي‌ گيرند. اين كپسول ها تمركز ويژه اي بر استخراج ويژگي هاي معنادار براي استفاده در فرآيند توليد توضيحات مرتبط براي مجموعه اي معين از تصاوير دارند. آزمايش‌هاي كيفي روي مجموعه داده‌هاي MS-COCO با بهره گيري از شبكه كپسولي و روش تعبيه سازي ELMo، منجر به بهبود 2 تا 5 درصدي معيارهاي ارزيابي شده، در مقايسه با مدل‌هاي زيرنويس تصوير موجود شده است.
  • عنوان نشريه
    ماشين بينايي و پردازش تصوير
  • عنوان نشريه
    ماشين بينايي و پردازش تصوير