• شماره ركورد
    1361707
  • عنوان مقاله

    توصيف تصاوير مبتني بر شبكه عميق رمزگذار-رمزگشا و سازوكار توجه بر توجه

  • پديد آورندگان

    فاميل ستاري ، زهرا دانشگاه بوعلي سينا - گروه مهندسي كامپيوتر، آزمايشگاه هوش و بينايي ربات , ختن لو ، حسن دانشگاه بوعلي سينا - گروه مهندسي كامپيوتر، آزمايشگاه هوش و بينايي ربات , عليقارداش ، الهام دانشگاه بوعلي سينا - گروه مهندسي كامپيوتر، آزمايشگاه هوش و بينايي ربات

  • از صفحه
    77
  • تا صفحه
    88
  • كليدواژه
    توصيف تصوير , رمزگذار-رمزگشا سازوكار توجه , سازوكار توجه بر توجه , پردازش زبان‌ها طبيعي
  • چكيده فارسي
    توصيف تصوير يك زمينه تحقيقاتي بين رشته اي در بينايي ماشين و پردازش زبان طبيعي است. بسياري از روش‌هاي پيشنهاد شده براي توليد توصيف تصوير از چارچوب رمزگذار - رمزگشا پيروي كرده‌اند. به اين ترتيب هر كلمه بر اساس ويژگي‌هاي تصوير و كلمات توليد شده قبلي توليد مي‌شود. اخيراً سازوكار توجه، كه ميتواند با ايجاد نقشه فضايي، مناطق مرتبط تصوير با هر كلمه را برجسته ‌كند، به طور گسترده در تحقيقات استفاده شده است. در اين مقاله، ما يك روش جديد را پيشنهاد كرده‌ايم كه چارچوب رمزگذار-رمزگشا را با سازوكار توجه و سازوكار توجه بر توجه ادغام كرده‌ است. بخش رمزگذار مدل شامل چند بخش ResNet، Attention-LSTM، Multi Head Attention و Attention on Attention  است. از ResNet براي استخراج ويژگي هاي كلي تصوير استفاده شده است. ايه‌ي Language-LSTMمسئوليت رمزگشايي را بر عهده دارد. سازوكار توجه از شواهد محلي براي افزايش نمايش ويژگي‌ها و استدلال در توليد توصيفات تصويري بهره برده و سازوكار توجه بر توجه مي‌‌تواند روابط اشياي داخل تصاوير را به‌خوبي درك كند. اين روش پيشنهادي توانسته است بر روي تصاوير مجموعه‌هاي داده Flickr8k و MSCOCOتوصيف‌هاي بهتري را نسبت به روشهاي موفق موجود ارائه دهد. همچنين بر اساس معيارهاي ارزيابي METEOR، ROUGEعملكرد توصيف تصوير را بهبود داده است.
  • عنوان نشريه
    ماشين بينايي و پردازش تصوير
  • عنوان نشريه
    ماشين بينايي و پردازش تصوير