شماره ركورد
1361707
عنوان مقاله
توصيف تصاوير مبتني بر شبكه عميق رمزگذار-رمزگشا و سازوكار توجه بر توجه
پديد آورندگان
فاميل ستاري ، زهرا دانشگاه بوعلي سينا - گروه مهندسي كامپيوتر، آزمايشگاه هوش و بينايي ربات , ختن لو ، حسن دانشگاه بوعلي سينا - گروه مهندسي كامپيوتر، آزمايشگاه هوش و بينايي ربات , عليقارداش ، الهام دانشگاه بوعلي سينا - گروه مهندسي كامپيوتر، آزمايشگاه هوش و بينايي ربات
از صفحه
77
تا صفحه
88
كليدواژه
توصيف تصوير , رمزگذار-رمزگشا سازوكار توجه , سازوكار توجه بر توجه , پردازش زبانها طبيعي
چكيده فارسي
توصيف تصوير يك زمينه تحقيقاتي بين رشته اي در بينايي ماشين و پردازش زبان طبيعي است. بسياري از روشهاي پيشنهاد شده براي توليد توصيف تصوير از چارچوب رمزگذار - رمزگشا پيروي كردهاند. به اين ترتيب هر كلمه بر اساس ويژگيهاي تصوير و كلمات توليد شده قبلي توليد ميشود. اخيراً سازوكار توجه، كه ميتواند با ايجاد نقشه فضايي، مناطق مرتبط تصوير با هر كلمه را برجسته كند، به طور گسترده در تحقيقات استفاده شده است. در اين مقاله، ما يك روش جديد را پيشنهاد كردهايم كه چارچوب رمزگذار-رمزگشا را با سازوكار توجه و سازوكار توجه بر توجه ادغام كرده است. بخش رمزگذار مدل شامل چند بخش ResNet، Attention-LSTM، Multi Head Attention و Attention on Attention است. از ResNet براي استخراج ويژگي هاي كلي تصوير استفاده شده است. ايهي Language-LSTMمسئوليت رمزگشايي را بر عهده دارد. سازوكار توجه از شواهد محلي براي افزايش نمايش ويژگيها و استدلال در توليد توصيفات تصويري بهره برده و سازوكار توجه بر توجه ميتواند روابط اشياي داخل تصاوير را بهخوبي درك كند. اين روش پيشنهادي توانسته است بر روي تصاوير مجموعههاي داده Flickr8k و MSCOCOتوصيفهاي بهتري را نسبت به روشهاي موفق موجود ارائه دهد. همچنين بر اساس معيارهاي ارزيابي METEOR، ROUGEعملكرد توصيف تصوير را بهبود داده است.
عنوان نشريه
ماشين بينايي و پردازش تصوير
عنوان نشريه
ماشين بينايي و پردازش تصوير
لينک به اين مدرک