شماره ركورد كنفرانس :
5490
عنوان مقاله :
پاسخ به پرسش ديداري در تصاوير هنري با استفاده از يادگيري عميق
پديدآورندگان :
ذوالقدريها عرفان erfanzolghadriha@gmail.com گروه مهندسي كامپيوتر، دانشكده مهندسي، دانشكدگان فارابي، دانشگاه تهران , فولاديقلعه كاظم kfouladi@ut.ac.ir گروه مهندسي كامپيوتر، دانشكده مهندسي، دانشكدگان فارابي، دانشگاه تهران , اردهخاني پويا pouya.ardehkhani@ut.ac.ir آزمايشگاه پژوهشي يادگيري عميق، گروه مهندسي كامپيوتر، دانشكده مهندسي، دانشكدگان فارابي، دانشگاه تهران
كليدواژه :
بينايي كامپيوتري , پاسخ به پرسش ديداري , پردازش زبان طبيعي , تصاوير هنري
عنوان كنفرانس :
ششمين كنفرانس بينالمللي بازشناسي الگو و تحليل تصوير
چكيده فارسي :
پاسخ به پرسش ديداري در حوزههاي خاص علاوه بر تازگي، از اين رو كه به كاربرديتر شدن اين سيستمها در مسائل روزمره و مسائل تخصصي كمك ميكند، اهميت دارد. در اين پژوهش با استفاده از يك مجموعهداده هنري كه داراي پرسشهاي ديداري و برمبناي دانش ميباشد، اقدام به پيادهسازي و بهبود عملكرد يك سيستم پاسخ به پرسش ديداري در تصاوير هنري ميكنيم. براي اين كار در ابتدا ماهيت پرسشهاي مجموعهداده را با استفاده از يك BERT پيش آموزش ديده مشخص كرده و سپس در شاخهي ديداري با استفاده از مدل iQAN با مكانيسم توجه MLB و مكانيسم همجوشي MUTAN به پرسشهاي ديداري و در شاخهي مبتني بر دانش با استفاده از يك مدل مبتني بر XLNet به پرسشهايي كه از روي تصاوير قادر به پاسخدهي به آنها نيستيم، پاسخ ميدهيم. در شاخهي ديداري به دقت 78.92% در پرسشهاي ديداري رسيديم. در شاخهي مبتني بر دانش نيز به دقت 47.71% دست پيدا كرديم. در مجموع دو شاخه با توجه به تقسيم آزمايشي مجموعهداده به دقت 55.88% رسيديم. همچنين در اين پژوهش تأثير پارامترهاي تعداد نگاه اجمالي و توابع فعالسازي را در عملكرد مدل بررسي شده است.