شماره ركورد كنفرانس :
5490
عنوان مقاله :
پاسخ به پرسش ديداري در تصاوير هنري با استفاده از يادگيري عميق
پديدآورندگان :
ذوالقدري‌ها عرفان erfanzolghadriha@gmail.com گروه مهندسي كامپيوتر، دانشكده مهندسي، دانشكدگان فارابي، دانشگاه تهران , فولادي‌قلعه كاظم kfouladi@ut.ac.ir گروه مهندسي كامپيوتر، دانشكده مهندسي، دانشكدگان فارابي، دانشگاه تهران , ارده‌خاني پويا pouya.ardehkhani@ut.ac.ir آزمايشگاه پژوهشي يادگيري عميق، گروه مهندسي كامپيوتر، دانشكده مهندسي، دانشكدگان فارابي، دانشگاه تهران
تعداد صفحه :
6
كليدواژه :
بينايي كامپيوتري , پاسخ به پرسش ديداري , پردازش زبان طبيعي , تصاوير هنري
سال انتشار :
1401
عنوان كنفرانس :
ششمين كنفرانس بين‌المللي بازشناسي الگو و تحليل تصوير
زبان مدرك :
فارسي
چكيده فارسي :
پاسخ به پرسش ديداري در حوزه‌هاي خاص علاوه بر تازگي، از اين رو كه به كاربردي‌تر شدن اين سيستم‌ها در مسائل روزمره و مسائل تخصصي كمك مي‌كند، اهميت دارد. در اين پژوهش با استفاده از يك مجموعه‌داده هنري كه داراي پرسش‌هاي ديداري و برمبناي دانش مي‌باشد، اقدام به پياده‌سازي و بهبود عملكرد يك سيستم پاسخ به پرسش ديداري در تصاوير هنري مي‌كنيم. براي اين كار در ابتدا ماهيت پرسش‌هاي مجموعه‌داده را با استفاده از يك BERT پيش آموزش ديده مشخص كرده و سپس در شاخه‌ي ديداري با استفاده از مدل iQAN با مكانيسم توجه MLB و مكانيسم همجوشي MUTAN به پرسش‌هاي ديداري و در شاخه‌ي مبتني بر دانش با استفاده از يك مدل مبتني بر XLNet به پرسش‌هايي كه از روي تصاوير قادر به پاسخ‌دهي به آن‌ها نيستيم، پاسخ مي‌دهيم. در شاخه‌ي ديداري به دقت 78.92% در پرسش‌هاي ديداري رسيديم. در شاخه‌ي مبتني بر دانش نيز به دقت 47.71% دست پيدا كرديم. در مجموع دو شاخه با توجه به تقسيم آزمايشي مجموعه‌داده به دقت 55.88% رسيديم. همچنين در اين پژوهش تأثير پارامترهاي تعداد نگاه اجمالي و توابع فعال‌سازي را در عملكرد مدل بررسي شده است.
كشور :
ايران
لينک به اين مدرک :
بازگشت