شماره ركورد :
1192115
عنوان مقاله :
استفاده از سيگنال‌هاي بالابه‌پايين مبتني بر محتوا براي بهبود بازشناسي شييء
عنوان به زبان ديگر :
Improving object recognition using context based top-down signals
پديد آورندگان :
سلطاندوست ناري، الهه دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر , ابراهيم پور، رضا دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر , رجايي،‌ كريم پژوهشگاه دانش‌هاي بنيادي - پژوهشكده علوم‌شناختي
تعداد صفحه :
17
از صفحه :
29
از صفحه (ادامه) :
0
تا صفحه :
45
تا صفحه(ادامه) :
0
كليدواژه :
شبكه‌ي AlexNet , شبكه‌ي Place_CNN , محتوا , بازشناسي شييء , شبكه عصبي كانولوشني
چكيده فارسي :
بازشناسي شييء در صحنه‌هاي پيچيده‌ي ازجمله توانايي‌هاي شگرف سامانه بينايي انسان است كه تاكنون مدل‌هاي محاسباتي بينايي در پياده‌سازي آن چندان موفق نبوده‌اند. در اين راستا محققان سعي دارند با شناسايي سازوكار مغز و الهام از آن اين مدل را بهبود بخشند. يكي از موفق‌ترين مدل‌هاي ارائه‌شده در بازشناسي شييء شبكه‌هاي عصبي كانولوشني (CNN’s) هستند. اين مدل‌ها تنها قادر به شبيه‌سازي مسير پيش‌روي بينايي انسان مي‌باشند. با اين حال شواهد مطالعات علوم اعصاب نشان مي‌دهند سامانه بينايي انسان سيگنال‌هاي بالا‌به‌پايين انتظار را در راستاي افزايش دقت و سرعت بازشناسي شييء در زمينه‌هاي پيچيده به كار مي‌بندد. در اين مقاله با بهره‌مندي از سيگنال‌هاي بالا‌به‌پايين انتظار، سعي بر شبيه‌سازي مسير بازخوردي سيستم بينايي انسان شده است. به اين منظور مدل كانولوشني AlexNet به‌عنوان مسير پيش‌رو سيستم بينايي استفاده شد. براي بازشناسي شييء از مدل آموزش يافته با مجموعه داده‌ي ImageNet و براي بازشناسي صحنه از مدل آموزش يافته با مجموعه تصاوير صحنه Places استفاده شد. شبكه آموزش ديده بر روي تصاوير صحنه (Place_CNN) براي توليد بردار بازخورد مبتني بر اطلاعات حاصل از صحنه در نظر گرفته شد. سيگنال‌هاي بازخوردي شامل اطلاعاتي از فراواني تكرار شييء موردنظر در صحنه‌ي جاري هستند. اين سيگنال‌ها با قاعده‌ي ‌پس‌انتشار در قالب سيگنال‌هاي بالابه‌پايين با اطلاعات مسير پيش‌رو تلفيق و در شبكه‌ي تشخيص شييء بازخورد مي‌شوند. به‌منظور سنجش مدل پيشنهادي آزمايش‌هايي با استفاده از چند مجموعه داده صورت گرفت. نتايج نشان داد كه تركيب اطلاعات بازخوردي با مسير پيش‌رو باعث بهبود معني دار عملكرد مدل پيشنهادي نسبت به مدل پايه‌ي AlexNet مي شود. استفاده از اطلاعات محتوايي تصاوير باعث بهبود عملكرد بازشناسي شييء مي‌شود به‌خصوص هنگامي كه شييء هدف در شرايط چالشي قرار گرفته است. كليدواژه‌ها
چكيده لاتين :
Human visual system can recognize object accurately, swiftly, and effortlessly even when objects are under challenging conditions. Many research groups try to model this ability; however, these computational models could not achieve human performance. Convolutional neural networks (CNN’s) are the state-of-the-art successful computational vision models that try to implement feedforward path of human visual system. However, evidence shows that human visual system uses top-down expectation signals to increase accuracy and speed of object recognition under dificult conditons. In this study, we extend a well-known model using top-down expectation signals. In this regard, Alexnet network is considered as feedforward path. We used a pre-trained network on ImageNet dataset for object recognition and a pre-trained network on Places dataset for scene recognition. The pre-trained network on places was used to provide top-down feedback signals based on scene information. The feedback signals contain occurrence frequency information of the objects in the scene. These signals are integrated with information from feedforward path. To evaluate the proposed model several experiments were done on different image sets. The results showed that integrating the feedback information with the feedforward information significantly improve object recognition accuracy in comparison to the base model. This support the idea that content information facilitates object recognition ability, specifically when objects are under challenging conditions.
سال انتشار :
1399
عنوان نشريه :
ماشين بينايي و پردازش تصوير
فايل PDF :
8259756
لينک به اين مدرک :
بازگشت