عنوان مقاله :
استفاده از سيگنالهاي بالابهپايين مبتني بر محتوا براي بهبود بازشناسي شييء
عنوان به زبان ديگر :
Improving object recognition using context based top-down signals
پديد آورندگان :
سلطاندوست ناري، الهه دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر , ابراهيم پور، رضا دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر , رجايي، كريم پژوهشگاه دانشهاي بنيادي - پژوهشكده علومشناختي
كليدواژه :
شبكهي AlexNet , شبكهي Place_CNN , محتوا , بازشناسي شييء , شبكه عصبي كانولوشني
چكيده فارسي :
بازشناسي شييء در صحنههاي پيچيدهي ازجمله تواناييهاي شگرف سامانه بينايي انسان است كه تاكنون مدلهاي محاسباتي بينايي در پيادهسازي آن چندان موفق نبودهاند. در اين راستا محققان سعي دارند با شناسايي سازوكار مغز و الهام از آن اين مدل را بهبود بخشند. يكي از موفقترين مدلهاي ارائهشده در بازشناسي شييء شبكههاي عصبي كانولوشني (CNN’s) هستند. اين مدلها تنها قادر به شبيهسازي مسير پيشروي بينايي انسان ميباشند. با اين حال شواهد مطالعات علوم اعصاب نشان ميدهند سامانه بينايي انسان سيگنالهاي بالابهپايين انتظار را در راستاي افزايش دقت و سرعت بازشناسي شييء در زمينههاي پيچيده به كار ميبندد. در اين مقاله با بهرهمندي از سيگنالهاي بالابهپايين انتظار، سعي بر شبيهسازي مسير بازخوردي سيستم بينايي انسان شده است. به اين منظور مدل كانولوشني AlexNet بهعنوان مسير پيشرو سيستم بينايي استفاده شد. براي بازشناسي شييء از مدل آموزش يافته با مجموعه دادهي ImageNet و براي بازشناسي صحنه از مدل آموزش يافته با مجموعه تصاوير صحنه Places استفاده شد. شبكه آموزش ديده بر روي تصاوير صحنه (Place_CNN) براي توليد بردار بازخورد مبتني بر اطلاعات حاصل از صحنه در نظر گرفته شد. سيگنالهاي بازخوردي شامل اطلاعاتي از فراواني تكرار شييء موردنظر در صحنهي جاري هستند. اين سيگنالها با قاعدهي پسانتشار در قالب سيگنالهاي بالابهپايين با اطلاعات مسير پيشرو تلفيق و در شبكهي تشخيص شييء بازخورد ميشوند. بهمنظور سنجش مدل پيشنهادي آزمايشهايي با استفاده از چند مجموعه داده صورت گرفت. نتايج نشان داد كه تركيب اطلاعات بازخوردي با مسير پيشرو باعث بهبود معني دار عملكرد مدل پيشنهادي نسبت به مدل پايهي AlexNet مي شود. استفاده از اطلاعات محتوايي تصاوير باعث بهبود عملكرد بازشناسي شييء ميشود بهخصوص هنگامي كه شييء هدف در شرايط چالشي قرار گرفته است.
كليدواژهها
چكيده لاتين :
Human visual system can recognize object accurately, swiftly, and effortlessly even when objects are under challenging conditions. Many research groups try to model this ability; however, these computational models could not achieve human performance. Convolutional neural networks (CNN’s) are the state-of-the-art successful computational vision models that try to implement feedforward path of human visual system. However, evidence shows that human visual system uses top-down expectation signals to increase accuracy and speed of object recognition under dificult conditons. In this study, we extend a well-known model using top-down expectation signals. In this regard, Alexnet network is considered as feedforward path. We used a pre-trained network on ImageNet dataset for object recognition and a pre-trained network on Places dataset for scene recognition. The pre-trained network on places was used to provide top-down feedback signals based on scene information. The feedback signals contain occurrence frequency information of the objects in the scene. These signals are integrated with information from feedforward path. To evaluate the proposed model several experiments were done on different image sets. The results showed that integrating the feedback information with the feedforward information significantly improve object recognition accuracy in comparison to the base model. This support the idea that content information facilitates object recognition ability, specifically when objects are under challenging conditions.
عنوان نشريه :
ماشين بينايي و پردازش تصوير