عنوان مقاله :
بازيابي تصوير مبتني بر محتوا با استفاده از همجوشي نتايج چندسطحي
عنوان به زبان ديگر :
Content Based Image Retrieval by Fusion of Multilevel Results
پديد آورندگان :
مقيميان، اكبر دانشگاه بوعلي - دانشكده فني و مهندسي - گروه كامپيوتر، همدان , منصوري زاده، محرم دانشگاه بوعلي - دانشكده فني و مهندسي - گروه كامپيوتر، همدان , دزفوليان، ميرحسين دانشگاه بوعلي - دانشكده فني و مهندسي - گروه كامپيوتر، همدان
كليدواژه :
بازيابي تصوير مبتني بر محتوا , همجوشي اطلاعات , تركيب طبقهبندها , AlexNet , Word2vec
چكيده فارسي :
بازيابي تصوير مبتني بر محتوا استفاده از روشهاي بينايي ماشين براي بازيابي تصاويري از يك مجموعه است كه به تصوير پرسوجو شبيه باشند. چالش اصلي اين سيستمها كاهش شكاف معنايي بين ويژگيهاي سطحپايين مستخرج از پيكسل و قطعه تصوير و مفاهيم سطحبالاي موجود در آن است. يكي از روشهاي كاهش اين فاصله استفاده از ويژگيهاي سطحبالاي مستخرج از نواحي و اشيا براي بازيابي است. از طرفي ويژگيهاي سطحپايين نيز تمايز خوبي بين خود تصاوير اعمال ميكنند. بر اين اساس انتظار ميرود استفاده از هر دو دسته ويژگي به نتايج بهتري منجر شود. در اين پژوهش بازيابي تصوير در چهار سطح پيكسل، ناحيه، شيء و مفهوم انجامشده است و از همجوشي نتايج اين سطوح بهمنظور كاهش شكاف معنايي استفادهشده است. در سطح پيكسل، از ويژگيهاي SIFT و LBP استفادهشده است. در سطح ناحيه، ابتدا تصوير به چند ناحيه افراز و سپس ويژگيهاي رنگ و بافت با استفاده از توصيفگر Hue و فيلتر گابور از هر يك از نواحي تصوير استخراجشده است. در سطح شيء از شبكه عصبي كانولوشني AlexNet براي بازشناسي اشياء و صحنههاي درون تصوير و در سطح مفهوم از شبكه عصبي Word2vec براي سنجش شباهت معنايي تصاوير استفادهشده است. نتايج بازيابي روي دو پايگاه داده Wang و GHIM نشاندهنده بهبود دقت و فراخواني در بازيابي تصوير است.
چكيده لاتين :
Content based image retrieval (CBIR) applies machine vision techniques to extract similar images for a given query image. The main challenge of CBIR is the semantic gap between low level pixel and segment based features and high-level concepts in the image. An approach towards reducing this gaps is to use high level region and object based features. However, the low-level features describe image details and enforce between image discriminations. Accordingly, it is expected that the use of both feature types will lead to better results. This paper tries to reduce the mentioned gap by combining decision results at four granularities, namely pixel, region, object, and concept levels. Pixel level retrieval adopts SIFT features and local binary patterns. Region level subsystem partitions the image into a set of segments and extracts their color and texture features using hue descriptor and Gabor filters for subsequent processing. AlexNet convolutional neural network is employed for object based retrieval. Word2vec embedding is used for concept level retrieval that exploits conceptual relations between objects to enhance the retrieval results. Experiments over Wang and GHIM datasets confirm the feasibility of the proposed combination and conclude that it improves overall performance of the retrieval system.
عنوان نشريه :
مهندسي برق دانشگاه تبريز