عنوان مقاله :
ويژگيهاي آگاه به محتوا براي قطعهبندي معنايي تصوير
عنوان به زبان ديگر :
Context-Aware Features (CAF) for Semantic Image Segmentation
پديد آورندگان :
نصيري، مجيد دانشگاه شهيد رجايي - دانشكده مهندسي كامپيوتر , رشيدي كنعان، حميدرضا دانشگاه شهيد رجايي - دانشكده مهندسي كامپيوتر , اميري، حميد دانشگاه شهيد رجايي - دانشكده مهندسي كامپيوتر
كليدواژه :
واحد ويژگي هاي آگاه به محتوا , شبكه هاي عصبي كانولوشني , شبكه هاي عصبي عميق , قطعه بندي معنايي تصوير
چكيده فارسي :
قطعه بندي معنايي تصوير مبتني بر شبكه هاي عصبي عميق، از رويكردهاي مهم محققان بينايي ماشين مي باشد. در روش هاي مبتني بر شبكه هاي عصبي عميق، بطور كلي از يك شبكه پايه كه براي كاربرد شناسايي تصوير، آموزش ديده است، بمنظور استخراج ويژگي از تصوير استفاده ميشود. از آنجا كه ابعاد ويژگي هاي خروجي از اين شبكه هاي پايه كوچكتر از تصوير ورودي مي باشد، لذا با اضافه كردن چندين لايه كانولوشني به انتهاي اين شبكه هاي پايه، ابعاد ويژگيهاي خروجي از اين شبكه ها را به اندازه ابعاد تصوير ورودي ميرسانند. استفاده از ويژگي هاي محلي خروجي از شبكه هاي پايه، بدون در نظر گرفتن ارتباط كلي بين اين ويژگي هاي محلي، منجر به قطعه بندي ضعيف و ناهموار مي شود. بر اين اساس، در اين تحقيق واحدي با نام "واحد ويژگيهاي آگاه به محتوا" پيشنهاد مي شود. اين واحد با كمك ويژگي هاي محلي خروجي از شبكه هاي پايه، ويژگي هاي سطح-تصوير ايجاد مي كند. واحد پيشنهادي را ميتوان در معماري هاي مختلف قطعه بندي معنايي تصوير قرار داد. در اين تحقيق، با اضافه كردن واحد پيشنهادي CAF به معماريهاي پايه FCN و DeepLab-v3-plus، به ترتيب معماريهاي FCN-CAF و DeepLab-v3-plus-CAF پيشنهاد شده است. بمنظور آموزش معماريهاي پيشنهادي از دادگان PASCAL VOC2012 استفاده شده است. نتايج آزمايش ها نشان مي دهد كه معماريهاي پيشنهادي نسبت به معماريهاي پايه مربوطه، به ترتيب 7/2 و 81/1درصد بهبود دقت (mIoU) دارد.
كليدواژهها
چكيده لاتين :
Semantic image segmentation based on Convolutional Neural Networks (CNNs) is one of the main approaches in computer vision area. In convolutional neural network-based approaches, a pre-trained CNN which is trained on the large image classification datasets is generally used as a backend to extract features (image descriptors) from the images. Whereas, the special size of output features from CNN backends are smaller than the input images, by stacking multiple deconvolutional layers to the last layer of backend network, the dimension of output will be the same as the input image. Segmentation using local image descriptors without involving relationships between these local descriptors yield weak and uneven segmentation results. Inspired by these observations, in this research we propose Context-Aware Features (CAF) unit. CAF unit generate image-level features using local-image descriptors. This unit can be integrated into different semantic image segmentation architectures. In this study, by adding the proposed CAF unit to the Fully Convolutional Network (FCN) and DeepLab-v3-plus base architectures, the FCN-CAF and DeepLab-v3-plus-CAF architectures are proposed respectively. PASCAL VOC2012 datasets have been used to train the proposed architectures. Experimental results show that the proposed architectures have 2.7% and 1.81% accuracy improvement (mIoU) compared to the related basic architectures, respectively.
عنوان نشريه :
ماشين بينايي و پردازش تصوير