شماره ركورد كنفرانس :
4051
عنوان مقاله :
بهبود توصيف تصوير با استفاده از LSTM دوطرفه
پديدآورندگان :
چهكندي وحيد V.Chahkandi@semnan.ac.ir دانشگاه سمنان , فدائي اسلام محمدجواد fadaei@semnan.ac.ir دانشگاه سمنان , يغمايي فررين دانشگاه سمنان
كليدواژه :
LSTM دوطرفه , توصيف تصوير , شبكه عصبي كانولوشن ناحيه اي (RCNN)
عنوان كنفرانس :
دهمين كنفرانس ملي بينايي ماشين و پردازش تصوير ايران
چكيده فارسي :
در اين مقاله روشي جهت توصيف تصوير ارائه شده است. در اين روش تصوير اوليه به يك شبكه عصبي كانولوشن ناحيه اي (RCNN) به عنوان ورودي داده مي شود، اين شبكه عصبي اشياء موجود در تصوير را استخراج مي كند. سپس با استفاده از LSTM دو طرفه جملات متناسب با اشياء تصوير را يافته و ارتباط آن ها در قالب يك جمله توصيف مي شوند. از آنجايي كه خروجي شبكه عصبي كانولوشن ناحيه اي به صورت پيكسلي و بخش هايي از تصوير است و خروجي LSTM دوطرفه نيز ترتيبي از كلمات است. براي برقراري ارتباط و پيداكردن امتياز مناسب براي تصوير و جمله متناظر با آن از ضرب داخلي استفاده شد و امتيازي براي تصوير-جمله بدست آمد كه نشان دهنده ميزان تناسب تصوير و جمله توصيفي مربوط به آن مي-باشد. نتايج بدست آمده بر روي دو مجموعه داده Flickr8K و Flickr30K محاسبه شدند كه استفاده از LSTM دوطرفه نسبت به شبكه عصبي بازگشت كننده باعث توصيف مناسب تري از تصاوير شده است. در مقايسه با روش هاي ديگر روش پيشنهادي كارايي بهتري در توصيف تصوير داشته است.