شماره ركورد كنفرانس :
4579
عنوان مقاله :
ارائه يك معماري يادگيري عميق براي شناسايي اعمال انسان در ويدئو
عنوان به زبان ديگر :
فاقد عنوان و چكيده لاتين
پديدآورندگان :
سوادي حسيني مهدي دانشگاه تربيت مدرس , قادري فواد دانشگاه تربيت مدرس - دانشكده مهندسي برق و كامپيوتر - آزمايشگاه تعامل انسان و كامپيوتر
كليدواژه :
معماري دو جرياني , شناسايي اعمال , واحد بازگشتي گيتدار , شبكههاي عصبي پيچشي متورم
عنوان كنفرانس :
پنجمين همايش پردازش سيگنال و سيستم هاي هوشمند
چكيده فارسي :
شناسايي اعمال انسان در ويدئو با توجه به كاربردهاي بسياري كه در زمينههاي مختلف از جمله امنيت، سلامت، مديريت هوشمند شهر و ساختمان و ... دارد، طي چند سال اخير توجه زيادي را به خود جلب كرده است. از سوي ديگر، رويكردهاي يادگيري عميق مانند شبكههاي عصبي پيچشي (CNN ها) و شبكههاي عصبي بازگشتي (RNN ها) در زمينههاي مختلف توانستهاند نتايج بسيار خوبي را كسب كنند. با اين وجود، عليرغم تغييرات زماني قابل توجه در محتواي ويدئو، تاكنون شبكههاي عصبي بازگشتي در شناسايي اعمال انسان ضعيفتر از روشهاي مبتني بر شبكههاي پيچشي عمل كردهاند. در اين پژوهش با معرفي يك رويكرد سلسله مراتبي زماني در دو سطح محلي و سراسري، با استفاده از شبكههاي پيچشي متورم دو جرياني كه از شبكههاي عصبي پيچشي دوبعدي معروف براي دستهبندي تصاوير ايجاد شدهاند و همچنين استفاده از پشتهاي از لايههاي واحدهاي بازگشتي گيتدار (GRU) توانستهايم رويكردي جديد براي شناسايي اعمال انسان در ويدئو ارائه دهيم. در اين رويكرد ابتدا ويژگيهاي فضايي-زماني را براي هر دو جريان فضايي و زماني به صورت محلي با استفاده از شبكههاي پيچشي سهبعدي متورم (I3D) فضايي و زماني استخراج ميكنيم كه اين كار باعث تبديل دنباله طولاني قابهاي يك ويدئو به يك دنباله كوتاهتر و حاوي اطلاعات مفيدتر ميشود. اين دنباله كوتاهشده را به شبكهاي از GRU ها ميدهيم و در نهايت نيز نتايج دو جريان را تجميع ميكنيم. براي تجميع نتايج، يك لايه جديد با نام ميانگين وزندهي شده را معرفي ميكنيم كه اهميت هر جريان را در فرايند آموزش به صورت خودكار فرا ميگيرد. ارزيابيها نشاندهنده نتايجي قابل قبول براي دو مجموعه داده HMDB51 و UCF101 هستند. روش پيشنهادي موجب 1.6 درصد بهبود در صحت دستهبندي نمونههاي مجموعه داده پرچالش HMDB51 نسبت به نتايج گزارش شده بهترين روش موجود گرديده است.