شماره ركورد كنفرانس :
5467
عنوان مقاله :
تركيب مدل هاي يادگيري عميق EfficientNetV2B0 و مكانيزم توجه چندسر جهت تشخيص حركات دست
پديدآورندگان :
آذريان پور اصفهاني فاطمه fatemeh.azariyanpoor@gmail.com دانشگاه آزاد اسلامي واحد خوراسگان ، اصفهان ، ايران , سليمي عاطفه atefeh.salimi@gmail.com دانشگاه آزاد اسلامي واحد خوراسگان ، اصفهان ، ايران
تعداد صفحه :
5
كليدواژه :
بينايي ماشين , پردازش تصوير , تعامل انسان با رايانه , زبان پايتون , شبكه عصبي عميق
سال انتشار :
1402
عنوان كنفرانس :
اولين كنفرانس بين المللي ايده هاي نو در مهندسي برق
زبان مدرك :
فارسي
چكيده فارسي :
يكي از روش هاي برقراري ارتباط بين افراد، استفاده از حركات دست است. با پيشرفت تكنولوژي در حوزه ي هوش مصنوعي و ابداع زيرشاخه هاي قدرتمند آن مانند شبكه هاي عصبي عميق، بسياري از تكنولوژي ها به سمت تعامل بين انسان و رايانه رفته اند. حركات و ژست هاي دست يكي از مهمترين ورودي هاي اين نوع سيستم هاي تعاملي است. هدف از اين پژوهش، بهينه سازي يك الگوريتم مبتني بر شبكه هاي عصبي عميق است تا هم حركات دست را با دقت بالاتري شناسايي كند و هم حجم مدل را كاهش دهد. براي اين كار، از تركيب مدل EfficientNetV2B0 با مكانيزم توجه چندسر استفاده شده است. مدل EfficientNetV2B0 براي استخراج ويژگي هاي تصاوير استفاده مي شود. مكانيزم توجه چندسر نيز باعث مي شود تا شبكه، فقط به مهمترين ويژگي هاي استخراج شده اهميت دهد و مابقي را ناديده بگيرد. اين عمل باعث مي شود تا هزينه هاي محاسباتي و پارامترهاي مورد استفاده شبكه كاهش و سرعت آموزش شبكه افزايش يابد. با كاهش پارامترهاي استفاده شده ي شبكه، حجم آن نيز كاهش مي-يابد. براي ارزيابي مدل تركيبي مورد استفاده، از مجموعه داده ي حركات دست براي اعداد صفر تا نه كه در زبان اشاره ي امريكايي مرسوم است، استفاده شده است. با اعمال اين مجموعه داده به مدل تركيبي موردنظر، مشاهده شد كه اين مدل داراي دقت نهايي 99.70 درصد است.
كشور :
ايران
لينک به اين مدرک :
بازگشت