عنوان مقاله :
تشخيص الفباي دستي فارسي ناشنوايان مبتني بر اطلاعات نرمال سازي شده در تصاوير ژرفا
عنوان به زبان ديگر :
Persian sign language detection based on normalized depth image information
پديد آورندگان :
رجبي، شهاب دانشگاه صنعتي خواجه نصيرالدين طوسي - گروه الكترونيك , موسوي نيا، امير دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي كامپيوتر - گروه معماري كامپيوتر
كليدواژه :
الفباي ايستاي فارسي ناشنوايان , سنسور كينكت , تبديل موجك , توصيفگر دايروي , شبكه عصبي
چكيده فارسي :
پس از ارائه دستگاه كينكت، محصول شركت مايكروسافت گزارشهاي بسياري از كاربرد اين دستگاه در تشخيص حالت دست و انگشتان منتشر شده-است. در بيشتر اين كاربرد ها اطلاعات ژرفا تنها براي جداسازي تصوير دست از پس زمينه استفاده شده و پردازش اصلي بر روي تصاوير ويديويي و در فضاي دو بعدي انجام شده است. در اين مقاله روشي ارائه مي شود كه اطلاعات ژرفا نقش پر رنگ تري در پردارش دارند. با كمك روش آستانه گذاري مبتني بر ژرفا، ابتدا قالب دست شخص در فضاي سه بعدي استخراج مي شود. سپس در فضاي سه بعدي، راستاي عمود بركف دست پيدا شده و با استفاده از ماتريسهاي دوران و انتقال، اين راستا با راستاي دوربين همسو مي شود. به اين ترتيب دورانهاي دست حول محورهاي پيچ و ياو از تصوير حذف شده و با استفاده از ماتريس انتقال، تصوير دست در فاصله مشخصي از دوربين قرار مي گيرد. در مرحله بعد، از دو ابزار تبديل موجك و يك توصيفگر جديد به نام توصيفگر دايروي كه در اين سيستم معرفي شده است براي استخراج ويژگي ها استفاده مي شود. يك شبكه هاي عصبي، غربالگري اوليه را در ويژگي هاي استخراج شده توسط تبديل موجك انجام داده و سپس توصيفگر دايروي با استفاده از ماشين بردار پشتيبان بازشناسي حرف موردنظر را به اتمام مي¬رساند. در آزمايشهاي عملي با كمك اطلاعات برخط سنسور كينكت دقت شناسايي حروف الفباي فارسي %96/7 و تاخير 2 ثانيه براي هر علامت بدست آمده است
چكيده لاتين :
There are many reports of using the Kinect to detect hand and finger gestures after
release of device by Microsoft. The depth information is mostly used to separate the hand image in
the two-dimension of RGB domain. This paper proposes a method in which the depth information
plays a more dominant role. Using a threshold in depth space first the hand template is extracted.
Then in 3D domain the perpendicular vector to the hand surface is found. Using the rotation matrix
all the rotations along three axes are compensated in a way that the camera z- coordinate lies
perpendicular to hand surface. Then the resulted 3d image is translated to a distance of 80 to 100 cm
from the Kinect. Wavelet transform with a new descriptor, called Circular Descriptor are used to
extract required features. A trained MLP neural network in conjunction with a SVM is used to classify
the signs. Empirical results show an average accuracy of 96.7 % with a two seconds delay for online
recognition of Persian Sign Language.