شماره ركورد كنفرانس :
5520
عنوان مقاله :
تشخيص طنز در زبان فارسي با رويكرد يادگيري عميق
پديدآورندگان :
نجفي لپونداني فاطمه fatemenajafi135@aut.ac.ir دانشكده رياضي و علوم كامپيوتر، دانشگاه صنعتي اميركبير (پليتكنيك تهران)، تهران، ايران , شيرعلي شهرضا محمدحسن hshirali@aut.ac.ir دانشكده رياضي و علوم كامپيوتر، دانشگاه صنعتي اميركبير (پليتكنيك تهران)، تهران، ايران
كليدواژه :
تشخيص طنز , تحليل احساسات , پردازش زبان طبيعي , يادگيري عميق , ترنسفرمرها , زبان فارسي
عنوان كنفرانس :
نخستين كنفرانس ملي فضاي سايبر
چكيده فارسي :
طنز و طعنه روشي خلاقانه براي بيان احساسات است كه انسانها با به كار بردن آن در گفتار يا نوشتار، ممكن است هدف و منظوري متفاوت با آنچه بيان ميشود داشته باشند. با گسترش استفاده از اينترنت، استفاده از شبكههاي اجتماعي و وبسايتهاي فروش اينترنتي افزايش پيدا كرده است. با مرسومشدن اعلام ديدگاهها در اين شبكهها يا بيان نظرات در مورد كالاهايي كه در وبسايتها به فروش گذاشته شدهاند، بررسي نظرات و احساسات كاربران در اين موارد براي شركتها و سازمانها اهميت شاياني پيدا ميكند. چون معمولا اين نظرات با زبان رسمي و به صراحت اعلام نميشوند و گاهي آغشته به شوخي، طعنه و كنايه هستند، كارايي تحليل احساسات تحت تأثير قرار ميگيرد. در سالهاي اخير، توييتر به منبع بزرگي از ابراز ايدهها و ديدگاههاي كاربران در تقريبا تمامي زمينهها تبديل شده است. اين مسئله باعث جلب توجه شركتها و پژوهشگراني به توييتر است كه در زمينه تحليل نظرات كاربران فعاليت ميكنند. درصد بالايي از توييتها شامل طنز هستند و كاربران فارسيزبان نيز از اين قاعده مستثني نميشوند. تحليلهايي كه به وجود شوخي در متن آگاه باشند، ميتوانند با دقت بهتري احساسات را پيشبيني كنند. در اين پژوهش مجموعهدادهاي از توييتر فارسي معرفي ميشود كه برچسب نمونهها نشانگر وجود طنز و يا عدم وجود آن است. با استفاده از تطبيق دقيق مدلهاي زباني از پيش آموزش داده شده بر روي مجموعه داده به دست آمده، مدلي براي تشخيص وجود يا عدم وجود طنز در زبان فارسي ارائه ميدهيم.