عنوان مقاله :
يك دسته بند كنش گفتار براي متون فارسي و كاربرد آن در شناسايي شايعات
عنوان به زبان ديگر :
A Speech Act Classifier for Persian Texts and its Application in Identifying Rumors
پديد آورندگان :
جهانبخش نقده، زليخا دانشگاه آزاد اسلامي واحد علوم و تحقيقات - گروه مهندسي كامپيوتر، تهران , فيضي درخشي، محمدرضا دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر - گروه مهندسي كامپيوتر , شريفي، آرش دانشگاه آزاد اسلامي واحد علوم و تحقيقات - گروه مهندسي كامپيوتر، تهران
كليدواژه :
كنش گفتار , دسته بندي متون فارسي , استخراج ويژگي , ووردنت , تشخيص شايعه
چكيده فارسي :
كنش گفتار يكي از حوزه هاي مهم منظور شناسي زبان است كه به ما درك درستي از وضعيت ذهن فرد و انتقال عمل زباني مورد
نظر مي دهد. آگاهي از كنش گفتار يك متن مي تواند در تجزيه و تحليل آن متن در برنامه هاي كاربردي پردازش زبان طبيعي مفيد باشد.
اين مطالعه يك روش آماري مبتني بر ديكشنري براي شناسايي كنشهاي گفتاري در متون فارسي ارائه مي دهد. در روش پيشنهادي،
كنش گفتاري يك متن بر اساس چهار معيار شامل، ويژگي هاي لغوي، نحوي، معنايي و سطحي و با استفاده از تكنيكهاي يادگيري ماشين،
در هفت كلاس كنش گفتار مورد ارزيابي قرار مي گيرد. همچنين، از آنتولوژي ووردنت براي غني سازي ديكشنري ويژگيها استفاده مي شود.
به اين صورت كه، مترادف كلماتي كه در ديكشنري ويژگيها وجود ندارند استخراج شده و با لغات موجود در ديكشنري تطبيق داده
ميشود. براي ارزيابي تكنيك پيشنهادي، از چهار روش دسته بندي شامل جنگل تصادفي ،(RF) ماشين بردار پشتيبان (SVM) نايو
بيز (NB) و Kنزديك ترين همسايه (KNN) استفاده شده است. نتايج تجربي نشان مي دهد كه روش پيشنهادي با استفاده از RF و
SVM به عنوان بهترين دسته بندها، عملكرد پيشرفته اي با ميانگين 0.95 F-measure براي دسته بندي متون فارسي بر اساس كنش
گفتار دارد. ديدگاه اصلي ما از اين كار، معرفي يكي از كاربردهاي شناسايي كنش گفتار در محتواي رسانه هاي اجتماعي، به ويژه كنش
گفتار رايج در شايعات و كاربرد آن در تشخيص شايعات است. نتايج نشان داد كه شايعات فارسي اغلب با سه كلاس كنش گفتار روايتي، سوالي و تهديدي و در برخي موارد با كنش گفتار درخواستي بيان مي شوند. همچنين نتايج ارزيابي نشان مي دهد كه SAبه عنوان يك ويژگي متمايزكننده بين شايعات و غير شايعات ، صحت شناسايي شايعه را از ( 0.762) بر اساس ويژگي هاي متني رايج به ( 0.791) (تركيبي از ويژگي هاي رايج و چهار كلاس SA) بهبود مي بخشد
چكيده لاتين :
Speech Acts (SAs) are one of the important areas of pragmatics, which give us a better understanding
of the state of mind of the people and convey an intended language function. Knowledge of the SA of a text can
be helpful in analyzing that text in natural language processing applications. This study presents a dictionarybased statistical technique for Persian SA recognition. The proposed technique classifies a text into seven classes
of SA based on four criteria: lexical, syntactic, semantic, and surface features. Also, WordNet ontology is utilized
to enrich the features dictionary by extracting the synonyms of each word in the input text. To evaluate the
proposed technique, we utilized four classification methods including Random Forest (RF), Support Vector
Machine (SVM), Naive Bayes (NB), and K-Nearest Neighbors (KNN). The experimental results demonstrated
that the proposed method using RF and SVM as the best classifiers achieved a state-of-the-art performance with
an accuracy of 0.95 for classification of Persian SAs. Our original vision of this work is introducing an application
of SA recognition on social media content, especially identifying the common SA in rumors and its application
in the rumor detection. Therefore, the proposed method utilized to determine the common SAs in rumors. The
results showed that Persian rumors are often expressed in three SA classes including narrative, question, and
threat, and in some cases with the request SA. Also, the evaluation results indicate that SA as a distinctive feature
between rumors and non-rumors improves the accuracy of rumor identification from 0.762 (based on common
context features) to 0.791 (the combination of common context features and four SA classes).
عنوان نشريه :
رايانش نرم و فناوري اطلاعات