عنوان مقاله :
شناسايي نويسندگان پيام هاي الكترونيكي از طريق واكاوي نوع و سبك نگارش آن ها مبتني بر روش هاي يادگيري ماشين(WKF based on SVM-PHGS)
عنوان فرعي :
Identify the Authors of Electronic Messages Through the Analysis of the Type and Style Based on Machine Learning Technique
پديد آورندگان :
زنگويي، سميرا نويسنده كارشناسي ارشد مهندسي فناوري اطلاعات , , نعمتي شمسآباد، حسنعلي نويسنده دانشجوي دكتراي گروه مديريت فناوري اطلاعات، دانشكده مديريت دانشگاه تهران Neemati Shamsabad, Hassan Ali
اطلاعات موجودي :
فصلنامه سال 1392 شماره 76
كليدواژه :
تعيين نويسنده , روش هاي يادگيري ماشين , ماشين بردار پشتيبان , ويژگي هاي سبك نوشتاري
چكيده فارسي :
< p style="DIRECTION: rtl" align="justify" > شناسايي نويسنده يكي از مسايل مهم در دسته بندي متن و پردازش زبا نهاي طبيعي به شمار مي رود. اين نوشتار دستآورد پژوهشي با هدف تعيين هوشمند نوشته هاي 50 نويسنده سايبري(50 نفر از مشتريان بالقوه ي وب سايت آمازون با توجه به پيام ها و مراجعاتي كه به اين وب سايت داشته اند انتخاب شده اند) به كمك روش هاي يادگيري ماشين است. براي سنجش كارايي روش پيشنهادي، دقت تصميم گيري آزموده و نتايج آنها با بازدهي روش هاي يادگيري ماشين مقايسه شده است. همچنين در هنگام استخراج ويژگيهاي گوناگون نوشته هاي نويسندگان براي ارزيابي توسط ماشين، كوشش شده تا حداكثر ويژگي هاي مورد نياز براي تشخيص نويسنده شبيه سازي گردد و بدين منظور، نزديك به10000 ويژگي گوناگون از نوشته هاي مختلف استخراج شده و در چهار دسته ي ويژگي هاي لغوي ، ويژگي هاي نحوي ، ويژگي هاي خاص و ويژگي هاي ساختاري قرار گرفته اند. در اين پژوهش به طور ميانگين دقت تعيين نويسنده به كمك روش پيشنهادي تا 98/78 درستي نيز رسيده است. < /p >
چكيده لاتين :
Identifying the author of an electroni message is one of
the main problems in text classification and natural language
processing. The aim of this article is to determine the authors of 50
cyber messages (by 50 potential customers, according to Amazon ʹs
website), by a machine learning methods. To evaluate the
effectiveness of the proposed method, the decision was carefully
tested and the results were compared with the performance of
machine learning methods. Also, when extracting various features of
authorsʹ writing style for evaluation by machine, we tried to maximize
the features required to identify a writer. Therefore, nearly 10,000
different features were extracted from different entries in four
categories: lexical features, syntactic features, special features and
structural features. In this study, the average accuracy of the proposed
method reached to 98. 78.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
اطلاعات موجودي :
فصلنامه با شماره پیاپی 76 سال 1392
كلمات كليدي :
#تست#آزمون###امتحان