پديد آورندگان :
نجفزاده، محسن دانشگاه آزاد اسلامي، مشهد - گروه مهندسي كامپيوتر , راحتي قوچاني، سعيد دانشگاه آزاد اسلامي، مشهد - گروه مهندسي برق , قائمي، رضا دانشگاه آزاد اسلامي، قوچان - گروه مهندسي كامپيوتر
كليدواژه :
نظركاوي , يادگيري خودناظر , لغتنامه خودساخت , مدل مخفي ماركوف , لغتنامه وفقي
چكيده فارسي :
با معرفي وب 2.0 و 3.0 تعاملات كاربران در فضاي مجازي، منجر به ايجاد انبوهي از نظرات ارزشمند شده است. با توجه بهدشواري يا عدم امكان تحليل و بررسي دستي اين نظرات، تحليل احساس متن و يا نظركاوي بهعنوان يكي از زيرمجموعههاي پردازش زبان طبيعي مطرح شد. تلاشهاي محدودي در نظركاوي فارسي نسبت به ساير زبانها صورت گرفته است. در اين مقاله براي نخستين بار، يك چارچوب نيمهنظارتي براي نظركاوي فارسي ارائه شده است. درضمن، ازآنجاكه يكي از آخرين پيشرفتهاي علمي در نظركاوي زبان فارسي الگوريتمي بر اساس استخراج الگوهاي حسي وفقي (حساس به مجموعهداده) مبتني بر خبره انساني است، در اين پژوهش ضمن ارتقاي الگوريتم يادشده، تعيين برچسبهاي حاوي احساس به كمك يك لغتنامه خودساخت (بدون نياز به خبره انساني) وفقي انجام ميگيرد؛ همچنين كاربرد دستهبند مدل مخفي ماركوف خودناظر بر روي خصيصههاي يادشده در كنار قوانين مبتني بر معيار شباهت براي فرآيند نظركاوي بررسي شدهاست. در راستاي خودآموزسازي هوشمند، روشي براي ارزيابي قابليت اطمينان بالاي خروجي، ارائه شدهاست كه خودآموزي بهشرط وجود آن انجام ميپذيرد. روش پيشنهادي با اجرا بر روي دادگان مبنا نرخ صحت نود درصد (باوجود عدم نياز به خبره انساني) را كه در مقايسه با روشهاي نظارتي و نيمهنظارتي مستقل از خبره موجود برتري قابلملاحظهاي دارد، خروجي ميدهد؛ همچنين اين الگوريتم نيمهنظارتي هنگام استفاده از مجموعه آموزش كوچك با نسبت مجموعه دادگان آموزش/آزمون ده به نود نيز بررسي و با نرخ صحت 80% قابليت اطمينان آن به اثبات رسيد.
چكيده لاتين :
With the appearance of Web 2.0 and 3.0, users’ contribution to WWW has created a huge amount of valuable expressed opinions. Considering the difficulty or impossibility of manually analyzing such big data, sentiment analysis, as a branch of natural language processing, has been highly considered. Despite the other (popular) languages, a limited number of research studies have been conducted in Persian sentiment analysis. In this study, for the first time, a semi-supervised framework is proposed for Persian sentiment analysis. Moreover, considering that one of the most recent studies in Persian, is an algorithm based on extracting adaptive (dataset-sensitive) expert-based emotional patterns. In this research, extraction of the same state-of-the-art emotional patterns is proposed to be performed automatically. Moreover, application of the HMM classifier, by utilizing the mentioned features (as its states) is analyzed; and additionally, HMM-based sentiment analysis is upgraded by being combined with a rule-based classifier for the opinion assignment process. In addition, toward intelligent self-training, a criterion for evaluating, the high reliability of output is presented by which (assuming satisfaction of the criterion) the self-training process is performed in “lexicon-extraction” and “classifier,” as learning systems. The proposed method, by being applied on the basis dataset, provides 90% of accuracy (despite its expert-independent lexicon generation nature), which in comparison with the supervised and semi-supervised methods in the state-of-the-art has a considerable superiority. Moreover, this semi-supervised method is evaluated by a 10/90 ratio of train/ test and its reliability is demonstrated by providing 80% of accuracy.