شماره ركورد كنفرانس :
3376
عنوان مقاله :
بهبود نظركاوي فارسي با استفاده از كشف عبارات دووجهي
عنوان به زبان ديگر :
Improving Persian Sentiment Analysis Using Opposing Polarity Phrases
پديدآورندگان :
بت شكنان دهكردي بتول Batoul_botshekanan@yahoo.com مؤسسه غيرانتفاعي صفاهان , بصيري محمد احسان basiri@eng.sku.ac.ir دانشگاه شهركرد
كليدواژه :
متنكاوي , نظركاوي , روش مبتني بر واژهنامه , عبارات دو وجهي , زبان فارسي
عنوان كنفرانس :
چهارمين كنفرانس بين المللي وب پژوهي
چكيده فارسي :
امروزه بيشتر اطلاعات موجود در وب به صورت متن ميباشد، بنابراين متنكاوي و روشهاي مرتبط با آن اهميت زيادي يافتهاند. رشد روزافزون وب باعث شده تا افراد نظرات خود را به راحتي بيان كنند و بتوانند از نظرات ديگران نيز آگاه شوند. كاوش ديدگاهها و نظرات و تحليل احساسات به عنوان يكي از شاخههاي كاوش متن در نظر گرفته ميشود كه مهمترين هدف آن كشف عقيدهي نويسنده دربارهي يك موضوع است. رسيدن به اين هدف كار سادهاي نيست و احساسات يك جمله يا عبارت معمولاً از تركيب احساسات كلمات تشكيل دهندهي آن تشخيص داده ميشود. در اين پژوهش بر روي عبارات دو وجهي يعني عباراتي كه شامل حداقل يك كلمهي منفي و يك كلمهي مثبت هستند تمركز ميشود. براي درنظر گرفتن عبارات دووجهي ابتدا عبارات با قطب مخالف از مجموعه دادهي PerSent استخراج ميشوند، سپس براساس كلمات تشكيلدهندهي اين عبارات و با لحاظ قطبيت در جملهي مربوطه امتيازدهي ميگردند. سپس امتياز هر جمله را با استفاده از واژهنامهي CNRC به روش بيشينه قدرمطلق، تفاضل و ميانگين يك بار با در نظر گرفتن عبارات دووجهي و يك بار بدون درنظر گرفتن آنها، محاسبه مينماييم. نتايج حاصل از پيادهسازي روش پيشنهادي براي حل مسألهي تعيين قطبيت و پيشبيني امتياز نشان ميدهد كه بهكاربردن عبارت دووجهي باعث بهبود سيستم مبتني بر واژهنامه ميشود.
چكيده لاتين :
The increasing growth of Web has given people the ability to simply express their opinion and know others’ opinion. Mining viewpoints and opinion or sentiment analysis is considered as a subfield of text mining and its main goal is to find writer’s opinion about a topic. Meeting this goal is not a simple task since emotions in a sentence or a phrase are usually recognized by combining emotions of its words. In this paper, we concentrate on bipolar terms which are those phrases containing at least one positive and one negative word. In order to consider bipolar terms, phrases with opposing polarity are first extracted from PerSent dataset then, based on the words of these phrases and their polarity in the sentence the final score is computed. Then, the score of each sentence is calculated using CNRC lexicon and maximum of absolute values, difference, and average methods with and without considering bipolar terms. The results of implementation of the proposed method show that employing bipolar terms improves the lexicon-based approach for both polarity detection and score prediction problems.