عنوان مقاله :
استفاده از تكنولوژي دادههاي عظيم براي نظركاوي
پديد آورندگان :
پورغلامعلي، فاطمه دانشگاه وليعصر عج رفسنجان - دانشكده مهندسي، رفسنجان، ايران , كاهاني، محسن دانشگاه فردوسي مشهد - دانشكده مهندسي، مشهد، ايران , عسگريان، احسان دانشگاه فردوسي مشهد - دانشكده مهندسي، مشهد، ايران
كليدواژه :
نظركاوي , داده هاي عظيم , هدوپ , نگاشت-كاهش , پردازش زبان طبيعي , بازيابي اطلاعات
چكيده فارسي :
نظرات، نقش مهم و تعيين كنندهاي در فرايند تصميمگيري چه براي مشتريان و چه براي سازمانهاي تجاري ايفا ميكنند. از اين رو، وجود سيستمهاي خودكار نظركاوي براي دادههاي نظري موجود در وب، ضروري به نظر ميرسد. از طرفي، با حجم بالا و رشد روزافزون دادههاي نظري روي وب، فرايند نظركاوي ميتواند با چالشي بزرگ روبهرو شود؛ چرا كه پردازش و تحليل اين حجم عظيم از دادهها با تكنولوژيهاي متداول، ممكن است عملي نباشد. در صورتيكه كه سيستمهاي كاوش نظرات به تكنولوژيهاي دادههاي عظيم مجهز شوند، بدون نگراني از مديريت، ذخيرهسازي و مديريت حجم روزافزون دادههاي نظري، ميتوانند به كار خود ادامه دهند. با آنكه در سالهاي اخير تحقيقات زيادي در حوزه تحليل حسي نظرات انجام شده است، اما تلاشهاي كمي در حوزه كاوش دادههاي نظري در حيطه زبان فارسي در مقياس بالا انجام گرفته است. از اين رو، در اين تحقيق، دو روش نظركاوي براي دادههاي زبان فارسي با استفاده از يك لغتنامه حسي زبان فارسي در بستر تكنولوژي دادههاي عظيم ارائه شدهاست. براي ذخيرهسازي و پردازش دادههاي نظري از چارچوب متداول و كاراي هدوپ و مدل برنامهنويسي نگاشت_كاهش (MapReduce) استفاده شده است. چارچوب پيشنهاد شده براي نظركاوي، داراي قابليت بكارگيري و مقياس پذيري براي بسياري از روشهاي تحليل حسي بر روي حجم بالاي نظرات ميباشد. علاوه بر اين، در اين پژوهش آزمايشهاي متعددي انجام شده است كه كارايي استفاده از تكنولوژيهاي دادههاي عظيم را در موقعيتهاي مختلف مورد بررسي قرار ميدهد. نتايج به دست آمده حاكي از آن است كه چارچوب پيشنهادي براي نظركاوي به شكلي كارا عمل كرده و نه تنها براي حجمهاي بالا بلكه در حجمهاي حدود 20 مگابايت شاهد افزايش 100 برابري در كارامدي هستيم. اين ضريب در حجمهاي بالاتر بيشتر به شكل محسوستري افزايش مييابد.
چكيده لاتين :
Reviews have an important role in decision making process either for customers or commercial organizations. Hence, it is necessary to develop methods which mine the reviews of customers automatically. This task is referred to Opinion mining or sentiment analysis. Opinion mining covers a wide range of sub-problems in text mining, natural language processing, classification, etc. However with the fast growth of opinion data on the web, the opinion mining process will face some serious problems. Storing, managing and processing such a large volume of data with the traditional approaches are very hard and in some cases impossible. In this paper, we propose two appraches for sentiment analysis of Persian reviews. These approaches are developed based on a Persian sentiment lexicon and a programming language model for distributed systems, called Mapreduce in the Hadoop framework. We examine our proposed appraches with various stations and discussed the effectiveness of the Big Data technology for the opinion mining task.
عنوان نشريه :
محاسبات نرم