شماره ركورد كنفرانس
3376
عنوان مقاله
بهبود متن كاوي با انتخاب كلمات ويژگي
عنوان به زبان ديگر
Improving Text Mining with Featured Word Selection
پديدآورندگان
ابوالقاسمي محمدامين amin.a222@yahoo.com دانشگاه صنعتي اميركبير , ممتازي سعيده momtazi@aut.ac.ir دانشگاه صنعتي اميركبير
تعداد صفحه
6
كليدواژه
وب كاوي , متن كاوي , دسته بندي متون , انتخاب ويژگي
سال انتشار
1397
عنوان كنفرانس
چهارمين كنفرانس بين المللي وب پژوهي
زبان مدرك
فارسي
چكيده فارسي
متن كاوي يكي از فعاليت هاي اصلي در حوزه وب پژوهي محسوب مي گردد كه هدف آن دسته بندي يا خوشه بندي متون موجود در وب براي كاربردهاي مختلف از جمله تحليل خبر، تحليل شبكه هاي اجتماعي و ... مي باشد. با توجه به بالا بودن حجم دادگان موجود در وب براي پرداز ش هاي متني، كاهش ابعاد دادگان با كمك روش هاي استخراج ويژگي نقش مهمي را در بهبود كيفيت متن كاوي و همين طور بهينه سازي زمان اجرا ايفا مي نمايد. روش هاي متنوعي براي استخراج ويژگي در الگوريتم هاي يادگيري ماشين ارائه شده است كه قابليت كاربردي سازي در حوزه متن كاوي را دارند. در مقاله حاضر به بررسي الگوريتم هاي موجود در اين زمينه پرداخته مي شود و نتايج حاصل از اين الگوريتم ها در استخراج كلمات ويژگي متون فارسي مقايسه مي گردد. همچنين تاثير به كارگيري انتخاب ويژگي در دسته بندي متون فارسي مورد تحليل قرار مي گيرد. نتايج به دست آمده در آزمايش ها برروي پيكره همشهري فارسي نشان مي دهد با كمك روش مناسب انتخاب ويژگي مي توان نتايج دسته بندي متون فارسي را از 88.12% در معيار اف به 93.07% افزايش داد.
چكيده لاتين
Text mining is one of the main tasks in web research that aims at classification or clustering available texts in the web for different applications, such as news analysis and social network analysis. Since a very large amount of textual data is available on the Web, reducing the dimension of data using feature extraction techniques plays an important role in improving the efficiency and effectiveness of the text mining algorithms. Various techniques have been proposed in machine learning tasks that can also be applied in the text mining domain. In this paper we study the available techniques and compare their impact on improving Persian text classification performance. Our experimental results on Hamshahri corpus shows that using an appropriate feature selection technique can improve the classification f-measure from 88.12% to 93.07%.
كشور
ايران
لينک به اين مدرک