شماره ركورد :
1260450
عنوان مقاله :
ارائه ي يك مدل جهت دسته بندي متون فارسي با استفاده از تركيب روش هاي دسته بندي
عنوان به زبان ديگر :
Offering a model for persian texts classify by combination of classification methods
پديد آورندگان :
جمالي، ايمان دانشگاه آزاد اسلامي واحد علوم و تحقيقات بوشهر - گروه كامپيوتر، بوشهر، ايران , ميرعابديني، جواد دانشگاه آزاد اسلامي واحد تهران مركزي، تهران، ايران , هارون آبادي، علي دانشگاه آزاد اسلامي واحد تهران مركزي، تهران، ايران
تعداد صفحه :
12
از صفحه :
61
از صفحه (ادامه) :
0
تا صفحه :
72
تا صفحه(ادامه) :
0
كليدواژه :
ماشين بردار پشتيبان , دسته بندي متون , انتخاب ويژگي , تحليل مولفه اصلي
چكيده فارسي :
براي دسته ­بندي متن از تكنيك ­هاي استخراج اطلاعات، پردازش زبان طبيعي و يادگيري ماشين به طور وسيع استفاده مي شود به طور كلي هدف يك دسته بند متون، دسته ­بندي اسناد در قالب تعداد معيني از دسته­ هاي از پيش تعيين شده مي ­باشد. هر سند مي تواند در يك، چند و يا هيچ دسته اي قرار بگيرد. در مورد هر سند به اين سؤال پاسخ داده خواهد شد كه اين سند در كدام يك از دسته­ ها قرار مي گيرد. اين موضوع مي تواند در قالب يك يادگيري خودكار قرار گيرد تا با استفاده از آن بتوان هر سند را به طور خودكار به دسته­ اي نسبت داد . در اين مقاله، بعد از انتخاب مجموعه داده و پاك­سازي متون به كمك روش نرمال شده فركانس كلمه- معكوس فركانس سند (norm TF-IDF) به ويژگي ­ها وزن داده مي ­شود و در طي دو مرحله ويژگي­ ها با استفاده از روش ­هاي فركانس سند (DF) و مربع چي(SChi) انتخاب مي­ شوند و بعد با استفاده از روش تحليل مؤلفه اصلي (PCA) ابعاد ويژگي ­ها كاهش داده مي ­شود و در مرحله بعد با استفاده از تركيب 21 ماشين بردار پشتيبان (SVM) به پياده سازي مدل پيشنهادي مي ­پردازيم و در نهايت صحت مدل را با روش اعتبار سنجي 10 مرحله‌اي ارزيابي مي­ كنيم نتايج تجربي نشان مي­ دهد كه اين مدل مي ­تواند عمل دسته ­بندي متون را براي هفت دسته با صحت 91.86 انجام دهد كه نسبت به كارهاي پيشين انجام گرفته صحت بالاتري دارد.
چكيده لاتين :
To classify text information extraction techniques, natural language processing and machine learning has been widely used general purpose of categories of documents, classified documents in the form of a certain number of categories are pre-determined. Each document can be in one, several or no category is placed. In the case of any document to this question will be placed the document on which of the categories. This can be in the form of an automatic learning to use it any document can be automatically assigned to a category. In this thesis, data collection and cleanup after you select text using the normal method of word frequency -inverse document frequency (norm TF-IDF) is the weight features and features in two stages using document frequency (DF) and Chi square (SChi) are selected, and then using principal component analysis (PCA) features reduced dimensions, and at a later stage by combining 21 support vector machine (SVM) the proposed model we have implemented, and the accuracy of the model to assess the 10-step method validation. Experimental results show that this model can text classification accuracy of 91.86 for the seven categories do, which has a higher accuracy than the earlier work done.
سال انتشار :
1399
عنوان نشريه :
مهندسي مخابرات جنوب
فايل PDF :
8541382
لينک به اين مدرک :
بازگشت