شماره ركورد كنفرانس :
2139
عنوان مقاله :
استخراج بهترين ويژگي از متون فارسي با استفاده از تجزيه و تحليل مولفه هاي اصلي با كمك ميانگين يادآوري و الگوريتم ژنتيك
پديدآورندگان :
حسن پور حميد نويسنده , قنبري سرخي علي نويسنده , پارسي اشكان نويسنده
تعداد صفحه :
7
كليدواژه :
وزن دهي ويژگي , طبقه بندي متون , الگوريتم ژنتيك , ميانگين يادآوري , تجزيه و تحليل مؤلفه هاي اصلي
سال انتشار :
1391
عنوان كنفرانس :
نخستين كنفرانس بين المللي پردازش خط و زبان فارسي
زبان مدرك :
فارسی
چكيده فارسي :
طبقه بندی و استخراج ویژگی متون فارسی به دلیل وجود ویژگی های بسیار، تكراری و بی اهمیت، فرآیندی بسیار سخت و پیچیده خواهد بود. از آنجا كه این موضوع به صورت محدود مورد مطالعات قرار گرفته است، هدف از مقاله حاضر، استخراج بهترین ویژگی های متن فارسی با استفاده از تجزیه و تحلیل مولفه های اصلی (PCA) با كمك معیار میانگین یادآوری و الگوریتم ژنتیك خواهد بود. این مطالعه با در اختیار داشتن مجموعه داده های استاندارد روزنامه همشهری كه در پنج طبقه تقسیم شده بودند، انجام شد. با استفاده از روش وزن دهی ویژگی مبتنی بر اطلاعات كلاس در حوزه طبقه بندی مستندات (TECRF) و روش های طبقه بندی نزدیك ترین همسایه (KNN) و بیزین در روش پیشنهادی، نتایج بدست آمده نشان داد كه دقت طبقه بندی متون فارسی به صورت قابل توجهی افزایش و مدت زمان تست با ویژگی های استخراج شده با روش پیشنهادی كاهش خواهد یافت.
شماره مدرك كنفرانس :
4474716
سال انتشار :
1391
از صفحه :
1
تا صفحه :
7
سال انتشار :
1391
لينک به اين مدرک :
بازگشت