شماره ركورد كنفرانس :
3752
عنوان مقاله :
ارائه يك مدل پيشنهادي جهت استخراج ويژگي از نوشتارهاي كلان
پديدآورندگان :
كاوياني مسعود Kaviani.masoud@gmail.com دانشكده مهندسي كامپيوتر، واحد نجف آباد، دانشگاه آزاد اسلامي، نجف آباد، اصفهان، ايران , نديمي محمد nadimi@iaun.ac.ir دانشكده مهندسي كامپيوتر، واحد نجف آباد، دانشگاه آزاد اسلامي، نجف آباد، اصفهان، ايران
كليدواژه :
طبقه بندي متن , انتخاب ويژگي , استخراج ويژگي , كاهش ابعاد
عنوان كنفرانس :
اولين كنفرانس بين المللي مهندسي و علوم كامپيوتر
چكيده فارسي :
در فرآيند طبقه بندي متون(Text Classification)، يك مشكل عمومي وجود دارد، كه آن هم تعداد زياد ويژگي هاي(Features) مسئله است. به خاطر مدل هاي مختلف مانند كوله اي از كلمات(Bag Of Words)، هر كلمه به يك بعد نگاشت مي شود و به دليل تعدد زياد كلمات يكتا در يك انباره ي متني، حجم مدل، بسيار بزرگ مي شود. براي مقابله با اين مشكل يك روش عمومي به نام انتخاب ويژگي(Feature Selection) وجود دارد. در روش هاي انتخاب ويژگي، يك زير مجموعه اي از كلمات موجود، به عنوان كلمات ارزشمند در طبقه بندي، شناسايي مي شوند و بقيه ي كلمات، كه ارزش زيادي در طبقه بندي ندارند(و در اصلاح اطلاعات زيادي ندارد)، بايستي حذف شده و در فرآيند طبقه بندي استفاده نشوند. در اين مقاله سعي شده، روش ها و متدولوژي هاي مختلف انتخاب ويژگي بررسي شوند، و يك روش پيشنهادي جهت استخراج ويژگي از متون خبري كلان، ارائه شود.