شماره ركورد كنفرانس :
3928
عنوان مقاله :
رده بندي اسناد وب با استفاده از ماشين بردار پشتيبان و تحليل تفكيككننده خطي
پديدآورندگان :
دامي سينا dami@wtiau.ac.ir استاديار، دانشگاه آزاد اسلامي، واحد تهران غرب، گروه كامپيوتر، تهران، ايران , عباسي احمد ahmad.abbasi.1987@gmail.com دانشجوي كارشناسي ارشد، دانشگاه آزاد اسلامي، واحد تهران غرب، گروه كامپيوتر، تهران، ايران
كليدواژه :
پردازش زبان طبيعي , داده كاوي , رده بندي متن , ماشين بردار پشتيبان , LDA
عنوان كنفرانس :
نخستين همايش ملي توسعه پژوهش در كامپيوتر و فناوري اطلاعات
چكيده فارسي :
در سالهاي اخير به علت رشد سريع و در دسترس قرار گرفتن متون به شكل ديجيتالي در فضاي وب، مديريت مبتني بر محتواي متون تحت عنوان كلي بازيابي اطلاعات از اهميتي دوچندان برخوردار شده است. با توجه به افزايش روزافزون اين حجم از اطلاعات، وجود سيستمي براي رده بندي خودكار اسناد متني در وب، ضروري بهنظر ميرسد. رده بندي متون به عمل برچسبگذاري موضوعي متون زبان طبيعي بر مبناي يك مجموعه از پيش تعيين شده، اطلاق ميشود. روشهاي رده بندي متون عموما با تعداد ويژگي فراوان روبرو ميشوند. ماشين بردار پشتيبان، يكي از روشهاي موثر در رده بندي متون ميباشد. در اين روش، اطلاعات در فضاي موجود با استفاده از بردار پشتيبان به زيرفضاهايي تقسيم ميشوند. مشكل عمدهاي كه در اينجا بروز ميكند اين است كه تعداد ابعاد و ويژگيهاي زيادي كه متون دارند باعث بالا رفتن حجم محاسبات و كاهش دقت ميشوند. در اين مقاله، به منظور كاهش تعداد ويژگيها و انتخاب ويژگيهاي مناسب و موثر مطابق، از تحليل تفكيككننده خطي (LDA) استفاده شده است. نتايج حاصل از اجراي روش پيشنهادي برروي دادههاي 20 News Group نشان از برتري روش پيشنهادي نسبت به روش پايه دارد.