مرکز منطقه ای اطلاع رساني علوم و فناوري - ارائه روشي نوين براي دسته ¬بندي متن بر اساس مدلي تركيبي از روش k نزديك¬ترين همسايگي و الگوريتم¬ ژنتيك

چكيده فارسي :

رشد روز افزون دسترسي به اسناد الكترونيكي، باعث شده دسته بندي اين اسناد از اهميت ويژه اي برخوردار شود. به طور كلي دستهبندي متون به معني انتساب اسناد به كلاس هاي از پيش تعيين شده مي باشد. از دسته بندي متون مي توان در مديريت اطلاعات با حجم بالا استفاده كرد. از مشكلاتي كه در حال حاضر براي دسته بندي متون و اسناد وجود دارد مي توان به استاندارد نبودن و حجم بالاي متون و در نتيجه زمانبر بودن اين فرايند اشاره كرد. تحقيقات زيادي در اين زمينه انجام شده است كه هر كدام توانسته اند گوشه اي از اين مشكلات را حل كنند و يا آن را به سمت بهينه شدن هدايت كنند. در اين پژوهش روشي جديد براي دسته بندي متون ارائه شده كه از تركيب الگوريتم KNN و الگوريتم ژنتيك استفاده شده است. علت استفاده از الگوريتم KNN انتخاب معيار شباهت بين متون در دسته بندي و سرعت بيشتر آن نسبت به ديگر الگوريتم هاي داده كاوي مي باشد. در الگوريتم ژنتيك استفاده شده، فقط كلمات با بيشترين وزن بررسي نمي شوند بلكه از تركيب بالاترين وزن ها در متن يك وزن تركيبي بهينه ارائه مي كند كه مي تواند نوع سند(پزشكي، ورزشي، سياسي و غيره)را مشخص كند. براي تكميل كار الگوريتم ژنتيك خروجي آن را به الگوريتمKNN داده تا با آزمايش و آموزش بتواند طي گام هاي مختلفي متن هاي وارد شده را دسته بندي كرده و خروجي مطلوبي را به كاربر ارائه دهد. بدين منظور مساله يافتن وزن مناسب را به يك مساله بهينه سازي تبديل كرده و به كمك الگوريتم ژنتيك به حل آن پرداخته مي شود. تعريف اين مساله بهينه سازي بدين صورت است كه در پي يافتن تابع وزني براي همسايه ها با توجه به وزن نسبي آن ها خواهيم بود كه دقت دسته بندي را بيشينه نمايد. روش پيشنهادي با ايجاد ماتريس وزن براي داده ها (هر متن يك ماتريس 1*N) نتايج بهتري را از نظر دقت و سرعت دسته بندي متن ها نسبت به روش هاي قبلي براي كاربر به ارمغان مي آورد. تشكيل ماتريس وزن براي كلمات هر سند و تلفيق خاص الگوريتم ها باعث شده تا از تركيب بالاترين وزن هاي كلمات، يك وزن بهينه كه هم سرعت و هم دقت دسته بندي در آن لحاظ شده، پديد آيد كه تا 95% از صحت كارايي نسبت به همين الگويتم ها بدون تركيب برخوردار مي باشد.