شماره ركورد :
1188883
عنوان مقاله :
انتخاب هوشمندانه مراكز اوليه در الگوريتم خوشه بندي K-means به‌منظور بهبود تشخيص موضوع
پديد آورندگان :
آروين ، سپهر دانشگاه تهران، پرديس دانشكده‌هاي فني - دانشكده‌ي مهندسي برق و كامپيوتر , ورداسبي ، علي دانشگاه تهران، پرديس دانشكده‌هاي فني - دانشكده‌ي مهندسي برق و كامپيوتر , فيلي ، هشام دانشگاه تهران، پرديس دانشكده‌هاي فني - دانشكده‌ي مهندسي برق و كامپيوتر , شاكري ، آزاده دانشگاه تهران، پرديس دانشكده‌هاي فني - دانشكده‌ي مهندسي برق و كامپيوتر
از صفحه :
39
تا صفحه :
48
كليدواژه :
LDA (Latent Dirichlet Allocation) , خوشه بندي , تعيين مراكز اوليه , معيار فاصله , K-means , silhouette
چكيده فارسي :
تشخيص موضوع يكي از مسائل حوزه ي پردازش زبان طبيعي است كه در سال هاي اخير همواره مورد توجه بوده و از زواياي متفاوتي مورد پژوهش قرارگرفته است. هدف كلي در اين مسئله خوشه­ بندي اسناد متني در دسته ­هاي مختلف است به‌گونه‌اي كه اسناد موجود در هر خوشه موضوع يكساني داشته باشد. بخش قابل‌توجهي از راه‌حل‌هاي ارائه‌شده براي اين مسئله از الگوريتم هاي خوشه بندي مانند K-means استفاده مي‌كنند. علاوه بر روش‎هاي مبتني بر خوشه‎بندي اسناد، در دستهاي از پژوهش ها براي حل مسئله تشخيص موضوع از روش هاي مدل سازي موضوعي استفاده‌شده است. در اين پژوهش ابتدا حساسيت قابل‌توجه الگوريتم K-means به انتخاب مراكز اوليه به‌صورت عملي نشان داده مي‌شود و سپس روشي براي انتخاب هوشمندانه مراكز اوليه ارائه مي‌شود كه استفاده از آن كيفيت الگوريتم K-means را در مسئله‌ي تشخيص موضوع ارتقاء مي‌دهد. روش پيشنهادشده براي تشخيص موضوع در اين مقاله با بهره گيري از مدل سازي موضوعي (LDA (Latent Dirichlet Allocation، پس از انتخاب هوشمندانه مراكز اوليه، اقدام به خوشه بندي اسناد بر اساس موضوع آن ها مي كند. در روش ارائه‌شده فاصله اسناد بر اساس توزيع موضوع حاصل از LDA آن ها محاسبه‌شده است. آزمايش ­ها نشان مي­ دهند كه استفاده از روش ارائه‌شده باعث بهبود چشم گير كيفيت تشخيص موضوع نسبت به روش LDA در دو مجموعه از سه مجموعه دادگان مورد آزمايش مي شود. همچنين در مقايسه با روش ++K-means براي انتخاب مراكز اوليه، در روش ارائه‌شده‎ي ما انتخاب مراكز اوليه در دو مجموعه دادگان هميشه مناسب تر بوده و احتمال بهتر بودن مراكز انتخابي در مجموعه دادگان ديگر مورد آزمايش برابر با 70 درصد است.
عنوان نشريه :
علوم رايانش و فناوري اطلاعات
عنوان نشريه :
علوم رايانش و فناوري اطلاعات
لينک به اين مدرک :
بازگشت