عنوان مقاله :
انتخاب هوشمندانه مراكز اوليه در الگوريتم خوشه بندي K-means بهمنظور بهبود تشخيص موضوع
پديد آورندگان :
آروين ، سپهر دانشگاه تهران، پرديس دانشكدههاي فني - دانشكدهي مهندسي برق و كامپيوتر , ورداسبي ، علي دانشگاه تهران، پرديس دانشكدههاي فني - دانشكدهي مهندسي برق و كامپيوتر , فيلي ، هشام دانشگاه تهران، پرديس دانشكدههاي فني - دانشكدهي مهندسي برق و كامپيوتر , شاكري ، آزاده دانشگاه تهران، پرديس دانشكدههاي فني - دانشكدهي مهندسي برق و كامپيوتر
كليدواژه :
LDA (Latent Dirichlet Allocation) , خوشه بندي , تعيين مراكز اوليه , معيار فاصله , K-means , silhouette
چكيده فارسي :
تشخيص موضوع يكي از مسائل حوزه ي پردازش زبان طبيعي است كه در سال هاي اخير همواره مورد توجه بوده و از زواياي متفاوتي مورد پژوهش قرارگرفته است. هدف كلي در اين مسئله خوشه بندي اسناد متني در دسته هاي مختلف است بهگونهاي كه اسناد موجود در هر خوشه موضوع يكساني داشته باشد. بخش قابلتوجهي از راهحلهاي ارائهشده براي اين مسئله از الگوريتم هاي خوشه بندي مانند K-means استفاده ميكنند. علاوه بر روشهاي مبتني بر خوشهبندي اسناد، در دستهاي از پژوهش ها براي حل مسئله تشخيص موضوع از روش هاي مدل سازي موضوعي استفادهشده است. در اين پژوهش ابتدا حساسيت قابلتوجه الگوريتم K-means به انتخاب مراكز اوليه بهصورت عملي نشان داده ميشود و سپس روشي براي انتخاب هوشمندانه مراكز اوليه ارائه ميشود كه استفاده از آن كيفيت الگوريتم K-means را در مسئلهي تشخيص موضوع ارتقاء ميدهد. روش پيشنهادشده براي تشخيص موضوع در اين مقاله با بهره گيري از مدل سازي موضوعي (LDA (Latent Dirichlet Allocation، پس از انتخاب هوشمندانه مراكز اوليه، اقدام به خوشه بندي اسناد بر اساس موضوع آن ها مي كند. در روش ارائهشده فاصله اسناد بر اساس توزيع موضوع حاصل از LDA آن ها محاسبهشده است. آزمايش ها نشان مي دهند كه استفاده از روش ارائهشده باعث بهبود چشم گير كيفيت تشخيص موضوع نسبت به روش LDA در دو مجموعه از سه مجموعه دادگان مورد آزمايش مي شود. همچنين در مقايسه با روش ++K-means براي انتخاب مراكز اوليه، در روش ارائهشدهي ما انتخاب مراكز اوليه در دو مجموعه دادگان هميشه مناسب تر بوده و احتمال بهتر بودن مراكز انتخابي در مجموعه دادگان ديگر مورد آزمايش برابر با 70 درصد است.
عنوان نشريه :
علوم رايانش و فناوري اطلاعات
عنوان نشريه :
علوم رايانش و فناوري اطلاعات