شماره ركورد :
997267
عنوان مقاله :
بهبود صحت ابهام‌ زدايي نام نويسنده با استفاده از خوشه‌بندي تجمّعي
عنوان به زبان ديگر :
Improving the accuracy of the author name disambiguation by using clustering ensemble
پديد آورندگان :
مرتضوي، محمد دانشگاه آزاد اسلامي واحد نجف آباد - دانشكده مهندسي كامپيوتر , نديمي شهركي، محمد حسين دانشگاه آزاد اسلامي واحد نجف آباد - دانشكده مهندسي كامپيوتر , موسي خاني، مصطفي دانشگاه آزاد اسلامي واحد نجف آباد - دانشكده مهندسي كامپيوتر
تعداد صفحه :
11
از صفحه :
117
تا صفحه :
127
كليدواژه :
كتابخانه‌هاي ديجيتال , ابهام‌زدايي نام نويسنده , نام مبهم , خوشه‌بندي تجمعي
چكيده فارسي :
امروزه كتابخانه‌هاي ديجيتال از مهم­ترين و سريع ­ترين منابع پژوهشي در جهان محسوب مي­ شوند. از نقطه‌نظر مديريت تجميع دانش، توانايي جستجوي صحيح، دقيق و سريع مطالب علمي مد نظر كاربر، اهميت زيادي دارد. پيچيدگي و وجود تشابه در بانك­هاي اطلاعاتي موجب مي­گردد اين منابع در هنگام بهره­برداري با چالش ­ها و ابهامات زيادي مواجه شوند و همين چالش­ ها دست‌مايه پژوهش‌هاي گسترده‌اي را در اين حوزه شكل داده است. يكي از مهم­ترين اين چالش ­ها، وجود ابهام در نام نويسنده است. در اين خصوص روش‌هاي بسياري با بهره‌گيري از روش‌هاي خوشه­ بندي نسبت به حل نام­ هاي مبهم مبادرت ورزيده ­اند. اين روش‌ها تا حدودي توانسته‌اند مشكل را برطرف كنند، اما همچنان مسئله تكه‌تكه‌بودن خوشه‌ها و خطا در نتايج توليدي، از معايب روش‌هاي موجود است. از سويي تجربه نشان داده كه يك روش به‌ تنهايي نتايجي با صحت بالا نمي‌تواند توليد كند. بدين منظور در اين مقاله مدلي جهت حل مشكل ذكر‌شده ارائه شده است‌. راهكار پيشنهادي در دو گام، عمليات ابهام‌ زدايي را انجام مي­دهد. در گام نخست خوشه ­هاي اوليه با استفاده از "الگوريتم خوشه‌بندي سلسله‌مراتبي تجمعي با پارامترها و توابع اندازه‌گيري مشابهت مختلف"، توليد مي‌شوند. در گام دوم با بهره ­گيري از "الگوريتم خوشه‌بندي تجمعي"، خوشه ­هاي توليد‌ شده به‌گونه ­اي تركيب مي­ شوند تا خوشه‌هايي غني با درصد كمتري از تكه‌تكه‌بودن و صحت بالاتر توليد شوند. در ارزيابي‌ الگوريتم پيشنهادي از "مجموعه دادگان DBLP، تحت معيار K" استفاده شده است. نتايج، بهبود قابل توجهي را در تركيب خوشه‌هاي مذكور نشان مي­ دهند.
چكيده لاتين :
Today, digital libraries are important academic resources including millions of citations and bibliographic essential information such as titles, author's names and location of publications. From the view of knowledge accumulation management, the ability to search fast, accurate, desired contents, has a great importance. The complexity and similarity in these resources cause many challenges and ambiguities. One of the most of these challenges is the author name disambiguation which makes an extensive scope of research. Although many effective methods have been developed by using clustering techniques in disambiguation of the author's name, the accuracy of these methods is not acceptable and still there are some problems such as fragmentation and error in the produced results of these methods, since there is no uniform standard of citations, various combinations, and numerous, written, verbal patterns. In fact, experiences have shown that the use of a single method to disambiguate names does not provide results with a high accuracy despite concerns expressed above. In this paper, a new method is proposed to disambiguate author names in different formats and combinations with more accuracy. The proposed solution carries out the disambiguation in two steps; In the first step, agglomerative hierarchical clustering algorithm produces clusters using similar functions and different thresholds. In the second step, clusters produced by clustering ensemble technique in the previous stage are combined to provide more accurate clusters with less fragmentation. The proposed method is experimentally evaluated by conducted DBLP datasets with K criterion. The evaluation results show that the proposed method enhances the accuracy of disambiguation of author names in different formats.
سال انتشار :
1396
عنوان نشريه :
پردازش علائم و داده ها
فايل PDF :
7329398
عنوان نشريه :
پردازش علائم و داده ها
لينک به اين مدرک :
بازگشت