عنوان مقاله :
بهبود صحت ابهام زدايي نام نويسنده با استفاده از خوشهبندي تجمّعي
عنوان به زبان ديگر :
Improving the accuracy of the author name disambiguation by using clustering ensemble
پديد آورندگان :
مرتضوي، محمد دانشگاه آزاد اسلامي واحد نجف آباد - دانشكده مهندسي كامپيوتر , نديمي شهركي، محمد حسين دانشگاه آزاد اسلامي واحد نجف آباد - دانشكده مهندسي كامپيوتر , موسي خاني، مصطفي دانشگاه آزاد اسلامي واحد نجف آباد - دانشكده مهندسي كامپيوتر
كليدواژه :
كتابخانههاي ديجيتال , ابهامزدايي نام نويسنده , نام مبهم , خوشهبندي تجمعي
چكيده فارسي :
امروزه كتابخانههاي ديجيتال از مهمترين و سريع ترين منابع پژوهشي در جهان محسوب مي شوند. از نقطهنظر مديريت تجميع دانش، توانايي جستجوي صحيح، دقيق و سريع مطالب علمي مد نظر كاربر، اهميت زيادي دارد. پيچيدگي و وجود تشابه در بانكهاي اطلاعاتي موجب ميگردد اين منابع در هنگام بهرهبرداري با چالش ها و ابهامات زيادي مواجه شوند و همين چالش ها دستمايه پژوهشهاي گستردهاي را در اين حوزه شكل داده است. يكي از مهمترين اين چالش ها، وجود ابهام در نام نويسنده است. در اين خصوص روشهاي بسياري با بهرهگيري از روشهاي خوشه بندي نسبت به حل نام هاي مبهم مبادرت ورزيده اند. اين روشها تا حدودي توانستهاند مشكل را برطرف كنند، اما همچنان مسئله تكهتكهبودن خوشهها و خطا در نتايج توليدي، از معايب روشهاي موجود است. از سويي تجربه نشان داده كه يك روش به تنهايي نتايجي با صحت بالا نميتواند توليد كند. بدين منظور در اين مقاله مدلي جهت حل مشكل ذكرشده ارائه شده است. راهكار پيشنهادي در دو گام، عمليات ابهام زدايي را انجام ميدهد. در گام نخست خوشه هاي اوليه با استفاده از "الگوريتم خوشهبندي سلسلهمراتبي تجمعي با پارامترها و توابع اندازهگيري مشابهت مختلف"، توليد ميشوند. در گام دوم با بهره گيري از "الگوريتم خوشهبندي تجمعي"، خوشه هاي توليد شده بهگونه اي تركيب مي شوند تا خوشههايي غني با درصد كمتري از تكهتكهبودن و صحت بالاتر توليد شوند. در ارزيابي الگوريتم پيشنهادي از "مجموعه دادگان DBLP، تحت معيار K" استفاده شده است. نتايج، بهبود قابل توجهي را در تركيب خوشههاي مذكور نشان مي دهند.
چكيده لاتين :
Today, digital libraries are important academic resources including millions of citations and bibliographic essential information such as titles, author's names and location of publications. From the view of knowledge accumulation management, the ability to search fast, accurate, desired contents, has a great importance. The complexity and similarity in these resources cause many challenges and ambiguities. One of the most of these challenges is the author name disambiguation which makes an extensive scope of research. Although many effective methods have been developed by using clustering techniques in disambiguation of the author's name, the accuracy of these methods is not acceptable and still there are some problems such as fragmentation and error in the produced results of these methods, since there is no uniform standard of citations, various combinations, and numerous, written, verbal patterns. In fact, experiences have shown that the use of a single method to disambiguate names does not provide results with a high accuracy despite concerns expressed above. In this paper, a new method is proposed to disambiguate author names in different formats and combinations with more accuracy. The proposed solution carries out the disambiguation in two steps; In the first step, agglomerative hierarchical clustering algorithm produces clusters using similar functions and different thresholds. In the second step, clusters produced by clustering ensemble technique in the previous stage are combined to provide more accurate clusters with less fragmentation. The proposed method is experimentally evaluated by conducted DBLP datasets with K criterion. The evaluation results show that the proposed method enhances the accuracy of disambiguation of author names in different formats.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها