عنوان مقاله :
خوشهبندي فراابتكاري اسناد فارسي اِكساِماِل مبتني بر شباهت ساختاري و محتوايي
عنوان به زبان ديگر :
Persian XML Documents Metaheuristic Clustering Based on Structure and Content Similarity
پديد آورندگان :
مرادي لالمي، علي نويسنده دانشگاه گيلان,ايران Moradi, Ali , شاه بهرامي، اسدالله نويسنده دانشگاه گيلان,ايران Shahbahrami, Asadollah , ابراهيمي آتاني، رضا نويسنده دانشگاه گيلان,ايران Ebrahimi Atani, Reza , عليدوست نيا، مهران نويسنده دانشگاه گيلان,ايران Alidoust Nia, Mehran
اطلاعات موجودي :
فصلنامه سال 1395 شماره 28
كليدواژه :
خوشهبندي , زبان فارسي , پردازش زبان طبيعي و بازيابي اطّلاعات , Clustering , Persian , Colonial competitive algorithm , , الگوريتم رقابت استعماري
چكيده فارسي :
با توجه به رشد فزاينده ي تعداد اسناد XML، سازماندهي موثر اين اسناد به منظور بازيابي اطلاعات مفيد از آنها ضروري مي باشد. يك راه حل امكان پذير، انجام خوشه بندي بر روي اسناد XML به منظور كشف دانش است. مسئله كليدي در خوشه بندي اسناد XML اين است كه چگونه مي توان شباهت بين اسناد XML را اندازه گيري كرد. استفاده از روش هاي متداول خوشه بندي اسناد متني كه اطلاعات محتوايي را براي اندازه گيري شباهت سند بكار مي گيرند، باعث مي شود اطلاعات ساختاري موجود در اسناد XML ناديده گرفته شود. در اين مقاله، مدل جديدي با نام مدل فضاي ماتريسي براي بازنمايي هر دو ويژگي ساختاري و محتوايي داده ها در اسناد XML، پيشنهاد مي شود. بر اساس اين مدل، معيار شباهت جاكارد را تعريف و در نهايت از الگوريتم رقابت استعماري براي خوشه بندي اسناد XML استفاده مي شود. نتايج تجربي نشان مي دهد كه مدل پيشنهادي و تابع نزديكي معرفي شده در شناسايي اسناد مشابه كه داراي اطلاعات ساختاري و محتوايي يكسان هستند، موثر است. اين روش مي تواند به منظور بهبود دقت خوشه بندي و افزايش بهره وري در بازيابي اطلاعات XML مورد استفاده قرار گيرد.
چكيده لاتين :
Due to the increasing number of documents, XML, effectively organize these documents in order to retrieve useful information from them is essential. A possible solution is performed on the clustering of XML documents in order to discover knowledge. Clustering XML documents is a key issue of how to measure the similarity between XML documents. Conventional clustering of text documents using a document similarity measure used in information content, they can cause structural information contained in XML documents is ignored. In this paper, a new model named matrix space model to represent both structural and content features of documents in XML, is proposed. Based on this model, the Jaccard similarity measure is defined and the colonial competitive algorithm for clustering XML documents is used. Experimental results show that the proposed model function in identifying similar documents which closely identified with the same structure and content information are effective. This method can improve the accuracy of clustering, and XML data can be used to increase productivity.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
اطلاعات موجودي :
فصلنامه با شماره پیاپی 28 سال 1395
كلمات كليدي :
#تست#آزمون###امتحان