مرکز منطقه ای اطلاع رساني علوم و فناوري - يك روش وزن‏‎دهي مبتني بر موقعيت واژه جهت مشابهت سنجي اسناد

شماره ركورد كنفرانس :

4230

عنوان مقاله :

يك روش وزن‏‎دهي مبتني بر موقعيت واژه جهت مشابهت سنجي اسناد

عنوان به زبان ديگر :

A Position based Term Weighting Method for Document Similarity

پديدآورندگان :

اسدي لنگرودي مريم maryam.as16@yahoo.com دانشگاه گيلان , ميرروشندل سيد ابوالقاسم mirroshandel@gmail.com دانشگاه

تعداد صفحه :

كليدواژه :

شباهت اسناد , معيار شباهت , وزن‎دهي واژه , خوشه‎بندي اسناد , دسته‎بندي اسناد , بازيابي‎اطلاعات , شباهت‎سنجي لغوي , TD - IDF

سال انتشار :

1395

عنوان كنفرانس :

كنفرانس بين المللي وب پژوهي

زبان مدرك :

فارسي

چكيده فارسي :

اندازه‎گيري ميزان شباهت اسناد موجود در وب، از آن جهت داراي اهميت است كه دربسياري از زمينه‎ها، مانند بازيابي‎اطلاعات، دسته‎بندي متون، خوشه‎بندي اسناد، سيستم‎هاي تشخيص تقلب و سرقت ادبي، خلاصه‎سازي متون، و ساير حوزه‎ها، نقش مهم و اساسي ايفا مي‎‎‎‎‎‎‎‎‎‎‎‎‎‎كند. ميزان درستي اين تشخيص، مي‎تواند كارايي، دقت و صحت هر يك از فرايندهاي مذكور را بالا برد. در تمام روش‎هاي مشابهت‎سنجي اسناد، اصول كار، تشخيص شباهت سندها بر مبناي شناخت دقيق ويژگي‎هاي مشترك آنها است. از اين‎ رو بازنمود سند بر مبناي ويژگي هاي بارز آن بسيار با اهميت است. روش‎هاي مهم مشابهت‎سنجي اسناد، شامل مدل‎هاي لغوي و معنايي مبتني بر محتوا و مدل‎هاي مبتني بر ساختار صفحه است. در روش‎هاي لغوي ،ويژگي اصلي يك سند، وزن واژه‎هاي آن است. بنابراين وزن‎دهي صحيح واژه، مي‎تواند يك گام موثر درنمايش دقيق ويژگي‎هاي بارز اسناد باشد. در اين مقاله، هدف اصلي، ارايه روشي بهبوديافته در وزن‎دهي واژه‎، براي تعيين ‎ ميزان شباهت لغوي اسناد متني است. روش وزن‎دهي پيشنهادي بر مبناي طرح TD - IDF و با تاكيد بر اهميت بيشتر واژه‎هاي خطوط ابتدايي اسناد، توانسته است، دقت و فراخواني را در دسته‎بندي و ميزان صحت را در خوشه‎بندي اسناد مجموعه TDT5افزايش دهد.

چكيده لاتين :

Measuring the similarity of documents on the web, it is important for many fields, such as information retrieval, text classification, document clustering, Spam and plagiarism detection systems, summarization texts, and other fields, plays a major role. The validity of this diagnosis, can the efficiency, accuracy and correctness of any of the processes up. In all survey methods similar to those documents, in principle, to recognize similar documents based on a detailed understanding of their common features. The presentation document based on its distinguishing feature is very important. Survey methods similar important documents, including lexical and semantic content-based models and models based on the structure of the page. In lexical methods, main features of a document, it is the weight of words. So the correct word weighting, can be an effective step exact Preview Featuring documents. In this paper, the main objective of providing an improved method of weighting words, to determine the lexical similarity of text documents.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=240162