شماره ركورد كنفرانس :
4230
عنوان مقاله :
يك روش وزندهي مبتني بر موقعيت واژه جهت مشابهت سنجي اسناد
عنوان به زبان ديگر :
A Position based Term Weighting Method for Document Similarity
پديدآورندگان :
اسدي لنگرودي مريم maryam.as16@yahoo.com دانشگاه گيلان , ميرروشندل سيد ابوالقاسم mirroshandel@gmail.com دانشگاه
كليدواژه :
شباهت اسناد , معيار شباهت , وزندهي واژه , خوشهبندي اسناد , دستهبندي اسناد , بازيابياطلاعات , شباهتسنجي لغوي , TD - IDF
عنوان كنفرانس :
كنفرانس بين المللي وب پژوهي
چكيده فارسي :
اندازهگيري ميزان شباهت اسناد موجود در وب، از آن جهت داراي اهميت است كه دربسياري از زمينهها، مانند بازيابياطلاعات، دستهبندي متون، خوشهبندي اسناد، سيستمهاي تشخيص تقلب و سرقت ادبي، خلاصهسازي متون، و ساير حوزهها، نقش مهم و اساسي ايفا ميكند. ميزان درستي اين تشخيص، ميتواند كارايي، دقت و صحت هر يك از فرايندهاي مذكور را بالا برد. در تمام روشهاي مشابهتسنجي اسناد، اصول كار، تشخيص شباهت سندها بر مبناي شناخت دقيق ويژگيهاي مشترك آنها است. از اين رو بازنمود سند بر مبناي ويژگي هاي بارز آن بسيار با اهميت است. روشهاي مهم مشابهتسنجي اسناد، شامل مدلهاي لغوي و معنايي مبتني بر محتوا و مدلهاي مبتني بر ساختار صفحه است. در روشهاي لغوي ،ويژگي اصلي يك سند، وزن واژههاي آن است. بنابراين وزندهي صحيح واژه، ميتواند يك گام موثر درنمايش دقيق ويژگيهاي بارز اسناد باشد. در اين مقاله، هدف اصلي، ارايه روشي بهبوديافته در وزندهي واژه، براي تعيين ميزان شباهت لغوي اسناد متني است. روش وزندهي پيشنهادي بر مبناي طرح TD - IDF و با تاكيد بر اهميت بيشتر واژههاي خطوط ابتدايي اسناد، توانسته است، دقت و فراخواني را در دستهبندي و ميزان صحت را در خوشهبندي اسناد مجموعه TDT5افزايش دهد.
چكيده لاتين :
Measuring the similarity of documents on the web, it is important for many fields, such as information retrieval, text classification, document clustering, Spam and plagiarism detection systems, summarization texts, and other fields, plays a major role. The validity of this diagnosis, can the efficiency, accuracy and correctness of any of the processes up. In all survey methods similar to those documents, in principle, to recognize similar documents based on a detailed understanding of their common features. The presentation document based on its distinguishing feature is very important. Survey methods similar important documents, including lexical and semantic content-based models and models based on the structure of the page. In lexical methods, main features of a document, it is the weight of words. So the correct word weighting, can be an effective step exact Preview Featuring documents. In this paper, the main objective of providing an improved method of weighting words, to determine the lexical similarity of text documents.