عنوان مقاله :
بسط پرس وجو با خوشه بندي اسناد شبه بازخورد با شباهت حساس به پرس وجو
عنوان به زبان ديگر :
Query expansion using the clustering of pseudo relevant documents with query sensitive similarity
پديد آورندگان :
خدائي، رضا دانشگاه يزد , بالافر، محمدعلي دانشگاه يزد , رضوي، ناصر دانشگاه يزد
كليدواژه :
شباهت حساس به پرس وجو , بازخورد شبه مرتبط , بسط پرس وجو , بازيابي اطلاعات
چكيده فارسي :
بسط پرسوجو بهعنوان يكي از روشهاي انطباق پرسوجو، اثربخشي جستجو را در بازيابي اطلاعات افزايش ميدهد. بازخورد شبه مرتبط (PRF) روشي براي بسط پرسوجو است كه فرض ميكند اسناد رتبه بالا از نتايج اوليه مرتبط به موضوع پرسوجو هستند و كلمات بسط را از اين اسناد انتخاب ميكند. درحاليكه ممكن است اسناد نامرتبط به پرسوجو در اسناد رتبهبالا وجود داشته باشد. روشهايي براي انتخاب اسناد مرتبط و ناديده گرفتن اسناد خطا از اسناد رتبهبالا ارائهشده است كه از خوشهبندي و يا طبقهبندي اسناد استفاده كردهاند. مهمترين موضوع در بسط پرسوجو، انتخاب كلمات بسط از مرتبط-ترين اسناد است. در اين مقاله ما خوشهبندي اسناد شبه بازخورد را براساس شباهت حساس به پرسوجو ارائه ميكنيم كه در قرار دادن شبيهترين اسناد در كنار هم مؤثر است. شباهت حساس به پرسوجو كه نسبت به شباهت مبتني بر كلمه نتايج بهتري را در بازيابي اسناد بدست آورده است، دليل استفاده در اين مقاله است. خوشهها را مطابق با شباهت درونيشان رتبهبندي كرده و تعدادي از خوشههاي رتبهبالا را براي بسط انتخاب ميكنيم. كلمات بسط را از اسناد خوشههاي انتخابشده، براساس تابع رتبهبندي TF-IDF استخراج ميكنيم. آزمايشهاي انجامشده روي مجموعهدادهي پزشكي MED نشان ميدهد كه نتايج جستجو براي پرسوجوهاي بسطدادهشده با اسناد انتخابشده از خوشهها، نسبت به روش بازخورد شبه مرتبط (PRF) و بازيابي اوليه (VSM) بهتر است و اثربخشي جستجو را افزايش ميدهد.
چكيده لاتين :
Query expansion as one of query adaptation approaches, improves retrieval effectiveness of information retrieval. Pseudo-relevance feedback (PRF) is a query expansion approach that supposes top-ranked documents are relevant to the query concept, and selects expansion terms from top-ranked documents. However, Existing of irrelevant document in top-ranked documents is possible. Many approaches have been proposed for selecting relevant documents and ignoring irrelevant ones, which use clustering or classification of documents. Important issue in query expansion approaches is using relevant documents for selecting expansion terms. In this paper, we propose clustering of pseudo-relevant documents based on query sensitive similarity, which is efficient for placing similar documents together. Query sensitive similarity obtained good results in document retrieval rather than term-based similarity, is the reason for using in this paper. Clusters are ranked based on inner similarity, and some top ranked ones are selected for query expansion. Then, we extract expansion terms from documents of selected clusters based on Term Frequency- Inverse document frequency (TF-IDF) scoring function. Conducted experiments over Medicine dataset (MED) shows that retrieval results for expanded queries with selected documents from clusters is better than basic retrieval (VSM) and Pseudo-relevance feedback. In addition, the effectiveness of retrieval is raised.
عنوان نشريه :
مدل سازي در مهندسي
عنوان نشريه :
مدل سازي در مهندسي