شماره ركورد :
1018985
عنوان مقاله :
بسط پرس وجو با خوشه بندي اسناد شبه بازخورد با شباهت حساس به پرس وجو
عنوان به زبان ديگر :
Query expansion using the clustering of pseudo relevant documents with query sensitive similarity
پديد آورندگان :
خدائي، رضا دانشگاه يزد , بالافر، محمدعلي دانشگاه يزد , رضوي، ناصر دانشگاه يزد
تعداد صفحه :
12
از صفحه :
243
تا صفحه :
254
كليدواژه :
شباهت حساس به پرس وجو , بازخورد شبه مرتبط , بسط پرس وجو , بازيابي اطلاعات
چكيده فارسي :
بسط پرس‌وجو به‌عنوان يكي از روش‌هاي انطباق پرس‌وجو، اثربخشي جستجو را در بازيابي اطلاعات افزايش مي‌دهد. بازخورد شبه مرتبط (PRF) روشي براي بسط پرس‌وجو است كه فرض مي‌كند اسناد رتبه بالا از نتايج اوليه مرتبط به موضوع پرس‌وجو هستند و كلمات بسط را از اين اسناد انتخاب مي‌كند. درحالي‌كه ممكن است اسناد نامرتبط به پرس‌وجو در اسناد رتبه‌بالا وجود داشته باشد. روش‌هايي براي انتخاب اسناد مرتبط و ناديده گرفتن اسناد خطا از اسناد رتبه‌بالا ارائه‌شده است كه از خوشه‌بندي و يا طبقه‌بندي اسناد استفاده كرده‌اند. مهم‌ترين موضوع در بسط پرس‌وجو، انتخاب كلمات بسط از مرتبط-ترين اسناد است. در اين مقاله ما خوشه‌بندي اسناد شبه بازخورد را براساس شباهت حساس به پرس‌وجو ارائه مي‌كنيم كه در قرار دادن شبيه‌ترين اسناد در كنار هم مؤثر است. شباهت حساس به پرس‌وجو كه نسبت به شباهت مبتني بر كلمه نتايج بهتري را در بازيابي اسناد بدست آورده است، دليل استفاده در اين مقاله است. خوشه‌ها را مطابق با شباهت دروني‌شان رتبه‌بندي كرده و تعدادي از خوشه‌هاي رتبه‌بالا را براي بسط انتخاب مي‌كنيم. كلمات بسط را از اسناد خوشه‌هاي انتخاب‌شده، براساس تابع رتبه‌بندي TF-IDF استخراج مي‌كنيم. آزمايش‌هاي انجام‌شده روي مجموعه‌داده‌ي پزشكي MED نشان مي‌دهد كه نتايج جستجو براي پرس‌وجوهاي بسط‌داده‌شده با اسناد انتخاب‌شده از خوشه‌ها، نسبت به روش بازخورد شبه مرتبط (PRF) و بازيابي اوليه (VSM) بهتر است و اثربخشي جستجو را افزايش مي‌دهد.
چكيده لاتين :
Query expansion as one of query adaptation approaches, improves retrieval effectiveness of information retrieval. Pseudo-relevance feedback (PRF) is a query expansion approach that supposes top-ranked documents are relevant to the query concept, and selects expansion terms from top-ranked documents. However, Existing of irrelevant document in top-ranked documents is possible. Many approaches have been proposed for selecting relevant documents and ignoring irrelevant ones, which use clustering or classification of documents. Important issue in query expansion approaches is using relevant documents for selecting expansion terms. In this paper, we propose clustering of pseudo-relevant documents based on query sensitive similarity, which is efficient for placing similar documents together. Query sensitive similarity obtained good results in document retrieval rather than term-based similarity, is the reason for using in this paper. Clusters are ranked based on inner similarity, and some top ranked ones are selected for query expansion. Then, we extract expansion terms from documents of selected clusters based on Term Frequency- Inverse document frequency (TF-IDF) scoring function. Conducted experiments over Medicine dataset (MED) shows that retrieval results for expanded queries with selected documents from clusters is better than basic retrieval (VSM) and Pseudo-relevance feedback. In addition, the effectiveness of retrieval is raised.
سال انتشار :
1395
عنوان نشريه :
مدل سازي در مهندسي
فايل PDF :
7501647
عنوان نشريه :
مدل سازي در مهندسي
لينک به اين مدرک :
بازگشت