عنوان مقاله :
ارائه مدلي براي بازيابي اطلاعات متني با استفاده از اعداد فاصله اي
عنوان به زبان ديگر :
Proposing an Information Retrieval Model Using Interval Numbers
پديد آورندگان :
قهرماني، فرزاد دانشگا شيراز - دانشكد مهندسي برق و كامپيوتر , تحيري، هومان دانشگا شيراز - دانشكد مهندسي برق و كامپيوتر - بخش مهندسي و علوم كامپيوتر و فناوري اطلاعات،
كليدواژه :
بازيابي اطلاعات متني , رتبه بندي اسناد , وزن دهي لغات , اعداد فاصله اي , وزن فاصله اي
چكيده فارسي :
با گسترش و توسعه وب و افزايش محتواي آنلاين، اهميت سيستم هاي بازيابي اطلاعات كه بتوانند با دقت بالاتري به نيازهاي اطلاعاتي كاربران پاسخ دهند، بيشتر از پيش مشخص است. يك بخش مهم در طراحي هر سيستم بازيابي اطلاعات، انتخاب روشي مناسب براي مدل كردن آن سيستم است كه در اين راستا تعيين روش وزن دهي به لغات جهت بيان ميزان اهميت آنها در اسناد و پرس وجوها، نقش به سزائي دارد. روش هاي مختلفي در خصوص چگونگي وزن دهي به لغات ارائه شده كه غالباً يك وزن عددي را تخصيص مي دهند اما نمي توان با قطعيت گفت كه بهترين روش وزن دهي كدام است. با توجه به ابهام و عدم قطعيتي كه در اين زمينه وجود دارد، در اين مقاله مدلي ارائه شده كه به جاي استفاده از يك مقدار وزني، با استفاده از وزن هاي بدست آمده از تعدادي روش وزن دهي پايه كه به دقت انتخاب شده اند، براي هر لغت بازه اي از وزن ها را به عنوان يك وزن فاصله اي محاسبه مي كند. در اين مدل با انجام تجميع مناسب، ميزان ارتباط هر سند با پرس-وجوي ورودي نيز به صورت يك وزن فاصله اي تعيين شده و برحسب آنها مي توان با استفاده از يكي از سه روش پيشنهادي، اسناد را رتبه-بندي كرد. در آزمايش هاي انجام شده بر روي مجموعه داده هاي معتبر Cranfield و Medline، اثرات نرما ل سازي طول بردار وزن هاي پايه، استفاده از مؤلفه هاي مختلف در فاكتور فركانس لغت و فاكتور فركانس مجموعه مورد مطالعه و بحث قرار گرفته است و مشخص شد كه انتخاب مجموعه اي مناسب از روش هاي وزن دهي پايه براي اعمال روش پيشنهادي، به همراه استفاده از روش رتبه بندي مناسب، تأثير به سزائي در بهبود بازدهي سيستم خواهد داشت. با انتخاب هاي مناسب، براي دو مجموعه داده مذكور به ترتيب MAP با مقادير 0.43323 و 0.54580 بدست آمد. اين نتايج نشان داد كه روش پيشنهادي نه تنها باعث بهبود نسبت به هر يك از روش هاي وزن دهي پايه مي شود، بلكه در مقايسه با چند روش وزن دهي پيچيده اخير نيز بهتر عمل مي كند.
چكيده لاتين :
Recent expansions of web demands for more capable information retrieval systems that more accurately address the users' information needs. Weighting the words and terms in documents plays an important role in any information retrieval system. Various methods for weighting the words are proposed, however, it is not straightforward to assert which one is more effective than the others. In this paper, we have proposed a method that calculates the weights of the terms in documents and queries as interval numbers. The interval numbers are derived by aggregating the crisp weights that are calculated by exploiting the existing weighting methods. The proposed method, calculates an interval number as the overall relevancy of each document with the given query. We have discussed three approaches for ranking the interval relevancy numbers. In the experiments we have conducted on Cranfield and Medline datasets, we have studied the effects of weight normalization, use of variations of term and document frequency and have shown that appropriate selection of basic term weighting methods in conjunction with their aggregation into an interval number would considerably improve the information retrieval performance. Through appropriate selection of basic weighting methods we have reached the MAP of 0.43323 and 0.54580 on the datasets, respectively. Obtained results show that he proposed method, outperforms the use of any single basic weighting method and other existing complicated weighting methods.
عنوان نشريه :
فناوري اطلاعات و ارتباطات ايران