عنوان مقاله :
به كارگيري داده كاوي براي پيشنهاد پرسش درنظامهاي بازيابي اطلاعات
عنوان به زبان ديگر :
Implicating of Data Mining Techniques to Suggesting Queries in Information Retrieval System
پديد آورندگان :
زينالي تازه كندي، مهدي دانشگاه فردوسي - گروه علم اطلاعات و دانش شناسي، مشهد، ايران , نوكاريزي، محسن دانشگاه فردوسي - گروه علم اطلاعات و دانش شناسي، مشهد، ايران
كليدواژه :
سامانه توصيه گر , فاصله لون اشتاين , قاعده سري زماني , قانون همايندي , نظريه احتمالي
چكيده فارسي :
داده كاوي به مفهوم آشكارسازي الگوهاي موجود در حجم انبوه داده هاست كه در بسياري از رشته ها به كار گرفته شده است. در رشته علم اطلاعات و دانش شناسي به ويژه در بازيابي اطلاعات نيز ميتوان از آن بهره برد. در بازيابي اطلاعات ابتدا پارادايم نظام گرا و سپس پارادايم كاربرگرا مطرح شده است كه در پارادايم دوم به نياز اطلاعاتي توجه شده است. در پارادايم دوم، ورود پرسشهاي نامناسب از سوي كاربران، دليل اصلي عدم بازيابي مدارك مرتبط تلقي ميشود. ازاينرو، يكي از مباحث اصلي اين پارادايم، پيشنهاد و بسط پرسش مناسب در نظام بازيابي اطلاعات است كه ميتوان از روشهاي داده كاوي براي آن استفاده كرد. چهار روش مهم براي پيشنهاد پرسش جهت تقويت نظام توصيه گر وجود دارد. قاعده سري زماني يكي ازاين روشهاست كه به فراواني پرسش در واحد زماني خاص ميپردازد. يكي ديگر از روشها، قانون همايندي است كه به وابستگي و تداعي پرسشها توجه دارد. در روش قانون همايندي همراه با فاصله لون اشتاين، افزون بر توجه به وابستگي و تداعي پرسشها به ترتيب واژههاي پرسش نيز توجه ميشود. بههرحال، در هر سه روش يادشده، از فايل ثبت رخداد استفاده ميشود؛ درحاليكه در نظريه احتمالاتي از واژههاي مدارك جهت ترميم شكاف واژگاني بين پرسش و مدارك استفاده ميشود. درنهايت به نظر ميرسد، به كارگيري روشهاي يادشده بهويژه روش احتمالي در پيشنهاد پرسش منجر به نتايج مناسبتري شود.
چكيده لاتين :
Data mining detects patterns in the massive volume of data used in many disciplines. It can also be useful in our field, especially in information retrieval. In information retrieval, first the system-oriented paradigm and then the user-oriented paradigm have been introduced, the second paradigm being concerned with information needs. In the second paradigm, the inclusion of inappropriate queries is considered the main reason for not retrieving relevant documents. Therefore, one of the main topics of this paradigm is proposing and extending the appropriate query in the recommender system that can be used for data mining methods. There are four important methods to propose a query to strengthen the recommender system. The time series rule is one of these methods that deal with query frequency in a particular time unit. Another method is the association rule that addresses the dependency and association of queries. In addition to the dependence and association of queries, the order of query terms is also considered in the method of Association rule with Levenshtein distances. However, in all three of these methods, the log file is used, while in probabilistic theory, the document words are used to repair the lexical gap between the queries and the documents. Therefore, it seems that using probability theory to suggest the query yields better results.
عنوان نشريه :
بازيابي دانش و نظام هاي معنايي