شماره ركورد كنفرانس :
4859
عنوان مقاله :
بكارگيري رويكرد رتبهبندي مبتني بر يادگيري براي محتواي فارسي وب
عنوان به زبان ديگر :
Application of Learning to Rank on Persian Web Content
پديدآورندگان :
كيهاني پور امير حسين keyhanipour@ut.ac.ir پرديس فارابي، دانشگاه تهران
كليدواژه :
رتبهبندي مبتني بر يادگيري , يادگيري تقويتي , محتواي فارسي وب , داده محك dotIR.
عنوان كنفرانس :
پنجمين كنفرانس بين المللي وب پژوهي
چكيده فارسي :
استفاده از اطلاعات نحوه رفتار كاربران حين جستجوي اطلاعات در وب كه اصطلاحاً اطلاعات كليك از گذر داده ناميده ميشود، در بهبود عملكرد اين سامانهها بسيار مفيد ميباشد. با اين وجود، اين قبيل اطلاعات، در اغلب مجموعههاي داده محك موجود براي رتبهبندي مبتني بر يادگيري و به تبع آن، در اكثر روشهاي مطرح شده در اين زمينه، مغفول مانده است. همچنين، تعدد ويژگيهاي ارايه شده در اين مجموعههاي داده، ضمن تحميل هزينههاي محاسباتي به روشهاي رتبهبندي مطرح شده، كاربرد آنها را در شرايط واقعي، دشوار ميكند. به منظور پرداختن به اين چالشها، در سالهاي اخير، رويكرد نويني براي حل مساله ايجاد رتبهبندي مبتني بر يادگيري، بر پايه طرح مفهوم «ويژگيهاي كليك از گذر داده» و تلفيق آن با تكنيكهاي يادگيري تقويتي ارائه شده است كه منجر به معرفي الگوريتم QRC-Rank شده است. عملكرد موفق اين الگوريتم روي مجموعههاي داده محك مطرح انگليسي نظير LETOR و WCL2R، ايده اصلي اين مقاله جهت بررسي نحوه عملكرد اين الگوريتمها در حوزه خط و زبان فارسي بوده است. ارزيابي عملكرد اين الگوريتمها روي مجموعه داده محك فارسي dotIR، حاكي از عملكرد برتر اين روش نسبت به الگوريتمهاي پايه رتبهبندي، بخصوص در نتايج نخست جستجوها است كه غالباً بيشتر مورد توجه كاربران، واقع ميشوند.
چكيده لاتين :
Data about the behavior of Web users while browsing the results returned by Web search engines entitled “Click-through data”, is a source of important information, which improves the functionality of Web search engines. Meanwhile, almost none of the released and publicly available benchmark datasets devoted to the task of learning to rank, include explicit click-through data. As a result, most of the proposed learning to rank algorithms, in practice have not used such enriched source of data in their ranking process. Besides, these datasets present a large volume of features for the task of learning to rank which in turn brings out noticeable computational costs for the proposed algorithms, and makes them ineffective in real-world situations. To address these problems, a novel learning to rank method, QRC-Rank, has proposed the concept of “Click-through features”. In this research, the functionality of these ranking techniques is studied in the retrieval of the Persian contents by applying on dotIR benchmark dataset. These analyzes clearly demonstrate significant improvements in comparison with well-known ranking methods based on the evaluation criteria. Specifically, such an improvement is more noticeable on the top of ranked lists, which usually attract users’ attentions more than other parts of these lists.