مرکز منطقه ای اطلاع رساني علوم و فناوري - بكارگيري رويكرد رتبه‏بندي مبتني بر يادگيري براي محتواي فارسي وب

شماره ركورد كنفرانس :

4859

عنوان مقاله :

بكارگيري رويكرد رتبه‏بندي مبتني بر يادگيري براي محتواي فارسي وب

عنوان به زبان ديگر :

Application of Learning to Rank on Persian Web Content

پديدآورندگان :

كيهاني پور امير حسين keyhanipour@ut.ac.ir پرديس فارابي، دانشگاه تهران

تعداد صفحه :

كليدواژه :

رتبه‏بندي مبتني بر يادگيري , يادگيري تقويتي , محتواي فارسي وب , داده محك dotIR.

سال انتشار :

1398

عنوان كنفرانس :

پنجمين كنفرانس بين المللي وب پژوهي

زبان مدرك :

فارسي

چكيده فارسي :

استفاده از اطلاعات نحوه رفتار كاربران حين جستجوي اطلاعات در وب كه اصطلاحاً اطلاعات كليك از گذر داده ناميده مي‌شود، در بهبود عملكرد اين سامانه‌ها بسيار مفيد مي‌باشد. با اين وجود، اين قبيل اطلاعات، در اغلب مجموعه‌هاي داده محك موجود براي رتبه‌بندي مبتني بر يادگيري و به تبع آن، در اكثر روش‌هاي مطرح شده در اين زمينه، مغفول مانده است. همچنين، تعدد ويژگي‌هاي ارايه شده در اين مجموعه‌هاي داده، ضمن تحميل هزينه‌هاي محاسباتي به روش‌هاي رتبه‌بندي مطرح شده، كاربرد آنها را در شرايط واقعي، دشوار مي‌كند. به منظور پرداختن به اين چالش‌ها، در سال‏هاي اخير، رويكرد نويني براي حل مساله ايجاد رتبه‌بندي مبتني بر يادگيري، بر پايه طرح مفهوم «ويژگي‌هاي كليك از گذر داده» و تلفيق آن با تكنيك‏هاي يادگيري تقويتي ارائه شده است كه منجر به معرفي الگوريتم‏ QRC-Rank شده است. عملكرد موفق اين الگوريتم روي مجموعه‏هاي داده محك مطرح انگليسي نظير LETOR و WCL2R، ايده اصلي اين مقاله جهت بررسي نحوه عملكرد اين الگوريتم‏ها در حوزه خط و زبان فارسي بوده است. ارزيابي عملكرد اين الگوريتم‌ها روي مجموعه‌ داده محك فارسي dotIR، حاكي از عملكرد برتر اين روش‌ نسبت به الگوريتم‌هاي پايه رتبه‌بندي، بخصوص در نتايج نخست جستجوها است كه غالباً بيشتر مورد توجه كاربران، واقع مي‌شوند.

چكيده لاتين :

Data about the behavior of Web users while browsing the results returned by Web search engines entitled “Click-through data”, is a source of important information, which improves the functionality of Web search engines. Meanwhile, almost none of the released and publicly available benchmark datasets devoted to the task of learning to rank, include explicit click-through data. As a result, most of the proposed learning to rank algorithms, in practice have not used such enriched source of data in their ranking process. Besides, these datasets present a large volume of features for the task of learning to rank which in turn brings out noticeable computational costs for the proposed algorithms, and makes them ineffective in real-world situations. To address these problems, a novel learning to rank method, QRC-Rank, has proposed the concept of “Click-through features”. In this research, the functionality of these ranking techniques is studied in the retrieval of the Persian contents by applying on dotIR benchmark dataset. These analyzes clearly demonstrate significant improvements in comparison with well-known ranking methods based on the evaluation criteria. Specifically, such an improvement is more noticeable on the top of ranked lists, which usually attract users’ attentions more than other parts of these lists.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=315500