عنوان مقاله :
گسترش پرسوجو با سرپرستي ضعيف با استفاده از شبكه سيامي عميق حافظه كوتاه-مدت طولاني
عنوان به زبان ديگر :
Weakly Supervised Query Expansion using Deep Siamese LSTM
پديد آورندگان :
كاوه يزدي، فاطمه دانشگاه يزد - گروه مهندسي كامپيوتر، يزد، ايران , زارع بيدكي، علي محمد دانشگاه يزد - گروه مهندسي كامپيوتر، يزد، ايران
كليدواژه :
بازيابي اطلاعات , گسترش پرس وجو , جداسازي كلمات , وابستگي معنايي , وابستگي ارتباطي , شبكه سيامي عميق , سلول حافظه كوتاه-مدت طولاني
چكيده فارسي :
عدمهمخواني واژگان مهمترين چالش پيش روي سيستمهاي بازيابي اطلاعات از وب هستند. عدمهمخواني واژگاني به تفاوتهاي موجود بين پرسوجوهاي كاربران و محتواي اسناد وب در حالي اطلاق ميگردد كه هر دو به يك موضوع واحد اشاره دارند. روشهاي گسترش پرسوجو براي رويارويي با مشكل عدمهمخواني واژگاني، پرسوجوي كاربر را بازآرايي مينمايند تا بدينوسيله همپوشاني بين عبارتهاي موجود در پرسوجو و اسناد را افزايش دهند. در اين مقاله يك چهارچوب گسترش پرسوجوي مبتني بر شبكه سيامي عميق حافظه كوتاه-مدت طولاني ارائه شده است. به علاوه، براي نخستين بار وابستگي ارتباطي در اين مقاله تعريف شده و براي برچسبگذاري جفتهاي متشكل از پرسوجوي كاربر و پرسوجوي جايگزين مورد استفاده قرار گرفته است. شبكه سيامي آموزش داده شده با استفاده از جفتهاي برچسبگذاري شده با نظارت ضعيف، علاوه بر ارائه برچسب براي جفتهاي ورودي، هزينه همسنجي آنها را نيز محاسبه نموده و اعلام ميكند. پس از برچسبگذاري، جفتهاي با كمترين هزينه همسنجي انتخاب و در هم ادغام ميشوند تا به يك پرسوجوي گسترش يافته تبديل شوند. نتايج آزمايشات نشاندهنده برتري روش پيشنهادي بر ساير روشهاي مشابه گسترش پرسوجوي مبتني بر جاسازي كلمات بوده است.
چكيده لاتين :
Term mismatch is the most important challege in web information retrieval. The term mismatch problem is defined as differences between user queries and contents of documents while referring to the same topic. Query expansion methods deal with term mismatch by reformulating the queries to increase their term-overlap with relevant documents. In this paper, we proposed a query expansion framework based on a deep Siamese LSTM neural network. In addition, we defined the relevant relatedness for the first time and used this concept to label pairs made from user query and candidate query. Weakly-supervised labeled pairs are utilized in training of the deep Siamese network. The trained Siamese network provides labels for testset pairs in addition to contrastive loss values. The contrastive loss value reflects the cost of pulling together similar pairs. Pairs with minimum contrastive loss values are selected and merged together to form one expanded query. Results of our tests showed that the proposed framework outperforms similar word embedding based query expansion methods.
عنوان نشريه :
مهندسي برق دانشگاه تبريز