عنوان مقاله :
توزيع مؤثر اسناد براي ايجاد توازن بار بين سرورها با استفاده از شمارش رخداد كلمات در سابقه پرس و جوها
عنوان به زبان ديگر :
Efficient Document Partitioning for Load Balancing between Servers Using Term Frequency of Past Queries
پديد آورندگان :
تراب جهرمي، ريحانه دانشگاه يزد - گروه مهندسي كامپيوتر , ظريف زاده، سجاد دانشگاه يزد - گروه مهندسي كامپيوتر
كليدواژه :
توازن بار , توزيع سند , سابقه پرس و جو , موتور جستجو
چكيده فارسي :
هدف اصلي موتورهاي جستجو، يافتن مرتبطترين نتايج نسبت به پرسوجوي كاربر در سريعترين زمان ممكن است. صفحات خزششده توسط موتور جستجو بين سرورهاي متعددي توزيع ميشوند تا در هنگام جستجو بتوان از قدرت بازيابي و پردازش موازي آنها براي توليد سريعتر پاسخ استفاده نمود. با توجه به تعداد بسيار زياد صفحات وب، موتورهاي جستجو سياستهاي مختلفي را براي توزيع مناسب اسناد بين سرورها انتخاب ميكنند. در اين مقاله، روش جديدي براي توزيع اسناد پيشنهاد ميشود كه هدف آن ايجاد توازن بار كاري بين سرورها براي كاهش زمان پاسخگويي موتور جستجو ميباشد. ايده اصلي، استفاده از پرسوجوهاي قبلي كاربران است بدين ترتيب كه به هر كلمه از كلمات موجود در سابقه پرسوجو بر حسب تعداد رخداد روزانه آن، وزني نسبت داده ميشود. سپس هر سند با توجه به مجموع وزن كلمات داخل آن، وزندهي ميشود كه اين وزن ارتباط مستقيمي با احتمال انتخاب آن سند به عنوان پاسخ يك پرسوجو دارد. در نهايت، اسناد به نحوي بين سرورها توزيع ميشوند كه وزن اسناد داخل هر يك از سرورها برابر باشد. نتايج ارزيابي با استفاده از داده واقعي نشان ميدهند كه روش پيشنهادي قادر است توازن بار سرورها را مخصوصاً در زمان اوج ورود پرسوجوها بيش از 20% نسبت به روشهاي گذشته بهبود بخشد.
چكيده لاتين :
The main goal of web search engines is to find the most relevant results with respect to the user query in a shortest possible time. To do so, the crawled documents have to be partitioned between several servers in order to use their aggregate retrieval and processing power. The search engines use different policies for efficient partitioning of documents. In this paper, we propose a new document partitioning method that intends to balance the load between servers to reduce the response time of queries. The idea is to weigh each term based on its daily frequency in log of past queries. We then assign a weight to each document via summing the weight of its substituent terms. The weight of a document approximates the likelihood of its presence in future search results. Finally, the documents are partitioned between servers in a way that the sum of document weights in each server becomes roughly equal. Our evaluation results show that the proposed method is able to balance the load by about 20% better than former algorithms, especially in the peak of search engine traffic.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران