شماره ركورد كنفرانس :
5454
عنوان مقاله :
رويكردهاي مورد استفاده در خزندههاي وب متمركز: يك مطالعۀ نقشهبرداري سيستماتيك
عنوان به زبان ديگر :
Approaches Used in Focused Web Crawlers: A Systematic Mapping Study
پديدآورندگان :
نورزاده امير amirnoorzadeh@hotmail.com دانشكدۀ هوش مصنوعي، دانشگاه آزاد اسلامي، كرج
كليدواژه :
خزندههاي وب متمركز , خزندههاي وب موضوعي , موتورهاي جستجوي عمودي , رويكردها , مطالعۀ نقشهبرداري سيستماتيك
عنوان كنفرانس :
دهمين كنفرانس بين المللي وب پژوهي
چكيده فارسي :
امروزه يكي از رايجترين كاربردهاي اينترنت، جستجو در وب و بازيابي اطلاعات از آن است. همۀ ما از موتورهاي جستجوي عمومي مانند گوگل و بينگ، براي جستجوي روزانۀ اطلاعات استفاده ميكنيم. خزندههاي وب، مهمترين بخش يك موتور جستجو هستند كه كل محتواي وب را خزيده و با دنبالكردن پيوندهاي موجود در صفحات وب، محتوا را استخراج مينمايند. خزندههاي وب متمركز، نوعي از خزندههاي وب هستند كه فرآيند خزيدن را به بخش خاصي از محتواي آنلاين، محدود ميكنند و در موتورهاي جستجوي عمودي استفاده ميشوند. براي مثال، آنها ممكن است فقط انواع خاصي از رسانهها (مانند فايلهاي پاورپوينت) را بازيابي نمايند.در اين مقاله، يك مطالعۀ نقشهبرداري سيستماتيك انجام شده است و رويكردهاي مورد استفاده در توسعۀ خزندههاي وب متمركز كه در مقالات سالهاي اخير معرفي گرديدهاند، بررسي و در مورد مزايا و معايب هر كدام بحث شده است. همچنين، 2 رويكرد جديد از مقالات، شناسايي و معرفي شده است. اين مطالعه نشان ميدهد كه رويكرد مبتني بر «هستيشناسي يا معناشناسي»، بيشترين استفاده را در توسعۀ خزندههاي وب متمركز دارد. همچنين هر يك از رويكردهاي معرفيشده، داراي مزايا و معايبي است كه تصميم به استفاده از هر يك، به منابع و محدوديتهاي موجود براي توسعه بستگي دارد.
چكيده لاتين :
Today, one of the most common uses of the Internet is searching the web and retrieving information from it. We all use general search engines like Google and Bing to search for information on a daily basis. Web crawlers are the most important part of a search engine that crawls the entire web content and extracts the content by following the links on the web pages. Focused web crawlers are a type of web crawlers that limit the crawling process to a specific section of online content and are used in vertical search engines. For example, they may only retrieve certain types of media (such as PowerPoint files).In this paper, a systematic mapping study has been conducted and the approaches used in the development of focused web crawlers have been reviewed and the advantages and disadvantages of each have been discussed. Also, 2 new approaches have been identified and introduced. This study shows that the approach based on ontology or semantics is the most used in the development of focused web crawlers. Also, the decision to use each of the introduced approaches depends on the available resources and the existing limitations for development.