مرکز منطقه ای اطلاع رساني علوم و فناوري - رويكردهاي مورد استفاده در خزنده‌هاي وب متمركز: يك مطالعۀ نقشه‌برداري سيستماتيك

شماره ركورد كنفرانس :

5454

عنوان مقاله :

رويكردهاي مورد استفاده در خزنده‌هاي وب متمركز: يك مطالعۀ نقشه‌برداري سيستماتيك

عنوان به زبان ديگر :

Approaches Used in Focused Web Crawlers: A Systematic Mapping Study

پديدآورندگان :

نورزاده امير amirnoorzadeh@hotmail.com دانشكدۀ هوش مصنوعي، دانشگاه آزاد اسلامي، كرج

تعداد صفحه :

كليدواژه :

خزنده‌هاي وب متمركز , خزنده‌هاي وب موضوعي , موتورهاي جستجوي عمودي , رويكردها , مطالعۀ نقشه‌برداري سيستماتيك

سال انتشار :

1403

عنوان كنفرانس :

دهمين كنفرانس بين المللي وب پژوهي

زبان مدرك :

فارسي

چكيده فارسي :

امروزه يكي از رايج‌ترين كاربردهاي اينترنت، جستجو در وب و بازيابي اطلاعات از آن است. همۀ ما از موتورهاي جستجوي عمومي مانند گوگل و بينگ، براي جستجوي روزانۀ اطلاعات استفاده مي‌كنيم. خزنده‌هاي وب، مهم‌ترين بخش يك موتور جستجو هستند كه كل محتواي وب را خزيده و با دنبال‌كردن پيوندهاي موجود در صفحات وب، محتوا را استخراج مي‌نمايند. خزنده‌هاي وب متمركز، نوعي از خزنده‌هاي وب هستند كه فرآيند خزيدن را به بخش خاصي از محتواي آنلاين، محدود مي‌كنند و در موتورهاي جستجوي عمودي استفاده مي‌شوند. براي مثال، آنها ممكن است فقط انواع خاصي از رسانه‌ها (مانند فايل‌هاي پاورپوينت) را بازيابي نمايند.در اين مقاله، يك مطالعۀ نقشه‌برداري سيستماتيك انجام شده است و رويكردهاي مورد استفاده در توسعۀ خزنده‌هاي وب متمركز كه در مقالات سال‌هاي اخير معرفي گرديده‌اند، بررسي و در مورد مزايا و معايب هر كدام بحث شده است. همچنين، 2 رويكرد جديد از مقالات، شناسايي و معرفي شده است. اين مطالعه نشان مي‌دهد كه رويكرد مبتني بر «هستي‌شناسي يا معناشناسي»، بيشترين استفاده را در توسعۀ خزنده‌هاي وب متمركز دارد. همچنين هر يك از رويكردهاي معرفي‌شده، داراي مزايا و معايبي است كه تصميم به استفاده از هر يك، به منابع و محدوديت‌هاي موجود براي توسعه بستگي دارد.

چكيده لاتين :

Today, one of the most common uses of the Internet is searching the web and retrieving information from it. We all use general search engines like Google and Bing to search for information on a daily basis. Web crawlers are the most important part of a search engine that crawls the entire web content and extracts the content by following the links on the web pages. Focused web crawlers are a type of web crawlers that limit the crawling process to a specific section of online content and are used in vertical search engines. For example, they may only retrieve certain types of media (such as PowerPoint files).In this paper, a systematic mapping study has been conducted and the approaches used in the development of focused web crawlers have been reviewed and the advantages and disadvantages of each have been discussed. Also, 2 new approaches have been identified and introduced. This study shows that the approach based on ontology or semantics is the most used in the development of focused web crawlers. Also, the decision to use each of the introduced approaches depends on the available resources and the existing limitations for development.

كشور :

ايران

لينک به اين مدرک :

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=361553