شماره ركورد كنفرانس :
4847
عنوان مقاله :
طراحي خزشگر موضوعي با تمركز بر ذخيرهسازي داده سايتهاي خبري براي پيشبيني بازار سهام
پديدآورندگان :
دايي امير amir.d@skillpro.ir دانشگاه خوارزمي , عبادتي اميد مهدي ebadati@khu.ac.ir دانشگاه خوارزمي , برنا كيوان borna@khu.ac.ir دانشگاه خوارزمي
كليدواژه :
متنكاوي , كاوش محتواي وب , خزشگر وب , خزشگر موضوعي , خزش اخبار , پيشبيني بازار , پيشبيني بورس اوراق بهادار
عنوان كنفرانس :
چهارمين كنفرانس ملي موضوعات نوين در علوم كامپيوتر و اطلاعات
چكيده فارسي :
توليد دادهها در محيط وب روز به روز در حال افزايش است. پياچپي كراولر يك خزشگر موضوعي به زبان پياچپي با بهكارگيري پكيجهاي دام كراولر و گازل براي ذخيرهسازي دادهها در سطح وب است. اين ابزار به خزش صفحات وب ميپردازد و محتواي مورد نظر را از صفحات استخراج و ذخيره ميكند، و آنها را در دستههاي تعريفشده قرار ميدهد، سپس از اين دادهها ميتوان در تحقيقات متنكاوي يا دادهكاوي استفاده كرد. اين دادهها ميتواند محتواي متني يا اعداد و ارقام يك سايت باشد. اخبار نقش مهمي در فرايند ارزيابي قيمت فعلي سهام دارد. از اين رو در فاز اول تمركز اين خزشگر بر ذخيرهسازي اخبار است. مهمترين ويژگي اين ابزار بررسي خودكار صفحات معرفيشده براي استخراج آخرين لينكهاي اضافهشده، استخراج لينكهاي مورد نظر، اضافه كردن دستهها به صورت گروهي از صفحات وب و دستهبندي اخبار بر اساس بخشهاي صفحات وب است. اين سيستم تا حدود زيادي محدوديت سرعت ندارد و ميتواند هزاران صفحه را در يك دقيقه ذخيره كند، با اين حال سختافزار و اينترنت مورد استفاده و همچنين سرعت پاسخگويي سرورهايي كه آز آنها داده استخراج ميشود، ميتوان بر روي سرعت سيستم تأثيرگذار باشد. از اخبار ذخيرهشده اين سيستم ميتوان براي پيشبيني بازارهاي مختلف از جمله بورس اوراق بهادر استفاده كرد.