شماره ركورد :
1067480
عنوان مقاله :
پيشنهاد هشتگ در سيستم هاي ميكروبلاگ توسط بردار موضوعي: مورد كاربرد توئيتر
عنوان به زبان ديگر :
An Improvement in Microblog Hashtag Recommendation Based on Topic Vector
پديد آورندگان :
تاج بخش، ميرسامان دانشگاه اروميه - دانشكده مهندسي برق و كامپيوتر , باقرزاده، جمشيد دانشگاه اروميه - دانشكده مهندسي برق و كامپيوتر
تعداد صفحه :
8
از صفحه :
319
تا صفحه :
326
كليدواژه :
سيستم هاي توصيه گر , توصيه هشتگ , بردار موضوعي , تخصيص ديريكله نهفته , نمونه برداري Gibbs , ميكروبلاگ , توئيتر
چكيده فارسي :
با معرفي وب 2.0، داده‌هاي ايستا كه در وب 1.0 وجود داشتند، حالت ساخت‌يافته‌تري به خود گرفتند. ويكي‌ها، بلاگ‌ها، شبكه‌هاي اجتماعي و سيستم‌هاي بوكماركينگ اجتماعي مثال‌هايي از آن هستند كه كاربران در آنها محتوا توليد مي‌كنند. يكي از مشكلات توليد محتوا توسط كاربر، عدم يكپارچگي محتواي توليدشده مي‌باشد كه باعث توليد داده‌هاي ناهمگون شده و اجراي الگوريتم‌ها و تكنيك‌هاي كامپيوتري را دشوار مي‌سازد. راه حل وب 2.0 براي كاهش اثر اين مشكل، استفاده از هشتگ (تگ) براي مطالب منتشرشده توسط كاربر است كه خود كاربر به مطالب منتشرشده خود، تگ مي‌زند. اين راهكار در ميكروبلاگ‌هايي چون توئيتر كماكان رفع نشده است چرا كه كاربران با محدوديت كاراكتري (140 كاراكتر براي هر توئيت) مواجه هستند و ممكن است تعداد كاراكترهاي محتوا باعث شود كه برخي كاراكترهاي هشتگ در پست نباشد. در اين مقاله سعي شده تا با استفاده از روش تخصيص ديريكله نهفته و نمونه‌برداري Gibbs فروريخته، مشكل پيشنهاد هشتگ در محيط ناهمگون توئيتر رفع شود. پيشنهاد هشتگ بر روي 8396744 توئيت به زبان انگليسي پياده‌سازي و در آزمايش‌هاي مختلف بين 1 تا 5 مرتبط‌ترين هشتگ پيشنهاد شده است. نتايج در حالات مختلف دقت بالاي 20% و فراخواني بالاي 45% را نشان مي‌دهد كه نشانگر افزايش دقت از 3% به 21% و افزايش فراخواني از 32% به 46% در مقايسه با دقيق‌ترين روش بررسي‌شده پيشنهاد هشتگ توسط LDA بدون تغيير، توسط نويسندگان است.
چكيده لاتين :
Static contents defined in Web 1.0 were replaced with structured user generated contents by means of Web 2.0. Wikis, Blogs, Social Networks, and Social Bookmarking Systems are some of the examples where users can generate and publish contents. Generating contents by users leads to creation of heterogeneous data which makes computation and algorithms hard to be applied. Web 2.0 benefits hashtags (tags) in order to solve the heterogeneous problem of the contents in which users can label their contents with hashtags. This technique cannot help in microblogging systems such as Twitter because of number of characters in each tweet (140 characters per tweet) and leads the tags or words be truncated or be used in heterogeneous form. In the current paper, a novel method is introduced based on Latent Dirichlet Allocation which can be used for numericalization tweets in a vector namely topic vector (TV). Additionally, TV is used for modeling users’ taste which can improve hashtag recommendation. The proposed method has been tested on 8396744 real tweets in English. The top 1 to 5 hashtags are recommended for each tweet and results show precision more than 20% and recall more than 45%. The improvement applied by TV shows that the most precision is increased from 3% to 32%, and recall from 21% to 46% to the best method tested by the authors.
سال انتشار :
1397
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
فايل PDF :
7603209
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
لينک به اين مدرک :
بازگشت