عنوان مقاله :
پيشنهاد هشتگ در سيستم هاي ميكروبلاگ توسط بردار موضوعي: مورد كاربرد توئيتر
عنوان به زبان ديگر :
An Improvement in Microblog Hashtag Recommendation Based on Topic Vector
پديد آورندگان :
تاج بخش، ميرسامان دانشگاه اروميه - دانشكده مهندسي برق و كامپيوتر , باقرزاده، جمشيد دانشگاه اروميه - دانشكده مهندسي برق و كامپيوتر
كليدواژه :
سيستم هاي توصيه گر , توصيه هشتگ , بردار موضوعي , تخصيص ديريكله نهفته , نمونه برداري Gibbs , ميكروبلاگ , توئيتر
چكيده فارسي :
با معرفي وب 2.0، دادههاي ايستا كه در وب 1.0 وجود داشتند، حالت ساختيافتهتري به خود گرفتند. ويكيها، بلاگها، شبكههاي اجتماعي و سيستمهاي بوكماركينگ اجتماعي مثالهايي از آن هستند كه كاربران در آنها محتوا توليد ميكنند. يكي از مشكلات توليد محتوا توسط كاربر، عدم يكپارچگي محتواي توليدشده ميباشد كه باعث توليد دادههاي ناهمگون شده و اجراي الگوريتمها و تكنيكهاي كامپيوتري را دشوار ميسازد. راه حل وب 2.0 براي كاهش اثر اين مشكل، استفاده از هشتگ (تگ) براي مطالب منتشرشده توسط كاربر است كه خود كاربر به مطالب منتشرشده خود، تگ ميزند. اين راهكار در ميكروبلاگهايي چون توئيتر كماكان رفع نشده است چرا كه كاربران با محدوديت كاراكتري (140 كاراكتر براي هر توئيت) مواجه هستند و ممكن است تعداد كاراكترهاي محتوا باعث شود كه برخي كاراكترهاي هشتگ در پست نباشد. در اين مقاله سعي شده تا با استفاده از روش تخصيص ديريكله نهفته و نمونهبرداري Gibbs فروريخته، مشكل پيشنهاد هشتگ در محيط ناهمگون توئيتر رفع شود. پيشنهاد هشتگ بر روي 8396744 توئيت به زبان انگليسي پيادهسازي و در آزمايشهاي مختلف بين 1 تا 5 مرتبطترين هشتگ پيشنهاد شده است. نتايج در حالات مختلف دقت بالاي 20% و فراخواني بالاي 45% را نشان ميدهد كه نشانگر افزايش دقت از 3% به 21% و افزايش فراخواني از 32% به 46% در مقايسه با دقيقترين روش بررسيشده پيشنهاد هشتگ توسط LDA بدون تغيير، توسط نويسندگان است.
چكيده لاتين :
Static contents defined in Web 1.0 were replaced with structured user generated contents by means of Web 2.0. Wikis, Blogs, Social Networks, and Social Bookmarking Systems are some of the examples where users can generate and publish contents. Generating contents by users leads to creation of heterogeneous data which makes computation and algorithms hard to be applied. Web 2.0 benefits hashtags (tags) in order to solve the heterogeneous problem of the contents in which users can label their contents with hashtags. This technique cannot help in microblogging systems such as Twitter because of number of characters in each tweet (140 characters per tweet) and leads the tags or words be truncated or be used in heterogeneous form. In the current paper, a novel method is introduced based on Latent Dirichlet Allocation which can be used for numericalization tweets in a vector namely topic vector (TV). Additionally, TV is used for modeling users’ taste which can improve hashtag recommendation. The proposed method has been tested on 8396744 real tweets in English. The top 1 to 5 hashtags are recommended for each tweet and results show precision more than 20% and recall more than 45%. The improvement applied by TV shows that the most precision is increased from 3% to 32%, and recall from 21% to 46% to the best method tested by the authors.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران