عنوان مقاله :
بهبود دقت واژگان كليدي استخراجشده از متن فارسي با استفاده از الگوريتم Word2Vec
پديد آورندگان :
حسني آهنگر ، محمدرضا دانشگاه جامع امام حسين (ع) - مركز داده هاي حجيم و جنگ شناختي سايبري، دانشكده رايانه و قدرت سايبري - آزمايشگاه داده هاي حجيم , اميري جزه ، علي دانشگاه جامع امام حسين (ع) - مركز داده هاي حجيم و جنگ شناختي سايبري، دانشكده رايانه و قدرت سايبري - آزمايشگاه داده هاي حجيم
كليدواژه :
, الگوريتم word2Vec , شبكه عصبي , وزن دهي ويژگي
چكيده فارسي :
واژگان كليدي لغات مهمي از سند هستند كه بيانگر توصيفي از متن هستند و نقش بسيار مهمي در فهم دقيق و سريع از محتوا دارند. شناسايي واژگان كليدي از متن با روشهاي معمول كاري زمانبر و پرهزينه است. در اين مقاله ابتدا با استفاده از شبكه عصبي پيشرو و از طريق الگوريتم Word2Vec ماتريس همبستگي واژگان را بهازاي يك سند محاسبه و سپس با استفاده از ماتريس همبستگي و يك فهرست اوليه محدود از واژگان كليدي، نزديكترين واژگان را از نظر شباهت در قالب فهرست نزديكترين همسايگي ها استخراج ميكنيم. فهرست بهدستآمده را بهصورت نزولي مرتب و از ابتداي فهرست، درصدهاي مختلفي از واژگان را انتخاب و بهازاي هر درصد، ده مرتبه فرايند آموزش شبكه عصبي و ساخت ماتريس همبستگي و استخراج فهرست نزديكترين همسايگي ها را تكرار و درنهايت ميانگين دقت، فراخواني و معيارF را محاسبه ميكنيم. اين كار را تا جايي ادامه مي دهيم كه به بهترين نتايج در ارزيابي دست يابيم؛ نتايج نشان مي دهند كه بهازاي انتخاب حداكثر چهل درصدِ واژگان از ابتداي فهرستِ نزديكترين همسايگي ها، نتايج مورد قبولي بهدست مي آيد. الگوريتم بر روي پيكرهاي با هشتصد خبر كه بهصورت دستي واژگان كليدي آنها را استخراج كردهايم، آزمايششده است و نتايج آزمايشها نشان ميدهد كه دقت روش پيشنهادي 78 درصد خواهد بود.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها