شماره ركورد :
1209696
عنوان مقاله :
بهبود دقت واژگان كليدي استخراج‌شده از متن فارسي با استفاده از الگوريتم Word2Vec
پديد آورندگان :
حسني آهنگر ، محمدرضا دانشگاه جامع امام حسين (ع) - مركز داده هاي حجيم و جنگ شناختي سايبري، دانشكده رايانه و قدرت سايبري - آزمايشگاه داده هاي حجيم , اميري جزه ، علي دانشگاه جامع امام حسين (ع) - مركز داده هاي حجيم و جنگ شناختي سايبري، دانشكده رايانه و قدرت سايبري - آزمايشگاه داده هاي حجيم
از صفحه :
60
تا صفحه :
51
كليدواژه :
, الگوريتم word2Vec , شبكه عصبي , وزن دهي ويژگي
چكيده فارسي :
واژگان كليدي لغات مهمي از سند هستند كه بيان‌گر توصيفي از متن هستند و نقش بسيار مهمي در فهم دقيق و سريع از محتوا دارند. شناسايي واژگان كليدي از متن با روش‌هاي معمول كاري زمان‌بر و پرهزينه است. در اين مقاله ابتدا با استفاده از شبكه عصبي پيشرو و از طريق الگوريتم Word2Vec ماتريس همبستگي واژگان را به‌ازاي يك سند محاسبه و سپس با استفاده از ماتريس همبستگي و يك فهرست اوليه محدود از واژگان كليدي، نزديك‌ترين واژگان را از نظر شباهت در قالب فهرست نزديك‌ترين همسايگي‌ ها استخراج مي‌كنيم. فهرست به‌دست‌آمده را به‌صورت نزولي مرتب و از ابتداي فهرست، درصدهاي مختلفي از واژگان را انتخاب و به‌ازاي هر درصد، ده مرتبه فرايند آموزش شبكه عصبي و ساخت ماتريس همبستگي و استخراج فهرست نزديك‌ترين همسايگي‌ ها را تكرار و در‌نهايت ميانگين دقت، فراخواني و معيارF را محاسبه مي‌كنيم. اين كار را تا جايي ادامه مي‌ دهيم كه به بهترين نتايج در ارزيابي دست يابيم؛ نتايج نشان مي ‌دهند كه به‌ازاي انتخاب حداكثر چهل درصدِ واژگان از ابتداي فهرستِ نزديك‌ترين همسايگي ‌ها، نتايج مورد قبولي به‌دست مي‌ آيد. الگوريتم بر روي پيكره‌اي با هشتصد خبر كه به‌صورت دستي واژگان كليدي آن‌ها را استخراج كرده‌ايم، آزمايش‌شده است و نتايج آزمايش‌ها نشان مي‌دهد كه دقت روش پيشنهادي 78 درصد خواهد بود.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
لينک به اين مدرک :
بازگشت