شماره ركورد :
1181280
عنوان مقاله :
استخراج خودكار كلمات كليدي متون كوتاه فارسي با استفاده از word2vec
پديد آورندگان :
حاجي پور ، اميد دانشگاه صنعتي اميركبير , سديدپور ، سعيده سادات دانشگاه صنعتي اميركبير
از صفحه :
105
تا صفحه :
114
كليدواژه :
استخراج , زبان فارسي , متن‌كاوي , شباهت كلمات ,
چكيده فارسي :
با رشد روز افزون اسناد و متون الكترونيكي به زبان فارسي، به كارگيري روش هايي سريع و ارزان براي دسترسي بـه متـون مورد نظر از ميان مجموعه وسيع اين مستندات، اهميت بيشتري مي يابد. براي رسيدن به اين هدف، استخراج كلمات كليدي كه بيانگر مضمون اصلي متن باشند، روشي بسيار مؤثر است. تعداد تكرار يك كلمه در متن نمي تواند نشان دهنده اهميت يك كلمه و كليدي بودن آن باشد. همچنين در اكثر روش هاي استخراج كلمات كليدي مفهوم و معناي متن ناديده گرفته مي شوند. از طرفي ديگر بدون ساختار بودن متون جديد در اخبار و اسناد الكترونيكي، استخراج اين كلمات را مشكل مي سازد. در اين مقاله روشي بدون نظارت و خودكار براي استخراج اين كلمات در زبان فارسي كه داراي ساختار مناسبي نمي باشد، پيشنهاد شده است كه نه تنها احتمال رخ دادن كلمه در متن و تعداد تكرار آن را در نظر مي گيرد، بلكه با آموزش مدل word2vec روي متن، مفهوم و معناي متن را نيز درك مي كند. در روش پيشنهادي كه روشي تركيبي از دو مدل آماري و يادگيري ماشين مي باشد، پس از آموزش word2vec روي متن، كلماتي كه با ساير كلمات داراي فاصله كمي بوده استخراج شده و سپس با استفاده از هم رخدادي و فركانس رابطه اي آماري براي محاسبه امتياز پيشنهاد شده است. درنهايت با استفاده از حدآستانه كلمات با امتياز بالاتر به‌عنوان كلمه كليدي در نظر گرفته مي شوند. ارزيابي ها بيانگر كارايي روش با معيار F برابر 53.92% و با 11% افزايش نسبت به ديگر روش‌هاي استخراج كلمات كليدي مي باشد.
عنوان نشريه :
پدافند الكترونيكي و سايبري
عنوان نشريه :
پدافند الكترونيكي و سايبري
لينک به اين مدرک :
بازگشت