عنوان مقاله :
استخراج خودكار كلمات كليدي متون كوتاه فارسي با استفاده از word2vec
پديد آورندگان :
حاجي پور ، اميد دانشگاه صنعتي اميركبير , سديدپور ، سعيده سادات دانشگاه صنعتي اميركبير
كليدواژه :
استخراج , زبان فارسي , متنكاوي , شباهت كلمات ,
چكيده فارسي :
با رشد روز افزون اسناد و متون الكترونيكي به زبان فارسي، به كارگيري روش هايي سريع و ارزان براي دسترسي بـه متـون مورد نظر از ميان مجموعه وسيع اين مستندات، اهميت بيشتري مي يابد. براي رسيدن به اين هدف، استخراج كلمات كليدي كه بيانگر مضمون اصلي متن باشند، روشي بسيار مؤثر است. تعداد تكرار يك كلمه در متن نمي تواند نشان دهنده اهميت يك كلمه و كليدي بودن آن باشد. همچنين در اكثر روش هاي استخراج كلمات كليدي مفهوم و معناي متن ناديده گرفته مي شوند. از طرفي ديگر بدون ساختار بودن متون جديد در اخبار و اسناد الكترونيكي، استخراج اين كلمات را مشكل مي سازد. در اين مقاله روشي بدون نظارت و خودكار براي استخراج اين كلمات در زبان فارسي كه داراي ساختار مناسبي نمي باشد، پيشنهاد شده است كه نه تنها احتمال رخ دادن كلمه در متن و تعداد تكرار آن را در نظر مي گيرد، بلكه با آموزش مدل word2vec روي متن، مفهوم و معناي متن را نيز درك مي كند. در روش پيشنهادي كه روشي تركيبي از دو مدل آماري و يادگيري ماشين مي باشد، پس از آموزش word2vec روي متن، كلماتي كه با ساير كلمات داراي فاصله كمي بوده استخراج شده و سپس با استفاده از هم رخدادي و فركانس رابطه اي آماري براي محاسبه امتياز پيشنهاد شده است. درنهايت با استفاده از حدآستانه كلمات با امتياز بالاتر بهعنوان كلمه كليدي در نظر گرفته مي شوند. ارزيابي ها بيانگر كارايي روش با معيار F برابر 53.92% و با 11% افزايش نسبت به ديگر روشهاي استخراج كلمات كليدي مي باشد.
عنوان نشريه :
پدافند الكترونيكي و سايبري
عنوان نشريه :
پدافند الكترونيكي و سايبري