شماره ركورد كنفرانس :
4474
عنوان مقاله :
استخراج متن از منابع اخبار آنلاين
پديدآورندگان :
سرحدي نژاد زهرا
كليدواژه :
تشخيص كلمات , تطابق الگو , ارزش گذاري , دسته بندي متن , زبان فارسي
عنوان كنفرانس :
همايش بين المللي افق هاي نوين در علوم پايه و فني و مهندسي
چكيده فارسي :
با توجه به گسترش متون و مستندات خبري ، استفاده از روشي كارآمد جهت تطبيق و تشخيص كلمات در متن مورد اهميت قرار گرفته است. براي تشخيص، پي بردن متن در دسته هاي مورد نظر و يافتن كلمات كليدي بهترين روش است. كلمات كليدي مجموعه اي از لغات مهم در يك سند هستندكه توصيفي از محتواي سند را فراهم مي آورند. با پيدا كردن كلمات كليدي در سند مي توان راحت تر و در زمان كمتري به مفهوم متن يا مشخص كردن متن در دسته پي مي بريم . در مجموع كلمات كليدي ابزار مفيدي براي جست و جوي حجم زيادي از مستندات در زمان كوتاه هستند. در اين پژوهش يك روش با رويكرد تطابق الگو جهت دسته بندي متن ارايه مي شود. يكي از اولين گام ها تطابق الگو ارزش گذاري براي كلمات به عنوان كلمات كليدي و مهم متن مي باشد و هر چه ارزش گذاري بهتر صورت گرفته باشد دسته بندي متون بهتر انجام مي شود. روش پيشنهادي دقت تشخيص 72.16 درصدي دارد .
كلمات كليدي :
تشخیص كلمات، تطابق الگو، ارزش گذاری، دسته بندی متن، زبان فارسی