شماره ركورد كنفرانس :
4870
عنوان مقاله :
استخراج خودكار كلمات كليدي از متون فارسي
عنوان به زبان ديگر :
NA
پديدآورندگان :
سلطان زاده فاطمه دانشگاه علامه طباطبايي -تهران , افتخاري سيد احمد مركز تحقيقات كامپيوتري علوم اسلامي نور , رضايي شريف آبادي مرتضي دانشگاه شيراز , خزاعلي عليرضا دانشگاه علوم پزشكي آزاد اسلامي -تهران
تعداد صفحه :
6
كليدواژه :
پردازش زبان طبيعي , استخراج خودكار كلمات كليدي , زبان فارسي , الگوريتم TF-IDF , نمايه موضوعي , پيكره زباني
سال انتشار :
1398
عنوان كنفرانس :
اولين همايش ملي هوش مصنوعي و محاسبات نرم در علوم انساني
زبان مدرك :
فارسي
چكيده فارسي :
استخراج كلمات كليدي، استخراج خودكار مجموعه اي از اصطلاحات است كه به بهترين شكل موضوع يك سند را توصيف مي‌كنند. هدف پژوهش حاضر استخراج خودكار كلمات كليدي از متون تخصصي به زبان فارسي است. سامانۀ طراحي شده در اين پژوهش از روش TF-IDF در كنار قواعد زبانشناختي خاص زبان فارسي بهره مي‌جويد. در اين سامانه ابتدا كلمات و عبارات كانديدا با توجه به محدوديتهاي صرفي و نحوي انتخاب شده و سپس با استفاده از روش TF-IDF امتيازدهي مي‌شوند و كلمات و عبارات با امتياز بالا به عنوان كلمات كليدي در نظر گرفته مي‌شوند. به منظور ارزيابي سامانۀ استخراج كلمات كليدي متون زبان فارسي پيكره‌اي تهيه شد كه شامل شانزده كتاب داراي نمايۀ موضوعي است. تمامي كتب مذكور در حوزۀ علوم انساني و علوم اسلامي همچون تاريخ، فلسفه، زبانشناسي، فقه و غيره مي‌باشند. پيكرۀ حاصل حجمي معادل با 1010633 توكن دارد. نتايج ارزيابي اين سامانه بر روي متون تخصصي حوزۀ علوم انساني و اسلامي حاكي از اين است كه ميانگين همساز دقت و بازخواني اين سامانه معادل با 8.98 است كه تقريباً برابر با نمونۀ مشابه آن در زبان انگليسي است.
چكيده لاتين :
NA
كشور :
ايران
لينک به اين مدرک :
بازگشت