شماره ركورد كنفرانس :
4870
عنوان مقاله :
استخراج خودكار كلمات كليدي از متون فارسي
پديدآورندگان :
سلطان زاده فاطمه دانشگاه علامه طباطبايي -تهران , افتخاري سيد احمد مركز تحقيقات كامپيوتري علوم اسلامي نور , رضايي شريف آبادي مرتضي دانشگاه شيراز , خزاعلي عليرضا دانشگاه علوم پزشكي آزاد اسلامي -تهران
كليدواژه :
پردازش زبان طبيعي , استخراج خودكار كلمات كليدي , زبان فارسي , الگوريتم TF-IDF , نمايه موضوعي , پيكره زباني
عنوان كنفرانس :
اولين همايش ملي هوش مصنوعي و محاسبات نرم در علوم انساني
چكيده فارسي :
استخراج كلمات كليدي، استخراج خودكار مجموعه اي از اصطلاحات است كه به بهترين شكل موضوع يك سند را توصيف ميكنند. هدف پژوهش حاضر استخراج خودكار كلمات كليدي از متون تخصصي به زبان فارسي است. سامانۀ طراحي شده در اين پژوهش از روش TF-IDF در كنار قواعد زبانشناختي خاص زبان فارسي بهره ميجويد. در اين سامانه ابتدا كلمات و عبارات كانديدا با توجه به محدوديتهاي صرفي و نحوي انتخاب شده و سپس با استفاده از روش TF-IDF امتيازدهي ميشوند و كلمات و عبارات با امتياز بالا به عنوان كلمات كليدي در نظر گرفته ميشوند. به منظور ارزيابي سامانۀ استخراج كلمات كليدي متون زبان فارسي پيكرهاي تهيه شد كه شامل شانزده كتاب داراي نمايۀ موضوعي است. تمامي كتب مذكور در حوزۀ علوم انساني و علوم اسلامي همچون تاريخ، فلسفه، زبانشناسي، فقه و غيره ميباشند. پيكرۀ حاصل حجمي معادل با 1010633 توكن دارد. نتايج ارزيابي اين سامانه بر روي متون تخصصي حوزۀ علوم انساني و اسلامي حاكي از اين است كه ميانگين همساز دقت و بازخواني اين سامانه معادل با 8.98 است كه تقريباً برابر با نمونۀ مشابه آن در زبان انگليسي است.