استخراج كلمات و عبارات كليدي از متون فارسي (مروري بر پژوهش‌هاي صورت گرفته )

عنوان به زبان ديگر

Keyword and Phrase Extraction from Persian Texts: A Review of the literature

پديد آورندگان

كلانتري، عاطفه دانشگاه شيراز، شيراز، ايران , جوكار، عبدالرسول دانشگاه شيراز - دانشكده روان شناسي و علوم تربيتي - بخش علم اطلاعات و دانش شناسي، شيراز، ايران , فخراحمد، مصطفي دانشگاه شيراز - بخش مهندسي و علوم كامپيوتر و فناوري، شيراز، ايران , عبا سپور، جواد دانشگاه شيراز - دانشكده روان شناسي و علوم تربيتي - بخش علم اطلاعات و دانش شناسي، شيراز، ايران , ستوده، هاجر دانشگاه شيراز - دانشكده روان شناسي و علوم تربيتي - بخش علم اطلاعات و دانش شناسي، شيراز، ايران , مرتضوي نصرآباد، مسعود دانشگاه فردوسي مشهد، مشهد، ايران , جوادي، امير دانشگاه علوم پزشكي قزوين - دانشكده پزشكي - گروه پزشكي اجتماعي، قزوين، ايران , پوربهمن، زهرا دانشگاه صنعتي اميركبير - دانشكده مهندسي كامپيوتر، تهران، ايرا ن

تعداد صفحه

از صفحه

563

از صفحه (ادامه)

تا صفحه

592

تا صفحه(ادامه)

كليدواژه

استخراج كلمات كليدي , استخراج عبارات كليدي , پردازش زبان طبيعي , زبان فارسي , بررسي مروري

چكيده فارسي

استخراج كلمات/ عبارات كليدي متن، پيشنياز بسياري ديگر از وظايف حوزه پردازش زبان طبيعي است. اما بررسي متون فارسي و انگليسي اين حوزه نشان مي دهد، تلاش هاي انگشت شماري براي استخراج كلمات/ عبارات كليدي از متون فارسي صورت گرفته است. لذا، اين مقاله، با هدف تعيين موقعيت كنوني پردازش زبان طبيعي فارسي و به طور خاص استخراج كلمات/ عبارات كليدي از متون فارسي، به مرور خلاصه اي از مقالات فارسي و انگليسي منتشرشده در اين حوزه كه از متون فارسي براي آزمودن ايده هايشان استفاده كرده اند، مي پردازد؛ سپس هر مقاله را از نظر روش شناسي، نحوه اجرا و پياده سازي، روش ارزيابي و معيارهاي آن مورد تعمق قرار داده و به چالش مي كشد. در مجموع 14 مقاله فارسي و 6 مقاله انگليسي به استخراج كلمات و عبارات كليدي از متون فارسي پرداخته اند. روش بيشتر اين مقالات، استفاده از اطلاعات آماري و زبانشناختي بوده است. اكثر اين مقالات يا در روش شناسي انتخاب شده ايراد دارند و يا نويسندگان نتوانسته اند ايده پيشنهاديشان را به وضوح براي خواننده تبيين نمايند. در بسياري از مقالات، از مجموعه داده استانداردي براي ارزيابي سيستم استفاده نشده و نحوه محاسبه معيارهاي ارزيابي مبهم يا داراي اشكال است. در مجموع، به جز 3 مقاله كه روش اجرا شده را به نحو نسبتاً قابل قبولي گزارش كرده اند، ساير مقالات قابليت تكرارپذيري و تعميم ندارند. لذا نمي توان از آنها به عنوان معيار پايه اي براي ارزيابي سيستمهاي آينده استفاده كرد يا از ايده مطرح شده در آنها با اطمينان در ساخت و توسعه نرم افزارهاي كاربردي و عملي در حوزه استخراج كلمات كليدي استفاده نمود.

چكيده لاتين

Keyword and phrase extraction is a prerequisite of many natural language processing tasks. However, a review on the related Persian and English literature showed that a few studies have already been done on how to extract keywords and phrases from Persian texts. Thus, aiming to shed light on the research status of Keyword and phrase extraction from Persian texts, the present study reviews the Persian and English publications which have assessed their research ideas over Persian texts. We also focus on each of the studies to challenge their methodologies, implementations and evaluation methods and measures. To our knowledge, a total number of 14 Persian and 6 English papers exist which have worked on the extraction of Persian keywords and phrases. Investigating on the papers revealed that they were mostly based on statistical and linguistic information. A majority of the papers suffered from the lack of either appropriate methodologies or lucid explanation of their research ideas. They generally used non-standard datasets and vague or problematic metrics to evaluate the experimental systems. Generally speaking, except 3 papers that appropriately reported their proposed methods, the other papers lacked reproducibility and generalizability. Hence, their results cannot be confidently used as a benchmark in evaluating future works, and their proposed ideas cannot be employed in developing applications for extraction of key words and phrases from Persian texts.

سال انتشار

1399

عنوان نشريه

پژوهش نامه پردازش و مديريت اطلاعات

فايل PDF

8262272

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1193696