شماره ركورد :
1302254
عنوان مقاله :
ﺗﻮﻟﯿﺪ ﮐﻠﻤﺎت ﮐﻠﯿﺪي ﻣﺘﻮن ﻓﺎرﺳﯽ ﺑﺎ اﺳﺘﻔﺎده از ﯾﺎدﮔﯿﺮي اﻧﺘﻘﺎﻟﯽ
عنوان به زبان ديگر :
Persian Keyphrase Generation Using Transfer Learning
پديد آورندگان :
رحيمي، مرضيه دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر، شاهرود، ايران , جليلي جلال، عرفان داﻧﺸﮕﺎه ﭘﻮرﺗﻮ - داﻧﺸﮑﺪه ﻣﻬﻨﺪﺳﯽ اﻧﻔﻮرﻣﺎﺗﯿﮏ، ﭘﻮرﺗﻮ، ﭘﺮﺗﻐﺎل , رحيمي، حسين دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر، شاهرود، ايران
تعداد صفحه :
9
از صفحه :
115
از صفحه (ادامه) :
0
تا صفحه :
123
تا صفحه(ادامه) :
0
كليدواژه :
روشﻫﺎي دﻧﺒﺎﻟﻪﺑﻪدﻧﺒﺎﻟﻪ , ﺗﻮﻟﯿﺪ ﻋﺒﺎرات ﮐﻠﯿﺪي , اﺳﺘﺨﺮاج ﻋﺒﺎرات ﮐﻠﯿﺪي , ﺷﺒﮑﻪﻫﺎي ﻋﻤﯿﻖ اﻧﺘﻘﺎﻟﯽ , ﺧﻼﺻﻪﺳﺎزي ﭼﮑﯿﺪه اي , ﭘﯿﮑﺮه ﻓﺎرﺳﯽ
چكيده فارسي :
توليد خودكار كلمات كليدي، نقش مهمي در بسياري از كاربردهاي تحليلي متن و زبان‌هاي طبيعي، به‌ويژه در دسته‌بندي و بازيابي سريع متون دارد. بسياري از روش‌هاي كنوني محدود به انتخاب كلماتي هستند كه صريحاً در متن ذكر شده‌اند. استفاده از روش‌هاي دنباله‌به‌دنباله قادر است اين نقصان را برطرف كند. البته استفاده از اين روش‌ها معمولاً مستلزم وجود پيكره‌هاي عظيم است كه براي زبان‌هاي كم‌منبع مثل فارسي يك چالش محسوب مي‌شود. در چنين موقعيت‌هايي، يادگيري انتقالي كه در آن يك مدل پيش‌آموخته بر روي يك وظيفه جديد با مجموعه كوچكتري از داده‌ها تطبيق داده مي‌شود، مي‌تواند راه‌گشا باشد. در اين مقاله، برآنيم تا با استفاده از يك روش دنباله‌به‌دنباله مبتني بر شبكه‌هاي عميق انتقالي، به توليد كلمات كليدي براي متون علمي فارسي بپردازيم. در همين راستا، پيكره‌ متنوعي از 70هزار مقاله تخصصي به زبان فارسي و كلمات كليدي متناظرشان جمع‌آوري شده است. سپس شبكه انتقالي پيش‌آموخته MT5 با استفاده از اين پيكره، براي وظيفه توليد كلمات كليدي، تنظيم و بازآموزي شده است. مدل حاصل، با چندين روش ديگر مقايسه شده است. نتايج اين مقايسه حاكي از برتري حداقل 2.71 درصدي آن بر روش‌هاي موجود است.
چكيده لاتين :
Automatic keyphrase generation plays an important role in many text analysis and natural language processing tasks. Many existing methods are bound to select keyphrases from the terms and phrases that are present in the target text. This handicap could be overcome using sequence-to-sequence methods. However, many such methods need huge datasets for training which pose a challenge for low-resource languages such as Persian. Transfer learning where a pre-trained model is adapted to a new task specified with a smaller dataset is very useful in such circumstances. In this paper, we present a sequence-to-sequence method utilizing a transformer model for Persian keyphrase generation. Accordingly, a corpus of 70K Persian scientific abstracts and their corresponding keyphrases have been gathered. A pretrianed MT5 mdel is fine-tuned on this corpus for the task of Persian keyword generation. The resulted model is compared to several other keyphrase generation methods. The results indicate that the proposed method can outperform existing methods at least by 2.71 percent
سال انتشار :
1401
عنوان نشريه :
مهندسي برق دانشگاه تبريز
فايل PDF :
8730452
لينک به اين مدرک :
بازگشت