عنوان مقاله :
ﺗﻮﻟﯿﺪ ﮐﻠﻤﺎت ﮐﻠﯿﺪي ﻣﺘﻮن ﻓﺎرﺳﯽ ﺑﺎ اﺳﺘﻔﺎده از ﯾﺎدﮔﯿﺮي اﻧﺘﻘﺎﻟﯽ
عنوان به زبان ديگر :
Persian Keyphrase Generation Using Transfer Learning
پديد آورندگان :
رحيمي، مرضيه دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر، شاهرود، ايران , جليلي جلال، عرفان داﻧﺸﮕﺎه ﭘﻮرﺗﻮ - داﻧﺸﮑﺪه ﻣﻬﻨﺪﺳﯽ اﻧﻔﻮرﻣﺎﺗﯿﮏ، ﭘﻮرﺗﻮ، ﭘﺮﺗﻐﺎل , رحيمي، حسين دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر، شاهرود، ايران
كليدواژه :
روشﻫﺎي دﻧﺒﺎﻟﻪﺑﻪدﻧﺒﺎﻟﻪ , ﺗﻮﻟﯿﺪ ﻋﺒﺎرات ﮐﻠﯿﺪي , اﺳﺘﺨﺮاج ﻋﺒﺎرات ﮐﻠﯿﺪي , ﺷﺒﮑﻪﻫﺎي ﻋﻤﯿﻖ اﻧﺘﻘﺎﻟﯽ , ﺧﻼﺻﻪﺳﺎزي ﭼﮑﯿﺪه اي , ﭘﯿﮑﺮه ﻓﺎرﺳﯽ
چكيده فارسي :
توليد خودكار كلمات كليدي، نقش مهمي در بسياري از كاربردهاي تحليلي متن و زبانهاي طبيعي، بهويژه در دستهبندي و بازيابي سريع متون دارد. بسياري از روشهاي كنوني محدود به انتخاب كلماتي هستند كه صريحاً در متن ذكر شدهاند. استفاده از روشهاي دنبالهبهدنباله قادر است اين نقصان را برطرف كند. البته استفاده از اين روشها معمولاً مستلزم وجود پيكرههاي عظيم است كه براي زبانهاي كممنبع مثل فارسي يك چالش محسوب ميشود. در چنين موقعيتهايي، يادگيري انتقالي كه در آن يك مدل پيشآموخته بر روي يك وظيفه جديد با مجموعه كوچكتري از دادهها تطبيق داده ميشود، ميتواند راهگشا باشد. در اين مقاله، برآنيم تا با استفاده از يك روش دنبالهبهدنباله مبتني بر شبكههاي عميق انتقالي، به توليد كلمات كليدي براي متون علمي فارسي بپردازيم. در همين راستا، پيكره متنوعي از 70هزار مقاله تخصصي به زبان فارسي و كلمات كليدي متناظرشان جمعآوري شده است. سپس شبكه انتقالي پيشآموخته MT5 با استفاده از اين پيكره، براي وظيفه توليد كلمات كليدي، تنظيم و بازآموزي شده است. مدل حاصل، با چندين روش ديگر مقايسه شده است. نتايج اين مقايسه حاكي از برتري حداقل 2.71 درصدي آن بر روشهاي موجود است.
چكيده لاتين :
Automatic keyphrase generation plays an important role in many text analysis and natural language processing tasks. Many existing methods are bound to select keyphrases from the terms and phrases that are present in the target text. This handicap could be overcome using sequence-to-sequence methods. However, many such methods need huge datasets for training which pose a challenge for low-resource languages such as Persian. Transfer learning where a pre-trained model is adapted to a new task specified with a smaller dataset is very useful in such circumstances. In this paper, we present a sequence-to-sequence method utilizing a transformer model for Persian keyphrase generation. Accordingly, a corpus of 70K Persian scientific abstracts and their corresponding keyphrases have been gathered. A pretrianed MT5 mdel is fine-tuned on this corpus for the task of Persian keyword generation. The resulted model is compared to several other keyphrase generation methods. The results indicate that the proposed method can outperform existing methods at least by 2.71 percent
عنوان نشريه :
مهندسي برق دانشگاه تبريز