شماره ركورد كنفرانس :
5530
عنوان مقاله :
بررسي كارايي مدل‌هاي زباني عميق مبتني بر ترنسفورمر
عنوان به زبان ديگر :
Evaluating the performance of transformer-based deep language models
پديدآورندگان :
مجيدي مريم maryam.majidi@stu.yazd.ac.ir دانشگاه يزد , قاسم زاده محمد m.ghasemzadeh@yazd.ac.ir دانشگاه يزد
تعداد صفحه :
6
كليدواژه :
پردازش زبان طبيعي , ترنسفورمرها , مدل هاي زباني , يادگيري عميق
سال انتشار :
1402
عنوان كنفرانس :
بيستمين سمپوزيوم بين‌المللي هوش مصنوعي و پردازش سيگنال
زبان مدرك :
فارسي
چكيده فارسي :
مدل‌هاي زباني عميق مبتني بر مبدل‌ها (ترنسفورمرها) در سال‌هاي اخير به‌عنوان يكي از پيشرفت‌هاي بزرگ در حوزه يادگيري عميق و پردازش زبان طبيعي مطرح شده‌اند. اين مدل‌ها بر پايه‌ي معماري مبدل كه اولين‌بار در زمينه ترجمه ماشيني معرفي شد، ساخته شده‌اند. اين پژوهش مدل‌هاي زباني عميق مبتني بر مبدل‌ها را از دو ديدگاه مدل هاي درك زبان طبيعي(NLU) و توليد زبان طبيعي (NLG) بررسي كرده است. همچنين مهم‌ترين مدل هاي زباني اين دو ديدگاه را كه در شش سال اخير مطرح شده اند، معرفي كرده و به تشريح معماري مبدل و اجزاي آن پرداخته است. از جمله مدل هاي مورد بررسي مي‌توان به XLNeT ، BERT، Megatron و خانواده GPT اشاره كرد. اين پژوهش به مزايا و محدوديت‌هاي هر يك از مدل‌هاي ذكر شده و روش‌هاي آموزش و انتقال يادگيري در اين مدل‌ها مي-پردازد. نتايج آزمايش ها و تحليل هاي رسمي نشان مي‌دهند كه به‌كارگيري مبدل‌ها در معماري مدل هاي زباني بسيار بهتر از مدل‌هاي مبتني بر شبكه هاي عصبي بازگشتي (RNN) و حافظه‌‌ي طولاني كوتاه مدت (LSTM) عمل مي كنند و مدل‌هاي زباني مبتني بر مبدل توانايي بالقوه‌اي براي درك و توليد زبان طبيعي دارند.
كشور :
ايران
لينک به اين مدرک :
بازگشت