شماره ركورد كنفرانس :
5530
عنوان مقاله :
بررسي كارايي مدلهاي زباني عميق مبتني بر ترنسفورمر
عنوان به زبان ديگر :
Evaluating the performance of transformer-based deep language models
پديدآورندگان :
مجيدي مريم maryam.majidi@stu.yazd.ac.ir دانشگاه يزد , قاسم زاده محمد m.ghasemzadeh@yazd.ac.ir دانشگاه يزد
كليدواژه :
پردازش زبان طبيعي , ترنسفورمرها , مدل هاي زباني , يادگيري عميق
عنوان كنفرانس :
بيستمين سمپوزيوم بينالمللي هوش مصنوعي و پردازش سيگنال
چكيده فارسي :
مدلهاي زباني عميق مبتني بر مبدلها (ترنسفورمرها) در سالهاي اخير بهعنوان يكي از پيشرفتهاي بزرگ در حوزه يادگيري عميق و پردازش زبان طبيعي مطرح شدهاند. اين مدلها بر پايهي معماري مبدل كه اولينبار در زمينه ترجمه ماشيني معرفي شد، ساخته شدهاند. اين پژوهش مدلهاي زباني عميق مبتني بر مبدلها را از دو ديدگاه مدل هاي درك زبان طبيعي(NLU) و توليد زبان طبيعي (NLG) بررسي كرده است. همچنين مهمترين مدل هاي زباني اين دو ديدگاه را كه در شش سال اخير مطرح شده اند، معرفي كرده و به تشريح معماري مبدل و اجزاي آن پرداخته است. از جمله مدل هاي مورد بررسي ميتوان به XLNeT ، BERT، Megatron و خانواده GPT اشاره كرد. اين پژوهش به مزايا و محدوديتهاي هر يك از مدلهاي ذكر شده و روشهاي آموزش و انتقال يادگيري در اين مدلها مي-پردازد. نتايج آزمايش ها و تحليل هاي رسمي نشان ميدهند كه بهكارگيري مبدلها در معماري مدل هاي زباني بسيار بهتر از مدلهاي مبتني بر شبكه هاي عصبي بازگشتي (RNN) و حافظهي طولاني كوتاه مدت (LSTM) عمل مي كنند و مدلهاي زباني مبتني بر مبدل توانايي بالقوهاي براي درك و توليد زبان طبيعي دارند.