شماره ركورد كنفرانس :
5412
عنوان مقاله :
افزايش دادههاي كد براي بهبود عملكرد مدل زبان در ترميم پيوندهاي ردپذيري نيازمندي به كد
عنوان به زبان ديگر :
Code Data Augmentation to improve Language Model’s Performance in Requirement to Code Traceability Link Recovery
پديدآورندگان :
مجيدزاده علي masiha.majidzadeh@gmail.com كارشناسي ارشد، دانشكده كامپيوتر، دانشگاه علم و صنعت ايران، تهران، ايران , آشتياني مهرداد m_ashtiani@iust.ac.ir استاديار، دانشكده كاميپوتر، دانشگاه علم و صنعت ايران، تهران، ايران , ذاكري نصرآبادي مرتضي morteza_zakeri@comp.iust.ac.ir كانديد دكتري، دانشكده كامپيوتر، دانشگاه علم و صنعت ايران، تهران، ايران
كليدواژه :
ردپذيري نرمافزار , ردپذيري نيازمندي , افزايش داده , مدل زبان
عنوان كنفرانس :
نهمين كنفرانس بين المللي وب پژوهي
چكيده فارسي :
افزايش داده روشي براي رفع نياز داده و استفاده بيشتر از دادههاي موجود براي آموزش شبكههاي عصبي عميق است. نگهداري پيوندهاي ردپذيري نيازمندي به مديريت توسعه نرمافزار كمك كرده و باعث بهبود كيفيت نرمافزار ميشود. براي كمك به نگهداري اين پيوندها، ميتوان از روشهاي ترميم خودكار پيوندها استفاده نمود. يكي از روشهاي اخير ترميم خودكار، استفاده از مدل زبان است. در اين كار سه روش افزايش دادههاي كد براي بهبود مدل زبان در كاربرد ترميم پيوندهاي ردپذيري نيازمندي ارائه شدهاند. اين سه روش، تغيير نام متغير، جابهجايي عملوندها و جابهجايي جملات هستند. اين روشها كلي بوده كه براي بسياري از زبانهاي برنامهنويسي قابل پيادهسازي هستند و همچنين قابليت توليد حالات مختلف به صورت تصادفي دارند كه ميتواند قابليت تعميم مدل را بهبود بخشد. نتايج ارزيابي مدل روي دادههاي مستندات به تابع كه مشابه دادههاي نيازمندي به تابع هستند نشاندهنده بهبود عملكرد مدل زبان با استفاده از افزايش دادههاي كد است. در اين ارزيابي، با استفاده از افزايش دادههاي كد، دقت مدل از ۰.۶۶۹ به ۰.۷۲۲ و يادآوري آن از ۰.۵۷۴ به ۰.۶۰۱ رسيده است و طبق آزمايش ويلكوكسون، بهبود قابل توجهي داشته است.
چكيده لاتين :
Data augmentation is a method to efficiently use the existing data to train deep neural networks. Maintaining requirement traceability links helps to improve software quality and prevent defects by aiding software development management. To ease this maintenance, automatic link recovery techniques can be used. One of the recent techniques to do this is to use a language model. We propose three code data augmentation techniques to improve language models’ performance in requirement to code traceability link recovery. These three techniques are rename variable, swap operands, and swap statements. These are general techniques that can be implemented for different programming languages, and have the capacity to generate a variety of outputs randomly, which can improve the generalization of the model. The results of the evaluations show that code data augmentation improves the language model s performance in recovering doc-method links that are similar to requirement-method links. Using code data augmentation, the precision is increased from 0.669 to 0.722, the recall is increased from 0.574 to 0.601, and the Wilcoxon test shows that the improvements are significant.