شماره ركورد كنفرانس :
4658
عنوان مقاله :
ارائه يك روش نوين جهت پيشبيني مؤلفههاي آسيبپذير نرمافزار با استفاده از تشابه شماري ويژگيها توسط تطابق زير دنبالهي توكنها و آزمون فرض
عنوان به زبان ديگر :
propose a novel approach to Predicting Vulnerable Software Components by using feature similarities via sequence matching and hypothesis test
پديدآورندگان :
حسن پور سيدمهدي smahdi1991@gmail.com دانشگاه صنعتي مالك اشتر تهران; , عزمي رضا azmi.reza@gmail.com دانشگاه الزهرا (س); , ولوي محمدرضا valavi@mut.ac.ir دانشگاه صنعتي مالك اشتر;
كليدواژه :
انتخاب ويژگي , گسسته¬سازي , كاهش¬ بُعد , مدل¬هاي پيش¬بيني آسيب¬پذيري , آزمون فرض
عنوان كنفرانس :
دومين كنفرانس بين المللي پژوهش هاي دانش بنيان در كامپيوتر و فن آوري اطلاعات
چكيده فارسي :
مشخصه اصلي مدل هاي پيش بيني مبتني بر تحليل كد كه از روش هاي متنكاوي و يادگيري ماشين بهره مي برند، آن است كه ويژگي ها از پيش تعيينشده و ثابت نيستند و با توجه به مجموعه داده ها كه شامل كد برنامه هاي مشخصي هست تعيينشده و بنابراين هر برنامه مدل اختصاصي خود را دارد كه الزاماً براي كاربردهاي مشابه قابلاستفاده نيست. يكي از مشكلات فعلي عدم امكان شخصيسازي يا اعمال سياستهاي مختلف در زمان ايجاد مجموعه دادگان است. اين مسئله نيز مورد بحث و بررسي قرار گرفت و روشي جهت برطرف سازي اين مساله ارائه شد. در اين پژوهش رويكردي نوين و تركيبي مبتني بر يافتن ويژگي هاي مشابه با استفاده از تطابق دنباله ها در تكنيك بردار فركانس كلمات جهت توليد مجموعه دادگان ويژه و آزمون فرض آماري براي كاهش حجم ويژگي هاي با قطعيت آماري پايين براي افزايش دقت پيش بيني بكار گرفتهشده است. ارزيابي روش بر روي مجموعه اي از كد برنامه هاي معروف جاواي اندرويد كه شامل بيش از 100هزار خط كد برنامه كه در پژوهش هاي مشابه استفادهشده، انجام پذيرفته است. نتايج حاصل بهبود 20% ميانگين را در آزمايش هاي ميان پروژه اي در افزايش دقت پيش بيني مؤلفههاي آسيب پذير نشان مي دهد.
چكيده لاتين :
The main characteristic of code analysis based prediction models which use text mining and machine learning, is that the features , are not predefined and fixed, they are defined according to a dataset consisting specific source codes and therefore each application has its own specific model which is not necessarily applicable for similar applications. One of the current issues is the lack of customization or applying different policies in the time of creating a dataset. This problem is also investigated and a method for addressing this issue is proposed. In this paper, a novel hybrid approach based on finding similar features using sequence matching in the word2vect technique for creating a special dataset and analytical hypothesis test for reducing feature with low statistical certainty for improving prediction accuracy is used. The evaluation of the proposed approach is carried out using a collection of famous android java source codes some of which has more than 100K lines of code(LOC) which were also used in previous studies. Results show a 20% improvement in average in the cross-projects tests.