ارائه يك روش نوين جهت پيش‌بيني مؤلفه‌هاي آسيب‌پذير نرم‌افزار با استفاده از تشابه شماري ويژگيها توسط تطابق زير دنباله‌ي توكنها و آزمون فرض

عنوان به زبان ديگر

propose a novel approach to Predicting Vulnerable Software Components by using feature similarities via sequence matching and hypothesis test

پديدآورندگان

حسن پور سيدمهدي smahdi1991@gmail.com دانشگاه صنعتي مالك اشتر تهران; , عزمي رضا azmi.reza@gmail.com دانشگاه الزهرا (س); , ولوي محمدرضا valavi@mut.ac.ir دانشگاه صنعتي مالك اشتر;

تعداد صفحه

كليدواژه

انتخاب ويژگي , گسسته¬سازي , كاهش¬ بُعد , مدل¬هاي پيش¬بيني آسيب¬پذيري , آزمون فرض

سال انتشار

1396

عنوان كنفرانس

دومين كنفرانس بين المللي پژوهش هاي دانش بنيان در كامپيوتر و فن آوري اطلاعات

زبان مدرك

فارسي

چكيده فارسي

مشخصه اصلي مدل هاي پيش بيني مبتني بر تحليل كد كه از روش هاي متن‌كاوي و يادگيري ماشين بهره مي برند، آن است كه ويژگي ها از پيش تعيين‌شده و ثابت نيستند و با توجه به مجموعه داده ها كه شامل كد برنامه هاي مشخصي هست تعيين‌شده و بنابراين هر برنامه مدل اختصاصي خود را دارد كه الزاماً براي كاربردهاي مشابه قابل‌استفاده نيست. يكي از مشكلات فعلي عدم امكان شخصي‌سازي يا اعمال سياست‌هاي مختلف در زمان ايجاد مجموعه دادگان است. اين مسئله نيز مورد بحث و بررسي قرار گرفت و روشي جهت برطرف سازي اين مساله ارائه شد. در اين پژوهش رويكردي نوين و تركيبي مبتني بر يافتن ويژگي هاي مشابه با استفاده از تطابق دنباله ها در تكنيك بردار فركانس كلمات جهت توليد مجموعه دادگان ويژه و آزمون فرض آماري براي كاهش حجم ويژگي هاي با قطعيت آماري پايين براي افزايش دقت پيش بيني بكار گرفته‌شده است. ارزيابي روش بر روي مجموعه اي از كد برنامه هاي معروف جاواي اندرويد كه شامل بيش از 100هزار خط كد برنامه كه در پژوهش هاي مشابه استفاده‌شده، انجام پذيرفته است. نتايج حاصل بهبود 20% ميانگين را در آزمايش هاي ميان پروژه اي در افزايش دقت پيش بيني مؤلفه‌هاي آسيب پذير نشان مي دهد.

چكيده لاتين

The main characteristic of code analysis based prediction models which use text mining and machine learning, is that the features , are not predefined and fixed, they are defined according to a dataset consisting specific source codes and therefore each application has its own specific model which is not necessarily applicable for similar applications. One of the current issues is the lack of customization or applying different policies in the time of creating a dataset. This problem is also investigated and a method for addressing this issue is proposed. In this paper, a novel hybrid approach based on finding similar features using sequence matching in the word2vect technique for creating a special dataset and analytical hypothesis test for reducing feature with low statistical certainty for improving prediction accuracy is used. The evaluation of the proposed approach is carried out using a collection of famous android java source codes some of which has more than 100K lines of code(LOC) which were also used in previous studies. Results show a 20% improvement in average in the cross-projects tests.

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=283232