كليدواژه :
الگوريتم جنگل تصادفي , الگوريتم ژنتيك , حمله تزريق SQL , سيستم تشخيص نفوذ پايگاه داده
چكيده فارسي :
عليرغم تمام تلاش متخصصان امنيتي براي كشف حملات تزريق SQL، اما بر اساس گزارش OWASP، كماكان حمله تزريق SQL بهعنوان مهمترين و زيانبارترين حمله سايبري توسط مهاجمين مورد استفاده قرار ميگيرد. به منظور تشخيص حملات از دو روش مبتني بر امضاء و مبتني بر رفتار استفاده مي شود. روشهاي مبتني بر امضاء براي حملات شناخته شده كاربرد دارند و روشهاي مبتني بر رفتار براي تشخيص حملات ناشناخته مناسب هستند. از آنجايي كه حملات به روشهاي مختلفي پيادهسازي مي شوند سيستمهاي تشخيص نفوذ مبتني بر رفتار، كاربرد بيشتري دارند. رفتار را ميتوان با استفاده از روشهايي مانند طبقه بندي، خوشه بندي و غيره تحليل كرد. يكي از مهمترين الگوريتم هاي طبقه بندي، الگوريتم جنگل تصادفي است كه دقت بالايي دارد و از طرفي پياده سازي و تفسير نتايج با استفاده از اين الگوريتم به سادگي قابل انجام است. با توجه به بررسيهاي انجام شده دقت الگوريتم جنگل تصادفي بهشدت وابسته به پارامترهاي ورودي آن است. اين پارامترها شامل 9 مورد ازجمله تعداد درختها، عمق آنها، نحوه رأي گيري، بهره اطلاعاتي و غيره است. تعيين بهينه اين پارامترها يك مسئله بهينهسازي با فضاي حالت بزرگ است. در اين پژوهش روشي بر اساس الگوريتم ژنتيك براي تعيين مقادير بهينه اين پارامترها ارائه شده است. در اثر تعيين بهينه پارامترها، نتايج بهدستآمده در مقايسه با حالت پيشفرض الگوريتم و ساير تحقيقات، بهبود دقتِ تشخيص را نشان ميدهد. نتايج ارزيابي حاكي از آن است كه دقت تشخيص نفوذ در روش پيشنهادي، 98% بوده است كه در مقايسه با الگوريتم جنگل تصادفي با پارامترهاي پيشفرض حدوداً 11% و در مقايسه با پژوهشهاي قبلي 08% دقتِ تشخيص، افزايش يافته است.
چكيده لاتين :
Despite all the efforts of security experts to detect SQL injection attacks, according to OWASP report’s, SQL injection attack is still used as the most important cyber attack by attackers. In order to detect attacks, two methods are used: signature-based and behavior-based. Signature-based methods are used for known attacks, and behavior-based methods are suitable for detecting unknown attacks. Behavior-based intrusion detection systems are more useful because attacks are implemented in different ways. Behavior can be analyzed by methods such as classification, clustering, etc. One of the most important classification algorithms is the random forest algorithm which has high accuracy and on the other hand the implementation and interpretation of the results can be done easily using this algorithm. According to the studies, the accuracy of the random forest algorithm is highly dependent on its input parameters. These parameters include 9 items, including the number of trees, their depth, voting method, information gain, and so on. Optimal determination of these parameters is an optimization problem with large state space. In this research, a method based on genetic algorithm to determine the optimal values of these parameters is presented. Due to the optimal determination of the parameters, the obtained results show an improvement in the detection accuracy compared to the default state of the algorithm and other researches. The evaluation results indicate that the intrusion detection accuracy in the proposed method was %98, which is about %11 higher than the random forest algorithm with default parameters and %08 higher than previous studies.