عنوان مقاله :
كاوش مجموعه اقلام تكراري جريان هاي داده در مدل پنجره ي لغزان حساس به زمان بر مبناي درخت پيشوندي و تخمين احتمالي
عنوان به زبان ديگر :
Frequent Pattern Mining over Data Streams within Time Sensitive Sliding Window Model Based Prefix-tree and Probabilistic Estimation
پديد آورندگان :
دي پير، محمود دانشگاه هوايي شهيد ستاري تهران - دانشكده رايانه و فناوري اطلاعات , دليلي اسكويي، حميدرضا دانشگاه هوايي شهيد ستاري - دانشكده تحصيلات تكميلي
كليدواژه :
جريان كاوي , كاوش مجموعه اقلام تكراري , تخمين احتمالي , پنجره ي لغزان حساس به زمان
چكيده فارسي :
براي كاوش مجموعه اقلام تكراري در جريانهاي داده مدلهاي مختلفي مطرح شدهاند. مدل پنجرهي لغزان حساس به زمان يكي از بهترين اين مدل هاست چون به كمك آن هم تغيير مفهوم و هم سرعت متغير جريان داده ورودي را ميتوان در نظر گرفت. تغيير محتواي پنجره با گذشت زمان، سبب پديدار شدن الگوهاي جديد و حذف برخي از الگوهاي قديمي ميشود. چگونگي محاسبه يا تخمين تكرار، مجموعه اقلام جديد يكي از عوامل تأثير گذار در كارايي الگوريتمهاي كاوش الگوهاي تكراري در جريانهاي داده است. در اين مقاله براي نخستين بار از تخمين احتمالي به منظور تخمين ميزان تكرار مجموعه اقلام جديد استفاده شده است. بر اساس اين تخمين، الگوريتمي سريع ارائه شده است كه قادر است در پنجرههاي حساس به زمان، با ميزان حافظه اي قابل قبول، مجموعه اقلام تكراري را كاوش كند. اين الگوريتم به منظور ذخيره سازي مجموعه اقلام تكراري پنجره ي فعال از ساختمان دادهي جديدي بر مبناي درخت پيشوندي استفاده ميكند. آزمايشهاي صورت گرفته بر روي جريان دادههاي واقعي و توليد شدهي مصنوعي، نشان دهنده برتري اين الگوريتم نسبت به روشهاي ارائه شده قبلي از نظر زمان اجرا و حافظه مصرفي است.
چكيده لاتين :
Mining frequent patterns over data streams is a challenging problem due to speed of input streams in real applications, processing and storage limitations. There are various models for mining frequent patterns over data streams. Time sensitive sliding window model is preferable due to modeling both concept change and varying speed of input data. Adding and removing transactions to/from sliding window leads to change in the set of frequent patterns. Approach to compute or approximate the frequency of new itemsets has a direct effect on the efficiency of the mining algorithm. In this study, for first time, a probabilistic estimation is used to approximate the support values for new frequent itemsets. Based on this approximation, a new algorithm is proposed which can mine the set of frequent pattern within a time sensitive sliding window. This algorithm benefits from a novel prefix tree based data structure to store the set of frequent patterns of the active window. Experimental evaluations performed on real life and synthetically generated datasets show the superiority of the proposed algorithm with respect to previously proposed approaches in terms of memory usage and runtime.
عنوان نشريه :
صنايع الكترونيك
عنوان نشريه :
صنايع الكترونيك