كاوش مجموعه اقلام تكراري جريان هاي داده در مدل پنجره ي لغزان حساس به زمان بر مبناي درخت پيشوندي و تخمين احتمالي

عنوان به زبان ديگر

Frequent Pattern Mining over Data Streams within Time Sensitive Sliding Window Model Based Prefix-tree and Probabilistic Estimation

پديد آورندگان

دي پير، محمود دانشگاه هوايي شهيد ستاري تهران - دانشكده رايانه و فناوري اطلاعات , دليلي اسكويي، حميدرضا دانشگاه هوايي شهيد ستاري - دانشكده تحصيلات تكميلي

تعداد صفحه

از صفحه

تا صفحه

كليدواژه

جريان كاوي , كاوش مجموعه اقلام تكراري , تخمين احتمالي , پنجره ي لغزان حساس به زمان

چكيده فارسي

براي كاوش مجموعه اقلام تكراري در جريان‌هاي داده مدل‌هاي مختلفي مطرح شده‌اند. مدل پنجره‌ي لغزان حساس به زمان يكي از بهترين اين مدل هاست چون به كمك آن هم تغيير مفهوم و هم سرعت متغير جريان داده ورودي را مي‌توان در نظر گرفت. تغيير محتواي پنجره با گذشت زمان، سبب پديدار شدن الگوهاي جديد و حذف برخي از الگوهاي قديمي ميشود. چگونگي محاسبه يا تخمين تكرار، مجموعه اقلام جديد يكي از عوامل تأثير گذار در كارايي الگوريتم‌هاي كاوش الگوهاي تكراري در جريان‌هاي داده است. در اين مقاله براي نخستين بار از تخمين احتمالي به منظور تخمين ميزان تكرار مجموعه اقلام جديد استفاده شده است. بر اساس اين تخمين، الگوريتمي سريع ارائه شده است كه قادر است در پنجره‌هاي حساس به زمان، با ميزان حافظه اي قابل قبول، مجموعه اقلام تكراري را كاوش كند. اين الگوريتم به منظور ذخيره سازي مجموعه اقلام تكراري پنجره ي فعال از ساختمان داده‌ي جديدي بر مبناي درخت پيشوندي استفاده مي‌كند. آزمايش‌هاي صورت گرفته بر روي جريان داده‌هاي واقعي و توليد شده‌ي مصنوعي، نشان دهنده برتري اين الگوريتم نسبت به روش‌هاي ارائه شده قبلي از نظر زمان اجرا و حافظه مصرفي است.

چكيده لاتين

Mining frequent patterns over data streams is a challenging problem due to speed of input streams in real applications, processing and storage limitations. There are various models for mining frequent patterns over data streams. Time sensitive sliding window model is preferable due to modeling both concept change and varying speed of input data. Adding and removing transactions to/from sliding window leads to change in the set of frequent patterns. Approach to compute or approximate the frequency of new itemsets has a direct effect on the efficiency of the mining algorithm. In this study, for first time, a probabilistic estimation is used to approximate the support values for new frequent itemsets. Based on this approximation, a new algorithm is proposed which can mine the set of frequent pattern within a time sensitive sliding window. This algorithm benefits from a novel prefix tree based data structure to store the set of frequent patterns of the active window. Experimental evaluations performed on real life and synthetically generated datasets show the superiority of the proposed algorithm with respect to previously proposed approaches in terms of memory usage and runtime.

سال انتشار

1395

عنوان نشريه

صنايع الكترونيك

فايل PDF

7572791

عنوان نشريه

صنايع الكترونيك

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1045592