شماره ركورد كنفرانس :
5405
عنوان مقاله :
ارائه روشي جهت پيش بيني بهترين زمان پردازش از بين چندين مجموعه داده متني پيش از خوشه بندي با الگوريتم KMeans
عنوان به زبان ديگر :
Providing a method for predicting the best processing time among several text datasets before the clustering whit KMeans algorithm
پديدآورندگان :
سميع زاده مجتبي at.samizadeh@gmail.com دانشگاه فني و حرفه اي قم
تعداد صفحه :
6
كليدواژه :
داده هاي عظيم , خوشه بندي , پيش پردازش , KMeans
سال انتشار :
1402
عنوان كنفرانس :
دومين كنفرانس ملي كسب و كار نوين در مهندسي برق و كامپيوتر
زبان مدرك :
فارسي
چكيده فارسي :
خوشه بندي مجموعه داده ها، محل ورود به تحليل داده هاي عظيم است و آن چيزي كه داده هاي عظيم را جدا از تنوع، حجم و سرعت متمايز مي كند پتانسيل تحليلي آن است كه مي تواند جهت آشكارسازي بينش هاي جديد و بهينه سازي تصميم گيري ها مورد استفاده قرار گيرد. مجموعه داده هاي عظيم نيازمند منابع فراواني براي پردازش هستند و پيش پردازش در برخي از مسائل مانند خوشه بندي مي تواند كارايي سيستم را بهبود دهد. در اين مقاله نشان داده مي شود كه پيش پردازش بر روي چندين مجموعه داده متني مختلف با هدف شناسايي تراكم كلمات مشابه، مي تواند بصورت پيشگويانه اين امكان را فراهم كند تا از ميان مجموعه داده ها، مجموعه داده اي را انتخاب كنيم كه زمان پردازش سريع تري را هنگام خوشه بندي با الگوريتم KMeans بخود اختصاص مي دهد. براي آزمايش فرضيه مطرح شده يك برنامه جهت پيش پردازش مجموعه داده ها نوشته شد و سپس خوشه بندي چندين مجموعه داده با استفاده از الگوريتم KMeans بر روي هادوپ اجرا شد تا رابطه بين درصد تكرار كلمات مشابه و تاثير آن در سرعت خوشه بندي نشان داده شود.
چكيده لاتين :
Clustering of data sets is the entry point to big data analysis, and what distinguishes big data apart from variety, volume and speed is its analytical potential, which can reveal new insights and optimize decisions. be used Huge data sets require a lot of resources for processing, and pre-processing can improve system efficiency in some issues such as clustering. In this paper, it is shown that pre-processing on several different textual datasets with the aim of identifying the density of similar words can predictably enable us to select a dataset that has a fast processing time. It assigns three to itself when clustering with KMeans algorithm. To test the proposed hypothesis, a program was written to pre-process the datasets and then the clustering of several datasets was performed using the KMeans algorithm on Hadoop to show the relationship between the percentage of repetition of similar words and its effect on clustering speed.
كشور :
ايران
لينک به اين مدرک :
بازگشت