شماره ركورد كنفرانس :
4002
عنوان مقاله :
استخراج باهمآييهاي دوتايي و سهتايي از پايگاه داده بزرگ بايگاني روزنامه همشهري
پديدآورندگان :
ابراهيمزاده دانيال دانش آموخته دوره كارشناسي، گروه مهندسي كامپيوتر، دانشگاه كاشان، كاشان، , ملااحمدي محمد دانش آموخته دوره كارشناسي، گروه مهندسي كامپيوتر، دانشگاه كاشان، كاشان، , يوسفان احمد yoosofan@kashanu.ac.ir عضو هيأت علمي، گروه مهندسي كامپيوتر، دانشگاه كاشان، كاشان،
كليدواژه :
باهمآيي , پردازش متن , كلمات متوالي.
عنوان كنفرانس :
دومين كنفرانس ملي محاسبات توزيعي و پردازش داده هاي بزرگ
چكيده فارسي :
در بحث متنكاوي و پردازش متن بحث استخراج كلمات و رابطهي بين آنها وجود دارد. استخراج و بررسي كلمات بايد به نحوي باشد كه اطلاعات مفيدي در پي داشته باشد در نتيجه پژوهشگران به بررسي روي گروهي از كلمات متوالي و پيدرپي پرداختند تا به اين وسيله نتايج بهتري از پردازش متون به دست آورند و اين گروه، كلمات باهمآيي يا همايند نام گرفتند.
در اين مقاله كه كار بر روي پايگاه دادهي اخبار فارسي روزنامه همشهري انجام شده است كوشش بر آن بوده كه به وسيلهي روشهاي مناسب باهمآييها استخراج شوند. در اينجا ما به استخراج باهمآييهاي دوتايي مانند «جمهوري اسلامي» و باهمآييهاي سهتايي مانند «جمهوري اسلامي ايران» به كمك جداول دستآوري فراواني اين كلمات پرداختهايم. بر اثر كارهاي انجام شده و با توجه به روش مورد نظر در طول اين تحقيق با زمان مناسبي باهمآييها به دست آمدند و ميتوان اين كار را در پايگاه دادههاي ديگر نيز استفاده كرد و نتايج را بررسي كرد.