شماره ركورد :
696296
عنوان مقاله :
كاربرد و تعديل قانون زيف و الگوي آماري زو در بازشناسي واژه هاي بازدارنده زبان فارسي با استفاده از خوشه زباني مقالات علمي- پژوهشي رشته كتابداري و اطلاع رساني
عنوان فرعي :
An Application and the Adjustment of Zipf Law and Zou Statistical Model in the Recognition of Stop Words in Persian language by utilizing Language Corpus of Articles of scientific research in the fi
پديد آورندگان :
هاشم زاده، محمد جواد نويسنده استاديار گروه كتابداري و اطلاع رساني دانشگاه بيرجند Hashemzadeh, Mohammad Javad , نخعي، زينب نويسنده كارشناس ارشد كتابداري و اطلاع رساني دانشگاه بيرجند Nakhaei, Zeinab , مرادي مقدم، حسين نويسنده مدرس دانشگاه بيرجند Moradimoghadam, Hossein
اطلاعات موجودي :
دوفصلنامه سال 1392 شماره 6
رتبه نشريه :
علمي پژوهشي
تعداد صفحه :
18
از صفحه :
191
تا صفحه :
208
كليدواژه :
نمايه سازي خودكار , واژه هاي بازدارنده , Automatic indexing , Word frequency , Stop words , Zip flaw , Zou Statistical Model , الگوي آماري زو , بسامد واژگاني , قانون زيف
چكيده فارسي :
هدف: شناسايي و استخراج سياهه هايي نظام مند از واژه هاي بازدارنده به منظور استفاده در نمايه سازي خودكار متن هاي فارسي رشته كتابداري و اطلاع رساني روش: روش تحليل محتوا است. جامعه پژوهش، 56 مقاله بودند كه 20 مقاله با روش نمونه گيري تصادفي ساده انتخاب شدند. يافته ها: از مجموع 15557 واژه موجود در متن مقالات، مطابق با الگوي زو، قبل از تعديل واژه ها، 1368 و بعد از تعديل، 468 واژه؛ مطابق قانون زيف نيز قبل از تعديل، 217 و بعد از تعديل، 607 واژه به عنوان واژه بازدارنده شناخته شدند. هم چنين از مجموع 1989 واژه موجود در چكيده مقالات، مطابق با الگوي زو قبل از تعديل واژه ها، 148 و بعد از تعديل، 173 واژه و بر اساس قانون زيف، قبل از تعديل60 و بعد از تعديل، 186 واژه به عنوان واژه بازدارنده استخراج شدند. در هر دو روش رابطه مستقيمي بين بسامد واژه ها و احتمال بازدارنده بودن آن ها مشاهده شد. بالاترين درصد واژه هاي بازدارنده (44/39 درصد) بدون احتساب بسامد، در متن مقالات و با كاربرد الگوي آماري زو به دست آمد. نتايج اين پژوهش به افزايش كارايي، كاهش حجم فايل درونداد و صرفه جويي در زمان و هزينه ذخيره و بازيابي اطلاعات منجر مي شود.
چكيده لاتين :
Purpose: the aim of this research was to recognize and extract a systematic list of Stop Words in order to utilize it in the automatic indexing of Persian texts in the field of Library and Information Science Methodology: We used content analysis. The research population includ 56 articles from which 20 articles were selected on the basis of simple random sampling. Findings: Among 15557 words existing in the corpus, according to Zou model in the pre-adjustment list, 1368 words and in the post-adjustment list, 468 words were recognized as stop words. Also according to Zipf law, in the pre-adjustment list, 217 words and in the post-adjustment list, 607 stop words were recognized. The total number of words in the abstracts of articles was 1989. In the Zou model, according to pre-adjustment style148 words and according to post-adjustment style173 words were extracted as stop words. Also on the basis of the Zipf law, in pre-adjustment style, 60 words and in post-adjustment style, 186 words were recognized. In the both applied methods there was a direct relation between the frequency of words and probability of being stop words. The highest percentage of stop words (39/44 percent) was attained in the texts of the articles through the application of Zou Statistical Model. The results of this research can lead to increase efficiency of information store and retrieval, decreasing of input and saving in time and expense.
سال انتشار :
1392
عنوان نشريه :
پژوهشنامه كتابداري و اطلاع رساني
عنوان نشريه :
پژوهشنامه كتابداري و اطلاع رساني
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 6 سال 1392
كلمات كليدي :
#تست#آزمون###امتحان
لينک به اين مدرک :
بازگشت