عنوان مقاله :
ارائه روش ردهبندي تك ردهاي براي شناسايي متون پژوهشي حوزه محيط زيست ايران با استفاده از ماشين بردار پشتيبان
عنوان به زبان ديگر :
(Using One-Class SVM for Scientific Documents Classification (Case study: Iranian Environmental Thesis
پديد آورندگان :
ربيعي، محمد دانشگاه علم و صنعت ايران , حسيني مطلق، مهدي دانشگاه علم و صنعت ايران , مينايي بيدگلي، بهروز دانشگاه علم و صنعت ايران
كليدواژه :
محيط زيست , رده بندي تك رده اي , ماشين بردار پشتيبان , متن كاوي , وزن دهي NG-TF
چكيده فارسي :
ردهبندي متون پژوهشي به منظور شناسايي و تحليل عرضه و تقاضاي پژوهشي در حوزههاي مختلف علوم اهميت ويژهاي دارد. در اين ميان ردهبندي پژوهشهاي حوزه محيطزيست بهدليل اهميت فراوان آن در كشور و نيز ميانرشتهاي بودن آن ضروري است. اين پژوهش روش ردهبندي تكردهاي متون پژوهشي اين حوزه را با استفاده از ماشين بردار پشتيبان ارائه ميدهد و به ارزيابي پارامترهاي مهم تأثيرگذار در كيفيت اين ردهبندي ميپردازد. نتايج نشان ميدهد كه استفاده از مجموعه داده هسته توصيفي در يادگيري مدل،كارايي بهتري نسبت به هسته محتوايي دارد. همچنين، استفاده از هسته چندجملهاي و وزندهي دودويي واژهها در ماتريس بردار ويژگيها نتايج بهتري نسبت به حالتهاي معمول ديگر ارائه ميكند. در اين مطالعه، روش جديد وزندهي با نام NG-TF معرفي و ارائه شده است كه نتايج ارزيابي آن نسبت به روشهاي ديگر، بهويژه در معيار دقت، برتري قابلتوجهي دارد. از اين رو، ميتوان از اين روش وزندهي براي تعيين واژگان نماينده يك حوزه پژوهشي استفاده كرد.
چكيده لاتين :
The classification of research studies is important in order to identify and analyze the research supply and demand in various fields
of science. In particular, the classification of environmental research
is essential because of its importance in Iran and its interdisciplinary
nature. This research proposes One-Class Classification (OCC) method
to classify the research studies in this domain using Support Vector
Machine (SVM) and consequently evaluates important parameters
affecting the quality of this classification. The results show that the use of
descriptive metadata has better performance than the content metadata
in order to make a core data set to learn the model. Moreover, the use of
the polynomial kernel and the binary weighing of words in the features
vector matrix leads to better results than other states. In this paper a
new weighing method has been proposed which is superior to the other
methods especially in precision criterion. We call this weighing method
as NG-TF, which can be used in term-document matrix to determine the
indicator terms of scientific domains.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات