عنوان مقاله :
تحليل توزيع و تمركز كليدواژه هاي پارساها: ميزان تطابق با توصيفگرها، عنوان، و چكيده
عنوان به زبان ديگر :
The Analysis of the Distribution and Focus of Keywords in Theses and Dissertations and Compliance with Descriptors, Title, and Abstract
پديد آورندگان :
خطير، اشكان پژوهشگاه علوم و فناوري اطلاعات ايران , گنجه فر، سهيل دانشگاه بوعلي سينا - دانشكده مهندسي - گروه برق
كليدواژه :
نمايه سازي , كليدواژه , توصيفگر , توزيع كليدواژه , تمركز فعاليت پژوهشي
چكيده فارسي :
نمايه ها و چكيده هاي يك متن، خلاصه اي از متن را در اختيار خواننده قرار مي دهند، لذا مي توان از آن ها براي درك سريع و بازيابي سند استفاده كرد. ازآنجاكه بخش عمده اي از فعاليت هاي علمي فارسي در كشور ايران را پارسا ها تشكيل مي دهند، در اين پژوهش نمايه سازي پارسا ها از دو ديدگاه نويسنده پارسا و نمايه ساز حرفه اي موردبررسي قرار خواهد گرفت. سپس اين نمايه ها با عنوان پارساها موردبررسي قرار مي گيرد تا ميزان انطباق با كليدواژه هاي عنواني به دست آيد. از سوي ديگر با بررسي كلي مجموعه اي از نمايه ها و چكيده ها علاوه بر قابليت بهبود در بازيابي اطلاعات براي محقق حوزه فعاليتي كه بيشتر اسناد بر روي آن تمركز كرده اند مشخص مي شود.علاوه بر آن در اين پژوهش وجود نمايه ها و توزيع آن ها در چكيده، بررسي مي شوند. از توزيع كليدواژه ها در چكيده مي توان در استخراج خودكار كليدواژه ها از چكيده پارساها در كارهاي آتي استفاده شود. اين پژوهش بر روي پارسا هاي موجود در پايگاه داده پژوهشگاه علوم و فناوري اطلاعات ايران كه منبع گردآوري پارسا هاي فارسي است انجام شده است. روش پژوهش به اين صورت است كه بعد از گرداوري داده ها، پارسا هايي كه اطلاعات كافي ندارند پالايه شده و مابقي پارسا ها توسط برنامه اي كه براي پردازش متن چكيده و نمايه هاي پارسا ها نوشته ايم مورد تحليل قرار خواهند گرفت. سپس اطلاعات بدست آمده با استفاده از آمار توصيفي شرح داده خواهند شد. بررسي انجام شده در اين پژوهش نشان داده است عموماً نمايه هاي انتخاب شده (بيش از 60%) توسط نويسنده و نمايه ساز حرفه اي از 40% ابتدايي چكيده انتخاب شده اند. ديگر تحليل هاي آماري اين پژوهش نشان مي دهند كه ميزان انطباق بين توصيفگرها و كليدواژه ها 8% است. اين اختلاف نشان دهنده ميزان تفاوت نظر زياد بين نويسندگان پارسا ها و نمايه سازان است. با بهره گيري از اين اختلاف و با تجميع كلمات و غني كردن كليدواژه هاي سيستم بازيابي اطلاعات مي توان در بهبود بازيابي اطلاعات نيز استفاده كرد.
چكيده لاتين :
Index terms provided by authors and professional indexers
are used in traditional information retrieval schemes. However, abstracts
ideally contain the core message of a document. This can potentially
give us the opportunities to use the abstracts to automatically extract
index terms. This work is an effort to increase the accuracy of keyword
extraction mechanism by adding a temporal weighting to candidate.
In addition, this work can be used to research trend analysis and
shows where the ongoing research is headed in Iranian Theses and
Dissertations (TDs). To achieve the aforementioned objectives, we
studied on more than 500 samples in different engineering research
area from 50 different universities 1) the correlation between the authors
and professional indexers keywords. We observed only 8% similarity
between these two indices. 2) We studied the correlation between
the index terms and words in abstract and title. We found that 40% of
author keywords are extracted from first 20% of the abstract (This figure
changes to 45% for professional indexer) and 24% from the second 20%
(19% from the next 20%) This finding can be further used to narrow
down the input dimensions for the various machine learning schemes for
automatic keyword extraction. 3) Using some classification schemes it
can be perceived that the most of the ongoing research in Iran is headed
toward neural network and optimization.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات