عنوان مقاله :
تأثير برچسب گذاري معنايي در رفع ابهام هم نويسههاي تخصصي از نظر ريزش كاذب در بازيابي متون علمي
عنوان به زبان ديگر :
Effectiveness of Semantic Tagging in Sense Disambiguation of Specialized Homographs from the Perspective of False drop in Retrieving Scientific Texts
پديد آورندگان :
رضايي ديناني، مينا دانشگاه الزهرا، تهران، ايران , كربلا آقايي كامران، معصومه دانشگاه الزهرا - گروه علم اطلاعات و دانش شناسي، تهران، ايران , ميرزاييان، وحيدرضا دانشگاه الزهرا - دانشكده ادبيات - گروه زبان انگليسي، تهران، اير ان
كليدواژه :
هم نويسه هاي تخصصي , برچسب گذاري معنايي , ريزش كاذب , پيكرة متني , رفع ابهام معنايي
چكيده فارسي :
هدف: مسئله اصلي در بازيابي مؤثر و كاربرمدار همنويسههاي تخصصي، توسعه فرايندي است كه بازيابي اطلاعات نامرتبط را به حداقل برساند (ريزش كاذب= 0). در اين مقاله سعي شده با بهكارگيري رويكرد پيكرهمدار با استفاده از برچسبگذاري معنايي، بازيابي مدارك حاوي همنويسههاي تخصصي ارزيابي و با راهبردهاي موجود (بدون برچسبگذاري) مقايسه و يافتهها آشكار شود. هدف بهينهسازي كارايي نظام بازيابي اطلاعات در كاهش ريزش كاذب بازيابي متون علمي با استفاده از روش رفع ابهام معنايي از همنويسههاي تخصصي به كمك برچسبگذاري معنايي بوده است.
روش: پژوهش بهدليل ماهيتش به روش تجربي انجام شد. روش تجربي از روشهاي سهگانه رفع ابهام معنايي (بانظارت، نيمهنظارتي و بدون نظارت) بوده و روشي بانظارت بهشمار ميرود. جامعه پژوهش را 442 مقاله علمي در دو گروه گواه و آزمون تشكيل دادند. گروه گواه (پايه) شامل 221 متن كامل مقاله بدون برچسب و گروه تجربي (آزمون) شامل همان 221 مقاله، اما داراي برچسب بود كه 46 همنويسۀ تخصصي آنها به روش دستي برچسبگذاري شد و در نظام بازيابي پيشنهادي قرارگرفتند و براي بررسي كارآيي برچسبها در رفع ابهام معنايي، از همنويسههاي تخصصي و كاهش ريزش كاذب آزموده شدند.
يافتهها: بازيابي در مقالههاي گروه گواه بهدليل ابهام معنايي همنويسههاي تخصصي، با ريزش كاذب همراه بود؛ درحاليكه برچسبگذاري همنويسههاي تخصصي در متن كامل مقالههاي گروه تجربي، تأثير مستقيمي در كاهش ريزش كاذب داشت. سطح معنيداري آزمون رتبههاي علامتدار ويلكاكسون (0/0001 = P، 5/909- = Z) نشان داد كه ميزان ريزش كاذب نتايج بازيابي بعد از بهكارگيري پيكره تخصصي برچسبگذاريشده در نظام بازيابي اطلاعات بهنسبت قبل، تفاوت معناداري داشت. بررسي رتبههاي منفي و مثبت نشان داد كه ميزان ريزش كاذب نتايج بازيابي بعد از بهكارگيري پيكرة تخصصي برچسبگذاريشده به ميزان معناداري كاهش يافته است.
نتيجهگيري: حد ريزش كاذب در يافتههاي پژوهش، گواه عملكرد قابل قبول برچسبگذاري در رفع ابهام معنايي همنويسههاي تخصصي است. همچنين بيانگر نقش مؤثر آن در بهينهسازي نظام بازيابي اطلاعات براي بهحداقلرساندن ريزش كاذب نتايج است. بنابراين، رويكرد پيكرهمدار نظام بازيابي اطلاعات، ضمن فراهمآوردن بستر بازيابي تماممتن، زمينه جلوگيري از ريزش كاذب و صرفهجويي در وقت و انرژي كاربران را فراهم خواهد كرد. گفتني است براي رفع ابهام معنايي همنويسههاي تخصصي، برچسبها منابع ارزشمندياند، اما اين مستلزم بهرهمندي از مجموعة آموزش باكيفيت است. نتايج پژوهش نشان ميدهد كه دادههاي آموزشي، كه بهخوبي ساختاربندي شده باشند، نقش بسيار مهمي در بهبود رفع ابهام معنايي همنويسههاي تخصصي ايفا ميكنند. اين پژوهش بهصورت تجربي و تحليلي نشان داد كه رويكرد پيكرهمدار در مقايسه با جستوجوي مبتني بر كليدواژه، بهطور معناداري سطح ايدهآلي از ريزش كاذب را بهدست ميدهد. روش بهكاررفته براي رفع ابهام معنايي همنويسههاي تخصصي در همة زبانها كاربرد دارد.
چكيده لاتين :
Purpose: The key problem in achieving efficient and user friendly retrieval when specialized homographs are searched is the development of a search mechanism to guarantee delivery of minimal irrelevant information (false drop=0). This paper has solved the problem through the implementation of a corpus-based approach using semantic tagging. The aim has been to optimize information retrieval system’s performance using semantic tagging of specialized homographs to decrease false drop.
Method: This research was conducted experimentally and employed one of the three methods of word sense disambiguation. The research sample consisted of 442 scientific articles of two groups ie, experimental group and the control group. The control group had 221 full-text articles without tags and the experimental group included the same number articles, but manually tagged and placed in the proposed retrieval system to measure the effectiveness of tags in disambiguating specialized homographs and decreasing false drop.
Findings: While retrieval in the control group was with false drops due to the semantic ambiguity of specialized homographs, tagging specialized homographs in the full text of articles in the experimental group had a direct effect on decreasing false drop. The level of significance of the Wilcoxon signed-rank test (P = 0.0001, Z = -5.909) showed that the rate of false drop of retrieval results after using the tagged specialized corpus in the information retrieval system was significantly different. Assessment of negative and positive rankings showed that the rate of false drop of the results after using the tagged specialized text corpus decreased significantly and reached its minimum level of 0.
Conclusion: The rate of false drop in the research findings is an evidence of acceptable tagging effectiveness in Sense Disambiguation of specialized homographs and its effective role in optimizing the information retrieval system to minimize false drop of the results. Accordingly, the corpus-based approach of the information retrieval system, while providing an opportunity for full-text retrieval could prevent false drop and save the user time and energy. Semantic tags are valuable for disambiguation of specialized homographs, but require high quality training data. Overall, the results show that well-structured training data can play a very important role to improve disambiguation. This research experimentally and analytically reveals that this approach, compared to keyword search, achieves a significantly better degree of false drop. The technique employed can be applied to the problem of information retrieval in all languages.
عنوان نشريه :
مطالعات كتابداري و سازماندهي اطلاعات