مقايسه روش‌هاي كلاسيك و روش‌هاي مبتني بر اندازه‌هاي آماري پيكره بنياد در استخراج خودكار واژه‌هاي پايه علوم پزشكي به روش بسامدي

عنوان به زبان ديگر

Extraction of Core Medical Terms Using Frequency Approach

پديد آورندگان

موسوي ميانگاه، طيبه دانشگاه پيام نور واحد يزد - گروه زبان‏شناسي همگاني , ذوالفقار كندري، زهره دانشگاه پيام نور تهران - مركز تحصيلات تكميلي , روشن، بلقيس دانشگاه پيام نور واحد تهران - گروه زبان‏شناسي همگاني

تعداد صفحه

از صفحه

227

تا صفحه

244

كليدواژه

استخراج خودكار واژه‌هاي پزشكي , پيكره , روش‌هاي تركيبي استخراج , آموزش زبان فارسي

چكيده فارسي

طي دو دهه‌ي اخير با پيشرفت علم و فناوري، استفاده از‌‌‌ روش‌هاي پيكره بنياد در آموزش زبان و تدوين منابع درسي گسترش چشم گيري داشته است. پژوهش حاضر با هدف دستيابي به روشي خودكار در استخراج واژه از پيكره‌ها در زبان فارسي صورت گرفته است. براي دستيابي به هدف پژوهش روش‌هاي بسامد‌‌شماري در دو گروه كلاسيك و روش‌هاي مبتني بر اندازه‌هاي آماري موردبررسي قرارگرفته و توانمندي هريك از كه عبارتند از بسامدشماري پيكره‌‌ي عمومي، بسامدشماري پيكره‌ي تخصصي و روش‌هاي بهبوديافته‌ي آن‌ها موردمقايسه قرارمي گيرند. نتايج نشان مي‌دهد كه در روش‌هاي كلاسيك با اعمال تكنيك‌هايي مي‌توان فرايند انتخاب واژه‌هاي تخصصي را بهبود بخشيد و در اين ميان بهترين عملكرد مربوط به روش بسامدشماري بهبود‌يافته در پيكرهي تخصصي بوده است. روش‌هاي بهكار رفته در پژوهش عبارتند از اطلاعات متقابل نقطه اي و مجذور كا[1]. نتايج به دست آمده براي اين دو روش نيز قابليت استفاده از روش‌هاي بسامدشماري پيكره بنياد در زبان فارسي را مورد تأييد قرار مي‌دهد. روش مجذور كا با استخراج %32 واژهي تخصصي و روش اطلاعات متقابل نقطه اي با استخراج %52 واژهي تخصصي، عملكرد مناسبي در تشخيص خودكار واژه‌هاي تخصصي از خود نشان مي‌دهند. نتايج حاصل از اعمال اين روش‌ها روي پيكره‌ها و مقايسه آنها نشان ميدهند كه مي‌توان از روش‌هاي مبتني بر اندازهگيري‌هاي آماري براي استخراج خودكار واژه در زبان بهره جست و به اين ترتيب تحولي نوين در تهيه و تدوين متون آموزشي حاصل خواهد شد و آموزش‌دهندگان مي‌توانند به فهرست واژگاني دسترسي داشته باشند كه دانستن آن براي زبان آموزانشان مفيد و گاه ضروري است.

چكيده لاتين

During the past two decades, use of corpus-based approaches in language teaching and design of teaching materials has increased remarkably. The goal of the present study was to achieve an automatic approach in extracting medical terms from corpora in Farsi. To achieve the purpose, classic and statistical measurement-based methods of frequency counting were used and the capability of each single approach was compared with the other one. Classic frequency approaches include: General corpus frequency, Special corpus frequency and their enhanced techniques. Results showed that in classic approaches, special term extraction process can be improved by utilizing some techniques and among them, the best performance related to the improved frequency approach in special corpus which covered 60% of the special terms by 50 terms. Chi-square and PMI verified the possibility of using corpus-based frequency approaches in Farsi. Chi-square with extraction of %32 and PMI with extraction of 52% of special terms performed appropriately in automatic special term extraction. Overall, the results of applying these approaches on corpora and their comparison showed that statistical measurement approaches are appropriate for automatic term extraction and hence we will face a modern change in preparing teaching materials and teachers could access lists of words which are useful and occasionally essential for language learners.

سال انتشار

1398

عنوان نشريه

پژوهش نامه آموزش زبان فارسي به غير فارسي زبانان

فايل PDF

7582472

عنوان نشريه

پژوهش نامه آموزش زبان فارسي به غير فارسي زبانان

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1053933