عنوان مقاله :
مقايسه روشهاي كلاسيك و روشهاي مبتني بر اندازههاي آماري پيكره بنياد در استخراج خودكار واژههاي پايه علوم پزشكي به روش بسامدي
عنوان به زبان ديگر :
Extraction of Core Medical Terms Using Frequency Approach
پديد آورندگان :
موسوي ميانگاه، طيبه دانشگاه پيام نور واحد يزد - گروه زبانشناسي همگاني , ذوالفقار كندري، زهره دانشگاه پيام نور تهران - مركز تحصيلات تكميلي , روشن، بلقيس دانشگاه پيام نور واحد تهران - گروه زبانشناسي همگاني
كليدواژه :
استخراج خودكار واژههاي پزشكي , پيكره , روشهاي تركيبي استخراج , آموزش زبان فارسي
چكيده فارسي :
طي دو دههي اخير با پيشرفت علم و فناوري، استفاده از روشهاي پيكره بنياد در آموزش زبان و تدوين منابع درسي گسترش چشم گيري داشته است. پژوهش حاضر با هدف دستيابي به روشي خودكار در استخراج واژه از پيكرهها در زبان فارسي صورت گرفته است. براي دستيابي به هدف پژوهش روشهاي بسامدشماري در دو گروه كلاسيك و روشهاي مبتني بر اندازههاي آماري موردبررسي قرارگرفته و توانمندي هريك از كه عبارتند از بسامدشماري پيكرهي عمومي، بسامدشماري پيكرهي تخصصي و روشهاي بهبوديافتهي آنها موردمقايسه قرارمي گيرند. نتايج نشان ميدهد كه در روشهاي كلاسيك با اعمال تكنيكهايي ميتوان فرايند انتخاب واژههاي تخصصي را بهبود بخشيد و در اين ميان بهترين عملكرد مربوط به روش بسامدشماري بهبوديافته در پيكرهي تخصصي بوده است. روشهاي بهكار رفته در پژوهش عبارتند از اطلاعات متقابل نقطه اي و مجذور كا[1]. نتايج به دست آمده براي اين دو روش نيز قابليت استفاده از روشهاي بسامدشماري پيكره بنياد در زبان فارسي را مورد تأييد قرار ميدهد. روش مجذور كا با استخراج %32 واژهي تخصصي و روش اطلاعات متقابل نقطه اي با استخراج %52 واژهي تخصصي، عملكرد مناسبي در تشخيص خودكار واژههاي تخصصي از خود نشان ميدهند. نتايج حاصل از اعمال اين روشها روي پيكرهها و مقايسه آنها نشان ميدهند كه ميتوان از روشهاي مبتني بر اندازهگيريهاي آماري براي استخراج خودكار واژه در زبان بهره جست و به اين ترتيب تحولي نوين در تهيه و تدوين متون آموزشي حاصل خواهد شد و آموزشدهندگان ميتوانند به فهرست واژگاني دسترسي داشته باشند كه دانستن آن براي زبان آموزانشان مفيد و گاه ضروري است.
چكيده لاتين :
During the past two decades, use of corpus-based approaches in language teaching and design of teaching materials has increased remarkably. The goal of the present study was to achieve an automatic approach in extracting medical terms from corpora in Farsi. To achieve the purpose, classic and statistical measurement-based methods of frequency counting were used and the capability of each single approach was compared with the other one. Classic frequency approaches include: General corpus frequency, Special corpus frequency and their enhanced techniques. Results showed that in classic approaches, special term extraction process can be improved by utilizing some techniques and among them, the best performance related to the improved frequency approach in special corpus which covered 60% of the special terms by 50 terms. Chi-square and PMI verified the possibility of using corpus-based frequency approaches in Farsi. Chi-square with extraction of %32 and PMI with extraction of 52% of special terms performed appropriately in automatic special term extraction. Overall, the results of applying these approaches on corpora and their comparison showed that statistical measurement approaches are appropriate for automatic term extraction and hence we will face a modern change in preparing teaching materials and teachers could access lists of words which are useful and occasionally essential for language learners.
عنوان نشريه :
پژوهش نامه آموزش زبان فارسي به غير فارسي زبانان
عنوان نشريه :
پژوهش نامه آموزش زبان فارسي به غير فارسي زبانان