عنوان مقاله :
معرفي يك پيكرة متني تخصصي: پيكرة پژوهشنامه
پديد آورندگان :
علايي ابوذر، الهام پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك)، تهران، ايران , پاكنيت، نصراله پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك)، تهران، ايران , حجتپناه، علياصغر پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك)، تهران، ايران , زالي، مجتبي پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك)، تهران، ايران , آقالويي آغميوني، محمدهادي پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك)، تهران، ايران
كليدواژه :
پيكره , نرمالسازي , برچسبگذاري اجزاي واژگاني كلام
چكيده فارسي :
بسياري از پژوهشهاي زبانشناسي و برنامهريزيهاي زباني با استفاده از پيكرههاي زباني انجام ميشود. در اين پژوهش پيكرهاي با استفاده از متون مقالههاي پژوهشنامة پردازش و مديريت اطلاعات ساخته شده است. اين پيكره شامل بيش از 600 مقاله (بيش از چهار ميليون واژه) است. موضوع اين مقالهها كتابداري و اطلاعرساني، علم اطلاعات و دانششناسي، فناوري اطلاعات، زبانشناسي، زبانشناسي رايانشي، اصطلاحشناسي، هستانشناسي و ساير حوزههاي پردازش اطلاعات است. متون مقالهها تخصصي و ميانرشتهاي است و براي پردازشهايي كه مستلزم بهرهگيري از متون تخصصي است، ارزشمند است. براي ساخت پيكره پس از نمونهگيري و وارد كردن دادهها در پيكره، فرادادة مقالهها وارد پيكره شد. سپس نرمالسازي ماشيني و به دنبال آن برچسبگذاري ماشيني (نوعاً برچسبگذاري اجزاي واژگاني كلام) انجام شد. در نهايت تعداد قابل توجهي از فايلهاي برچسبخورده در پيكره به صورت رندوم انتخاب شد و الگوهاي زباني براي اصلاح ماشيني و دستي برچسبها استخراج و در پيكره به كار برده شد.
عنوان نشريه :
پژوهش هاي زبان شناسي تطبيقي