شماره ركورد
1378960
عنوان مقاله
كاربست انواع جانمايي كلمات پيش آموزش داده شده در مدل هاي يادگيري عميق براي توليد عنوان از متون فارسي
پديد آورندگان
شناسا ، محمد ابراهيم دانشگاه آزاد اسلامي واحد علوم و تحقيقات تهران - دانشكده برق و كامپيوتر , مينايي بيدگلي ، بهروز دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر
از صفحه
30
تا صفحه
38
كليدواژه
يادگيري عميق , مدل دنباله به دنباله مبتني بر برت , خلاصه سازي چكيدهاي , توليد عنوان , دادگان مقالات فارسي
چكيده فارسي
با پيدايش روش هاي يادگيري عميق، مدل هاي دنباله به دنباله با هدف ترجمه ماشيني يك جمله مبدأ به يك جمله مقصد ارائه شدند و از همين ايده براي ترجمه يا تبديل يك متن به شكل خلاصهشده آن استفاده گرديده است. خلاصههايي كه به اين روش توليد ميشوند از نظر ساختاري خواناتر بوده و معمولاً معناي كاملي را به خواننده منتقل ميكنند. در چنين ساختارهايي براي بازنمايي معنايي واژهها از بردارهاي جانمايي كلمات استفاده ميشود كه در آن، وزن هر كلمه با توجه به كلمات مجاور آن از يك پيكره بزرگ آموزش داده ميشود. در حالت كلي وزن اين بردارها با انتخاب يك پنجره مجاورت براي هر كلمه بهدست ميآيد؛ اما در مدلهاي زباني بافتاري مانند برت براي محاسبه وزن اين كلمات از مبدلهاي چندلايه استفاده ميشود كه به تمامي كلمات موجود در متن توجه ميكنند. تاكنون مقالات متعددي نشان دادهاند كه مدلهاي زباني بافتاري بهدليل قابليت ريزتنظيم وزنها براي انجام يك وظيفه پردازش زبان طبيعي خاص، موفقتر از ساير روشهاي جانمايي كلمات عمل ميكنند؛ اما بررسي عملكرد وزن اوليه اين مدلها براي كاربست در توليد عنوان در زبان فارسي مورد توجه قرار نگرفته است. در اين مقاله به بررسي رفتار جانمايي كلمات بهصورت پيشآموزشدادهشده و بدون ريزتنظيم آنها در توليد عنوان از متون فارسي ميپردازيم. براي يادگيري مدل از «علمنت» كه يك پيكره فارسي شامل حدود 350 هزار جفت چكيده و عنوان مقالات علمي ميباشد، استفاده شده است. نتايج نشان ميدهند استفاده از مدل برت حتي بدون ريزتنظيم وزنهاي آن در بهبود كيفيت عناوين فارسي توليدشده تأثيرگذار بوده و معيار 1-ROUGE را در فارسي به 42% ميرساند كه بهتر از ساير مدلهاي جانمايي است.
عنوان نشريه
مهندسي برق و مهندسي كامپيوتر ايران
عنوان نشريه
مهندسي برق و مهندسي كامپيوتر ايران
لينک به اين مدرک