كاربست انواع جانمايي كلمات پيش ‌آموزش ‌داده ‌شده در مدل ‌هاي يادگيري عميق براي توليد عنوان از متون فارسي

پديد آورندگان

شناسا ، محمد ابراهيم دانشگاه آزاد اسلامي واحد علوم و تحقيقات تهران - دانشكده برق و كامپيوتر , مينايي بيدگلي ، بهروز دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر

از صفحه

تا صفحه

كليدواژه

يادگيري عميق , مدل دنباله به دنباله مبتني بر برت , خلاصه ‌سازي چكيده‌اي , توليد عنوان , دادگان مقالات فارسي

چكيده فارسي

با پيدايش روش ‌هاي يادگيري عميق، مدل ‌هاي دنباله به دنباله با هدف ترجمه ماشيني يك جمله مبدأ به يك جمله مقصد ارائه شدند و از همين ايده براي ترجمه يا تبديل يك متن به شكل خلاصه‌شده آن استفاده گرديده است. خلاصه‌هايي كه به اين روش توليد مي‌شوند از نظر ساختاري خواناتر بوده و معمولاً معناي كاملي را به خواننده منتقل مي‌كنند. در چنين ساختارهايي براي بازنمايي معنايي واژه‌ها از بردارهاي جانمايي كلمات استفاده مي‌شود كه در آن، وزن هر كلمه با توجه به كلمات مجاور آن از يك پيكره بزرگ آموزش داده مي‌شود. در حالت كلي وزن اين بردارها با انتخاب يك پنجره مجاورت براي هر كلمه به‌دست مي‌آيد؛ اما در مدل‌هاي زباني بافتاري مانند برت براي محاسبه وزن اين كلمات از مبدل‌هاي چندلايه استفاده مي‌شود كه به تمامي كلمات موجود در متن توجه مي‌كنند. تاكنون مقالات متعددي نشان داده‌اند كه مدل‌هاي زباني بافتاري به‌دليل قابليت ريزتنظيم وزن‌ها براي انجام يك وظيفه پردازش زبان طبيعي خاص، موفق‌تر از ساير روش‌هاي جانمايي كلمات عمل مي‌كنند؛ اما بررسي عملكرد وزن اوليه اين مدل‌ها براي كاربست در توليد عنوان در زبان فارسي مورد توجه قرار نگرفته است. در اين مقاله به بررسي رفتار جانمايي كلمات به‌صورت پيش‌آموزش‌داده‌شده و بدون ريزتنظيم آنها در توليد عنوان از متون فارسي مي‌پردازيم. براي يادگيري مدل از «علم‌نت» كه يك پيكره فارسي شامل حدود 350 هزار جفت چكيده و عنوان مقالات علمي مي‌باشد، استفاده شده است. نتايج نشان مي‌دهند استفاده از مدل برت حتي بدون ريزتنظيم وزن‌هاي آن در بهبود كيفيت عناوين فارسي توليدشده تأثيرگذار بوده و معيار 1-ROUGE را در فارسي به 42% مي‌رساند كه بهتر از ساير مدل‌هاي جانمايي است.

عنوان نشريه

مهندسي برق و مهندسي كامپيوتر ايران

عنوان نشريه

مهندسي برق و مهندسي كامپيوتر ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1378960