شماره ركورد :
1395353
عنوان مقاله :
ارائه الگوريتمي جهت تسريع روش تكرار سياست در راستي‌ آزمايي فرآيندهاي تصميم ماركوف با استفاده از يادگيري ماشين
پديد آورندگان :
محققي ، محمد صادق دانشگاه وليعصر رفسنجان - دانشكده علوم رياضي - گروه علوم كامپيوتر
از صفحه :
134
تا صفحه :
148
كليدواژه :
راستي آزمايي صوري , وارسي مدل احتمالاتي , فرآيندهاي تصميم ماركوف , تكرار سياست , دسترس پذيري بهينه , يادگيري ماشين
چكيده فارسي :
فرآيندهاي تصميم ماركوف در هوش مصنوعي و راستي‌ آزمايي رسمي براي مدل‌ سازي سيستم ‌هاي كامپيوتري كه داراي رفتارهاي تصادفي و غيرقطعي هستند، استفاده مي‌شوند. دو دسته مهم از ويژگي‌هايي كه در وارسي مدل احتمالاتي استفاده مي‌شوند شامل احتمال بهينه رسيدن به حالت هدف و پاداش انباشته شده مورد انتظار هستند. تكرار مقدار و تكرار سياست دو روش عددي تكراري شناخته شده براي تقريب مقادير بهينه هستند. چالش اصلي اين روش‌ها زمان اجرايي بالاي آنها است. در اين مقاله روشي جديد براي تسريع همگرايي به سياست بهينه ارائه مي‌شود كه زمان اجرايي روش تكرار سياست را كاهش مي‌دهد. اين روش بر پايه استفاده از يادگيري ماشين براي تخمين يك سياست نزديك به بهينه است. براي هر كلاس از مدل‌هاي فرآيند تصميم ماركوف، تعدادي مدل كوچك را براي مرحله آموزش و ساخت دسته‌بند در نظر مي‌گيريم. دسته‌بند ساخته شده در فرآيند يادگيري، براي پيش‌بيني كنش بهينه هر حالت فرآيند تصميم ماركوف داده شده به كار مي‌رود. اين دسته‌بند همچنين براي پيشنهاد يك سياست نزديك به بهينه براي فرآيندهاي تصميم ماركوف بزرگ از همان دسته مدل‌ها، استفاده مي‌شود تا زمان مصرفي كل را كاهش دهد. پياده‌سازي روش ارائه شده در وارسي‌گر مدل PRISM نشان مي‌دهد زمان اجرا به طور ميانگين ۵۰ درصد كاهش مي‌يابد.
عنوان نشريه :
محاسبات نرم
عنوان نشريه :
محاسبات نرم
لينک به اين مدرک :
بازگشت