عنوان مقاله :
ارائه الگوريتمي جهت تسريع روش تكرار سياست در راستي آزمايي فرآيندهاي تصميم ماركوف با استفاده از يادگيري ماشين
پديد آورندگان :
محققي ، محمد صادق دانشگاه وليعصر رفسنجان - دانشكده علوم رياضي - گروه علوم كامپيوتر
كليدواژه :
راستي آزمايي صوري , وارسي مدل احتمالاتي , فرآيندهاي تصميم ماركوف , تكرار سياست , دسترس پذيري بهينه , يادگيري ماشين
چكيده فارسي :
فرآيندهاي تصميم ماركوف در هوش مصنوعي و راستي آزمايي رسمي براي مدل سازي سيستم هاي كامپيوتري كه داراي رفتارهاي تصادفي و غيرقطعي هستند، استفاده ميشوند. دو دسته مهم از ويژگيهايي كه در وارسي مدل احتمالاتي استفاده ميشوند شامل احتمال بهينه رسيدن به حالت هدف و پاداش انباشته شده مورد انتظار هستند. تكرار مقدار و تكرار سياست دو روش عددي تكراري شناخته شده براي تقريب مقادير بهينه هستند. چالش اصلي اين روشها زمان اجرايي بالاي آنها است. در اين مقاله روشي جديد براي تسريع همگرايي به سياست بهينه ارائه ميشود كه زمان اجرايي روش تكرار سياست را كاهش ميدهد. اين روش بر پايه استفاده از يادگيري ماشين براي تخمين يك سياست نزديك به بهينه است. براي هر كلاس از مدلهاي فرآيند تصميم ماركوف، تعدادي مدل كوچك را براي مرحله آموزش و ساخت دستهبند در نظر ميگيريم. دستهبند ساخته شده در فرآيند يادگيري، براي پيشبيني كنش بهينه هر حالت فرآيند تصميم ماركوف داده شده به كار ميرود. اين دستهبند همچنين براي پيشنهاد يك سياست نزديك به بهينه براي فرآيندهاي تصميم ماركوف بزرگ از همان دسته مدلها، استفاده ميشود تا زمان مصرفي كل را كاهش دهد. پيادهسازي روش ارائه شده در وارسيگر مدل PRISM نشان ميدهد زمان اجرا به طور ميانگين ۵۰ درصد كاهش مييابد.
عنوان نشريه :
محاسبات نرم
عنوان نشريه :
محاسبات نرم