مدل نقاد تطبیقی برای کنترل نیمه مارکوف + شبیه سازی مقاله

پروژه ۱۲۰۵: شبیه سازی مقاله در متلب

خلاصه: 

مدل نقاد تطبیقی، یک کلاس از یادگیری تقویتی می باشد. عموما در مدل نقاد تطبیقی، یک شروع با سیاست تصادفی و سپس به روز رسانی با انتخاب عامل تحت سیاست قطعی (deterministic)  بدست می آید. اساسا این الگوریتم ها برای مسائل تصمیم گیری مارکوف به کار می رود. الگوریتم غالبا دارای بیشترین حالت  بوده و نیار به کمترین آموزش در مقایسه با  model free
counterparts دارد. ما یک روش نقاد تطبیقی را پیشنهاد داده ایم که در طی آموزش برای تخفیف پاداش نیمه مارکوف تحت چندین فرض روی ساختار پروسه صورت می گیرد. الگوریتم این شبیه سازی به صورت عددی با ۱۰ حالت برای یک مساله مدیریتی در نظر گرفته شده است. 

دانلود: دانلود اصل مقاله لاتین

در صورت سوال در مورد محصول می توانید از بخش تماس با ما (منوی بالا)، با شماره تلفن مورد نظر مکاتبه نمایید.

برای خرید این پروژه می توانید از بخش تماس با ما با شماره مورد نظر مکاتبه نمایید. 

 


مجموعه: یادگیری تقویتیبرچسب ها , , , , , , , , , , , , , ,

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *