یادگیری تقویتی برای متوسط هزینه بلند مدت

پروژه ۱۲۰۳: شبیه سازی مقاله در متلب

خلاصه :

یک کلاس بزرگ از مسائل تصمیم گیری متداوم تحت عدم قطعیت ها می تواند بصورت مسائل مارکوف و نیمه مارکوف مدل سازی شود ، جاییکه ساختار احتمالاتی آن مربوط به زنجیره مارکوف است. همچنین ممکن بوده که بوسیله روش های برنامه نویسی پویا کلاسیک حل شوند. با این حال ، روش برنامه نویسی پویا مشکل نفرین ابعاد را در فضای بزرگ تر دارند.

علاوه بر این ، روش های برنامه ریزی پویا احتیاج به محاسبات دقیق از احتمالات انتقال داشته که اغلب بدست آوردن آن مشکل و از اینرو در مدل سازی به مشکل بر می خورند. در سال های اخیر شبیه سازی هایی بر اساس یادگیری تقویتی در مقالات پدید آمده است. آن می تواند تا حد زیادی ، مسائل دینامیک پویا را در مسائل نفرین ابعاد و مکانیزم انتقال فضاهای پیچیده داشته باشد.

در این مقاله یک الگوریتم مبتنی بر شبیه سازی برای حل مسائل مارکوف و نیمه مارکوف همراه با تجزیه و تحلیل همگرایی ارائه شده است. الگوریتم شامل یک تغییر و تحول بر اساس اندازه گام در دو مقیاس است. تجزیه و تحلیل همگرایی بر اساس نتایج اخیر در همگرایی متغیر تکرارها در دو مقیاس زمانی است. همچنین نتایج عددی از الگوریتم جدید را در یک مطالعه موردی مورد تحلیل قرار داده ایم که نتایج سیاست بهینه را نشان می دهد. بعلاوه ما یک چارچوب کلی از یادگیری تقویتی را در زمینه مشکلات نیمه مارکوف در مسائل تصمیم گیری هزینه بلند مدت را انجام داده ایم. برای فهم دیگر اطلاعات این شبیه سازی ، مقاله را از لینک زیر دانلود نمایید. 

دانلود: دانلود اصل مقاله لاتین

در صورت سوال در مورد محصول می توانید از بخش تماس با ما (منوی بالا)، با شماره تلفن مورد نظر مکاتبه نمایید (ترجیحا  ارسال پیامک). 

پس از پرداخت آنلاین، فایل قابل دانلود می باشد

خرید آنلاین

برخی نتایج: 

policy =

۲ ۱

value_function =

۳۲٫۷۶۰۰ ۳۰٫۶۰۰۶

state =

۱

action =

۱

ans =

۹٫۱۴۲۷

state =

۱

action =

۲

ans =

۳۲٫۷۶۰۰

state =

۲

action =

۱

ans =

۳۰٫۶۰۰۶

state =

۲

action =

۲

ans =

۱۴٫۰۴۵۰

 p1203-1

برچسب ها

0 دیدگاه در “یادگیری تقویتی برای متوسط هزینه بلند مدت”

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

کتاب

کتاب جامع دستورات متلب - خرید پستی درب منزل این کتاب شامل تمامی دستورات عمومی متلب می باشد
خرید اینترنتی
web hit counter