گام های پله، یافتن کوتاه ترین مسیر و احتمال بقا در یادگیری تقویتی

تاریخ : 12 دی, 1394 توسط مدیریت

پروژه ۱۲۰۲: شبیه سازی مقاله در متلب

خلاصه:

یادگیری تقویتی (RL) یک تکنیک مبتنی بر شبیه سازی که در حل فرآیندهای تصمیم گیری مارکوف مفید بوده و احتمالات انتقال آنها به سادگی قابل بدست آمدن نبوده نبوده و یا مشکلات زیادی در بالا بودن تعداد حالت های آنها وجود دارد. ما در حال حاضر یک مطالعه تجربی از ۱٫ تاثیر گام های پله (قوانین یادگیری) در همگرایی الگوریتم های RL 2. کوتاه ترین مسیر تصادفی در حل مسائل متوسط پاداش بوسیله RL و ۳٫ مفهوم احتمال بقا (خطر حرگت نزولی) در RL. همچنین مطالعه ای از تاثیر گام های پله زمانیکه تقریب های توابع با RL ترکیب می شود. نتایج ما عملکرد برخی دیدگاه های جالب که در عمل می تواند مفید باشد با الگوریتم RL تجهیز و شبیه سازی شده است. برای فهم دیگر اطلاعات این شبیه سازی ، مقاله را از لینک زیر دانلود نمایید.

دانلود: دانلود اصل مقاله لاتین

در صورت سوال در مورد محصول می توانید از بخش تماس با ما (منوی بالا)، با شماره تلفن مورد نظر مکاتبه نمایید (ترجیحا ارسال پیامک).

پس از پرداخت آنلاین، فایل قابل دانلود می باشد

برخی نتایج:(شبیه سازی در دو حالت Q-Learning و Q-Value انجام شده است.)

نتایج با Q-Learning(شامل ۷ ام فایل)

policy =

۲ ۱

value_function =

۵۴٫۷۴۰۷ ۴۹٫۲۴۷۰

state =

action =

ans =

۴۳٫۹۱۸۲

state =

action =

ans =

۵۴٫۷۴۰۷

state =

action =

ans =

۴۹٫۲۴۷۰

state =

action =

ans =

۴۶٫۲۱۳۳

نتایج با Q-Value:(شامل ۶ ام فایل)

policy =

۲ ۱

value_function =

۵۳٫۰۲۸۸ ۵۱٫۸۶۲۲

state =

action =

ans =

۴۴٫۸۴۲۲

state =

action =

ans =

۵۳٫۰۲۸۸

state =

action =

ans =

۵۱٫۸۶۲۲

state =

action =

ans =

۴۹٫۲۷۵۵

دیدگاهتان را بنویسید لغو پاسخ