کد برنامه پاداش های نزولی با Q-Learning + کد متلب کامل

تاریخ : 13 دی, 1394 توسط مدیریت

پروژه ۱۲۰۴: شبیه سازی در متلب

یادگیری تقویتی به عنوان یکی از روش‌های یادگیری ماشین بی نیاز به مدل، در دهه اخیر بیشتر مورد توجه محققین واقع شده است. توانایی یادگیری از طریق تعامل و بدون نیاز به راهنما، مشخصه اصلی این روش یادگیری می باشد. بسیاری از روش‌های سنتی یادگیری تقویتی، فقط در محیط‌های حالت و عمل گسسته و کوچک کارامد هستند. در این روش یادگیری عامل هوشمند (Agent) با توجه به وضعیتی که در محیط دارد، عملی را بر روی محیط انجام می دهد و منتظر نتیجه ی عملش می ماند. این نتیجه می تواند در قالب یک پاداش یا تنبیه باشد. اگر نتیجه در قالب پاداش باشد، عمل انجام شده مطلوب بوده و عامل به هدفی که در آن محیط دارد نزدیک شده است. ولی اگر نتیجه در قالب تنبیه باشد، عمل انجام شده نامطلوب بوده و عامل از هدفش دور شده است. عامل باید یاد بگیرید که چه اعمالی را انجام دهد تا پاداش بیش تری را کسب کند و در نهایت به هدفش برسد.

در این شبیه سازی کد برنامه ای در ام فایل نرم افزار Matlab برای پاداش های نزولی نوشته شده است. در این روش بجای h مرحله، پاداش درازمدت دریافتی در نظر گرفته میشود. این روش بسیار مرسوم بوده و به پاداشهائی که در آینده گرفته خواهد شد ارزش کمتری نسبت به پاداشهای فوری داده میشود.

در صورت سوال در مورد محصول می توانید از بخش تماس با ما (منوی بالا)، با شماره تلفن مورد نظر مکاتبه نمایید (ترجیحا ارسال پیامک).

پس از پرداخت آنلاین، فایل قابل دانلود می باشد

برخی نتایج:

Q =

۴۹٫۵۷۲۵

Q =

۴۹٫۵۷۲۵ ۴۱٫۰۰۵۴

Q =

۴۹٫۵۷۲۵ ۴۱٫۰۰۵۴
۵۱٫۰۶۴۲ ۰

Q =

۴۹٫۵۷۲۵ ۴۱٫۰۰۵۴
۵۱٫۰۶۴۲ ۴۷٫۷۶۷۲

policy =

۱ ۱

value_function =

۴۹٫۵۷۲۵ ۵۱٫۰۶۴۲

state =

action =

ans =

۴۹٫۵۷۲۵

state =

action =

ans =

۴۱٫۰۰۵۴

state =

action =

ans =

۵۱٫۰۶۴۲

state =

action =

ans =

۴۷٫۷۶۷۲

ans =

۴۸٫۰۸۰۷ ۱٫۴۹۱۸
۳۴٫۲۴۳۵ ۶٫۷۶۱۸

دیدگاهتان را بنویسید لغو پاسخ