مدل نقاد تطبیقی برای کنترل نیمه مارکوف + شبیه سازی مقاله

مقدمه ای بر یادگیری تقویتی نوشته ریچارد ساتن و اندرو بارتو

برنامه نویسی به کمک الگوریتم یادگیری تقویتی