برای اطلاع از آخرین مقالات علمی و اخبار کرونا(COVID-19) کلیک کنید

مشخصات مقاله

عنوان نشریه: 
 
اطلاعات شماره: 
تابستان 1395 , دوره  14 , شماره  2 ; از صفحه 137 تا صفحه 146 .
 
عنوان مقاله: 

بهبود يادگيري Q با استفاده از هم زماني به روزرساني و رويه تطبيقي بر پايه عمل متضاد

 
نویسندگان: 
 
آدرس:  
 
چکیده: 

روش يادگيري Q يکي از مشهورترين و پرکاربردترين روش هاي يادگيري تقويتي مستقل از مدل است. از جمله مزاياي اين روش عدم وابستگي به آگاهي از دانش پيشين و تضمين در رسيدن به پاسخ بهينه است. يکي از محدوديت هاي اين روش کاهش سرعت همگرايي آن با افزايش بعد است. بنابراين افزايش سرعت همگرايي به عنوان يک چالش مطرح است. استفاده از مفاهيم عمل متضاد در يادگيري Q، منجر به بهبود سرعت همگرايي مي شود زيرا در هر گام يادگيري، دو مقدار Q به طور هم زمان به روز مي شوند. در اين مقاله روشي ترکيبي با استفاده از رويه تطبيقي در کنار مفاهيم عمل متضاد براي افزايش سرعت همگرايي مطرح شده است. روش ها براي مساله Grid world شبيه سازي شده است. روش هاي ارائه شده بهبود در ميانگين درصد نرخ موفقيت، ميانگين درصد حالت هاي بهينه، متوسط تعداد گام هاي عامل براي رسيدن به هدف و ميانگين پاداش دريافتي را نشان مي دهند.

 
کلید واژه: 

 
موضوعات مرتبط: 
 
 
مقالات نشریه ای مرتبط:  
 
مقالات همایشی مرتبط: 
 
ارتباط خیلی زیاد ارتباط زیاد مرتبط ارتباط کمتر
 
ارجاعات: 
  • ثبت نشده است
 
استنادات: 
  • ثبت نشده است
 
+جهت ارجاع به این مقاله کلیک کنید(Cite).
APA : کپی

پویان، م.، و گلزاری، ش.، و موسوی، ا.، و حاتم، ا. (1395). بهبود یادگیری Q با استفاده از هم زمانی به روزرسانی و رویه تطبیقی بر پایه عمل متضاد. مهندسی برق و مهندسی کامپیوتر ایران - ب مهندسی کامپیوتر, 14(2), 137-146. https://www.sid.ir/fa/journal/ViewPaper.aspx?id=270010



Vancouver : کپی

پویان مریم، گلزاری شهرام، موسوی امین، حاتم احمد. بهبود یادگیری Q با استفاده از هم زمانی به روزرسانی و رویه تطبیقی بر پایه عمل متضاد. مهندسی برق و مهندسی کامپیوتر ایران - ب مهندسی کامپیوتر. 1395 [cited 2021September24];14(2):137-146. Available from: https://www.sid.ir/fa/journal/ViewPaper.aspx?id=270010



IEEE : کپی

پویان، م.، گلزاری، ش.، موسوی، ا.، حاتم، ا.، 1395. بهبود یادگیری Q با استفاده از هم زمانی به روزرسانی و رویه تطبیقی بر پایه عمل متضاد. مهندسی برق و مهندسی کامپیوتر ایران - ب مهندسی کامپیوتر, [online] 14(2), pp.137-146. Available: https://www.sid.ir/fa/journal/ViewPaper.aspx?id=270010.



 

 
چکیده انگلیسی بازدید یکساله 77 مباني نظري و تجربي ونداليسم: مروري بر يافته هاي يك تحقيق
 
آخرین های بلاگ
ورود به بلاگ مرکز اطلاعات علمی