登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
一种用于连续动作空间的最小二乘行动者-评论家方法
  • 摘要

    解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Caela(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能.

  • 作者

    朱斐  刘全  傅启明  伏玉琛  Zhu Fei  Liu Quan  Fu Qiming  Fu Yuchen 

  • 作者单位

    苏州大学计算机科学与技术学院 江苏苏州 215006;苏州大学系统生物学研究中心 江苏苏州 215006/苏州大学计算机科学与技术学院 江苏苏州 215006;符号计算与知识工程教育部重点实验室(吉林大学)长春 130012/苏州大学计算机科学与技术学院 江苏苏州 215006

  • 刊期

    2014年3期 ISTIC EI PKU

  • 关键词

    强化学习  行动者-评论家算法  连续动作空间  最小二乘法  小车平衡杆问题  mountain car问题  reinforcement learning  actor-critic algorithm  continuous action space  least squares method  cart pole balancing  mountain car 

参考文献
  • [1] 刘全,闫其粹,伏玉琛,胡道京,龚声蓉. 一种基于启发式奖赏函数的分层强化学习方法. 计算机研究与发展, 2011,12
  • [2] 刘全,傅启明,杨旭东,荆玲,李瑾,李娇. 一种基于智能调度的可扩展并行强化学习方法. 计算机研究与发展, 2013,4
  • [3] 赵凤飞,覃征. 一种多动机强化学习框架. 计算机研究与发展, 2013,2
  • [4] 刘全,傅启明,龚声蓉,伏玉琛,崔志明. 最小状态变元平均奖赏的强化学习方法. 通信学报, 2011,1
  • [5] Sutton R S;Barto A G. Reinforcement Learning:An Introduction. Cambridge,MA:MITPress, 1998
  • [6] van Hasselt H;Wiering M. Reinforcement learning in continuous action spaces. Piscataway,NJ:IEEE, 2007
  • [7] van Hasselt H. Reinforcement Learning:State of the Art. Berlin:Springer-Verlag, 2007
  • [8] Busoniu L;Babuska R;De Schutter B. Reinforcement Learning and Fynamic Programming Using Function Approximators. New York:CRC Press, 2010
  • [9] Bhatnagar S;Sutton R S;Ghavamzadeh M. Natural actor-critic algorithms. AUTOMATICA, 2009,11
  • [10] Singh S P;Sutton R S. Reinforcement learning with replacing eligibility traces. Machine Learning, 1996,1/2/3
  • [11] Jan P;Stefan S. Natural actor critic. NEUROCOMPUTING, 2008,07
  • [12] Jan P;Vijayakumar S;Stefan S. Reinforcement learning for humanoid robotics. Piscataway,NJ:IEEE, 2003
  • [13] Degris T;Pilarski P M;Sutton R S. Model-free reinforcement learning with continuous action in practice. Piscataway,NJ:IEEE, 2012
  • [14] Sutton R S;Modayil J;Delp M. A scalable real-time architecture for learning knowledge from unsupervised sensorimotor interaction. Richland,SC:International Foundation for Autonomous Agents and Multiagent Systems, 2011
  • [15] Silver D;Sutton R S;Müller M. Temporal-difference search in computer Go. Machine Learning, 2012,02
  • [16] Sutton R S;McAllester D;Singh S. Policy gradient methods for reinforcement learning with function approximation. Cambridge,MA:The MIT Press, 2000
查看更多︾
相似文献 查看更多>>
52.201.27.211