登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于连续时间半马尔可夫决策过程的犗狆狋犻狅狀算法
  • 摘要

    针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(HierarchicalReinforcementLearning,HRL)来解决其“维数灾”和“建模难”问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-MarkovDecisionProcesses,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.

  • 作者

    唐昊  张晓艳  韩江洪  周雷 

  • 作者单位

    合肥工业大学计算机与信息学院合肥230009; 合肥工业大学电气与自动化工程学院合肥230009/合肥工业大学计算机与信息学院合肥230009

  • 刊期

    2014年9期 ISTIC EI PKU

  • 关键词

    连续时间半Markov决策过程  分层强化学习  Q学习 

相似文献 查看更多>>
3.226.122.74