首页 > 科技项目
一种采用资格迹的神经网络学习控制方法

行业分类:人工智能地区:0联系人:刘智斌

融资: 面议    

1、本发明公开了一种采用资格迹的神经网络学习控制方法,具体涉及神经网络学习控制领域,它解决了将BP神经网络运用于强化学习中,效率低、速度慢、收敛效果差等问题。采用资格迹...

具体了解该项目信息,请致电:027-87555799 邮箱 haizhi@uipplus.com

1、本发明公开了一种采用资格迹的神经网络学习控制方法,具体涉及神经网络学习控制领域,它解决了将BP神经网络运用于强化学习中,效率低、速度慢、收敛效果差等问题。采用资格迹的神经网络学习控制算法,将BP神经网络应用于强化学习,BP神经网络的模型拓扑结构包括输入层、隐层和输出层,运用资格迹,本方法把局部梯度从输出层传递到隐层,实现隐层权值的更新,能大大提高学习效率;另外,在此基础上采用改进的残差梯度法,不仅对神经网络输出层进行权值更新,而且对隐层进行了优化权值更新,保证了BP神经网络在强化学习过程中良好的收敛性能。BP神经网络作为强化学习值函数拟合器,其输入端接收状态信息,依据BP神经网络输出层的输出值V和环境反馈的报酬信息r,利用TD算法训练BP神经网络,Agent依据输V值函数选取行为a,从而实现自适应控制。2、主要技术指标:设定参数为: 学习率, 折扣因子, 资格迹系数, 探索行为选择概率, 改进残差法参数。神经网络采用4-16-1结构, 隐层节点采用sigmoid型激活函数, 输出层节点采用线性函数。3、应用行业、市场优势和市场前景:本发明提供了一种通用的强化学习优化控制方法,应用的领域包括自适应控制、自动驾驶、机器人、智能交通、智能物联网、量化基金预测、虚拟现实、计算机游戏、数据挖掘等人工智能应用场景。