基于强化学习的机器人抓取之 stochastic search

前言

最近看google的机器人抓取算法QT-Opt,该方法通过stochastic search为每一个state选择action。沿着参考文献一路找到google的Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection,以及Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods,最终搞懂了stochastic search的原理。

stochastic search

也称为 stochastic optimazation。
大概思路是:首先随机选择一些actions,然后通过 Q-function 选出 Q-value 最大的action去执行。
抓取任务中,常用的随机选择actions的方法如下:
1、随机均匀采样:以当前机械臂末端位置为中心,随机均匀采样基于强化学习的机器人抓取之 stochastic search个actions。该篇论文的基于强化学习的机器人抓取之 stochastic search
2、cross-entropy optimization method
(1)假设action满足均值为机械臂末端当前位置的高斯分布,
(2)以上述高斯分布随机选择基于强化学习的机器人抓取之 stochastic search个action
(3)计算每个action的Q-value
(4)选取Q最高的基于强化学习的机器人抓取之 stochastic search个action,计算这组action的均值和方差,并更新上述高斯分布的均值和方差
重复步骤(2-4)基于强化学习的机器人抓取之 stochastic search次,最终得到基于强化学习的机器人抓取之 stochastic search个候选action。
google 的 Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection 论文中基于强化学习的机器人抓取之 stochastic search,步骤(2-4)重复了3次。

cross-entropy optimization method的介绍可以参考http://t.csdn.cn/FlcOt。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年5月26日
下一篇 2022年5月26日

相关推荐