基于强化学习的机器人抓取之 stochastic search

乘风 • 2022年5月26日上午11:16 • 技术文章 • 阅读 358

前言

最近看google的机器人抓取算法QT-Opt，该方法通过stochastic search为每一个state选择action。沿着参考文献一路找到google的Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection，以及Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods，最终搞懂了stochastic search的原理。

stochastic search

也称为 stochastic optimazation。
大概思路是：首先随机选择一些actions，然后通过 Q-function 选出 Q-value 最大的action去执行。
抓取任务中，常用的随机选择actions的方法如下：
1、随机均匀采样：以当前机械臂末端位置为中心，随机均匀采样基于强化学习的机器人抓取之 stochastic search 个actions。该篇论文的。
2、cross-entropy optimization method：
（1）假设action满足均值为机械臂末端当前位置的高斯分布，
（2）以上述高斯分布随机选择个action
（3）计算每个action的Q-value
（4）选取Q最高的基于强化学习的机器人抓取之 stochastic search 个action，计算这组action的均值和方差，并更新上述高斯分布的均值和方差
重复步骤（2-4）次，最终得到个候选action。
google 的 Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection 论文中基于强化学习的机器人抓取之 stochastic search ，步骤（2-4）重复了3次。