基于无监督学习环境模型的机器人运动控制|IROS 2021 | 模型( 三 )

中必须含有智能体的动作信息 。而仅当 是智能体的特征图时,此模块的输入才含有充分的动作信息。

Object Extractor 和 Interaction Learner 在视频数据集上端到端地训练,优化目标是:
直观地,最小化前一项能够激励图像编码器解耦不同的物体、运动编码器分解不同物体的位移,最小化后一项能够激励第一张特征图表示智能体的空间位置信息、交互学习模块学习用 代替 的环境模型。
动作映射(Action-Transformation Mapping):为将交互学习模块转化为输入真实动作 的环境模型,我们利用少量的带动作标注的数据学习映射 。环境模型做预测的流程如下:输入历史观测 和智能体动作 ,通过动作映射将 转换为矩阵 ,通过图像编码器提取 ,用空间变换器得到 【 基于无监督学习环境模型的机器人运动控制|IROS 2021 | 模型】 ,最后通过交互学习模块输出下一时刻的观测
基于无监督学习环境模型的机器人运动控制|IROS 2021 | 模型
文章插图
图4. DMotion应用于机器人运动控制的框架
机器人运动控制:DMotion 应用于机器人运动控制的框架如图4所示。给定一个目标图像,规划算法利用学习的环境模型(Forward Model),搜索出最优的决策动作 ,从而控制环境中的机械臂推动物体,达到目标图像的物体摆放位置。
3

实验结果
视频预测:我们以图像均方误差(MSE)和物体位置的平均误差(Pos err.)为指标,在 Grid World、Robot Pushing 环境中测试视频预测的准确性。表1显示了我们方法的表现比所有使用10%标注数据的有监督方法更好。在多数指标上,我们方法的准确性超过了使用全部标注数据的监督学习方法。