机器人技能转移 子任务分割 视觉-控制映射 机械臂控制 深度学习
摘要

在长且未剪辑的视频中对细粒度子任务进行时间定位和分类,对于安全的人机协作至关重要。与通用活动识别不同,协作操作需要可以直接由机器人执行的子任务标签。本文提出RoboSubtaskNet,一种多阶段的人到机器人的子任务分割框架,结合注意力增强的I3D特征(RGB加光流)与改进的MS-TCN网络,采用斐波那契扩张计划以更好地捕捉短时域转换(如抓取-拾取-放置)。网络通过包含交叉熵和时间正则化项(截断MSE和转换感知项)的复合目标函数进行训练,以减少过度分割并鼓励有效的子任务进展。为弥合视觉基准与控制之间的差距,我们引入了RoboSubtask数据集,包含医疗和工业演示的子任务级标注,并设计用于确定性映射到机械臂原语。实验表明,RoboSubtaskNet在GTEA和RoboSubtask基准测试中优于MS-TCN和MS-TCN++,并在Breakfast基准上保持竞争力。此外,该方法在7自由度Kinova Gen3机械臂上的端到端行为验证中表现出可靠的物理试验性能。

AI 推荐理由

论文聚焦于机器人技能转移,涉及子任务分割与可执行标签,直接关联Agent的技能学习与工具使用。

论文信息
作者 Dharmendra Sharma, Archit Sharma, John Rebeiro, Vaibhav Kesharwani, Peeyush Thakur et al.
发布日期 2026-02-10
arXiv ID 2602.10015
相关性评分 9/10 (高度相关)