摘要
在长且未剪辑的视频中对细粒度子任务进行时间定位和分类,对于安全的人机协作至关重要。与通用活动识别不同,协作操作需要可以直接由机器人执行的子任务标签。本文提出RoboSubtaskNet,一种多阶段的人到机器人的子任务分割框架,结合注意力增强的I3D特征(RGB加光流)与改进的MS-TCN网络,采用斐波那契扩张计划以更好地捕捉短时域转换(如抓取-拾取-放置)。网络通过包含交叉熵和时间正则化项(截断MSE和转换感知项)的复合目标函数进行训练,以减少过度分割并鼓励有效的子任务进展。为弥合视觉基准与控制之间的差距,我们引入了RoboSubtask数据集,包含医疗和工业演示的子任务级标注,并设计用于确定性映射到机械臂原语。实验表明,RoboSubtaskNet在GTEA和RoboSubtask基准测试中优于MS-TCN和MS-TCN++,并在Breakfast基准上保持竞争力。此外,该方法在7自由度Kinova Gen3机械臂上的端到端行为验证中表现出可靠的物理试验性能。
AI 推荐理由
论文聚焦于机器人技能转移,涉及子任务分割与可执行标签,直接关联Agent的技能学习与工具使用。
论文信息