RoboSubtaskNet：面向现实环境的人机技能转移的时间子任务分割

机器人技能转移子任务分割视觉-控制映射机械臂控制深度学习

摘要

在长且未剪辑的视频中对细粒度子任务进行时间定位和分类，对于安全的人机协作至关重要。与通用活动识别不同，协作操作需要可以直接由机器人执行的子任务标签。本文提出RoboSubtaskNet，一种多阶段的人到机器人的子任务分割框架，结合注意力增强的I3D特征（RGB加光流）与改进的MS-TCN网络，采用斐波那契扩张计划以更好地捕捉短时域转换（如抓取-拾取-放置）。网络通过包含交叉熵和时间正则化项（截断MSE和转换感知项）的复合目标函数进行训练，以减少过度分割并鼓励有效的子任务进展。为弥合视觉基准与控制之间的差距，我们引入了RoboSubtask数据集，包含医疗和工业演示的子任务级标注，并设计用于确定性映射到机械臂原语。实验表明，RoboSubtaskNet在GTEA和RoboSubtask基准测试中优于MS-TCN和MS-TCN++，并在Breakfast基准上保持竞争力。此外，该方法在7自由度Kinova Gen3机械臂上的端到端行为验证中表现出可靠的物理试验性能。

AI 推荐理由

论文聚焦于机器人技能转移，涉及子任务分割与可执行标签，直接关联Agent的技能学习与工具使用。

论文信息

作者 Dharmendra Sharma, Archit Sharma, John Rebeiro, Vaibhav Kesharwani, Peeyush Thakur et al.

发布日期 2026-02-10

arXiv ID 2602.10015