背景
在不可见环境中有效地导航到指定目标的更优方法
提高模型的泛化能力
概述
提出了一种分层对象-区域图(HOZ)来由粗到细地引导实体。
HOZ 由场景(scene)节点、区域(zone)节点和对象(object)节点组成,HOZ 图可以根据视觉信息实时更新,通过预先学习的 HOZ 图和实时观察以及目标,对象实体能不断规划一个区域(zone)到另一个区域的最优路径。在规划的路径中,下一个潜在区域也被视为子目标被输入到深度强化学习模型中。
简介
HOZ 图简单运行过程
开始时候,实体位于 zone 6(蓝色),目标落地灯位于 zone 4(红色),HOZ 图规划了一条实时的最优路径 zone 6 -> zone 1 -> zone 2 -> zone 4,那么实体的下一个子目标是 zone 1(绿色)。同理,实体不断更新子目标,直到到达目标。
研究方向
- 学习适应于各类环境的自适应空间信息表示
将学习的信息适应于在不可视的空间中导航
导航的核心思想是区域(zone)
训练过程
为所有场景构建以一个通用的 HOZ 图,因为相同类型的场景一般具有相似的空间结构
每一个场景节点都有一个对应的场景 HOZ 图,其区域节点是通过匹配和合并形成的房间大小的 HOZ 图。
对于每个房间大小的 HOZ 图,每个区域节点代表一组相关的对象,每个区域的边缘根据相邻概率来建模两个相邻区域。
然后通过在照片级真实度的模拟器里(AI2-Thor)进行深度强化学习,训练一个区域到动作(zone-to-action)的 LSTM 策略。
对于每一次事件(episode),预学习的 HOZ 图有助于从当前区域规划到目标区域的最优路径,从而推断出下一个潜在区域作为子目标。
子目标将被输入图卷积网络(GCN)来预测动作。
考虑不同环境有着不同的区域布局,提出了一种在线学习机制来根据当前从未遇见过的场景来实时更新经过一般学习的 HOZ 图。
这样,初始的 HOZ 图将向着当前环境布局来发展,但是更新仅对从初始 HOZ 图的一个事件和每个事件的开始过程有效。
评价指标
成功率 Success Rate(SR)
成功路径长度 Success weighted by Path Length(SPL)
成功行动效率 Success weighted by Action Efficiency(SAE)
贡献
- 拥有先验知识以更简单的子目标来指导导航实体的 HOZ 图
提出了新评估指标 SAE
通过将 HOZ 图用于区域到行动的策略中,导航表现在 SR、SPL、SAE指标有明显替身
图 2.模型概述 模型由分层对象到区域(HOZ)图和区域到动作(LTSM)组成。给定目标物体和当前视觉信息,实体首先识别场景类别,定位当前区域,根据 HOZ 图推导出下一子目标区域,HOZ 图根据对看不见区域的观察在每个时间戳更新。LTSM 将根据 HOZ 图提供的连接信息来预测有效动作。
相关工作
符号定义
考虑一组环境 Q 和对象 P,在每个导航事件(episode)中,实体被初始化到一个环境 q ∈ Q 中的随机位置 l={x,z, θyaw, θpitch},x、z表示平面坐标, θyaw,、θpitch表示实体的偏航角和俯仰角(?)。
在每一个时间片 t 中,实体学习一个策略函数 π (at|ot,p),它将基于第一人称视角 ot 和目标位置 p ∈ P 预测下一动作 at ∈ A ,离散动作空间 A ={向前移动,向左旋转,向右旋转,向下看,查找,完成}。动作“完成”由实体本身发出而不是环境通知,实体捕获到目标并离目标足够近(小于临界点)时认为导航成功。
分层对象-区域(HOZ)图
构建过程
考虑如下层次结构的区域。我们的环境由几个场景构成,例如卧室、客厅、厨房等,每个场景包含几个房间。每个房间 i ∈ {1, 2, . . . , n} ,我们得到按房间的 HOZ 图 Ωi (Vi,Ei),其区域节点由以自己为中心的观察特征进行聚类获得,边缘为两个区域的相邻概率(追溯到每个包含对象的共现概率)。融合这些按场景分组的房间级 HOZ 图就得到了场景级 HOZ 图 Gs (Vs,Es),所有场景级 HOZ 图都拥有相同的结构,并构成了最终的 HOZ 图。
# 算法 1 场景级 HOZ 图构建
输入: K :区域数量
输入: (Room1, . . . , Roomn) :相同的场景的房间
创建房间级 HOZ 图数组 Ω
for i <- 1 to n do
实体在 ROOMi 随机探索获取到的特征和位置 [(f1, l1), · · · ,(fd, ld)]
创建图 Gr(Vr, Er)
(C1, · · · , CK) ← K均值聚类 K-Means(f1, · · · , fd, K)
Vr ← 聚类中心 cluster centers (C1, · · · , CK)
Er ← 公式 1 计算边
Ωi ← Gr(Vr, Er) 将房间级 HOZ 图放入 Ω
end for
创建场景级 HOZ 图 Gs(Vs, Es)
初始化 Gs(Vs, Es) ← Ω1
for i <- 2 to n do
创建加权二分图 Gb (Vb, Eb)
Vb ← Vs (Gs 的所有节点), Vi (Ωi 的所有节点)
ω(Eb) ← 公式 2 计算相似度
完美匹配 Ψ∗ ← Kuhn-Munkres( ω(Eb) ) (二分图完美匹配)
更新 Gs ← Avg(Gs, Ωi, Ψ∗) 根据参考图 3
end for
输出:场景级 HOZ 图 Gs(Vs, Es)
Comments | NOTHING