机器人与触觉传感技术的碰撞,一文初探人类与机器人的触觉传感(19)
2023-06-03 来源:旧番剧
为了解决第二个问题,作者提出使用无导数、基于样本的优化算法在姿态跟踪过程中调整模拟和真实世界的动力学之间存在的不匹配。具体地说,在每个 T 时间步长之后,将在这个窗口期间所有模拟的平均成本,以及模拟状态、参数传递给指定的优化器。优化器使用自己更新的参数确定下一组仿真。下一个集合中的模拟是从当前集合的模拟中取样的,并对模拟参数和对象姿态添加一些扰动。这种探索过程保持了仿真的多样性,防止了由于观测噪声而陷入次优的仿真参数或状态。
最后,为了优化 K 模拟的参数,使其模拟状态更接近真实世界,作者提出并评估了三个无导数、基于样本的优化器。
1)加权重采样(Weighted Resampling ,WRS): WRS 基于现有的模拟状态 s^(1:K)构建了一个概率质量函数(Probability Mass Function,PMF),并从该分布中抽取 K 次替换,以形成下一组模拟。为了形成 PMF,WRS 在模拟成本上应用 softmax:
其中,λ它决定了分布的清晰度。重新采样后,通过扰动模拟参数和对象姿态对所有模拟进行探索。
2) 相对熵策略搜索(Relative Entropy Policy Search,REPS): 本文使用基于样本的 REPS 变量来计算每个模拟的权重,并从这些权重的 softmax 形成的分布中进行采样。WRS 使用一个固定的参数λ来构造分布,REPS 求解自适应温度参数η,该参数在旧样本分布和更新样本分布之间的 KL 散度约束条件下,能够较好地改善总体分布的性能。为了使用 REPS,利用下式将代价重构为奖励: