函数|新疆中亚商品交易中心 对抗式模仿学习

【 函数|新疆中亚商品交易中心 对抗式模仿学习】?为克隆和逆强化学习作为两种模仿学习的?法,都存在?定的缺陷,我们?然就会考虑是否有?种?法可以将?者的优势结合起来,既能直接求解?为策略,?不会受到累积误差问题的影响呢?

在逆强化学习中,我们学习了?个奖励函数, 我们可以?这个奖励函数来评估智能体策略与?类策略的相似度,但是这个奖励函数不能直接指导智能体进??动。那么既然智能体的?标是模仿?类的策略,那么我们是否可以不?显式的求出?个奖励函数?来评估AI策略与?类策略的相似性呢?