论文合集||ICLR2023 强化学习论文合集

发表时间:2023-05-22 13:44作者:沃恩智慧

国际表征学习大会(International Conference on Learning Representations,简称 ICLR)是深度学习领域的顶级会议,关注有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。

沃恩智慧小编对 ICLR 2023 收录的会议论文进行了分类整理,今日分享的是强化学习方向的论文,在这里展示一些比较受欢迎的论文,希望对在科研路上的学员们有所帮助!

1. In-context Reinforcement Learning with Algorithm Distillation
我们提出了算法提取(AD),一种将强化学习算法的神经网络投影到神经网络中的方法。该算法利用因果序列模型将训练历史建模为一项跨episode的连贯预测问题。生成的训练历史数据集通过源LR算法生成,然后由反向推理训练的因果转换训练。我们证明,AD在各种环境中可以学习具有较少的奖金、组合任务结构和图像的强化算法,并发现AD学习了一个比源数据收集的数据更快的数据效率的RL算法。
论文链接:https://arxiv.org/abs/2210.14215

2. Powderworld: A Platform for Understanding Generalization via Rich Task Distributions
在 PowderWorld中,提供了两个激励挑战分布,一个用于世界建模和一个用于强化学习。每个分布包含手工设计的测试任务,以检查泛化。实验表明,环境的复杂性提高了世界模型和某些强化学习agent的泛化,但可能阻碍了在高 variance环境中学习。为了解决这个问题,我们提出了一种轻型但有表达能力的模拟环境。
论文链接:https://arxiv.org/abs/2211.13051

3. Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization
我们解决了将大型语言模型(LMs)与人类偏好的对齐问题。如果我们认为文本生成作为顺序决策问题的自然概念框架,强化学习(RL)似乎是一种自然的概念框架。然而,对于基于LM的生成器来说,这项任务面临的实证挑战,包括训练不稳定性以及缺乏开放资源和改进度量。
论文链接:https://arxiv.org/abs/2210.01241

4. Extreme Q-Learning: MaxEnt RL without Entropy
我们描述了一种新的在线和 offline超大值学习规则,该规则直接使用极性价值理论(EVT)估计最大值。通过这样做,我们可以避免计算出分布式动作中使用的Q值,这通常是一种很大的错误来源。我们的关键洞察是引入一个目标,它可以直接在最大熵下估计最优软值函数(LogSumExp)。
论文链接:https://arxiv.org/abs/2301.02328

5. Evaluating Long-Term Memory in 3D Mazes
我们介绍了记忆陋室,一种专门为评估战术人员的长寿能力的3D领域。与现有的基线相比,陋室测量长寿能力不同,需要 agent将信息融合并本地化。我们提出了一个在线激励学习基线,一个多种 offline数据集和 offline检验评估。
论文链接:https://arxiv.org/abs/2210.13383

6. Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning
offline reinforcement学习(RL),旨在学习一个有效的政策,使用以前收集的静态数据集,是RL的一个重要范畴。标准的RL方法通常在这一任务中表现不佳,因为在外部收集动作对齐错误造成的函数近似错误。然而,已经提出了许多适当的规则化方法来解决这个问题,但这些方法通常受到有限的表达能力限制,有时会导致几乎不optimal的解决方案。在本文中,我们提出了一种新的基于条件传播模型的动态调整算法,该算法利用了条件传播模板作为高度表达性的政策类。在我们的方法中,我们在决策损失中学习了一个决策值函数,并添加了一个最大化决策值的时间限制。我们表明,基于模型的政策的表达性和决策改善结合在一起,产生了卓越的性能。
论文链接:https://arxiv.org/abs/2208.06193

7. Solving Continuous Control via Q-learning
我们提出了一种新的监督学习方法,该方法结合了动作分解和价值分解,并将单个agent控制应用于协同优化。我们证明了这种方法可以显著减少监督学习所需的复杂性。我们还将监督学习扩展到类似的协同学习,以便在各种监督任务中提供良好的性能。
论文链接:https://arxiv.org/abs/2210.12566

8. Priors, Hierarchy, and Information Asymmetry for Skill Transfer in Reinforcement Learning
在本文中,我们展示了如何利用信息熵来限制学习者的表达性和推理能力。这项研究表明,虽然信息熵对学习能力的影响很大,但对传理能力的影响并不大。我们提出了一种原则性的选择方法,并将该方法应用于一个复杂的、机器人堆栈堆栈领域的实验。

论文链接:https://arxiv.org/abs/2201.08115



分享到: