网站导航

新闻中心

当前位置:主页 > 新闻中心 >
必读论文 | 20篇强化学习研究必读论文速递
时间:2021-10-10 16:08 点击次数:
本文摘要:强化学习是机械学习中的一个领域,强调如何基于情况而行动,以取得最大化的预期利益。其灵感泉源于心理学中的行为主义理论,即有机体如何在情况给予的奖励或处罚的刺激下,逐步形成对刺激的预期,发生能获得最大利益的习惯性行为。 本期特推出 20 篇强化学习必读论文。

亚博手机版

强化学习是机械学习中的一个领域,强调如何基于情况而行动,以取得最大化的预期利益。其灵感泉源于心理学中的行为主义理论,即有机体如何在情况给予的奖励或处罚的刺激下,逐步形成对刺激的预期,发生能获得最大利益的习惯性行为。

本期特推出 20 篇强化学习必读论文。1. Emergent Tool Use From Multi-Agent Autocurricula作者:Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch本篇论文作者前六位来自 Open AI, 第七位作者来自 Google Brain. OpenAI 是在游戏开刊行业中使用机械学习的领先者之一。此论文展示了一个游戏 AI 演示,它学习如何在捉迷藏游戏中形成自己的获胜计谋。

通过隐式的课程学习中,在一个具备互动和竞争机制的情况中,差别的智能体之间可以连续地找到新任务,它们也就可以连续地学会新的计谋。2. Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables作者:Kate Rakelly, Aurick Zhou, Deirdre Quillen, Chelsea Finn, Sergey Levine这篇论文由 Berkeley Artificial Intelligence Research (BAIR) Lab 揭晓在 ICML 2019 上。主要孝敬在于提出了一种新的视角来解决元学习中任务的学习样本使用率不高的问题。

这篇事情致力于用 task encoding 的方法来解决如何从已往学习的任务中针对新的任务获取有效的信息,以及如何对新任务的不确定性做出更准确的判断的问题。此篇论文将 task inference 与 learning 历程分散的点子来自于 POMDPs 的探索历程,通过这样的分散,使得 meta-RL 中对样本的使用率提高。3. Guided Meta-Policy Search作者:Russell Mendonca, Abhishek Gupta, Rosen Kralev, Pieter Abbeel, Sergey Levine, Chelsea Finn传统的元强化学习方法在 meta-training 历程中需要大量的数据,因为许多是 on-policy 的。

在许多问题中很难满足。本篇论文探索在元学习阶段(learn a RL procedure;外循环)提供监视信息,实际使用有监视的模拟学习,这样可以充实使用 off-policy 数据,内循环仍然是一个 RL 学习。模拟的专家计谋可以是尺度强化学习方法自动发生的,这样实际上不需要分外的监视假设。

亚博app下载链接

如果能联合人类的规范,可以更有效地训练。在 meta-training 阶段使用规范能在元优化阶段有效资助探索,使其在稀疏奖励情况下更有效地学习。4. Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning作者:Harm van Seijen, Mehdi Fatemi, Arash Tavakoli为了更好地相识折现系数的差别方式是如何影响强化学习的优化历程,本篇论文设计了一套单独研究每种效果的实验。

研究讲明传统的看法,即低折扣因子体现欠佳是由(太)小的行动差距引起需要修订。研究提出状态空间中行动差距的规模差异是主要的原因,并提出一种新的方法来,以资助近似的强化学习方法启用较低的折扣因子。

5. Distributional Reinforcement Learning for Efficient Exploration作者:Borislav Mavrin, Shangtong Zhang, Hengshuai Yao, Linglong Kong, Kaiwen Wu, Yaoliang Yu在漫衍强化学习中,价值函数模型的预计漫衍具有参数和固有的不确定性。本篇论文具有两个组成部门的深度强化学习提供一种新颖且有效的探索方法。首先是通过衰减的时间表,以抑制内在的不确定性。第二是探索凭据上分位数盘算的奖金学习分配。

亚博APP

在 Atari 2600 游戏中,研究的 14 个方法中有 12 个方法优于 QR-DQN 硬游戏。6.How to Combine Tree-Search Methods in Reinforcement Learning作者:Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor本篇论文作者来自以色列理工学院、法国国家信息与自动化研究所。

获得 2019 年 AAAI 集会的最佳论文奖。有限时域前瞻计谋(Finite-horizon lookahead policies)被大量用于强化学习,并获得了令人印象深刻的实证结果。通常,前瞻计谋是使用特定的计划方法实现的,例如蒙特卡罗树搜索(例如在 AlphaZero 中)。这些实现中有一种合理的做法是将计划问题视为树搜索,其仅在叶节点处备份值,而在根节点下获取的信息不用于更新计谋。

本文对这种方法的有效性提出质疑。即,后一个历程通常是非收缩的,而。


本文关键词:必读,论文,20篇,强化,学习,研究,亚博APP,速递,强化

本文来源:亚博APP-www.yjylc368.com

如果您有任何问题,请跟我们联系!

联系我们

Copyright © 2000-2021 www.yjylc368.com. 亚博APP科技 版权所有 备案号:ICP备60113033号-6

地址:贵州省遵义市陇县化升大楼4074号

在线客服 联系方式 二维码

服务热线

0149-352422320

扫一扫,关注我们