最終更新日:
【強化学習編】機械学習/ディープラーニングのおすすめ論文30選
はじめに
今回は強化学習編として、Transformer/BERTの発展モデルや新たな学習法・正則化方法の提案に関する内容などの最新論文を7本ご紹介します!著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習(AutoML)を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください!
また、おすすめの論文30選をまとめている下記の記事も合わせてご覧ください。
【強化学習編】機械学習/ディープラーニングのおすすめ論文
-
CoBERL: Contrastive BERT for Reinforcement Learning
- 実装のURL:https://github.com/deepmind/dm_control
- 強化学習における新たなエージェント「Contrastive BERT for Reinforcement Learning(CoBERL)」を提案
- BERTから着想を得た上で、新たな対照損失及びLSTMとTransformerを組み合わせたアーキテクチャを導入
- Atariゲームにおいて57ゲーム中49ゲームで人間のスコアを上回った
-
Decision Transformer: Reinforcement Learning via Sequence Modeling
- 実装のURL:https://github.com/kzl/decision-transformer
- Transformerやzero-shot学習など、最近大きな成功を収めている手法から着想を得た強化学習方法「Decision Transformer」を提案
- 強化学習の要素にTransformer等を用いるのではなく、系列データのモデリング問題に置き換えてからTransformerなどを適用して学習している
- AtariとOpenAI Gymにおいて既存手法と同等かそれ以上のスコアを達成
-
Zeroth-Order Actor-Critic
- 実装のURL:なし
- 勾配情報を利用しない進化戦略と方策勾配法を組み合わせたZOAC(Zeroth-Order Actor-Critic)を提案
- 進化戦略における”パラメータ数が大きくなると最適化に必要なサンプル数が増加する”という短所を、方策勾配法で補助することで解消
-
Efficient Learning of Safe Driving Policy via Human-AI Copilot Optimization
- 実装のURL:なし
- 新たなhuman-in-the-loop学習法であるHACO(Human-AI Copilot Optimization)を提案
- HACOは運転タスクで既存手法のスコアを上回り、学習ステップも大幅に減少した
- HACOによる自動運転は、従来手法と比較して慎重な行動を行う傾向にあり、より高度な能力を付加していくことを示唆している
-
Regularizing Action Policies for Smooth Control with Reinforcement Learning」
- 実装のURL:なし
- 強化学習において、学習されたコントローラの出力が安定せず発振してしまう問題を解決するために、新たな正則化方法としてCAPS(Conditioning for Action Policy Smoothness)を提案
- CAPSは時間的な平滑性と空間的な平滑性の2つの要素を持っており、シミュレーションから実用に転用しやすいように設計されている
- ドローンの姿勢制御を対象とし、実験でCAPSは性能を維持したまま平滑性を向上させ、実用的には消費電力を80%削減させた
-
SimGAN: Hybrid Simulator Identification for Domain Adaptation via Adversarial Reinforcement Learning
- 実装のURL:https://github.com/jyf588/SimGAN
- sim-to-real transferのような、一度学習した方策を他のドメインに転移するドメイン適応の新たなフレームワークであるSimGANを提案
- ニューラルネットワークと物理シミュレーションを組み合わせており、物理シミュレーションの認識にはGANを利用
- ロボットの歩行タスクにおいて、ベースラインを上回るスコアを達成
-
Data-Efficient Learning for Complex and Real-Time Physical Problem Solving using Augmented Simulation
- 実装のURL:なし 強化学習における新たなエージェン
- 人間が直感的に理解できても、機械が学習するには膨大なサンプル数が必要となるようなタスク(論文内では迷路内のビー玉をゴールへ導くタスク)を実用に耐えうる時間内で学習できるモデルを提案
- 物理エンジンと実システムの出力の残差をガウス過程回帰で補正する、というプロセスを反復的に行っている
- 汎用的な物理エンジンをベースに設計しているため、転移学習が容易で、ロボット制御の面での発展を示唆している
まとめ
この記事では、機械学習/ディープラーニングのおすすめ論文30選の中から、強化学習編をピックアップしてご紹介しました。
スキルアップAIでは、Transformer/BERTの基礎および強化学習の基礎から応用まで学ぶ「現場で使えるディープラーニング基礎講座」や、AIの説明可能性について学ぶ「現場で使える XAI(Explainable AI)講座」を開講しています。基礎から学びたい方は、ぜひチェックしてみてください。
また、弊社がリリースする論文検索アプリ「ScholarPlanets」もぜひご活用ください。
◆機械学習/ディープラーニングのおすすめ論文30選の一覧はこちら
◆「コンピュータビジョン編」の論文解説はこちら
◆自然言語処理編」の論文解説はこちら
◆実務応用編」の論文解説はこちら
【監修】スキルアップAI 取締役CTO 小縣信也
AI指導実績は国内トップクラス。「太陽光発電発電量予測および異常検知」など、多数のAI開発案件を手掛けている。日本ディープラーニング協会主催2018E資格試験 優秀賞受賞、2019#1E資格試験優秀賞受賞。著書「徹底攻略ディープラーニングE資格エンジニア問題集」(インプレス)。
配信を希望される方はこちら
また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
公開日: