【コンピュータビジョン編】機械学習/ディープラーニングのおすすめ論文30選

はじめに

今回はコンピュータビジョン編として、生成モデル、画像認識や物体検出を中心に著名な国際会議に採択された最新論文を合計9本ご紹介いたします。著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習（AutoML）を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください！

また、おすすめの論文30選をまとめている下記の記事も合わせてご覧ください。

【コンピュータビジョン編】機械学習/ディープラーニングのおすすめ論文

OpenGAN: Open-Set Recognition via Open Data Generation
- 実装のURL：https://github.com/aimerykong/OpenGAN
- ICCV2021ベストペーパー
- 学習データに含まれるクラス以外の新たなクラスに対しても適切に予測と学習を行うタスクであるオープンセット認識の精度を向上させたOpen-GANを提案
- open-vs-closed （未知クラス vs. 既知クラス）の分類をピクセルではなく、OTS (off-the-shelf) 特徴量（既存の多クラス分類器による特徴量）を用いている
- 未知のクラスが含まれるオープンのデータセットの訓練を強化するために、敵対的に偽のオープンデータを合成

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
- 実装のURL：https://github.com/bmild/nerf
- ECCV2020採択論文
- 画像を入力として、三次元のモデルを生成するニューラルレンダリング手法を提案
- 位置+角度の五次元の入力に対して、体積密度と輝度を出力する全結合ニューラルネットワークを用いて、従来のボクセル表現を用いたCNNより高精度なレンダリングを実現

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections
- 実装のURL：なし
- 異なる環境（天気、時間帯など）で撮影された入力画像であっても高い精度でニューラルネットワークベースのレンダリングを可能とする NeRF-W を提案
- 画像内の要素を対象物体とそれ以外に映り込んだ物体（人など）に分解することで、写り込みの多い画像からでもレンダリング可能としている

Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
- 実装のURL：https://github.com/microsoft/Swin-Transformer
- ICCV2021ベストペーパー
- 新たなVision TransformerであるSwin-Transformerを提案
- CNNやRNNを使用しないため、従来手法と比較して高速に処理可能かつ、物体認識やセマンティックセグメンテーションで従来手法より高性能
- 画像認識だけでなく、自然言語処理にも応用可能であることが示唆されている

MLP-Mixer: An all-MLP Architecture for Vision
- 実装のURL：https://github.com/google-research/vision_transformer
- CNNやAttentionを用いずに多層パーセプトロン（MLP）をベースにした画像処理のモデル「MLP-Mixer」を提案
- 大規模なデータセットで学習したとき、画像分類のタスクにおいて、MLP-Mixerは既存手法と同等のスコアを達成
- 画像分類タスクに限らず、さまざまなタスクに応用可能

Pay Attention to MLPs
- 実装のURL：なし
- MLPをベースにし、Attentionの代わりにゲート機構を採用したネットワーク構造「gMLP」を提案
- gMLPが同等の性能を発揮したことから、Self-AttentionがVision Transformerにおいて性能向上にクリティカルな要素ではないことを示している

Exploring simple siamese representation learning
- 実装のURL：https://github.com/facebookresearch/simsiam
- 画像における教師なし表現学習手法であるSiamese Networkの改良手法「Simple Siamese Network」を提案
- Siamese Networkが自明解を出力してしまう”collapsing”を、反復最適化中のパラメータの更新を停止するstop-gradientを用いて解決
- 一方で、stop-gradientがSiamese Networkに効果的である理由は不明で、本稿ではEMアルゴリズムを用いた仮説を立てている

A Simple Framework for Contrastive Learning of Visual Representations
- 実装のURL：https://github.com/google-research/simclr
- 対照学習において、従来手法よりシンプルかつ特徴的な構造やメモリーバンクを必要としないSimCLRを提案
- どのような要素が対照学習に良いかを示している
- 画像分類タスクにおいて、SimCLRは教師あり学習のベースラインと同等かそれ以上の性能を達成

Transformation Driven Visual Reasoning
- 実装のURL：https://hongxin2019.github.io/TVR/
- Visual Reasoningにおける新たなデータセットTRANCEを提案
- 既存のデータセットであるCLEVRでは、初期状態から推論を行うState Drivenで行われていたが、本論文では、初期状態と最終状態から、その過程を推論するTransformation Drivenで行うことを提案
- 現在のVisual Reasoningの手法では、初期状態と最終状態を結ぶシングルステップの過程の推論は高い精度で達成しているが、マルチステップの推論では人間の知能には遠く及ばないことが実験で示されている