【ハイブリッドモデルによる異常検知】異常検知連載シリーズその4

こんにちは。スキルアップAIの岩永です。私は現在、ディープラーニングを用いた異常検知の研究をしています。

「【深層学習（ディープラーニング）による異常検知】異常検知連載シリーズその1」において、深層学習による異常検知は、大きく3つのアプローチに分けられるという話をしました。第4回となる本記事では、それらアプローチのうちの1つである、ハイブリッドモデルによる異常検知に焦点を当て、その派生手法を紹介していきます。ハイブリッドモデルによる異常検知の基本的な考え方については、第1回の記事をご参照ください。

深層学習（ディープラーニング）による異常検知に関する記事一覧

【入門】異常検知とは｜意味や事例、メリット、代表的な手法、導入課題を解説

<目次>

ハイブリッドモデルによる異常検知
DAGMM
Deep SVDD
Deep SAD
もっと詳しく学びたい方へ
参考文献

1.ハイブリッドモデルによる異常検知

第1回の記事で、ハイブリッドモデルによる異常検知の概要をご紹介しました。ハイブリッドモデルとは、次元が高いデータに対して次元削減を行い、その結果を従来の機械学習モデルに入力し、異常検知を行うというものです。近年、この一連の流れをニューラルネットワークを用いてエンドトゥエンド(end to end)に実装する方法がいくつか提案されています。

ハイブリッドモデルによる異常検知の主な手法は下記の3つです。

DAGMM
Deep SVDD
Deep SAD

図1. ハイブリッドモデルによる異常検知の主な手法

次の章から、主な3つの手法についてそれぞれ解説していきます。

2.DAGMM

DAGMM[1]では、自己符号化器(autoencoder)により次元削減を行い、混合ガウスモデル(Gaussian Mixture Model；GMM)により異常検知を行うという処理をエンドトゥエンドで行います。DAGMMの登場以前にも、自己符号化器と混合ガウスモデルを組み合わせる手法はありましたが、その手法では、エンドトゥエンドではなく、それぞれを個別に学習していました。そのため、混合ガウスモデルが異常を判定するのに必要な情報を、自己符号化器が潰してしまう可能性がありました。

図2にDAGMMの模式図を示します。Compression Networkでは、入力された画像を、自己符号化器によって特徴を圧縮します。Estimation Networkでは、自己符号化器によって圧縮された特徴と再構成誤差から、各正規分布に属する確率(帰属度)を算出します。その後、圧縮された特徴と帰属度を用いて混合ガウスモデルのパラメータを推定します。

図2. DAGMMの模式図

3.Deep SVDD

まず、サポートベクトルデータ記述法(support vector data description；SVDD)による異常検知について、簡単に解説します。図3にサポートベクトルデータ記述法による異常検知のイメージを示します。サポートベクトルデータ記述法では、正常と考えられるデータのほぼ全てを含みつつ、可能な限り小さな超球となるように、半径を最適化します。テスト時には、最適化された超球からどの程度離れているかによって異常判定を行います。

図3 . サポートベクトルデータ記述法による異常検知のイメージ

サポートベクトルデータ記述法を拡張したDeep SVDD[2]では、データをニューラルネットワークによって写像した特徴空間で、サポートベクトルデータ記述法(SVDD)を実行します。

4.Deep SAD

Deep SAD[3]は、Deep SVDDを半教師あり学習に拡張した手法です。半教師あり学習とは、ラベルありデータとラベルなしデータの両方を活用する学習方法です。

図4は、教師なし異常検知と半教師あり異常検知の結果を比較した図です。図4の左の図は学習用のデータを表しており、点の色は、ラベルなしデータ（unlabeled）、正常データ（normal）、異常データ（outlier）を意味します。図4の中央の図は、教師なし異常検知を行なった結果を表しています。コンタマップの色は、超球の中心からの距離を表しており、色が濃いほど超球の中心に近く異常度が低いことを意味します。学習には、図4の左図のデータを用いていますが、すべてのデータを正常データとみなして学習を行なっています。図4の右の図は、半教師あり異常検知を行なった結果を表しています。学習には、図4の左図のデータを用いており、そのラベルも考慮されています。図4の左図において異常データが存在していた部分を見ると、異常度が高くなっていることがわかります。

図4. 教師なし異常検知と半教師あり異常検知の結果比較
(参考文献[3]より引用)

異常検知では通常、「得られるデータのほとんどが正常データである」という前提をおきます。Deep SADでは、この考え方に基づいてラベルなしデータを正常データと同等に扱います。Deep SADでは、全てのラベルなしデータと正常データが超球の中心に写像され、異常データが超球の中心から遠い場所に写像されるように、ニューラルネットワークを学習します。その際、ラベルありデータをラベルなしデータに比べて、どの程度重要視するかをハイパーパラメータによって調整することができます。

5.もっと詳しく学びたい方へ

本記事では、ハイブリッドモデルによる異常検知について、概括的に解説しました。スキルアップAIの現場で使える異常検知基礎講座では、機械学習による異常検知について、実務で使える知識を学ぶことができます。是非ともご検討ください。また、深層学習について詳しく学びたい方は、現場で使えるディープラーニング基礎講座もご検討ください。

第3回：【敵対的生成ネットワークによる異常検知】異常検知連載シリーズその3
深層学習（ディープラーニング）による異常検知の記事一覧

また、スキルアップAIでは毎週水曜日に実践的AI勉強会「スキルアップAIキャンプ」を開催しています。勉強会では、様々な実践的テーマを取り上げ、データ分析・AI開発の実務力アップにつながるヒントをご提供します。講師が参加者の皆さんからの質問や悩みに答えるコーナーもあります。
興味がある方はぜひ参加してみてください！