技術解説

最終更新日：

2024/07/30

StyleGANとは｜近年最も注目を集める画像生成モデル

こんにちは。スキルアップAIの川村です。私は現在、ディープラーニングを用いた塗り絵の着色の研究に取り組んでいます。

この研究では塗り絵からディープラーニングを用いて着色画像を生成することを目的としていて、このように入力データから新たに別のデータを作り出すタスクを生成タスクと呼びます。そして生成タスクは近年研究が非常に活発で、画像・音声・自然言語など各分野で成果が上がっています。

そこで今回は生成タスクについて、画像生成モデルを例に挙げながらお話していきます。

<目次>

GANによる画像生成
StyleGAN
StyleGAN2
まとめ
参考文献

1.GANによる画像生成

生成タスクに関する研究が盛んになっている背景の1つに敵対的生成ネットワーク（Generative adversarial network：GAN）[1]があります。
GANの概要や種類、活用方法について知りたい方は下記記事をチェックしてください。
＞GANとは

GANはGoodfellowらが2014年に発表した生成タスクを処理する深層学習モデルで、generator（生成器）とdiscriminator（判別器）の2つのネットワークから成り立っています。

近年の生成タスクの研究では、このGANのモデル構造がよく用いられています。これは画像分野も例外ではなく、汎用な画像変換を行うpix2pix[2]や文章から画像を生成するStackGAN[3]、写真をアニメ風に変換するCartoonGAN[4]など様々な画像生成モデルが存在します。

様々な画像変換（pix2pix）

図1：様々な画像変換（pix2pix）
（参考文献[2]より引用）

文章からの画像生成（StackGAN）

図2：文章からの画像生成（StackGAN）
（参考文献[3]より引用）

写真のアニメ風変換（CartoonGAN）

図3：写真のアニメ風変換（CartoonGAN）
（参考文献[4]より引用）

2.StyleGAN

StyleGANによる生成画像

図4：StyleGANによる生成画像
（参考文献[5]より引用）

まずは図4の画像をご覧ください。実はこの写真はすべてStyleGAN[5]というGANによって生成されたものなのです。この驚くべき解像度とリアリティを持った画像を生成するStyleGANの構造は以下のようになっています。

StyleGANのgenerator構造

図5：StyleGANのgenerator構造
（参考文献[5]より引用）

以下ではStyleGANの特徴的な部分について話していきたいと思います。

まず、StyleGANでは高解像度な画像を生成するためにprogressive growing[6]というアプローチをとっています。progressive growingとは、GANの学習過程において、低解像度の学習から始めて、モデルに徐々に高い解像度に対応した層を加えながら学習を進めることで高解像度画像の生成を可能にするというものです。図6では初めに4×4の学習から始め、次に8×8の層を追加というように学習を進めていくことで最終的に1024×1024の画像を生成しています。

加えてStyleGANはAdaptive Instance Normalization（AdaIN）[7]という正規化手法を用いています。図5を見てみると、StyleGANではベクトルｗがAdaINを通して各層に適用されています。このｗは潜在表現と呼ばれるスタイルの決定要素ｚを非線形変換したものです。StyleGANではこのAdaINの処理によって生成画像のスタイル変換が行われます。
図7では2つのベクトルｗを使用した結果を示しています。上段は生成に使用するwの値を低解像度の段階画像Aを生成するようなｗ（以下w_a）から画像Bを生成するようなｗ（以下w_b）に切り替えた場合の生成画像です。同様に中段は中解像度の生成段階でw_aからw_bに切り替えた際の生成画像、下段は高解像度の生成段階でw_aからw_bに切り替えた際の生成画像となります。
この結果から、2つのベクトルを変えるタイミングによってそれぞれのベクトルが生成画像に与える影響が変わっていることが見て取れます。また、AdaINほど生成画像に影響を与えはしないのですが、StyleGANではランダムノイズを各層に取り入れています。
図8ではランダムノイズが生成画像の髪の毛など一部分に影響を与えていることが確認できます。

progressive growingの概要図

図6：progressive growingの概要図
（参考文献[6]より引用）

2つの画像ソースによる画像生成

図7：2つの画像ソースによる画像生成
（参考文献[5]より引用）

ノイズが画像に与える影響

図8 ：ノイズが画像に与える影響

3.StyleGAN2

StyleGANは画像生成で非常に優れた結果を残しました。しかし同時に、dropletと呼ばれるノイズが生じる問題（図9）や生成画像の特徴の一部が不自然になる問題（図10）も存在していました。そこでStyleGANを改良し、これらの問題を解消したのがStyleGAN2[8]です。

dropletの発生

図9：dropletの発生
（参考文献[8]より引用）

顔の向きに関わらず正面を向いて生成される歯

図10：顔の向きに関わらず正面を向いて生成される歯
（参考文献[8]より引用）

まずStyleGAN2ではAdaINの構造を改変することでdroplet問題を解消しています。StyleGANではAdaINによって実際のデータの平均と標準偏差を用いた正規化が行われていました。これがdropletの原因であると考えた著者たちは、StyleGAN2においてデータの分布を仮定し標準偏差のみで正規化を行うことで、図11のようにdropletが発生しない画像生成を実現しました。

dropletの発生していない画像（StyleGAN2）

図11：dropletの発生していない画像（StyleGAN2）
（参考文献[8]より引用）

次に、StyleGAN2では特徴の一部が不自然な状態で生成される問題を解消するために、progressive growingの構造を使うことをやめています。その代わりにStyleGAN2では、ネットワークにresidual networks9などのスキップ構造を取り入れることでモデルの表現力を上げています（residual networksについてはこちらの記事もご覧ください）。

progressivegrowingをやめることで、StyleGAN2では目や歯などの特徴と全体の整合性がとれた画像（図12）を生成することができるようになりました。

目や歯の向きが顔の向きとそろっている画像（StyleGAN2）

図12：目や歯の向きが顔の向きとそろっている画像（StyleGAN2）
（参考文献 StyleGAN2: Near Perfect Human Face Synthesis…and More
（https://www.youtube.com/watch?v=SWoravHhsUU&ab_channel=TwoMinutePapers）
より引用）

4.まとめ

今回は生成タスクとしてStyleGAN、StyleGAN2をご紹介しました。冒頭でもお話ししましたが、生成タスクに関する研究はここ数年で非常に活発になっています。そのため今回ご紹介した画像生成だけでなく、音声や自然言語の分野でも様々な生成タスクの研究結果が発表されていています。この記事を読んだ皆様にはぜひ画像のみでなく様々な分野の生成タスクにも興味を持っていただければ幸いです。

スキルアップAIでは、GAN（敵対的生成ネットワーク）講座を開講中です。この講座では、StyleGANを中心とした様々なGANの派生形について体系的に学ぶことができます。講座の一部を視聴できる無料トライアルもございますので、是非ご検討ください。GANを深層学習の基礎から学びたいという方は、現場で使えるディープラーニング基礎講座をご検討ください。

また、毎週水曜日に実践的AI勉強会「スキルアップAIキャンプ」を開催しています。勉強会では、様々な実践的テーマを取り上げ、データ分析・AI開発の実務力アップにつながるヒントをご提供します。講師が参加者の皆さんからの質問や悩みに答えるコーナーもあります。
興味がある方はぜひ参加してみてください！