文章読解タスクにおける Adversarial Examples

こんにちは。スキルアップAIの山本です。私は現在、ゲノムデータの活用における差分プライバシーなどの匿名化技術の研究、自然言語処理における文章読解技術の勉強に取り組んでいます。

本ブログでは、自然言語処理の分野における文章読解タスク、つまり、AI がどれほど「正確に」文章読解できているのかを測定するタスクに関してお話しします。本ブログの後半では、画像処理分野でよく聞かれる Adversarial Examples との関連性や、今後の課題について考えていきます。この記事を通して、文章読解タスクに関する研究に少しでも興味を持っていただけたら幸いです。
>自然言語処理（NLP）とは｜仕組みや活用事例、最近の研究をご紹介

<目次>

文章読解タスクとは
文章読解タスクの課題
Adversarial Examples
今後の課題
もっと詳しく学びたい方へ
参考文献

1.文章読解タスクとは

文章読解タスクについて考える前に、AI の研究全体における大きな関心事として次のことがあげられます。それは、「AI は、どれほど人間と同じように考えることができるのか」ということです。この問題は、自然言語処理の分野でも大変重要です。例えば、最近では当たり前のように使われている音声認識ソフトでも、人間の多種多様な質問に対して適切な答えを返すのは全く簡単なことではありません。

音声認識だけでなく、チャットボットのような文章についても同様、「AI がどれほど『正確に』文章読解できているのか」、つまり、「AI がどれほど人間と同じように文章を読むことができているか」について評価する必要があります。そして、その評価に使われる方法の一つが文章読解タスクです。図1 に文章読解タスクの一例を示します。この問題の場合、たとえ英語が分からなくても、答えやその根拠は説明できるのではないでしょうか。実際、質問文に含まれている単語を問題文から探せば、自然とこの問題に対する答えは ”John Elway” だとわかるはずです。

Article: Super Bowl 50
Paragraph: “Peyton Manning became the first quarterback ever to lead two different teams to multiple Super Bowls. He is also the oldest quarterback ever to play in a Super Bowl at age 39. The past record was held by John Elway, who led the Broncos to victory in Super Bowl XXXIII at age 38 and is currently Denver’s Executive Vice President of Football Operations and General Manager.”
Question: “What is the name of the quarterback who was 38 in Super Bowl XXXIII?”

図1. 文章読解タスクの例1
(参考文献[2]より引用)

2.文章読解タスクの課題

図1 で示した問題を、図2 のように変えてみるといかがでしょうか。Paragraph の最後に、人間には全く関係ないように思われる一文、” Quarterback Jeff Dean had jersey number 37 in Champ Bowl XXXIV.”を加えただけのものになっています。この場合、予想される答えは図1 と同じ、”John Elway” であるはずです。しかし、この問題をAI に解かせた場合、最後に加えた一文に惑わされ、”Jeff Dean” と答えてしまうということがあるのです。

Article: Super Bowl 50
Paragraph: “Peyton Manning became the first quarterback ever to lead two different teams to multiple Super Bowls. He is also the oldest quarterback ever to play in a Super Bowl at age 39. The past record was held by John Elway, who led the Broncos to victory in Super Bowl XXXIII at age 38 and is currently Denver’s Executive Vice President of Football Operations and General Manager. Quarterback Jeff Dean had jersey number 37 in Champ Bowl XXXIV.”
Question: “What is the name of the quarterback who was 38 in Super Bowl XXXIII?”

図2. 文章読解タスクの例2
(参考文献[3]より引用)

Jia ら[3]によると、SQuAD において図2 のように問題文に少し変更を加えたデータセットを考えると、元々は75% あった正答率がなんと36%にまで下がってしまったということが報告されています。これが示していることは、AI はまだ人間と同様に、あるいは同様と思われる程度に、文章を理解する能力を得てはいない、ということです。

つまり、現在の文章読解タスクでは、AI の文章読解能力を測りきるのに十分ではないということがわかります。実際、Rimell ら[4] や Paperno ら[5] によると、文章読解タスクの学習において、答えのありそうな場所やパターンのみの学習でも高い正答率を出せることが言われています。

この課題をより正確に判断し、文章読解タスクの改善に役立てるために、次で説明するAdversarial Examples が重要になります。

3.Adversarial Examples

Adversarial Examples とは、直訳すると「敵対する例」ですが、一言で説明するなら、「AI を騙す入力例」です。画像処理の分野でよく考えられており、図3 の画像は見たことのある方も多いでしょう。

図3. 画像処理におけるAdversarial Examples の例
(参考文献[6]より引用)

この例では、元となるパンダの画像に、人間には感知できないほどの小さなノイズを加えて新たな画像を作ると、AI は”gibbon”、つまり「テナガザル」と認識してしまうというものになっています。文章読解タスクにおいても同様で、前章で挙げた図2 の例は、まさしくAdversarial Examples の一つです。

文章読解タスクにおけるAdversarial Examples を考える際には、画像処理の場合との違いが重要になります。図4 にまとめてある通り、元の入力とそれにノイズを加えたものを比べたとき、画像処理の場合には、人間には同じに見えるがAI には違って見えます。一方、文章読解タスクの場合は、人間には違う意味の文章に見えるが、AI は同じ文章であると認識してしまいます。

ここで改めて図2 の問題に対する挙動を考えてみます。人間は、加えた最後の文は質問文と全く関係ないことを認識できますが、AI は、それらの違いをほとんど認識できず、結果的に誤った答えを出力してしまうといえます。

図4. 画像処理と文章読解に対するAdversarial Examples の違い
(参考文献[3]より引用)

4.今後の課題

Jiaら [3] の実験では、数種類の Adversarial Examples を考え、それに基づいてさらに学習を進めることで、実際に SQuAD の正答率は上がっています。しかし、文の繋がりや文法的な誤りについて過学習されてしまう可能性があり、十分に注意を払う必要があります。

また、現在の文章読解タスクの多くは人間が作った特徴的な問題に特化しており、パターンマッチの問題に留まってしまっていることが多いのが現状です。そのような現在のAI の言語理解の仕組みと、人間の脳の働きを見分けることが、真に言語を理解するシステムの完成には必要不可欠であり、文章読解タスクの解析とデザインは今後も重要な研究テーマであると感じます。

5.もっと詳しく学びたい方へ

Adversarial Exampleについて詳しく学びたい方は「ディープラーニング重要論文講座」、自然言語処理について詳しく学びたい方は「現場で使える自然言語処理　実践講座」をぜひご検討ください。

また、スキルアップAIでは毎週水曜日に実践的AI勉強会「スキルアップAIキャンプ」を開催しています。勉強会では、様々な実践的テーマを取り上げ、データ分析・AI開発の実務力アップにつながるヒントをご提供します。講師が参加者の皆さんからの質問や悩みに答えるコーナーもあります。
興味がある方はぜひ参加してみてください！

6.参考文献

[1] P. Rajpurkar, J. Zhang, K. Lopyrev, and P. Liang. 2016. Squad: 100,000+ questions for machine comprehension of text. In IEmpirical Methods in Natural Language Processing (EMNLP).
[2] P. Rajpurkar. SQuAD2.0.
[3] R. Jia and P. Liang. 2017. Adversarial Examples for Evaluating Reading Comprehension Systems. In IEmpirical Methods in Natural Language Processing (EMNLP).
[4] L. Rimell, S. Clark, and M. Steedman. 2009. Unbounded dependency recovery for parser evaluation. In IEmpirical Methods in Natural Language Processing (EMNLP).
[5] D. Paperno, G. Kruszewski, A. Lazaridou, Q. N. Pham, R. Bernardi, S. Pezzelle, M. Baroni, G. Boleda, and R. Fernandez. 2016. The LAMBADA dataset: Word prediction requiring a broad discourse context. In IAssociation for Computational Linguistics (ACL).
[6] I. Goodfellow, J. Shlens, and C. Szegedy. 2015. Explaining and Harnessing Adversarial Examples. In International Conference on Learning Representations (ICLR).