最終更新日:
自然言語処理(NLP)とは?意味や仕組み、活用事例、最近の研究事例
自然言語処理(NLP)とは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術で、コンピュータに「ことば」を教える分野といわれています。
近年では、ChatGPTの登場やGoogle検索エンジンの精度向上により、コンピュータが長文の文章を的確に処理できるようになってきました。また、自然言語処理(NLP)に関する研究や応用事例なども急速に増えており、非常に盛り上がりを見せています。
そこで本ブログでは、自然言語処理(NLP)の基礎知識や注目されている理由、仕組み、活用事例、最近の研究事例などを網羅して紹介していきます。
1.自然言語処理(NLP)とは
この項では、自然言語と人工言語の違いや、自然言語処理(NLP)について解説します。
自然言語と人工言語の違い
自然言語とは、日本語や英語など、人が生まれながらに使う言葉のことです。人と人がコミュニケーションを取るために日常的に使われ、文化的な側面を持ちながら自然に発展してきたため、自然言語と呼ばれています。
具体的には、人と人とのコミュニケーションで使う話し言葉や、書き言葉などが自然言語に含まれます。
対して人工言語とは、人為的に作られた言語のことです。主に下記の3つが人工言語に分類されます。
- プログラミング言語を含むコンピュータ言語
- HTMLやCSSのようなWebサイトに使われているマークアップ言語
- 数式、エスペラント語のような言語
自然言語処理(NLP)とは
自然言語処理(NLP)とは、大量のテキストデータをAIが分析する技術です。人間が普段コミュニケーションに用いている言葉(自然言語)を対象として、それらの言葉が持つ意味を解析し処理します。
2.自然言語処理(NLP)に関わる代表的なできごと
この項では、自然言語処理(NLP)に関わるさまざまなできごとについて、代表的な例を挙げながら歴史を振り返っていきます。
機械翻訳
機械翻訳の原点は、東西冷戦下です。英語とロシア語の機械翻訳が注目されたことで世に認識されたのが始まりです。
ELIZA
ELIZA(イライザ)とは、「心理カウンセラーのように振る舞う対話型プログラム」です。1964年〜1966年にジョゼフ・ワイゼンバウムによって開発されました。
AI(人工知能)「ワトソン」
人工知能「ワトソン」は、大手IT企業のIBMが開発したAIです。2011年にアメリカのクイズ番組「ジョパディ!」に出演し、歴代の人間チャンピオンと対戦して勝利したことが話題になりました。
AI(人工知能)「東ロボくん」
人工知能「東ロボくん」は、東大入試合格を目指す人工知能です。国立情報学研究所が中心となって、2011年〜2016年まで開発が続けられました。2015年には偏差値57.8をマークし、私立大学に合格できるレベルまで達しました。
Googleのニューラル機械翻訳
ニューラル機械翻訳は、近年登場し、期待を寄せられているシステムです。2016年にGoogleから発表され、注目を集めました。このシステムによってGoogleの機械翻訳の精度も年々高まっています。
スマートスピーカーの普及
スマートスピーカーは、2014年にAmazonが「Amazon Alexa」、2016年にGoogleが「Google Home」、2018年にAppleが「Home Pod」を発売しました。
また国内でもLINEが2017年に「Clova WAVE」を発売するなど、国内外の主要IT企業が次々とスマートスピーカー市場に参入しています。スマートスピーカーの発展には、AIの進化が大きく貢献しています。
3.自然言語処理(NLP)が注目を集める理由
この項では、自然言語処理(NLP)が注目を集めている理由を3つ紹介します。
①テキストデータの増大化
近年では、SNSやビジネスコミュニケーションツールの発達によりテキストデータを収集しやすくなっています。
社内でのコミュニケーションツールとして、SlackやChatworkを導入するケースが増え、従来は紙でのやり取りだったものがデジタルデータに置き換わりました。また、議事録の生成ツールによる資料のデータ化、紙媒体の電子化が増加しており、今後はさらにテキストデータ量が増えることが予測されています。
ペーパーロジック社の調査では、2020年、東京都内の企業のうち75.7%が社内のペーパーレス化を推進し、そのうちの60.7%が2021年度にペーパーレス化推進システム導入の予定/検討していると回答しています。
こうした背景から書類のPDF化率が極めて高くなっており、今後テキストデータの活用がさらに進むことが予想されます。
②BERTやGPT-3など、汎用言語モデルが進化
2つ目の理由は、言語処理研究開発において汎用言語モデルの研究が進み、技術革新が進んでいることです。
自然言語処理(NLP)の分野では、一般的に単語や文の単位で入力を処理します。 最近よく用いられているのは、一般的な文章に対して単語や文を処理する汎用的なモデルを用意し、このモデルを各タスクに合わせてチューニングする方法です。 この汎用モデルを「言語モデル」と呼んでいます。
2018年にGoogleが発表した汎用言語モデル「BERT」は、さまざまな自然言語処理タスクで当時最高のスコアを叩き出しました。2019年には、イーロン・マスク氏らが投資しているAI研究機関のOpenAIが、自然な文章を生成する言語モデル「GPT-2」を発表しました。
そして2020年には、OpenAIが「GPT-3」を発表しました。人間並みに自然な文章の生成を実現し、その精度の高さから世界中の注目を集めています。
同年の9月22日には、Microsoft社がOpenAIとGPT-3に関する独占的ライセンス契約を行ったと発表しています。
これらの影響を受け、日本語における自然言語処理技術も発展の兆しを見せています。
2020年11月、LINE株式会社はNAVERと共同で世界初となる日本語に特化した超巨大な言語モデルを開発することを発表しました。2022年1月時点で390億の日本語モデルの構築に成功しており、2022年度中に2040億パラメータのモデルの構築を目指していると述べています。
この開発により、日本語での自然言語処理技術の水準が大きく飛躍するといわれています。
また、2022年3月には東京大学松尾研究所発のAIスタートアップである株式会社ELYZAが文章執筆AIのデモサイト「ELYZA Pencil」を公開しました。キーワードから文章を生成できる日本語AIの一般公開は国内初となります。
このように、汎用言語モデルの研究が進み、高度な言語処理が可能になりました。また、英語のみならず、日本語における自然言語処理(NLP)の技術も大きく向上していくことが予測されます。
③市場規模の高まりやDXの実現
自然言語処理技術は近年ますます発展しており、ビジネスでの応用事例も増えています。そして現在導入が推進されているDXの実現にも欠かせないものとなっています。
人員や時間などが限られたリソースの中で成果を出すためには、自動化ツールやAI技術が不可欠です。
例えば自動言語処理を応用することで、既存顧客とのやりとりで発生するテキストデータを元に、顧客の関心度の高いキーワードリストを自動生成し、自社のSEO対策に役立てられます。そしてそれが新たな施策の立案や改善へとつながります。
こうした流れから、自然言語処理(NLP)の需要が高まっていることがわかります。
4.自然言語処理(NLP)の主な4つの仕組み
この項では、自然言語処理(NLP)が行う4つの基礎技術を紹介します。下に行くほど難易度が高くなるとされています。
①形態素解析
形態素解析とは、文章を「形態素」という単位ごとに分割し、それぞれの形態素を品詞などの各種情報に振り分ける作業です。形態素とは、何らかの意味をもつ最小限の文字の集まりのことを指します。
形態素解析は、自然言語処理(NLP)において、極めて重要な技術です。例えば「すもももももももものうち」を形態素解析すると「すもも」「も」「もも」「も」「もも」「の」「うち」に分解できます。
- 「すもも」=名詞、一般
- 「も」=助詞、係助詞
- 「もも」=名詞、一般
- 「も」=助詞、係助詞
- 「もも」=名詞、一般
- 「の」=助詞、連帯化
- 「うち」=名詞、非自立、副詞可能
形態素解析では、文章の中にある形態素の意味をデータとして抽出できます。
形態素解析は、主に形態素解析エンジンを使って解析を行います。代表的な形態素解析エンジンには、MeCab、ChaSen、JUMAN++、Sudachiなどがあります。
②構文解析
構文解析とは、形態素解析で抽出した形態素が、他のどの形態素と隣り合わせになっているか確認する作業です。
例えば「私は友人と美味しいお菓子を食べました」を解析すると、次のような解釈ができます。
- 私は、友人と美味しいお菓子を食べました(私が、友人とお菓子の両方を食べた)
- 私は友人と、美味しいお菓子を食べました(私と友人とで、お菓子を食べた)
この先を担うのが、次で説明する意味解析です。
③意味解析
構文解析の次に行うのが、意味解析です。構文解析で得た解釈の中から、正しい解釈を探します。「私は友人と美味しいお菓子を食べました」の場合は次のようになります。
- 「私」と「友人」は関係性が高い(同じ名詞でいずれも人間の名称である)
- 「友人」と「美味しい」は関係性が低い(名詞と形容詞、適切ではない形容詞)
- 「美味しい」と「お菓子」は関係性が高い(「お菓子」は食物の名詞、「美味しい」は形容詞)
こうしてようやく「私は友人と、美味しいお菓子を食べました」が正しい解釈であると解析します。
④文脈解析
文脈解析とは、複数の文について形態素解析と意味解析を実施し、文同士の関係性を解析することです。
文脈解析では、文同士の関係性を正しく解析する必要があります。そのため、さまざまな領域の知識を学習させなければならず、機械学習やニューラルネットワークの領域も絡んできます。
文脈解析に関しては、この複雑さが課題となっており、実用的な文脈解析システムはまだできていません。
5.自然言語処理(NLP)の難しさ
この項では、自然言語処理(NLP)のタスクを実現する上での困難な点について例を挙げながら紹介します。
自然言語は本質的に曖昧である
自然言語処理(NLP)は、形態素解析と構文解析だけで成り立っているわけではありません。 文の内容を正確に把握するには、文中では明らかにされていない内容を推測し、 代名詞のような照応表現が何を示すのかを分析するという難しい処理が必要です。
しかし、それ以上に困難なのが曖昧性の問題です。以下の事例で詳しく解説します。
問: 以下の文章はどのように曖昧でしょう?
- 「部長は出かけていなかった」
- 「おむすびください」
- 「それ美味しいって言ってたよ」
- 「大丈夫です」「やばいね」
回答例:
- 文法的に部長はいるのかいないのか?
- 単語「おむすび」が握り飯 or 結ぶ?
- 誰が? (主語の省略) 何を? (指示語)
- 文化・文脈によって意味が変わる
この曖昧性とは、文脈に応じてその単語が指すものや意味合いなどが変わってくる点です。
世界知識(一般常識)の必要性
こちらも例文を挙げながら見ていきます。
- 「昨日公園で猫を見た」
- 「昨日公園でライオンを見た」
上記の例でいえば、通常は公園でライオンを見ることはありません。そのため、人間の脳では下側の例文はおかしい文章として捉えられます。
しかし、コンピュータには私たちが当然持っている常識はありません。そのため、例のような文章が「正常」なのか「異常」なのかを簡単に判断することができないのです。
対象の言語による違い
日本語、英語、中国語など、それぞれ言語の体系は異なります。そういった違いにどう対処していくかが難しいポイントです。
- 日本語にとって「かな変換システム(IME)」は重要だが、英語には必要ない
- 英語は通常それぞれの単語がスペースで区切られているが、日本語にはそれがない
- 辞書の作成・利用方法が言語ごとに異なる
このように、具体的なタスクやアルゴリズムが対象言語に大きく依存してしまうことも自然言語処理(NLP)の難しさの一つといえます。
6.自然言語処理(NLP)を活用した事例9選
自然言語処理(NLP)を用いたサービスは現在多くの場所で提供されていますが、普段よりパソコンやスマートフォンを何気なく利用しているとあまり意識する機会がないかもしれません。
そこでこの項では、自然言語処理(NLP)を活用した9つの事例を紹介していきたいと思います。
①対話型AIチャットボット
Online chat vector created by freepik – www.freepik.com
チャットボットと呼ばれる対話システムは、自然言語処理(NLP)を用いたサービスの一つです。自分が入力した文の文脈や意味を的確に理解して最適な回答を文章化する際に、自然言語処理(NLP)が用いられています。
日本語では、主語が抜けただけで意味が大きく変わることがあります。そのため、チャットボットでは直前の会話に出てきた主語を記録してその後のコミュニケーションに活かすなどの仕組みがあります。
②音声認識AI
音声認識AIの多くが、自然言語処理(NLP)と組み合わせて運用されています。
例えば、近年注目されているサービスとして、音声認識による議事録作成があります。議事録作成では、音声認識によって言語として認識された音素をテキスト化します。この人が発する言葉をテキストにして残す技術に自然言語処理(NLP)が役立っています。会議で音声認識AIを用いれば、会議の終了と同時に議事録が完成します。
またAIが学習を重ねれば、業界用語や会社特有の独特な単語や言い回しなども聞き取れるようになっています。
③AI-OCR(文字認識)
AI-OCRの精度の向上にも、自然言語処理(NLP)が役立てられています。AI-OCRとは、手書きの文字をカメラが認識し、文字データへと変換する技術です。
紙媒体のデータ化は、業務効率化を目指す多くの企業で課題となっています。紙媒体のデータを電子化したり、申込書などに記載された内容をデータ化したりできると、事務手続きなどをスピーディーに進められます。
④AIスピーカーなどの対話システム
Amazonのスマートスピーカー「Alexa」やAppleの「Siri」、Google の「Googleアシスタント」などで広く知られる対話システムも、自然言語処理(NLP)によるものです。
スマートスピーカーには、さまざまなことを指示できます。スマートスピーカーに指示を出せば、指示された自然言語を的確に解釈し、指示通りの操作を実行します。
また自然言語処理(NLP)の技術は、ユーザの音声を変換したテキストからユーザが求めるアプリを推測するのにも使われています。自然言語処理(NLP)によって、何万種類もあるアプリの中から、ユーザが求める機能を提供するのに最適なものを提示してくれるのです。
⑤検索エンジン
自然言語処理(NLP)の代表例として挙げられるのが、検索エンジンです。
自然言語処理(NLP)、機械学習などのAI技術を活用すると、自然文で入力された検索文が保存されたドキュメントとは完全に一致しない場合でも、膨大なデータの中から目的とするドキュメントを検索できるようになります。
これによって、記憶の奥にあるあいまいなイメージやキーワードを元に、膨大なデータの中から目的のデータを探し当てられる可能性が高まります。
⑥ビッグデータ活用
Marketing background vector created by freepik – www.freepik.com
自然言語処理(NLP)は、ビッグデータ活用の分野でも用いられています。
ビッグデータは、人間では全体を把握することが非常に困難な巨大なデータ群です。その中には膨大な量のテキストデータが含まれており、そのデータを分析しやすくするため、適切な構造データに変換する必要があります。
ビッグデータの活用にはテキストマイニングの技術が取り入れられています。テキストマイニングとは、大量のテキストデータから、有益な情報を取り出すことです。
テキストマイニングでは自然言語解析によって文を名詞、動詞、形容詞等の単語に分割し、単語の出現頻度や相関関係を分析して有益な情報を抽出します。
テキストマイニングにおけるキーワード抽出やカテゴリ分類、感情分析など、高度な分析が可能な自然言語処理(NLP)は、ビッグデータ活用の領域において、とても重要な役割を担っています。
⑦翻訳
Google翻訳をはじめとする翻訳は、身近に使われている活用例の一つです。近年、機械翻訳の精度が一気に高まった結果、合成音声と組み合わせたサービスも増えています。
日本語を入力するだけで、一般的な表現に近い言葉に置き換えて翻訳してくれます。これはまさに、AIによって文脈解析と意味解析が行われ、適切な解釈により自然言語処理(NLP)が行われていることがわかる事例です。
⑧感情分析
感情分析の領域でも、自然言語処理(NLP)は活用されています。代表的な活用事例として、ネガポジ判定があります。
ネガポジ判定とは、対象とする文章の意味合いが前向き(ポジティブ)か後ろ向き(ネガティブ)かを判定する技術です。
ポジティブ度もしくはネガティブ度が付与された単語辞書をもとに、判定が行われます。「あやしい」「あせる」「あきれる」といった単語はネガティブ用語として、「あこがれる」「ベタ惚れ」といった単語はポジティブ用語として登録されています。
当然ながら、ポジティブにもネガティブにも属さない言葉はたくさん存在します。そのため、ネガティブ(e)、ニュートラル(n)、ポジティブ(p)といった評価極性情報を言葉に付与し、文章のネガポジ判定を確実なものにしています。
自然言語処理(NLP)による感情分析は、SNS分析にも役立っています。SNS では主に、個人の感想や情報が発信されています。その声はいわば、ユーザの本音、消費者の生の声といえます。SNSを分析すれば、消費者の本音を拾うことができ、新たなマーケティングの材料として役立てられます。
SNSの情報には、喜怒哀楽があふれています。ユーザが発信する口コミを収集・分析すれば、自社の商品やサービスに対して、ユーザが抱いている感情がポジティブなのかネガティブなのかを判別できます。また、SNS分析によって、競合他社の商品やサービスの分析も可能です。
⑨文章要約
近年では、自然言語処理(NLP)を活用した文章要約も行われています。AIが文の内容を理解し、自動で要約してくれるのです。文の自動要約では、抽出的要約と生成的要約という2種類のアルゴリズムが採用されています。
抽出的要約とは、文中の主要な単語と文章を抽出し、換言などを行わずに要約を作成するアルゴリズムです。特に複雑なアルゴリズムは必要ないため、自動要約の手法の主流となっています。
一方の生成的要約は、元の文の内容を反映し、言い換えや短い表現を用いて、自然な文章を生成するアルゴリズムです。これは人間が行う要約に近いといえます。前述の抽出的要約よりも高レベルな要約が可能ですが、その分要求されるタスクが複雑になります。
7.自然言語処理(NLP)の最近の研究
自然言語処理(NLP)に関する最近の研究として、Googleの新たな自然言語処理モデル「Google T5」を紹介します。T5は、2020年に発表されたTransformerをベースにしたモデルです。ある領域の学習済みモデルを別領域に転用する「転移学習」を利用したモデルで、多くの自然言語処理ベンチマークで最も高いスコアを記録しています。
参考:Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer
Exploring the Limits of Transfer Learning with a Unified
Text-to-Text Transformer
最近の研究としてほかに、Transformerを画像認識に適用しようという研究「Vision Transformer」やGPT-2を画像に適用し画像補完や画像サンプリングが可能な「Image GPT」、GPT-3とdiscrete VAEを用いて画像生成することができる「DALL·E」などがあります。
8.自然言語処理(NLP)に関するよくある質問
ここでは、自然言語処理(NLP)に関するよくある質問と回答を3つご紹介します。
Q.自然言語処理(NLP)の実用例は?
「Amazon Alexa」といったスマートスピーカーや「DeepL」などの機械翻訳技術に活用されています。
Q.自然言語処理(NLP)のデメリットは?
自然言語処理のデメリットとして挙げられるのが、全ての言語に対応するのは難しい点です。特定の地域や会社内での専門用語など、分析にあたりチューニングが必要な言語も存在します。そのため、チューニングに一定のコストがかかってしまいます。
Q.自然言語処理(NLP)の将来性は?
膨大なテキストデータや音声データの解析を可能にする自然言語処理(NLP)は、特にビジネスシーンにおいて大きな役割を担う技術です。自然言語処理(NLP)への理解を深めていくことで、業務の効率化やキャリアアップなどに役立つでしょう。
9.まとめ
自然言語処理(NLP)は、テキストでのコミュニケーションが増加し、ペーパーレス化が進む現代において、ますます注目を浴びていくことが予測されます。機械学習の基本的なスキルを活かしたいなら、自然言語処理を学び、実務へと応用できるスキルを身につけるといいでしょう。
スキルアップAIでは「現場で使える自然言語処理実践講座」を開講しています。ディープラーニング活用に至るまでのNLPの歴史を概観し、Pythonによる実装を通じて重要な技術を理解できる講座となっております。Python、Pytorchによる主要技術の実装を行い、実践的な課題によって学んだ理論を実務へ応用できるスキルを身につけられます。
またこの講座では、無料トライアル版を用意しています。トライアル版では受講前におよそ30分の動画を見て、わかりやすさやレベル感を確認できるので、ぜひトライしてみてください。
配信を希望される方はこちら
また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
公開日: