最終更新日:
AIトピックス:どんな文章でも3行に要約するAI「ELYZA DIGEST」
こんにちは。スキルアップAIの手柳です。
スキルアップAIでは、AIに関するトピックスをピックアップし、週間で紹介しております。
今回は、文章要約AI「ELYZA DIGEST(イライザ ダイジェスト)」についてご紹介します。
引用:ELYZA、日本語における高精度の生成型要約モデルを開発。“ELYZA DIGEST”として一般公開へ
ELYZA DIGESTデモサイト:https://www.digest.elyza.ai/
ELYZA DIGESTは、東京大学松尾研発のAIスタートアップ、株式会社ELYZAが開発した日本語における生成型要約モデルで、入力したテキストデータをたった3行に要約することができます。 書籍のような誤字脱字の少ない文章だけでなく、対話テキストのような乱雑な文章でも要約の対象となります。 デモサイトでは、テキストを直接入力するだけでなく、URLを貼り付ければそのページの全テキストを要約することができます。
近年では、AIの進歩によって、音声データや文章の画像データをテキストに変換する技術が開発され、実用化されるまでに至っています。
しかし、文章の内容を理解しまとめる「要約」のようなタスクの精度はまだ低く、人間が行う作業のレベルには及ばないというのが現状です。
コールセンター業務などにおける対話テキストの要約は、AIの精度が低く現在も人手による作業が主流となっています。
AIによる対話テキストの要約には、文中から一部を抜き出す「抽出型」や「圧縮型」、あらかじめ用意したテンプレートにあてはめる「テンプレート型」、一から要約文を生成する「要約型」などのアプローチがあります。
しかし、対話テキスト特有の、口語による文章構造の崩れ、音声認識の失敗による誤字脱字などの原因から「抽出型」や「圧縮型」、「テンプレート型」の手法では高い精度を達成することが難しくなっています。
そこで、ELYZA DIGESTでは柔軟で自然な要約文を作ることができる「生成型」のアプローチが採用されました。
これにより、同社が行った平均900文字の文章に対する検証では、「正確性」に関しては人間に匹敵する精度で要約文が生成されています。
一方で「流暢性」においては、人間がおかすよりも多くのミスが見つかりました。
文法のミスがあったり、主語の省略に対する適切な補完ができていなかったりすることが多かったといいます。
また、人間が平均5分かかった要約作業をたった10秒以下で完了することができたとのことです。
今後精度がさらに向上すれば実務での大幅な業務効率改善が期待されます。
実際にデモサイトで文章の要約を実行してみました。用いた文章は以下の3つです。
用いた文章 | 宮沢賢治作「注文の多い料理店」のあらすじ | 芥川龍之介作「蜘蛛の糸」 | 昔話「桃太郎」 |
---|---|---|---|
引用元 | 宮沢賢治『注文の多い料理店』ー一分間ダイジェストーダ・ヴィンチニュース | 芥川龍之介 蜘蛛の糸-青空文庫 | 楠山正雄 桃太郎-青空文庫 |
文字数 | 約900文字 | 約3000文字 | 約6000文字 |
注文の多い料理店
「注文の多い料理店」はあらすじを要約しているということもあって比較的内容に沿って要約できている印象です。
要約文の中に猫は登場しませんが、料理店で逃げられなくなったんだろうなと読むことができるので、まずまずの精度ではないでしょうか。
「注文の多い料理店」の要約結果
蜘蛛の糸
「蜘蛛の糸」では主人公の犍陀多(かんだた)や蜘蛛の糸といったキーワードは使われていますが、主語の取り違えが起きてしまっています。 文章が長くなってくるとその分主語の省略も多くなってしまうので仕方がないのかもしれません。
「蜘蛛の糸」の要約結果
桃太郎
最後の「桃太郎」の要約文は以下のようになりました。
甘やかされた桃太郎と、桃太郎に隠れて食べ物をシェアするおじいさんとおばあさんのお話になってしまいました…。
他の2つの作品に比べて文字数が多いということだけでなく、昔話特有の言葉遣い、登場人物のセリフの多さのためにこのような結果になったのではないかと考えられます。
「桃太郎」の要約結果
文章要約という難しいタスクでAIが人間以上の精度を達成できれば、AIが文章を文字という記号の集合として認識するのではなく、その内容、文脈を人間と同じように理解できていると言えるのかもしれません。
ELYZA DIGESTはデモサイトということもあり、まだ完全に要約できるという段階には達していませんが、同社はモデルのさらなる高精度化に向けて研究開発に取り組んでいるとのことなので、今後が楽しみですね。
おわりに
いかがだったでしょうか?
スキルアップAIでは、「現場で使える自然言語処理 実践講座」を開講中です。実践講座では、理論の説明と合わせて、Python/Pytorchによる主要技術の実装も行う講座です。
無料トライアル版のご用意もありますので、是非ご検討ください。
今後も、AI関連トピックスの記事を共有していきたいと思います。ご期待ください!
過去のAIトピックスはこちら
配信を希望される方はこちら
また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
公開日: