コンテンツに移動
AI & 機械学習

AutoML Natural Language の一般提供 開始 : テキストから分析情報を得る

2020年1月7日
Google Cloud Japan Team

※この投稿は米国時間 2019 年 12 月 13 日に、Google Cloud blog に投稿されたものの抄訳です。

 昨今、企業はこれまでにないほど大量のテキストの管理と処理を余儀なくされており、それらの多くが非構造化データであることも相まって、データ運用の課題は複雑化する一方です。こういった情報をもっと効率的に管理するために、多くの企業はこのようなコンテンツが必要とする複雑な並べ替え、処理、分析をサポートする機械学習の導入を検討し始めています。特に自然言語処理は、テキストの構造と意味を明らかにするために使用できる価値あるツールです。このたび一般提供となった AutoML Natural Language は、まさにこの目的のためのプロダクトといえます。 

AutoML Natural Language には、こういったデータ処理の課題に対処するのに最適なさまざまな機能が搭載されています。たとえば、分類、感情分析、エンティティ抽出といった一般的な機械学習タスクが含まれており、次のような処理に幅広く適用できます。 

  • ニュース、ブログ、ツイートなどのデジタル コンテンツのリアルタイム分類: コンテンツ クリエイターはパターンを確認し、分析情報を取得できます。良い例が Meredith で、同社はメディア プロパティのポートフォリオ全体にわたりテキスト コンテンツを分類する処理を、想定していた年単位のシナリオから数か月に短縮することに成功しました。

  • 顧客フィードバックの感情の特定。

  • スキャン済みの非構造化ダークデータの分類、および検索可能コンテンツへの変換。 

AutoML Natural Language は、ネイティブ PDF、スキャンされた画像の PDF といった、PDF ファイルの分析もサポートします。また、法的文書、大量で複雑なコンテンツ分類など、特に難解なユースケースに対応できるよう、AutoML Natural Language では、5,000 もの分類ラベル、最大 100 万件のドキュメントを使ったトレーニング、最大 10 MB のドキュメント サイズがサポートされています。 

Chicory は、この新機能を利用しているお客様の一社です。同社は食料品業界向けのカスタムのデジタル ショッピングおよびマーケティング ソリューションを開発しています。 

Chicory のエンジニアリング担当ディレクターである Asaf Klibansky 氏は、次のように説明しています。「AutoML Natural Language を利用することで、分類上の複雑な問題に大規模に対処できています。当社では AutoML を使用して、1,300 のレシピ ウェブサイトが含まれるネットワークから、レシピ材料のデータを分類して実際に使用される食料品を判断し、Kroger、Amazon、Instacart といった多数の大手食料品小売業者とのパートナーシップを通して、お客様がシームレスに購入できるようにしています。分類ラベルの最大数が数千に拡大されたことで、ラベルと材料の分類を拡張し、これまでより詳細なものにできました。これにより、食料品を購入するお客様に、より適切なマッチングを提供できます。これは Chicory が創業当時から取り組んできたビジネス課題です。」 

同氏は次のように続けます。「また、オープンソース ライブラリを使用していたときよりもモデル パフォーマンスが向上し、個々のラベルのパフォーマンスが以前よりわかりやすくなりました。そのため、不十分なトレーニング データや品質の悪いトレーニング データをラベルごとにすばやく特定できるようになり、次のイテレーションまでの時間とコストが低減されました。」 

Google Cloud は、Google AI 研究チームと連携することで、より精巧な調整を目指しており、その努力はモデルの品質向上という形で実を結んでいます。さらには、モデル検索領域の拡大にも意欲的に取り組んでいます。また、AutoML Natural Language によるドキュメントの理解を向上させるためにさらに高度な機能の導入も続けています。 

たとえば、AutoML Text & Document Entity Extraction では、ドキュメントのスペーシングやレイアウトといったテキスト以外の要素を認識して、その情報をモデル トレーニングと予測に組み込みます。こういった空間認識によりドキュメント全体の理解が深まります。これは、請求書、受領書、履歴書、契約書など、「ページ」上のテキストとその位置の両方が重要な場合に特に有用です。
https://storage.googleapis.com/gweb-cloudblog-publish/images/GCP_AutoML1.max-2800x2800.max-2200x2200.png
ドキュメント上の位置によって、求職者のスキルを特定

Google Cloud は、規制への準拠が厳しく求められる業界のお客様も利用しやすいよう、欧州を初めとする世界中の AutoML Natural Language ユーザーのお客様が企業データ保管場所を設定できるようにしました。多くのお客様がすでにこの機能を利用して、データおよび関連する機械学習処理を EU 内あるいはその他の該当する地域内に留めておきながら、データセットの作成、モデルのトレーニング、予測を行っています。また、AutoML Natural Language は FedRAMP から中位レベルの認証を受けているため、米国連邦政府機関は Google AI テクノロジーを容易に適用できます。

AutoML Natural Language と Natural Language API について詳しくは、Google Cloud のウェブサイトをご覧ください。Google Cloud は、お客様がデータからさまざまな分析情報を得てビジネスに活かすことができるようお手伝いいたします。

- By Lewis Liu, Product Manager for Natural Language

投稿先