コンテンツに移動
AI & 機械学習

Notified が Google Cloud AI を使用して大規模なジャーナリストの発掘と分類を迅速に進めた方法

2021年12月10日
https://storage.googleapis.com/gweb-cloudblog-publish/images/automl_tables.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2021 年 12 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。

Notified は、イベント、一般広報活動、投資家向け広報活動のための有力なコミュニケーション用クラウドで、有意義な分析情報を取得し、成果を上げるのに役立ちます。Notified は、顧客、投資家、従業員、メディアに効果的にリーチし、これらの参加を促すコミュニケーションの場を提供しています。

Notified の広報ソリューションの一つである「Media Contact Database」は、AI と人力による調査を駆使した独自のメディア データベースで、ここで顧客がメディアやインフルエンサーを発見できます。

この構想の目的は、AI を駆使して動的にインフルエンサーを発見できる範囲を拡大し、AI / ML 技術を使用してオンライン ニュース記事を分析し、エンティティを抽出して、コンテンツを分類することです。ニュース記事から分析情報を抽出する以前のプロセスでは、望ましい結果の 30~40% しか得られず、精度と安定性に問題があったため、多くの手作業が必要でした。

Journalist Beat

AI によるプロセスの主な成果として、Journalist Beat を特定できることが挙げられます。Journalist Beat とは、基本的には、スポーツ ライターや金融ジャーナリストなどのジャーナリスト個人の専門分野を指します。

Journalist Beat を生成する AI / ML プロセスのため、以下の 3 つのオプションが評価されました。

オプション 1: トピック ML

よく使用される用語を特定するための教師なし ML 手法。

  • 利点: ドキュメントをグループ化し、類似するテキストを特定するための一般的な手法

  • 欠点: テキストの量に際限がない

オプション 2: ML 分類

分類モデル(教師あり)を構築して、参照記事を「Beat」に対応付けます。

  • 利点:「Research Analytics」の既存プロセスに対応している

  • 欠点: 何百件もの専門分野に対応する ML モデルの構築とメンテナンスに時間がかかる

オプション 3: GCP コンテキスト分類

初期分類用に、Notified の単一モデルへのインプットとして、GCP の Natural Language API を活用します。

  • 利点: ML モデルを構築しなくても、「Research Analytics」に対応する

最終的に GCP Natural Language API ソリューションが選ばれた理由は、実行速度が速く、事前にトレーニングされたモデルの精度が高いためです。Notified のチームは、大規模なデータ収集やモデルのトレーニングを行うことなく、数週間でサービス機能を立ち上げることができました。

ここでは、Journalist Beat に導入されたプロセスの概要を紹介します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Notified.max-1000x1000.jpg

Notified はキュレートされたメディア関係者を世界中でサポートしているため、ニュース記事は GCP Translation API を使用して即座に英語に翻訳されました。翻訳されたテキストを分析し、コンテンツ カテゴリのリストを生成するため、GCP Natural Language API のテキスト分類ソリューションが使用されました。

ソリューション アーキテクチャ

ここでは、「Discovered Journalist」プロセスのソリューション アーキテクチャの例を示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Notified.max-800x800.jpg

サーバーレスかつフルマネージド、柔軟性とコスト最適化のためのスケーラビリティと弾力性、API 主導のリアルタイム処理という 3 つの基本方針によって、上のアーキテクチャが導き出されました。

GCP Natural Language API と Translation API のほか、GCP の以下のサーバーレス プロダクトがこの自動化ソリューションに加えられました。

  • BigQuery は、Google Cloud のペタバイト規模の費用対効果に優れたフルマネージド型の分析データ ウェアハウスです。膨大な量のデータに対してほぼリアルタイムで分析を行うことができます。

  • Cloud Run は、フルマネージド型のサーバーレス プラットフォームです。拡張性の高いコンテナ化アプリケーションを開発、デプロイできます。

  • Cloud Tasks は、大量の分散タスクの実行、ディスパッチ、配信を管理できるフルマネージド サービスです。

Natural Language API の強力な事前トレーニング済みモデルは、自然言語理解を感情分析、エンティティ分析、エンティティ感情分析、コンテンツ分類、構文解析などのアプリケーションに適用するための包括的機能群を備えています。

Notified が見据えるスーパー スケーリング

Notified は、最高水準である「Media Contact Database」をさらに向上させるために、上記の AI を活用したインフルエンサー発見プロセスを、月に 1 億件以上のニュース記事の規模まで大幅に拡大することを考えています。また、ニュース記事から抽出されるエンティティの範囲を拡大し、エンティティに基づくインテリジェントな検索を行うことで、お客様にニュース探索サービスを提供していく予定です。

市場の変化を観察するには、競合他社による AI インサイトの活用状況に目を向ける必要があり、実際に市場で勝負し続けるためには、AI をプロダクト ロードマップの主力に据える必要があります。GCP Natural Language API を使用することにより、Notified では AI を大規模に採用するための能力が一気に向上しました。

Notified CTO、Thomas Squeo 氏

謝辞

このブログ記事を掲載するうえで協力いただいた Google と Notified の関係者の皆様に感謝します。このブログ記事にご協力いただいた MediaAgility の Arpit Agrawal 氏に感謝します。

Google Cloud Natural Language AI が企業にどのように役立つのかをご理解いただき、双方向型のデモをお試しいただき、次のステップに進むには、こちらのサービス概要ページをご覧ください。

- Google テクノロジー リーダー BK Arashanapalli

- Notified エンタープライズ データ アーキテクト Earl Hooper 氏

投稿先