コンテンツに移動
データ分析

データとインサイトの民主化: 機械学習の間口を広げる

2020年11月25日
Google Cloud Japan Team

※この投稿は米国時間 2020 年 11 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。

本シリーズの第 1 回目のブログでは、データの可用性とデータやインサイトへのアクセスが、時代とともにどのように進化してきたかということを振り返りながら、現在 Google Cloud が目指しているのは、組織内の誰もがインサイトを生成できるようにすることであるとお話ししました。今回のブログでは、今日のビッグデータの時代においてインサイトを生み出すには、人工知能(AI)と機械学習(ML)が必要不可欠である理由について触れながら、こうした強力な分析手法を幅広く利用してもらえるようにするための Google Cloud の取り組みについて見ていきます。

マッキンゼーのレポートによると、AI を 2030 年までに完全に取り込むことができた企業のキャッシュ フローは、その時点までに 2 倍となり、それができなかった企業は 20% 減少する可能性があるとされています。ML や AI はこれまで、博士号をもつ専門家やスペシャリストの領域であるとされていたため、ビジネス リーダーの多くは ML の目標を人事的な課題として捉えていました。たとえば、新部門の設置や、新しい人材の確保、既存の人材を維持する仕組みの整備といった課題です。しかし、これは方向性が間違っています。Google Cloud では、専門家向けに ML を効率化するだけにとどまらず、データを取り扱うあらゆる職種の人が日々の業務で ML を活用できるように取り組んでいます。

Google ではこれまで、従来の ML ユーザーである専門家向けに、総合的なツールセットを開発してきました。たとえば、AI Platform を使えば、反復処理を高速に行って、アイデアをすばやく実現できます。AI Hub は ML チーム内での共同作業を支援し、作業工程の重複を防いだり、仕事を速く完了させたりするために役立ちます。TensorFlow Enterprise は、サポートを含むスケーラブルな TensorFlow サービスをクラウドで提供するものであり、こうしたサービスを OSS プロジェクトの主要メンバー(私たちです)から直接受けられるのが特長です。このように専門家向けに効率化を推し進めることで、組織内での成果の増大や ML 利用の推進に貢献してきました。

しかし、ML を組織全体に浸透させるには、もっと誰にでも利用しやすいツールを開発して、実践的なインサイトに役立ててもらう必要があります。では、Google Cloud が ML を「民主化」するための取り組みについて、主な 3 つの職種(データ アナリスト、デベロッパー、データ エンジニア)に絞って見ていきましょう。

データ アナリスト

第 1 回目のブログでも述べたように、データ アナリストは Fortune 500 企業の多くにとって中心的な戦力です。彼らはデータ ウェアハウスに精通していて SQL を楽々と使いこなし、ビジネスニーズについての知識も豊富です。Google では、データ アナリストによる ML の利用を促進するには、彼らの専門領域に乗り出す必要があると考えました。

それがまさに BigQuery ML です。BigQuery ML はデータ ウェアハウスに ML を取り込んだもので、データ サイエンティストに多用されている Python、R、Scala 系のツールを使わなくても、データ アナリストは使い慣れた数行の SQL ステートメントで簡単に ML をデプロイすることが可能です。BigQuery は従来のエンタープライズ データ ウェアハウスよりも大量のデータにスケールできるのが特長です。BigQuery ML を使えば ML を BigQuery の膨大なデータに適用して、これまでに得られなかったようなインサイトを浮かび上がらせることが可能となります。さらに、BigQuery 内で幅広いモデルが提供されているので、推奨案、セグメンテーション、異常検出、予測などさまざまな用途に利用することができます。カスタムモデルが必要な場合は、ML の専門家にモデルの構築を依頼して、そのモデルを BigQuery に取り込めば大量のデータに適用できます。

BigQuery ML はさまざまな業界で幅広い目的に利用されています。たとえば、Telus は ML を異常検出に利用し、ネットワークの安定性を高めています。UPS は小包の個数の正確な予想に活用していて、Geotab は ML と地理空間分析を組み合わせて都市のスマート化を推進しています。また、映画の観客数の予想に利用されている例もあります。さらに、小売業者は購入予測に、金融サービス機関は保険リスクの判断に、ゲーム企業は購入者にもたらす価値の長期予測にと、幅広く利用されています。こうした分析は、これまでデータ アナリストが行うことは不可能でしたが、現在では、分析作業を効率良く行い、運用にすばやく反映させられるようになってきています。

データ サイエンティスト チームはこれまで、BigQuery 環境と大量データをやりとりする方法や、データ パイプラインの並列処理およびスケーリング方法を学んでデプロイを処理する必要がありましたが、BigQuery ML の機能が拡充されるにつれ、こうした学習にさほど時間をとられなくなりました。BigQuery で直接、データ クリーニングからモデル トレーニング、デプロイまでを行えるので、データを移動することよりも理解する作業に注力し、有益な結果を導きだせるようになってきています。

Geotab シニア データ サイエンティスト兼 R&D スペシャリスト Daniel Lewis 氏

デベロッパー

デベロッパー向けには、ML を「ビルディング ブロック」としてアプリケーション作成に利用してもらうため、2 種類のサービスを開発しました。1 つは、トレーニング済みのモデル一式で、API から簡単にアクセスすることが可能です。これらの API は、視覚、言語、会話などさまざまな日常的用途に対応しています。特異性の高いモデル(トラック全般を特定するのではなく、特定のメーカーやモデルのトラックをすべて識別するなど)の場合は、AutoML カスタムモデルを使用して、ドメイン固有の顧客モデルを構築することが可能です。これらのツールは、Keller Williams、USA Today、PWC、AES Corporation などの企業に活用されています。

AutoML Vision のおかげで、手動でのチェックが必要な検査画像の数がおよそ半分に減りました。常に世界トップクラスのテクノロジーを提供してくれる Google は偉大なパートナーです。

AES Digital Hub ディレクター Nicholas Osborn 氏

一方、大規模な機械学習モデルを構築するには、AutoML Tables を利用できます。このテーブルを使えば、構造化データをもとに ML モデルを自動的かつ超高速に構築、デプロイすることが可能です(デベロッパーはもちろん、データ サイエンティストやアナリストにとっても便利です)。コーディング不要のインターフェースが特長で、誰でも簡単にモデルを構築して幅広いアプリケーションに取り込めるのはもちろん、時間と費用の節約や、ML モデルの品質向上といったメリットも得られます。AutoML Tables をマーケティング プログラムに活用したお客様の事例によると、見込みのありそうなユーザーに的確なタイミングでメッセージを表示することで、1 ドルあたりの登録者数を 150% 増加させると同時に、業界標準比 140% のユーザー エンゲージメントを達成したということです。

これらの ML API を利用できるのは、アプリケーション デベロッパーだけではありません。Cloud Data Fusion を使用する ETL デベロッパーは、これらの API を各自のデータ統合パイプラインに簡単に組み込み、ダウンストリームのアプリケーションやユーザーの分析用にデータを下準備して提供し、分析の向上に貢献できます。このように、ML はポイント、クリック、ドラッグ、ドロップといった操作で簡単に利用できるレベルにまでなってきています。

データ エンジニア

最後に取り上げるのは、データ エンジニアです。ここまで見てきたデータ アナリストやデベロッパーは、Google Cloud プラットフォームの自動スケーリングという特長の恩恵を受けていました。つまり、インフラストラクチャの調整やプロビジョニングといった作業に時間をとられることなく、ML モデルを実行できるわけです。こうした調整やプロビジョニングの作業は、データ エンジニアに大きくのしかかってきます(データ サイエンティストがモデル運用化の過程で、事実上、データ エンジニアの役割を果たすこともあります)。

Google では、データ エンジニアリングのバケットパスとして Dataproc のオープンソースと、クラウドネイティブの Dataflow の 2 種類を利用できますが、この両方に ML 機能が埋め込まれています。では、それぞれについて詳しく見ていきましょう。

Hadoop や Spark 環境に精通しているオープンソースの支持者は、SparkML ジョブの構築に慣れていることでしょう。こうしたユーザーのために、Spark ML ジョブを簡単に実行できるようにしています。Dataproc の Spark を使用した ML のコンセプトを紹介するラボが Quicklab で提供されていて、無料クレジットを利用して簡単に試すことができます。また、お客様がカスタムマシンでカスタム OSS クラスタを高速に構築できるようにしたうえで、GPU を用いた ML を提供しています。今年始めに発表された機能と合わせて使用すれば、Dataproc ユーザーはノートブックを利用して手軽にすばやく ML をデプロイしたり、クラスタの削除をスケジュール設定したりすることが可能になります。

一方、Dataflow を利用するデータ エンジニアのために、TensorFlow Extended(TFX)を使って ML ワークフローを本番環境で簡単に構築、管理できるようにしています。Apache Beam(Dataflow の SDK)を用いて統合を進めた結果、ML パイプライン構築用のツールキットをはじめ、パイプラインまたは ML トレーニング スクリプトの一部として利用できる標準コンポーネント一式と、各種標準コンポーネントの基本機能向けライブラリを成果物として提供しています。さらに利便性を高めるため、異常検出などの一般的パターンも公開しています。これは、telco の顧客によってサイバーセキュリティに応用されているほか、銀行における金融詐欺検出にも活用されています。

まとめ

ML の機能を幅広い職種の人が利用できるようにしたことで、ビジネスにおける予測、顧客セグメント開拓、推奨案などに役立つインサイトの生成といった、ビッグデータの特に重要な側面が身近なものになってきています。ML によって得られる奥深いインサイトは、今後、ビジネスの成功にとってますます欠かせない要素となってくるでしょう。言い換えれば、ML と AI を幅広く取り入れた企業が、成功をつかめるということです。Google では、優れたアイデアというものは上から下に対して押し付けるものではなく、下から上に湧き上がってくるものだと考えています。組織の誰もがデータとデータ分析ツールを利用できるようにしておけば、今後待ち受けているどんな将来にも備えられます。BigQuery ML の機械学習を今すぐ試すには、BigQuery サンドボックス(無料)をご利用ください。

今回は、データ、インサイト、ML を民主化することの重要性についてお話ししました。次回は、こうしたインサイトをリアルタイムで利用する方法(お客様を喜ばせ、競争に勝つために欠かせない要素です)をテーマにした記事をお届けします。

-データ分析担当プロダクト管理ディレクター Sudhir Hasbe

-プロダクト マネージャー Ryan Lippert 

投稿先