AI 時代のデータ分析: Google が今年行ったデータ プラットフォームの強化
Google Cloud Japan Team
※この投稿は米国時間 2023 年 11 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。
AI はすでに組織の運営方法に大きな影響を与えています。AI の力により、仕事の内容と進め方、そして誰のために仕事をするのかをまったく新しい視点で考えることができます。多くの企業は、AI を使って実際のビジネス上の問題を解決するまで、あと一歩のところまで来ています。あとはデータを有効活用するだけなのです。
Google Cloud には、データを保存、変換し、そこから分析情報を取得するためのプラットフォームとツールの強固なポートフォリオがあり、AI に活用できます。このブログでは、3 つの戦略分野にわたって 2023 年のデータと AI のクラウドの主要なイノベーションをまとめます。
- すべてのデータの相互接続 - 構造化データや非構造化データなど、形式を問わず、あらゆる場所で。
- データへの AI の導入 - すべてのデータを使用して AI モデルを安全かつ迅速に構築。
- 生産性の向上 - すべてのデータチームがデータ分析、コード生成、データ ワークロードの最適化を行えるよう支援。
すべてのデータの相互接続
データは何十、時には何百ものデータサイロに分散しています。クラウドとオンプレミスのシステム全体で、ほとんどが非構造化の、新しい形式のデータ ワークロードが増加しています。学ぶべきツールが多すぎ、そのツール間を行き来するのも大変です。このような課題のせいで、AI プロジェクトは見せかけだけで、中身は単なるデータ プロジェクトという結果になってしまいがちです。
Google のデータと AI のクラウドでは、データを複数のレベルで相互接続できます。
構造化データと非構造化データの相互接続 - ビジネスに関する全方位の分析情報を引き出すには、画像、音声、文書などの非構造化データを構造化データと組み合わせて分析する必要があります。
Google は、データユーザーが SQL を使用して非構造化データに簡単にアクセスし、横断的に探索、処理、クエリできるように、BigLake オブジェクト テーブルの一般提供を開始しました。また、BigLake での Hudi および Delta ファイル形式のサポートも開始し、一般提供中です。加えて、BigLake をさらに発展させ、フルマネージド Iceberg テーブルのプレビューを開始しました。これにより、Iceberg リーダーとの完全な互換性を維持しながら、Cloud Storage データに対して高スループットのストリーミング取り込みを使用でき、レイクハウスの自動ストレージ最適化によるフルマネージド エクスペリエンスが実現します。また、BigLake を使用した DML トランザクションにより、一貫性のある変更とデータ セキュリティの向上が可能になります。
BigLake は急成長を遂げており、今年に入ってから BigLake の使用量は 27 倍に増加しました。
クラウド間でのデータの相互接続 - 多くのお客様は、クラウド間での一括表示機能を提供する BigQuery Omni を使用して、Google Cloud、AWS、または Azure 上のデータを管理、分析しています。Google は BigQuery Omni をさらに拡張し、クロスクラウド マテリアライズド ビューと、クロスクラウド結合のサポートを追加しました。また、Dataproc Spark を Google Distributed Cloud に導入することで、分析をオンプレミス データにも拡張しました。これにより、データセンター内のセンシティブ データに対して Spark を実行して、コンプライアンスまたはデータ主権の要件をサポートしつつ、Google Cloud 内の BigQuery データに接続できるようになります。
データ マネジメントとガバナンスの連係 - データの完全性、正確性、妥当性を把握するためのインテリジェントなデータ プロファイリングとデータ品質機能を追加しました。また、Dataplex での拡張データ マネジメントとガバナンス機能もリリースされました。これにより、Vertex AI モデルおよびデータセット、オペレーショナル データベース、Google Cloud と Omni 上の分析データなど、すべてのデータと AI アセットを一括表示できます。
データ共有 - 1 週間につき何千もの組織が、BigQuery を使用して数百ペタバイトものデータを組織外と共有します。Google は、データの相互接続のサポートを拡充するために、BigQuery データ クリーンルームを開設しました。これにより、ユーザーのプライバシーを尊重しつつ、企業間でのデータセットの共有と照合、信頼できるパートナーとの共同分析を実現できます。
費用の最適化 - 「すべてのデータの相互接続」は、コストがかかりすぎたり、予測不能であったりすべきではありません。そこで、Google は新機能であるスロットの自動スケーリングと、新しい圧縮ストレージ料金モデルとともに、BigQuery の料金エディションを発表しました。これにより、さまざまなワークロード要件に合わせて、多くの選択肢から適切な機能セットを柔軟に選択できるようになります。Standard、Enterprise、Enterprise Plus の各エディションを組み合わせ、ワークロードごとのコスト パフォーマンスを最適化することもできます。BigQuery の各エディションには、予測可能なワークロード向けに 1 年または複数年のコミットメントを低価格で提供する機能と、使用したコンピューティング容量に対してのみ料金を支払うオプションによって予測不能なワークロードをサポートする、新しい自動スケーリング機能が含まれています。
データに AI を導入
AI は、データを有効活用するさまざまな機会を提供します。そこで私たちは、お客様のすべてのデータチームが AI に簡単にアクセスでき、AI モデルのトレーニングに自社データを簡単に利用できるようにしました。
お客様はすでに BigQuery で何億もの予測とトレーニングを実行しています。この半年間で、BigQuery での ML オペレーションは昨年と比較して 250% 以上増加しました。
ここで、AI をサポートするために強化した BigQuery の機能をいくつかご紹介します。
基盤モデルへのアクセス - ユーザーが BigQuery から Vertex AI の基盤モデルに直接アクセスできるようにしました。たった 1 つのステートメントで、BigQuery テーブルを大規模言語モデル(LLM)に接続し、BigQuery データでプロンプトをチューニングできます。これにより、データに対するテキスト分析といった生成 AI 機能を使用できます。また、データモデルを強化するために新しい属性を生成することも可能です。わずか数クリックで、Vertex Doc AI ワークベンチを使用してカスタマイズされた LLM エクストラクタをデプロイでき、BigQuery から直接アクセスしてテキストデータから特定の知識を抽出できます。
AI モデルの範囲の拡大 - BigQuery ML 推論エンジンもリリースし、事前トレーニング済みモデルやオープン ML フレームワークのエコシステムにアクセスできるようにしました。BigQuery で Google のビジョン、自然言語、翻訳のモデルに対して予測を実行し、TensorFlow Lite、ONNX、XGBoost などの追加の形式でモデルをインポートして、Vertex AI でホストされているモデルを直接使用します。
特徴とベクトル エンベディング - BigQuery 特徴テーブルとベクトル エンベディングがプレビュー版で利用可能になり、ML 特徴とベクトル エンベディングをすべて BigQuery に保存できるようになりました。特徴データとベクトル エンベディング データを BigQuery に読み込むことで、高度なセマンティック検索を構築し、BigQuery データの規模に応じたレコメンデーション クエリをリアルタイムで実行できます。また、他のデータを管理するのと同じ方法で特徴を管理できます。さらに、データを Vertex AI Feature Store に自動的に同期させることで、データを移動することなく、ウェブ アプリケーションに低レイテンシでサービスを提供できます。
データと AI の担当者のための統合ワークスペース - AI とデータを 1 つの共有環境に統合するために、データ エンジニアリング、分析、ML ワークロードをまとめる BigQuery Studio をプレビュー版でリリースしました。これにより、SQL、Python、Spark、その他の言語を編集し、インフラストラクチャ管理のオーバーヘッドを招くことなくペタバイト規模で簡単に分析を実行できます。BigQuery Studio を使用すると、Google Cloud のエンタープライズ レベルのセキュリティとコンプライアンスを Colab に提供する、新サービスの Colab Enterprise に直接アクセスできます。
また、BigQuery DataFrames API のプレビュー版もリリースしました。この API は、Pandas や Scikit の使い慣れた API を使用して、BigQuery でデータ サイエンス用の Python を直接実行できるシンプルな方法を提供します。BigQuery で Python コードを記述できることにより、優れたノートブック エクスペリエンスが実現します。
AI による生産性の向上
今年、Google はお客様の生産性向上を支援するために、数十年にわたる AI への投資と研究を実行に移しました。
データ分析のための AI - データ分析の簡素化、コードの生成、データ ワークロードの最適化のために、BigQuery の Duet AI をリリースしました。Duet AI には次の機能があります。
- SQL クエリと Python コードの作成を支援する。これによりユーザーは、ロジックと成果に一層集中できるようになります。
- リアルタイムでコードを自動提案し、完全な関数とコードブロックを生成する。
- チャット エクスペリエンスでデータ作業を支援する。
また、Duet AI をデータ移行サービスに導入し、自動 SQL 変換により既存アプリケーションをモダナイズできるようにしました。
データ ガバナンスのための AI - Dataplex にも Duet AI を導入しました。Dataplex の Duet AI は、コールド スタート問題(データにどのような質問ができるかを、どうやって把握するのか)を解決するためのメタデータ インサイトに使用できます。Duet AI を活用することで、メタデータと使用パターンに基づいてデータに対する可能な質問のリストが生成されます。また、BigQuery Studio で実行できる SQL クエリにワンクリックでアクセスできるため、分析を迅速に開始できるようになります。
ビジネス インテリジェンスのための AI - 毎月 1,000 万人を超えるユーザーが Looker にアクセスしており、1,000 以上のデータソースと 800 以上のコミュニティ コネクタへのアクセスによって詳細な分析情報を入手しています。
さらに Google は、ユーザーが自然言語で会話データ分析を行えるようにするため、Looker の Duet AI をリリースしました。具体的には次のことが可能になります。
- 自然言語で会話データの分析を行う。
- Looker に分析の目標を伝えることで、ダッシュボードとレポートを自動的に作成する。
- Looker ダッシュボードからインテリジェントな概要付きの Google スライド プレゼンテーションを生成する。
- 自然言語を使用して、Duet Formula とビジュアリゼーション アシスタントで計算とビジュアルをすばやく作成する。
- LookML コードを素早く作成し、データモデルの意図を自然言語で指定する。
次のステップ
Google には、2024 年以降に向けたイノベーションのロードマップがあります。11 月 13 日に開催されたイベントをオンデマンドでご覧いただき、BigQuery、ストリーミング分析、データレイク、データ統合、生成 AI に対する Google の計画と投資の概要をご覧ください。Google のデータと AI のクラウドの新機能を活用し、皆様が何を構築して、どのようにイノベーションを起こすのか、心より楽しみにしています!
-データ分析、プロダクト マーケティング責任者 Nic Smith