BigQuery が AI 対応の単一の統合データ プラットフォームに
Google Cloud Japan Team
※この投稿は米国時間 2024 年 4 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。
データリーダーの 80% が、データと AI の境界線が曖昧になっていると考えています。ビジネスデータに大規模言語モデル(LLM)を使用すると、競争上の優位性を得ることができますが、この恩恵を得るには、データの構造化、準備、管理、モデル化、スケーリングをどのように行うかが重要になります。
データクラウドを活用するために、すでに何万もの組織が BigQuery とその統合 AI 機能を選択しています。しかし、データドリブンな AI の時代においては、あらゆるデータ ワークロードを管理するシンプルな方法が必要とされています。そこでこのたび、Google はさらに一歩進んで、Google Cloud の主要なデータ分析機能を BigQuery に統合します。これにより、AI 対応の単一のデータ分析プラットフォームの提供が可能となりました。BigQuery は、複数の Google Cloud 分析サービスの主要機能を単一のプロダクト エクスペリエンスに統合し、シンプルな管理とスケーリングを最高のコスト パフォーマンスで実現します。BigQuery テーブル内の構造化データや、画像、オーディエンス、ドキュメントなどの非構造化データ、さらにはストリーミング ワークロードにも対応します。
BigQuery で以下のことが可能になります。
-
あらゆるデータタイプとオープン フォーマットをサポートし、データと AI 基盤をスケーリング
-
フルマネージドのサーバーレス ワークロード管理モデルとユニバーサル メタストアを利用して、規模を問わず、データを適用するだけで済み、事前のサイズ設定が不要
-
複数の言語とエンジン(SQL、Spark、Python)を単一のデータコピーに取り込むことで、データチームのコラボレーションにおける柔軟性とアジリティが向上
-
組み込みの高可用性、データ ガバナンス、エンタープライズ セキュリティ機能により、データから AI へのエンドツーエンドのライフサイクルをサポート
-
あらゆるデータユーザー向けに設計された統合プロダクト エクスペリエンスと、AI を活用したアシスタント機能とコラボレーション機能によって分析を簡素化
BigQuery のデータを使用することで、迅速かつ効率的に生成 AI をデータに適用でき、LLM を活用できます。BigQuery は、BigQuery ML や BigQuery DataFrames を通じて Gemini モデルを利用できるようにすることで、企業向けのマルチモーダルな生成 AI を簡素化します。また、Vertex AI のドキュメント処理 API と音声文字変換 API とのインテグレーションの拡張と、AI を活用したビジネスデータの検索を可能にするベクトル機能により、非構造化データから価値を引き出すことができます。構造化データと非構造化データの組み合わせから得られるインサイトを使用して、LLM をさらにファインチューニングできます。
あらゆるデータタイプとオープンフォーマットをサポート
多くのお客様が BigQuery のきめ細かなアクセス制御と統合されたガバナンスを活用して、構造化データか非構造化データかを問わず、あらゆるデータタイプを管理しています。BigQuery の統合ストレージ エンジンである BigLake は、オープン テーブル形式をサポートしているため、統合データ プラットフォームのメリットを享受しながら、既存のオープンソース ツールや以前のツールを使用して、構造化データや非構造化データにアクセスできます。BigLake は、すべての主要オープン テーブル形式をサポートしており、これには、Apache Iceberg や Apache Hudi、さらには、このたび BigQuery とネイティブに統合された Delta Lake などが含まれます。また、DDL、DML、ストリーミングのサポートを含む、Iceberg のフルマネージド エクスペリエンスを提供します。
データチームは、構造化、非構造化、オープンといった形式を問わず、データの普遍的な定義にアクセスする必要があります。このたびリリースした BigQuery メタストアは、このニーズをサポートするマネージドでスケーラブルなランタイム メタデータ サービスです。普遍的なテーブル定義を提供し、分析や AI ランタイムに対してきめ細かなアクセス制御ポリシーを適用します。サポートされるランタイムには、Google Cloud、オープンソース エンジン(コネクタ経由)、サードパーティのパートナー エンジンが含まれます。
単一のデータコピーで複数の言語とサーバーレス エンジンを使用
複数の言語やエンジンを単一のデータコピーで実行したいというニーズは日々高まっていますが、昨今の分析や AI システムには断片化の性質があるため、このようなニーズへの対応は困難になっています。このたび、BigQuery から離れることなく、Python や PySpark のプログラム機能をデータで直接利用できるようになりました。
BigQuery DataFrames は、習得が容易で、Python の機能と BigQuery のスケーリングと使いやすさを統合します。メソッドを透過的かつ最適に BigQuery SQL や BigQuery ML SQL に変換することで、pandas と scikit-learn の 400 以上の共通 API を実装します。これにより、クライアントサイドの機能の障壁がなくなり、データ サイエンティストは、BigQuery の処理能力を活用して、テラバイト規模のデータを探索、変換、トレーニングできるようになります。
Apache Spark は、データ処理ランタイムとして広く支持されており、特に、データ エンジニアリング タスク用に人気です。実際、過去 1 年間で Google Cloud でのサーバーレス Apache Spark の利用は 500% 以上増加しました1。BigQuery に新たに統合された Spark エンジンを使用すると、SQL と同じように PySpark を使用してデータを処理できます。BigQuery の他の部分と同様に、Spark エンジンは完全にサーバーレスであり、コンピューティング インフラストラクチャを管理する必要はありません。PySpark を使用してストアド プロシージャを作成し、SQL ベースのパイプラインから呼び出すこともできます。
意思決定と ML モデルへのフィードをニア リアルタイムで
データチームは、リアルタイムの解析機能と AI ソリューションの提供によって、シグナルの受信から、インサイトの取得、アクションまでの時間を短縮することも求められています。BigQuery は、継続的 SQL クエリ(SQL ステートメントを介してデータが到着した瞬間にデータを処理する制限なし SQL クエリ)を新たにサポートし、リアルタイムのストリーミング データ処理を容易にします。BigQuery の継続的クエリは、データと AI プラットフォームに関するリアルタイムのエンタープライズ ナレッジを使用して、Salesforce などのダウンストリーム SaaS アプリケーションを強化します。さらに、オープンソースのストリーミング ワークロードをサポートするために、Google は Apache Kafka for BigQuery のプレビュー版を発表しました。これにより、Apache Kafka を使用して、ストリーミング データワークロードの管理と、ML モデルへのフィードが可能になり、バージョン アップグレード、リバランシング、モニタリングなどの運用上の問題を心配する必要がなくなります。
ガバナンスとエンタープライズ機能で分析と AI をスケーリング
Google は昨年、データの管理、発見、ガバナンスを容易にするため、データの品質、リネージ、プロファイリングなどのデータ ガバナンス機能を Dataplex から BigQuery に直接組み込みました。今後は BigQuery を拡張して、統合メタデータ カタログを利用した Dataplex の強化された検索機能を組み込み、Vertex AI が提供するモデルやデータセットなど、データや AI アセットをデータユーザーが簡単に発見できるようにします。BigQuery における列レベルのリネージのトラッキングのプレビュー版はすでに公開しており、Vertex AI Pipelines のリネージのプレビュー版もまもなく公開する予定です。また、メタデータに基づくガバナンス ポリシーの定義を可能にする、きめ細かなアクセス制御のためのガバナンス ルールのプレビュー版もご利用いただけます。
さらに、リージョン全体で地理的な冗長性を高めたいお客様に向けて、BigQuery にマネージド障害復旧を導入いたします。この機能は、コンピューティングとストレージの自動フェイルオーバーを可能にし、ビジネス クリティカルなワークロードに合わせた新しいクロス リージョンのサービスレベル契約(SLA)を提供するもので、現在プレビュー版をご利用いただけます。マネージ障害復旧機能で提供されるセカンダリ リージョンのスタンバイ コンピューティング容量は、BigQuery の Enterprise Plus エディションの料金に含まれます。
あらゆるデータユーザーのための統合されたエクスペリエンス
BigQuery は、データ分析用の Google Cloud の単一の統合プラットフォームであるため、複数のデータチームが BigQuery Studio を使用して連携できます。すでに一般提供されている BigQuery Studio は、データチームに共同データ ワークスペースを提供するもので、あらゆるデータ技術者が、データを AI 活用へつなげるためのワークフローを加速するために使用できます。BigQuery Studio では、データの規模、形式、場所を問わず、SQL、Python、PySpark、自然言語を単一の統合分析ワークスペースで使用できます。BigQuery Studio のすべての開発アセットには、チーム コラボレーションやバージョン管理を含む、完全なライフサイクル機能が備わっています。Next '23 での BigQuery Studio の発表以来、この新しいインターフェースを何十万人ものユーザーに積極的にご利用いただいています2。
Gemini in BigQuery による AI アシスタントとコラボレーション エクスペリエンス
Gemini in BigQuery の新しいイノベーションについてもいくつか発表しました。これらは、データの準備、分析、エンジニアリングのために AI を活用したエクスペリエンスをデータチームに提供するほか、ユーザーの生産性を向上させ、費用を最適化するためのインテリジェントな推奨事項を提供するものです。BigQuery データ キャンバスは、自然言語入力による AI 中心のエクスペリエンスで、データの発見、探索、分析をより迅速かつ直感的に行えるようにします。BigQuery の AI 拡張データ準備機能は、ユーザーによるデータのクレンジングとラングリングを支援し、ローコードで視覚的なデータ パイプラインを構築したり、以前のパイプラインを再構築したりできます。Gemini in BigQuery は、関連するスキーマやメタデータを参照しながら、シンプルな自然言語プロンプトを使用して SQL または Python のコードを記述、編集するのにも役立ちます。
BigQuery プラットフォームを活用したイノベーション: Deutsche Telekom の事例
「Deutsche Telekom は、水平スケーリングが可能なデータプラットフォームを革新的な方法で構築しました。これは、現在および将来のビジネスニーズを満たすように設計されています。BigQuery を当社の One Data Ecosystem の中心に据えることで、データチーム全体でデータの分散利用を促進しながら、信頼できる唯一の情報源を維持するための統一的なアプローチを作成しました。BigQuery と Vertex AI により、データ主権とフェデレーション アクセス制御を維持しながら、データ サイエンティストが AI モデルをテストおよび運用化できる、管理されたスケーラブルなスペースを構築しています。これにより、LLM の実践的な利用を迅速に展開でき、データ エンジニアリングのライフサイクルを加速させ、新たなビジネス チャンスにつなげることができました。」- Deutsche Telekom、データ アーキテクチャ担当バイス プレジデント Ashutosh Mishra 氏
AI 対応データ プラットフォームを構築しましょう
AI 対応データ プラットフォームの詳細を確認し、構築を開始するには、今すぐ次世代の BigQuery をご活用ください。Gemini in BigQuery の最新のイノベーションについては、こちらをご覧ください。また、Google Cloud におけるデータ分析の今後の展望もご覧ください。
-プロダクト管理担当バイス プレジデント Oliver Ratzesberger
-プロダクト管理担当シニア ディレクター Irina Farooq
1. Google 社内データ - Google Cloud 上で Apache Spark を使用して処理されたデータの前年比成長率(2023 年 2 月との比較)。
2. 2023 年 8 月の BigQuery Studio の発表以来、月間アクティブ ユーザーは増加し続けています。