コンテンツに移動
データ分析

Google Cloud Next ’24 で発表されたデータ分析の新手法

2024年4月18日
https://storage.googleapis.com/gweb-cloudblog-publish/images/Next24_Blog_Images_6-08.max-2500x2500.jpg
Google Cloud Japan Team

Try Gemini 1.5 Pro

Google's most advanced multimodal model in Vertex AI

Try it

※この投稿は米国時間 2024 年 4 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

幅の狭い分析情報からエンタープライズ規模の変革へと、データ、分析、AI の好循環を通じてデータ分析が新たな時代を迎えています。同時に、分析と AI が広く普及しており、質問があれば誰にでも分析情報と推奨事項を確認できるようになってきています。最終的に、私たちは人としての限界を超え、AI ベースのデータ エージェントを活用して、深く隠された分析情報を見つけようとしています。

組織はすでに、データと AI が一体となって自社のビジネスに AI の価値をもたらしてくれることを認識しています。Google 2024 年のデータと AI のトレンドに関するレポートの調査によると、データリーダーの 84% が、生成 AI が分析情報取得までの時間の短縮に役立つと考えており、80% がデータと AI の境界線が曖昧になり始めていると考えています。

本日開催される Google Cloud Next '24 では、以下のとおり、AI を生かしてデータをフル活用できる BigQuery Looker の新しいイノベーションを発表します。

  • BigQuery は、マルチモーダル データ、複数のサーバーレス処理エンジン、組み込みのストリーミングとデータ ガバナンスに対応し、データから AI へのライフサイクル全体を支援する AI 対応統合データ プラットフォームです。

  • Vertex AI Gemini モデルと新しい BigQuery のインテグレーションにより、マルチモーダル分析、ベクトル エンベディング、LLM のファインチューニングを BigQuery 内から企業データに対して実施できます。

  • Gemini in BigQuery では、データの準備、分析、エンジニアリングのための AI を活用した機能と、データ ワークロードを最適化するインテリジェントな Recommender を利用できます。

  • Gemini in Looker では、Google Workspace にシームレスに統合された Looker のセマンティック データモデルによって、ビジネス ユーザーがエンタープライズ データとチャットしたり、可視化やレポートを作成したりできます。

以上の動向を一つずつ詳しく見ていきましょう。

BigQuery: AI 対応統合データ基盤

BigQuery は今や、データを AI 活用につなげるワークロードのための Google Cloud の単一統合プラットフォームとなっていますBigQuery の統合ストレージ エンジンである BigLake は、分析と AI ワークロードのための BigQuery のネイティブ フォーマットとオープン フォーマットに対応した単一のインターフェースを提供します。これにより、単一のランタイム metastore、組み込みのガバナンス機能、きめ細かなアクセス制御機能を備えたデータの共通ビューとともに、構造化形式か非構造化形式かにかかわらず、データの保存場所とすべてのデータへのアクセス方法をユーザーが選択できます。

このたび、DDLDML、高スループットに対応する Iceberg のフルマネージド エクスペリエンスのプレビューがリリースされ、オープン フォーマットの対応範囲が拡大されました。Iceberg Hudi のサポートに加え、プレビュー版として Delta ファイル形式をネイティブにサポートすることで、BigLake の機能も拡張します。

HCA ヘルスケアでは、人々の治療と健康の改善に取り組んでいます。当社は、治療の提供方法を見直し、臨床医が患者の治療に集中できるようにすることを目指しており、医師と看護師を最も支援できる場面でデータと AI を活用しています。当社は今、Google Cloud のレイクハウス スタックを使用して、データと AI の統合基盤を構築しています。そこでは、患者、医師、看護師にとって最良のエクスペリエンスを築くため、BigQuery BigLake を使いあらゆる種類や形式のデータを単一のプラットフォームで安全に発見、管理します。Google Cloud のレイクハウス スタックにデータを保存しておくことで、データ サイエンティスト、エンジニア、アナリストが AI を活用して迅速にイノベーションを起こせるような、マルチモーダル データ基盤を構築できました。」 - HCA Healthcare、最高分析責任者、Mangesh Patil

また、BigQuery Omni のクロスクラウド機能も拡張しています。Salesforce のような大手企業とのパートナーシップや、最近リリースした BigQuery Salesforce Data Cloud 間の双方向データ共有により、お客様は、コピーや操作を行う必要なく、プラットフォーム間でデータを安全に組み合わせ、Salesforce BigQuery のデータを組み合わせて AI モデルと予測を作成できます。また、Salesforce Data Cloud Customer 360 プロファイルを BigQuery のデータで拡充することで、データと AI を活用したさらなるカスタマイズが可能になります。

「活かされていなかったデータを活用し、優れた顧客体験を提供するために、組織を超えて協力できることは素晴らしいことです。このインテグレーションにより、私たちの共通のお客様が Salesforce Data Cloud の豊富な機能を活用し、信頼できるエンタープライズ データに接続されたコピー不要のデータ共有機能と Google AI を利用しやすくなります。」- Salesforce、統合データサービスおよび Einstein 担当 EVP 兼ゼネラル マネージャー、Rahul Auradkar

Google は、この AI 対応統合データ基盤上に BigQuery Studio を一般提供し、すでに数十万人のアクティブ ユーザーを獲得しています。BigQuery Studio は、すべてのデータチームとデータ実務者がデータを AI 活用へつなげるためのワークフローを加速するために使用できる、データと AI にまたがる共同作業用データ ワークスペースを備えています。BigQuery Studio では、BigQuery 内で SQLPythonSpark、自然言語を直接選択できるほか、新しく統合されたリアルタイム ストリーミングとガバナンスの機能も利用できます。

データ処理時におけるお客様のサーバーレス Apache Spark のご利用は、過去 1 年間で 500% 以上増加しました1。今回、データチームがインフラストラクチャを管理することなく、SQL と同じくらい簡単に Python で作業できるよう、BigQuery Studio 内に統合された Apache Spark 用のサーバーレス エンジンのプレビュー版を発表いたしました。

Snap Inc. のデータチームは、これらの新しい機能を使用して、1 つのデータのコピー全体に対し機能する複数のエンジンを備えたデータと AI の共通プラットフォームの実現に取り組んでいます。これが実現すれば、きめ細かなガバナンスを適用し、データに近いリネージを追跡して、変革を推進するために必要な分析と AI のユースケースを容易に拡大できます。

Google は、リアルタイム ストリームに対するデータ処理を BigQuery から直接行えるようにするため、データ ストリームに対する継続的な SQL 処理を実現する BigQuery 継続的クエリのプレビュー版を発表し、AI オペレータやリバース ETL を使用したリアルタイム パイプラインを実現します。また、オープンソース API に基づくストリーミング データ ワークロードを実現するマネージド サービスとして、Apache Kafka for BigQuery のプレビュー版も発表します。

データを AI 活用につなげる際のガバナンスのための新たなイノベーションを、Dataplex のプレビューとして提供し、ガバナンス機能を拡張しています。BigQuery に完全に統合されたカタログを使用することで、Vertex AI のデータとモデルを含むエンタープライズ データに対して統合検索を実行し、生成 AI を活用した情報分析を進められるようになりました。BigQuery に列レベルのリネージを導入し、リネージ機能を Vertex AI Pipelines に拡張(近日プレビュー版を発表予定)することで、データを AI 活用につなげるワークロードをより深く理解できるようになります。最後に、大規模なデータアクセスのためのガバナンスを促進するために、Dataplex でガバナンス ルールを導入します。

BigQuery Vertex AI の新しいインテグレーションによるマルチモーダル分析

BigQuery Vertex AI との直接のインテグレーションにより、データを BigQuery からコピーまたは移動することなく、Vertex AI 内のモデルをお客様のエンタープライズ データと接続できるようになりました。これにより、BigQuery での非構造化データを使用したマルチモーダル分析、LLM のファインチューニング、ベクトル エンベディングの使用が可能になります。

たとえば、Priceline は、BigQuery に保存されたビジネスデータを幅広い用途で LLM に使用しています。

BigQuery のおかげで、AI のための強固なデータ基盤が手に入りました。データはちょうど欲しかった場所にありました。ホテル情報、マーケティング コンテンツ、カスタマー サービス チャットからの何百万件もの顧客データポイントを接続し、当社のビジネスデータを使用して LLM の土台を築くことできました。」- Priceline、データ責任者、Allie Surina Dixon

BigQuery Vertex AI の直接のインテグレーションにより、ドキュメント、音声ファイル、動画ファイルなどのマルチモーダル データをスムーズに準備、分析できるようになりました。BigQuery は、オブジェクト テーブルと Vertex AI VisionDocument AISpeech-to-Text API を使用し、幅広い非構造化データの分析に対応しています。このたび、Gemini 1.0 Pro Vision を使用して BigQuery で画像や動画を分析できるようになりました。これにより、最新の Gemini モデルの生成 AI 機能を使用して、データ パイプラインで構造化データと非構造化データを組み合わせることがこれまで以上に容易になります。

BigQuery が、お客様の BigQuery データに基づいてプロンプトを作成する機能や、センチメント抽出、分類、トピック検出、翻訳、データ拡充などに LLM を使用する機能を提供することにより、これまで以上にエンタープライズ データに AI を適用しやすくなります。

BigQuery では、ベクトル エンベディングを生成し、ベクトル検索とセマンティック検索を使用してベクトル エンベディングを大規模にインデックスに登録することもできるようになりました。これにより、ドキュメント、画像、動画を含む BigQuery データの類似検索、推奨、取得を必要とする新しいユースケースを実現できます。お客様は、BigQuery SQL インターフェースで、または LangChain などの生成 AI フレームワークとのインテグレーションを通じてセマンティック検索を使用し、エンタープライズ データに基づいて検索拡張生成を活用できます。

AI による支援のための Gemini in BigQuery Gemini in Looker

生成 AI によって、データをさまざまな形で役立てることのできる新しい機会がもたらされ、ビジネス ユーザーが自然言語を使用して質問し、好みに合わせた可視化とレポートを作成して、新たな分析情報を見出すことができます。生成 AI の支援機能とエージェント機能により、データ探索、分析、ガバナンス、最適化など、ビジネス ユーザーだけでなくデータチームの作業の時間も短縮できます。実際のところ、90% 以上の組織が、AI によってビジネス インテリジェンスとデータ分析が大きく変わると考えています。

このたび Google は、Gemini in BigQuery の公開プレビュー版を発表いたしました。Gemini in BigQuery は、取り込みやパイプライン作成から価値ある分析情報の取得まで、分析のライフサイクル全体を通じてユーザーの生産性を高め、費用を最適化する AI 活用機能を備えています。Gemini in BigQuery に特有の機能として、メタデータ、使用状況データ、セマンティクスを確認することにより、お客様のビジネスの状況を認識できる機能が挙げられます。また Gemini in BigQuery では、チャット支援にとどまらず、データ探索、キュレーション、ラングリング、分析、可視化のワークフローのための新しい自然言語ベースのエクスペリエンスであるデータキャンバスといった新しい視覚的エクスペリエンスもご利用いただけます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1._BigQuery_Data_Canvas.gif

自分が自転車シェア会社のデータ アナリストであると想像してみてください。Gemini in BigQuery の新しいデータ キャンバスを使用すると、データセットを探索し、上位の走行距離を特定して、カスタマイズされた可視化を作成できます。これらはすべて、同じインターフェース内で自然言語によるプロンプトを使用して行えます。

Gemini in BigQuery の機能は、クエリの推奨機能、セマンティック検索機能、ローコードの視覚的なデータ パイプライン開発ツール、クエリのパフォーマンスを向上させ、エラーを最小化に抑え、費用を最適化するための AI を活用した推奨機能にまで及びます。さらに、ユーザーは、自然言語プロンプトを使用して SQL コードまたは Python コードを作成し、クエリを構成しながらリアルタイムで提案を受けることができます。

このたび、ビジネス ユーザーやアナリストがビジネスデータとチャットできるようにするための Gemini in Looker 限定公開プレビュー版も発表いたしました。Gemini in Looker の機能には、会話型分析、レポートと数式の生成、LookML とビジュアリゼーション アシスタント、Google スライドの自動生成が含まれます。さらに、これらの機能は Workspace と統合されているため、ユーザーは、作業している場所で見やすいデータの可視化と分析情報を簡単に確認できます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2._Conversational_Analytics.gif

自分が e コマース店舗を運営していると想像してみてください。Gemini in Looker でクエリを実行し、販売動向や市場の詳細情報を把握して、チャートがどのように作成されたかの詳細とともに、分析情報を即座に調べることができます。

Google の新しいデータ分析プロダクトの詳細については、導入事例をご確認いただき、Google Developer Experts から実践的知識を習得して、Google Cloud Next '24 のデータ分析に関するスポットライトとブレイクアウト セッションに参加するか、これらをオンデマンドでご視聴ください。

-Google Cloud、データ分析担当バイス プレジデント兼ゼネラル マネージャーGerrit Kazmaier


1. Google 社内データ - Google Cloud 上で Apache Spark を使用して処理されたデータの前年比成長率(2023 2 月との比較)

投稿先