データ分析

Gemini in BigQuery が AI でデータと分析のワークフローをどのように加速させるか

2024年4月16日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Next24_Blog_blank_2-05.max-2500x2500.jpg

Google Cloud Japan Team

※この投稿は米国時間 2024 年 4 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

データから分析情報を得る道のりは、断片的かつ複雑で、時間がかかります。データチームは、構造化データと非構造化データの取り込み、分析準備のためのデータのラングリング、パイプラインの最適化と維持管理など、反復的な定型作業に時間を費やしています。データチームとしては、より価値の高い分析と分析情報に基づく意思決定を行う方が望ましいのは明らかです。

Next ‘23 では、BigQuery の Duet AI を紹介しました。今年の Next '24 では、BigQuery の Duet AI が Gemini in BigQuery となり、データの準備、分析、エンジニアリングのための AI を活用したエクスペリエンスとともに、ユーザーの生産性向上と費用最適化に役立つ推奨事項を紹介します。

「BigQuery の AI を活用した新しい支援機能と、他の Google Workspace プロダクトとのインテグレーションの容易さにより、当社のチームはデータから価値ある分析情報を引き出すことができます。自然言語ベースのエクスペリエンス、ローコードのデータ準備ツール、自動コード生成機能により、優先度の高い分析ワークフローが合理化され、データ実務者の生産性が向上し、影響の大きい取り組みに集中できる余地が生まれます。さらに、当社のビジネスユーザーを含め、さまざまなスキルセットを持つユーザーが、より気軽にデータ分析情報を活用して有益な変化をもたらし、社内でインクルーシブなデータ主導の文化を育むことができます」と Veo の分析部門責任者 Tim Velasquez 氏が語っています。

Gemini in BigQuery の新機能を詳しく見てみましょう。

AI でデータ準備を加速させる

ビジネスにおける分析情報は、正しいデータがあってこそ価値を発揮します。さまざまな情報源から得られる大規模なデータセットを扱う場合、形式の不整合、エラー、データの欠落が見られることがよくあります。そのため、データのクリーニング、変換、整理にかなり手間がかかることがあります。

データの準備、検証、拡充を簡素化するため、BigQuery には、ユーザーによるデータのクレンジングとラングリングを支援する、AI 拡張データ準備機能が追加されました。さらに、ローコードで視覚的なデータパイプラインを構築したり、以前のパイプラインを BigQuery で再構築したりできるようになりました。

パイプラインが本番稼働すると、AI がスキーマやデータドリフトなどの問題の発見と解決を支援し、データパイプラインの維持管理に伴う労力を大幅に削減します。構築されたパイプラインは BigQuery で実行されるため、統合メタデータ管理、自動エンドツーエンドデータリネージ、容量管理などの利点も生かせます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1._BigQuery_Data_Preperation.gif

ユーザーがデータのクレンジングとラングリングを行うための AI を活用した支援機能を備えた Gemini in BigQuery

データから分析情報を得る取り組みを始める

ほとんどのデータ分析は、適切なデータセットを見つける、データの構造を理解する、主要なパターンを特定する、抽出したい最も価値のある分析情報を特定する、といった探索から始まります。このステップは、特に新しいデータセットを扱う場合や、チームに加入したばかりの場合は、面倒で時間がかかることがあります。

この問題に対処するため、Gemini in BigQuery には、新しいセマンティック検索機能が備わっており、ユーザーのタスクに最も関連性の高いテーブルを正確に特定できるようになっています。Gemini in BigQuery は、Dataplex から取得できるこれらのテーブルのメタデータとプロファイリング情報を活用し、ワンクリックで実行できる関連性の高い、実行可能なクエリを表示します。BigQuery データ分析情報の詳細については、こちらをご覧ください。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2._BigQuery_Data_Insights.gif

ワンクリックで実行可能なテーブル用クエリを提示する Gemini in BigQuery

自然言語を使用して分析ワークフローを見直す

Google は、ユーザーの生産性を高めるために、エンドツーエンドのユーザーエクスペリエンスも見直しています。新しい BigQuery データ キャンバスは、データ探索、キュレーション、ラングリング、分析、可視化のための自然言語を用いたエクスペリエンスを提供することで、ユーザーがそのメンタルモデルを反映し、視覚表現を使用したワークフローによってデータジャーニーを探索し、その足がかりを築くことができます。

たとえば、ある最近のマーケティングキャンペーンを分析する場合、簡単な自然言語プロンプトを使用してキャンペーンのデータソースを検出し、既存の顧客データと統合して分析情報を導き出し、視覚表現を用いたレポートを経営幹部と共有できます。これらをすべて、一連の流れで行えます。BigQuery データキャンバスの概要については、こちらの動画をご覧ください。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3._BigQuery_Data_Canvas.gif

BigQuery データキャンバスでは、同じインターフェース内で自然言語プロンプトを使用して、データセットを探索、分析し、好みに合わせた視覚表現を作成できます

SQL と Python のコードアシスタンスを使用して生産性を向上させる

上級ユーザーでさえ、SQL や Python の構文の詳細をすべて覚えるのに苦労することがあり、多数のテーブル、カラム、リレーションシップを確認するのが大変な場合もあります。

Gemini in BigQuery は、関連するスキーマやメタデータを参照しながら、シンプルな自然言語プロンプトを使用して SQL または Python のコードを記述、編集するのに役立ちます。また、BigQuery のコンソール内チャットインタフェースを活用して、たとえば「BigQuery のマテリアライズドビューはどのように使用できるか？」、「JSON データはどのように取り込めるか？」、「クエリのパフォーマンスはどうすれば向上できるか？」といった簡単な質問を行うことで、特定のタスクに関するチュートリアル、ドキュメント、ベストプラクティスを確認することもできます。

分析を最適化して、パフォーマンスと処理速度を向上させる

データ量の増加に伴い、データ管理者を含む分析実務者は、空き容量を効果的に管理し、クエリのパフォーマンスを向上させることがますます困難になってきています。クエリのパフォーマンスを継続的に改善し、エラーを最小限に抑え、プラットフォームの費用最適化に役立つ推奨事項を紹介します。

これらの推奨事項に従うことで、クエリパターンやテーブルのパーティションまたはクラスタに基づいて作成または削除できるマテリアライズドビューを特定できます。さらに、Spark パイプラインを自動調整し、障害やパフォーマンスの問題を解消できます。

使ってみる

Gemini in BigQuery の詳細については、この短い概要動画をご覧いただき、ドキュメントをご参照のうえ、プレビュー機能に早期アクセスできるようご登録ください。Next '24 に参加される方は、データおよび分析に関するブレイクアウトセッションにご参加ください。また、デモステーションにもぜひ立ち寄って詳細を確認し、これらの機能が実際に動作しているところをご覧ください。Gemini in BigQuery の価格の詳細については、すべてのお客様向けに一般公開された時点でお知らせします。