BigQuery データ キャンバスで分析する
BigQuery Studio データ キャンバス(Gemini in BigQuery の機能)では、自然言語プロンプトと分析ワークフローのグラフィック インターフェースを使用して、データの検索、変換、クエリ、可視化を行うことができます。
分析ワークフローについて、BigQuery データ キャンバスは有向非巡回グラフ(DAG)を使用して、ワークフローのグラフィカルなビューを提供します。BigQuery データ キャンバスでは、クエリ結果を繰り返し処理でき、1 か所で複数の質問分岐を操作できます。
BigQuery データ キャンバスは、分析タスクを高速化し、データ アナリストやデータ エンジニアなどのデータ プロフェッショナルがデータから分析情報を導出するプロセスを支援するように設計されています。特定のツールに関する技術的な知識は必要ありません。SQL の読み取りと書き込みに関する基本的な知識があれば十分です。BigQuery データ キャンバスは、Dataplex メタデータと連携し、自然言語に基づいて適切なテーブルを識別します。
BigQuery データ キャンバスは、ビジネス ユーザーが直接使用することを目的としたものではありません。
BigQuery データ キャンバスは、Gemini in BigQuery を使用して、データの検索、SQL の作成、グラフの生成、データ概要の作成を行います。
Gemini for Google Cloud がいつどのようにデータを使用するかについては、こちらをご覧ください。
機能
BigQuery データ キャンバスでは、次のことができます。
Dataplex メタデータと自然言語クエリまたはキーワード検索構文を使用して、テーブル、ビュー、マテリアライズド ビューなどのアセットを検索する。
次のような基本的な SQL クエリに自然言語を使用する。
FROM
句、数学関数、配列、構造体を含むクエリ。- 2 つのテーブルに対する
JOIN
オペレーション。
次のグラフタイプを使用してデータを可視化する。
- 棒グラフ
- ヒートマップ
- 折れ線グラフ
- 円グラフ
- 散布図
自然言語を使用して目的を説明することで、カスタムの可視化を作成する。
データ分析情報を自動生成する。
制限事項
自然言語コマンドは、以下の操作では適切に機能しない場合があります。
- BigQuery ML
- Apache Spark
- オブジェクト テーブル
- BigLake
INFORMATION_SCHEMA
ビュー- JSON
- ネストされたフィールドと繰り返しフィールド
- 複雑な関数とデータ型(
DATETIME
、TIMEZONE
など)
Geomap グラフではデータの可視化は機能しません。
プロンプトのベスト プラクティス
適切なプロンプト手法を使用すると、複雑な SQL クエリを生成できます。次の推奨事項により、BigQuery データ キャンバスで自然言語プロンプトを改善して、クエリの精度を高めることができます。
わかりやすく書く。リクエストは明確に記述します。あいまいな表現は避けましょう。
直接的な質問をする。最も正確な回答を得るには、一度に 1 つの質問をし、プロンプトを簡潔にします。必要に応じて、BigQuery データ キャンバスでプロンプトを別々のノードに分けます。
焦点を絞った明示的な指示を与える。プロンプトではキーワードを強調します。
操作の順序を指定する。明確な指示を順序立てて提供します。焦点を絞った小さなステップにタスクを分割します。
改善して繰り返す。さまざまな言い回しやアプローチを試して、どれが最善の結果をもたらすのか確かめます。
詳細については、BigQuery データ キャンバスのプロンプト記述に関するベスト プラクティスをご覧ください。
始める前に
- Google Cloud プロジェクトで Gemini in BigQuery が有効になっていることを確認します。通常、このステップは管理者が行います。
- BigQuery データ キャンバスを使用するには、必要な Identity and Access Management(IAM)権限があることを確認します。
必要なロール
BigQuery データ キャンバスを使用するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼します。
- BigQuery Studio ユーザー(
roles/bigquery.studioUser
) - Cloud AI Companion ユーザー(
roles/cloudaicompanion.user
)
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
BigQuery における IAM ロールと権限の詳細については、IAM の概要をご覧ください。
BigQuery データ キャンバスを使用する
BigQuery データ キャンバスは、Google Cloud コンソール、クエリ、テーブルで使用できます。
[BigQuery] ページに移動します。
クエリエディタで、[
](SQL クエリ)の横にある [ ](新規作成)をクリックし、[データ キャンバス] をクリックします。[自然言語] プロンプト フィールドに、自然言語プロンプトを入力します。
たとえば、「
Find me tables related to trees
」と入力すると、BigQuery データ キャンバスから、bigquery-public-data.usfs_fia.plot_tree
やbigquery-public-data.new_york_trees.tree_species
などの一般公開データセットを含む、使用可能なテーブルのリストが返されます。テーブルを選択します。
選択したテーブルのテーブルノードが BigQuery データ キャンバスに追加されます。スキーマ情報の表示、テーブルの詳細の表示、データのプレビューを行うには、テーブルノードにある各種のタブを選択します。
サンプル ワークフローを試す
このセクションでは、分析ワークフローで BigQuery データ キャンバスを使用するさまざまな方法について説明します。
サンプル ワークフロー: データの検索、クエリ、可視化
この例では、BigQuery データ キャンバスで自然言語プロンプトを使用して、データを検索し、クエリを生成して編集します。その後、グラフを作成します。
プロンプト 1: データを検索する
Google Cloud コンソールで [BigQuery] ページに移動します。
クエリエディタで、[
](SQL クエリ)の横にある [ ](新規作成)をクリックし、[データ キャンバス] をクリックします。[自然言語] プロンプト フィールドに、次の自然言語プロンプトを入力します。
Chicago taxi trips
BigQuery データ キャンバスで、Dataplex メタデータに基づいて、使用可能なテーブルのリストが生成されます。複数のテーブルを選択できます。
bigquery-public-data.chicago_taxi_trips.taxi_trips
テーブルを選択し、[キャンバスに追加] をクリックします。taxi_trips
のテーブルノードが BigQuery データ キャンバスに追加されます。スキーマ情報の表示、テーブルの詳細の表示、データのプレビューを行うには、テーブルノードにある各種のタブを選択します。
プロンプト 2: 選択したテーブルで SQL クエリを生成する
bigquery-public-data.chicago_taxi_trips.taxi_trips
テーブルに対する SQL クエリを生成するには、次の操作を行います。
データ キャンバスで [クエリ] をクリックします。
[自然言語] プロンプト フィールドに次のように入力します。
Get me the 100 longest trips
BigQuery データ キャンバスで、次のような SQL クエリが生成されます。
SELECT taxi_id, trip_start_timestamp, trip_end_timestamp, trip_miles FROM `bigquery-public-data.chicago_taxi_trips.taxi_trips` ORDER BY trip_miles DESC LIMIT 100;
プロンプト 3: クエリを編集する
生成したクエリを編集するには、クエリを手動で編集するか、自然言語プロンプトを変更してクエリを再生成します。この例では、自然言語プロンプトを使用してクエリを編集し、乗客が現金で支払ったルートのみを選択します。
[自然言語] プロンプト フィールドに次のように入力します。
Get me the 100 longest trips where the payment type is cash
BigQuery データ キャンバスで、次のような SQL クエリが生成されます。
SELECT taxi_id, trip_start_timestamp, trip_end_timestamp, trip_miles FROM `PROJECT_ID.chicago_taxi_trips_123123.taxi_trips` WHERE payment_type = 'Cash' ORDER BY trip_miles DESC LIMIT 100;
上の例の
PROJECT_ID
は Google Cloud プロジェクトの ID です。クエリの結果を表示するには、[実行] をクリックします。
グラフを作成する
- データ キャンバスで [可視化] をクリックします。
[棒グラフの作成] をクリックします。
BigQuery データ キャンバスで、ルート ID ごとに最も移動距離の長いルートを表示する棒グラフが作成されます。BigQuery データ キャンバスでは、グラフだけでなく、可視化の基となるデータの主な情報が要約されます。
省略可: 次のいずれかを行います。
- グラフを変更するには、[編集] をクリックし、[可視化を編集] ペインでグラフを編集します。
- データ キャンバスを共有するには、[共有] をクリックし、[リンクを共有] をクリックして、BigQuery データ キャンバスのリンクをコピーします。
- データ キャンバスをクリーンアップするには、[ ](その他の操作)を選択し、[ ](キャンバスを消去)を選択します。この手順により、空白のキャンバスが表示されます。
サンプル ワークフロー: テーブルを結合する
この例では、BigQuery データ キャンバスで自然言語プロンプトを使用してデータを検索し、テーブルを結合します。その後、クエリをノートブックとしてエクスポートします。
プロンプト 1: データを検索する
[自然言語] プロンプト フィールドに、次のプロンプトを入力します。
Information about trees
BigQuery データ キャンバスに、ツリーに関する情報を含むテーブルが候補としていくつか表示されます。
この例では、
bigquery-public-data.new_york_trees.tree_census_1995
テーブルを選択し、[キャンバスに追加] をクリックします。キャンバスにテーブルが表示されます。
プロンプト 2: 住所でテーブルを結合する
データ キャンバスで [結合] をクリックします。
BigQuery データ キャンバスに、結合するテーブルの候補が表示されます。
[自然言語] プロンプト フィールドを新たに開くには、[表を検索してください] をクリックします。
[自然言語] プロンプト フィールドに、次のプロンプトを入力します。
Information about trees
bigquery-public-data.new_york_trees.tree_census_2005
テーブルを選択し、[キャンバスに追加] をクリックします。キャンバスにテーブルが表示されます。
データ キャンバスで [結合] をクリックします。
[On this canvas] セクションで [Table cell] チェックボックスをオンにして、[OK] をクリックします。
[自然言語] プロンプト フィールドに、次のプロンプトを入力します。
Join on address
BigQuery データ キャンバスに、これら 2 つのテーブルを住所で結合する SQL クエリの候補が表示されます。
SELECT * FROM `bigquery-public-data.new_york_trees.tree_census_2015` AS t2015 JOIN `bigquery-public-data.new_york_trees.tree_census_1995` AS t1995 ON t2015.address = t1995.address;
クエリを実行して結果を表示するには、[実行] をクリックします。
クエリをノートブックとしてエクスポートする
BigQuery データ キャンバスでは、クエリをノートブックとしてエクスポートできます。
- データ キャンバスで [ノートブックとしてエクスポート] をクリックします。
- [ノートブックを保存] ペインで、ノートブックの名前と保存先のリージョンを入力します。
- [保存] をクリックします。ノートブックが正常に作成されます。
- 省略可: 作成したノートブックを確認するには、[開く] をクリックします。
サンプル ワークフロー: プロンプトを使用してグラフを編集する
この例では、BigQuery データ キャンバスの自然言語プロンプトを使用して、データの検索、クエリ、フィルタを行い、可視化の詳細を編集します。
プロンプト 1: データを検索する
米国の名前に関するデータを検索するために、次のプロンプトを入力します。
Find data about USA names
BigQuery データ キャンバスで、テーブルのリストが生成されます。
この例では、
bigquery-public-data.usa_names.usa_1910_current
テーブルを選択し、[キャンバスに追加] をクリックします。
プロンプト 2: データをクエリする
データをクエリするには、データ キャンバスで [クエリ] をクリックし、次のプロンプトを入力します。
Summarize this data
BigQuery データ キャンバスで、次のようなクエリが生成されます。
SELECT state, gender, year, name, number FROM `bigquery-public-data.usa_names.usa_1910_current`
[実行] をクリックします。クエリ結果が表示されます。
プロンプト 3: データをフィルタする
- データ キャンバスで [これらの結果に対してクエリを実行する] をクリックします。
データをフィルタするには、[SQL] プロンプト フィールドに次のプロンプトを入力します。
Get me the top 10 most popular names in 1980
BigQuery データ キャンバスで、次のようなクエリが生成されます。
SELECT name, SUM(number) AS total_count FROM `bigquery-public-data`.usa_names.usa_1910_current WHERE year = 1980 GROUP BY name ORDER BY total_count DESC LIMIT 10;
クエリを実行すると、1980 年に生まれた子供に多い名前の上位 10 個を含むテーブルが返されます。
グラフを作成して編集する
データ キャンバスで [可視化] をクリックします。
BigQuery データ キャンバスに、棒グラフ、円グラフ、折れ線グラフ、カスタムの可視化など、使用できる可視化オプションが候補として表示されます。
この例では、[棒グラフの作成] をクリックします。
BigQuery データ キャンバスで、次のような棒グラフが作成されます。
BigQuery データ キャンバスでは、グラフだけでなく、可視化の基となるデータの主な情報が要約されます。グラフを変更するには、[Visualization details] をクリックし、サイドパネルでグラフを編集します。
プロンプト 4: 可視化の詳細を編集する
[可視化] プロンプト フィールドに次のように入力します。
Create a bar chart sorted high to low, with a gradient
BigQuery データ キャンバスで、次のような棒グラフが作成されます。
省略可: さらに変更を加えるには、[編集] をクリックします。
[可視化を編集] ペインが表示されます。グラフのタイトル、X 軸の名前、Y 軸の名前などの詳細を編集できます。また、[JSON エディタ] タブをクリックすると、JSON 値に基づいてグラフを直接編集できます。
すべてのデータ キャンバスを表示する
プロジェクト内のすべてのデータ キャンバスのリストを表示するには、次の操作を行います。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、[データ キャンバス] の横にある
(アクションを表示)をクリックし、次のいずれかを行います。
- 現在のタブでリストを開くには、[すべて表示] をクリックします。
- 新しいタブでリストを開くには、[次の中にすべて表示] > [新しいタブ] をクリックします。
- 分割タブでリストを開くには、[次の中にすべて表示] > [分割タブ] をクリックします。
データ キャンバスのメタデータを表示する
データキャンバスのメタデータを表示するには、次の操作を行います。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [データ キャンバス] フォルダを開き、必要に応じて [共有データ キャンバス] フォルダを開きます。メタデータを表示するデータ キャンバスの名前をクリックします。
[概要] ペインで、使用されているリージョンや最終更新日など、データ キャンバスに関する情報を確認します。
データ キャンバスのバージョンを操作する
データ キャンバスのバージョンを表示、比較、復元できます。
データ キャンバスのバージョンを表示して比較する
データ キャンバスの異なるバージョンを表示して、現在のバージョンと比較するには、次の操作を行います。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [データ キャンバス] フォルダを開き、必要に応じて [共有データ キャンバス] フォルダを開きます。アクティビティを表示するデータ キャンバスの名前をクリックします。
[アクティビティ] タブをクリックすると、データ キャンバスのバージョンが日付の降順で表示されます。
データ キャンバスのバージョンの横にある
(アクションを表示)をクリックし、[比較] をクリックします。比較ペインが開きます。選択したデータ キャンバスのバージョンと現在のデータ キャンバスのバージョンを比較します。省略可: 個別のペインではなくインラインでバージョンを比較するには、[比較]、[インライン] の順にクリックします。
データ キャンバスのバージョンを復元する
データ キャンバスのバージョンを復元するには、次のいずれかのオプションを使用します。比較ペインから復元する場合は、復元するかどうかを選択する前に、データ キャンバスの以前のバージョンを現在のバージョンと比較できます。
アクティビティ ペイン
- [エクスプローラ] ペインで、プロジェクトと [データ キャンバス] フォルダを開き、必要に応じて [共有データ キャンバス] フォルダを開きます。以前のバージョンを復元するデータ キャンバスの名前をクリックします。
- [アクティビティ] ペインを選択します。
- 復元するデータ キャンバスのバージョンの横にある (アクションを表示)をクリックし、[復元] をクリックします。
- [確認] をクリックして、操作を確定します。
比較ペイン
- [エクスプローラ] ペインで、プロジェクトと [データ キャンバス] フォルダを開き、必要に応じて [共有データ キャンバス] フォルダを開きます。以前のバージョンを復元するデータ キャンバスの名前をクリックします。
- [アクティビティ] ペインを選択します。
- データ キャンバスのバージョンの横にある (アクションを表示)をクリックし、[比較] をクリックします。比較ペインが開きます。選択したデータ キャンバスのバージョンと最新のデータ キャンバスのバージョンを比較します。
- 比較後に以前のデータ キャンバスのバージョンを復元する場合は、[復元] をクリックします。
- [確認] をクリックして、操作を確定します。
料金
この機能の料金の詳細については、Gemini in BigQuery の料金の概要をご覧ください。
割り当てと上限
この機能の割り当てと上限については、Gemini in BigQuery の割り当てをご覧ください。
フィードバックを送信
Google にフィードバックを送信して、BigQuery データ キャンバスで表示される候補の改善にご協力ください。フィードバックを送信するには、次の操作を行います。
Google Cloud コンソールのツールバーで、[フィードバックを送信する] をクリックします。
(省略可)DAG JSON 情報をコピーしてフィードバックに追加のコンテキストを提供するには、[
](コピー)をクリックします。フォームに入力してフィードバックを送信するには、フォームをクリックします。
データ共有設定はプロジェクト全体に適用されます。これは、serviceusage.services.enable
と serviceusage.services.list
の IAM 権限を持つプロジェクト管理者のみ設定できます。Trusted Tester プログラムでのデータの使用について詳しくは、Gemini の Google Cloud Trusted Tester プログラムをご覧ください。
この機能に関するフィードバックを直接送信するには、datacanvas-feedback@google.com 宛てにメールをお送りください。
次のステップ
Gemini アシスタント機能を使用してクエリを作成する方法を学習する。
ノートブックの作成方法を学習する。