BigQuery の一般公開データセット

一般公開データセットは、BigQuery に保存され、Google Cloud 一般公開データセットプログラムを通じて一般提供されているデータセットです。この一般公開データセットは BigQuery でホストされ、ユーザーがアクセスして独自のアプリケーションに統合できます。Google はこうしたデータセットの保存費用を負担し、プロジェクトを使用してデータを一般提供しています。データで実行したクエリにのみ料金が発生します。毎月 1 TB まで無料です。クエリの料金の詳細をご覧ください。

レガシー SQL や GoogleSQL クエリを使用して分析できる一般公開データセットが用意されています。一般公開データセットをクエリする場合は、bigquery-public-data.bbc_news.fulltext などの完全修飾テーブル名を使用します。セキュリティ境界などで組織がデータアクセスを制限している場合は、一般公開データセットへのアクセス権限について管理者に連絡する必要が生じることがあります。

BigQuery の一般公開データセットにアクセスする方法として、Google Cloud コンソールを使用する方法、bq コマンドラインツールを使用する方法のほか、Java、.NET、Python といったさまざまなクライアントライブラリを使用して BigQuery REST API を呼び出す方法があります。データライブラリの検出とアクセスに役立つデータエクスチェンジプラットフォームである BigQuery Sharing（旧 Analytics Hub）を介して、一般公開データセットを表示してクエリを実行することもできます。

デフォルトでは、VPC Service Controls 境界内から一般公開データセットにアクセスすることはできません。一般公開データセットプログラムのサービスレベル契約（SLA）はありません。

[共有（Analytics Hub）] に移動

各個別のデータセットの詳細については、Cloud Marketplace の [データセット] セクションで、データセットの名前をクリックしてください。

Cloud Marketplace のデータセットに移動

始める前に

BigQuery の一般公開データセットを使用する前に、プロジェクトを作成または選択する必要があります。毎月、最初の 1 TB のデータの処理については課金されないため、課金を有効にせずに一般公開データセットのクエリを開始できます。無料枠を超える可能性がある場合は、課金を有効にする必要があります。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

新しいプロジェクトでは、BigQuery が自動的に有効になります。既存のプロジェクトで BigQuery を有効にするには:
Enable the BigQuery API.
Enable the API

一般公開データセットのロケーション

一般公開データセットは、US や EU のような特定のロケーションに保存されています。現在、BigQuery のサンプルテーブルは US マルチリージョンロケーションに保存されています。サンプルテーブルのクエリを実行する場合、コマンドラインに --location=US フラグを設定し、Google Cloud コンソールの処理を行うロケーションに US を選択するか、API を使用するときにジョブリソースの jobReference セクションにある location プロパティを指定します。サンプルテーブルは米国内に格納されているため、サンプルテーブルのクエリ結果を別のリージョンにあるテーブルに書き込むことはできません。また、サンプルテーブルのテーブルを別のリージョンにあるテーブルと結合することもできません。

Google Cloud コンソールで一般公開データセットにアクセスする

一般公開データセットは、次の方法を使用して Google Cloud コンソールでアクセスできます。

[エクスプローラ] ペインで、bigquery-public-data プロジェクトを表示します。詳細については、一般公開データセットを開くをご覧ください。
共有を使用して、一般公開データセットの表示とデータセットへの登録を行います。

データテーブルが最後に更新された時間を確認するには、テーブル情報の取得に記載されたテーブルの [詳細] セクションに移動し、[最終更新日] フィールドを表示します。プロジェクトの選択と削除の詳細については、プロジェクトを操作するをご覧ください。

その他の一般公開データセット

照会が可能な一般公開データセットは、他にも数多くあり、一部は Google でもホストされますが、多くはサードパーティでホストされます。その他のデータセットの例:

データセットを一般公開して共有する

データセットのアクセス制御を変更し、アクセス許可を「認証されたすべてのユーザー」にすることで、いずれのデータセットも一般公開データセットと共有できます。データセットのアクセス制御の設定の詳細については、データセットへのアクセスの制御を参照してください。

データセットを一般公開して共有する場合:

一般公開データセットを含むプロジェクトに関連付けられた請求先アカウント単位でストレージの料金が発生します。
クエリジョブが実行されているプロジェクトに関連付けられた請求先アカウント単位でクエリ料金が発生します。

詳細については、BigQuery の料金の概要をご覧ください。

サンプルテーブル

BigQuery には、一般公開データセットのほかにも、クエリを実行できるサンプルテーブルがあります。これらのテーブルは、bigquery-public-data:samples データセットに含まれています。

BigQuery サンプルテーブルのクエリ要件は、一般公開データセットにクエリを実行する場合と同じです。

bigquery-public-data:samples データセットには、次のテーブルが含まれています。

名前	説明
`gsod`	NOAA が収集した 1929 年後期から 2010 年初期の気象情報（降水量や風速など）が含まれています。
`github_nested`	ネストされたスキーマを使用した GitHub リポジトリ上のアクション（pull リクエストやコメントなど）のタイムラインが含まれています。2012 年 9 月に作成されました。
`github_timeline`	フラットスキーマを使用した GitHub リポジトリ上のアクション（pull リクエストやコメントなど）のタイムラインが含まれています。2012 年 5 月に作成されました。
`natality`	米国の出生データは、1969～2008 年に全米 50 州、コロンビア特別区、ニューヨーク市で登録された、米国のすべての出生数を表しています。
`shakespeare`	シェイクスピア作品の単語の索引が含まれていて、それぞれのコーパスで各単語が出現する回数を示しています。
`trigrams`	1520～2008 年に発行された作品から抽出した英語のトリグラムが含まれています。
`wikipedia`	2010 年 4 月までの Wikipedia の全記事に関する完全な改訂履歴が含まれています。

お問い合わせ

BigQuery の一般公開データセットプログラムについてご不明な点がありましたら、bq-public-data@google.com までお問い合わせください。

次のステップ

Google Cloud コンソールを使用したクイックスタートで、一般公開データセット内のテーブルにクエリを実行する方法を確認する。