BigQuery の一般公開データセット

Cloud 一般公開データセット プログラムのカタログは GCP Marketplace にあります。各データセットの詳細については、データセット セクションの Marketplace ページをご覧ください。

GCP Marketplace のデータセットに移動

一般公開データセットは、BigQuery に保存され、Google Cloud 一般公開データセット プログラムを通じて一般提供されているデータセットです。この一般公開データセットは BigQuery でホストされ、ユーザーがアクセスして独自のアプリケーションに統合できます。Google では、これらのデータセットの保存費用を負担しており、プロジェクトを介してデータへの公開アクセスを提供しています。データで実行したクエリにのみ料金が発生します。毎月 1 TB まで無料です。クエリの料金の詳細をご覧ください。

始める前に

レガシー SQL や標準 SQL クエリを使用して分析できる一般公開データセットが用意されています。BigQuery 一般公開データセットへのアクセスには、GCP Console の BigQuery ウェブ UI従来の BgQuery ウェブ UIコマンドライン ツールが使用できるほか、Java.NETPython などの各種クライアント ライブラリを使用して BigQuery REST API を呼び出すこともできます。

BigQuery の一般公開データセットを使用する前に、プロジェクトを作成または選択する必要があります。毎月、最初の 1 TB のデータの処理については課金されないため、課金を有効にせずに一般公開データセットのクエリを開始できます。無料枠を超える可能性がある場合は、課金を有効にする必要があります。

  1. Google アカウントにログインします。

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. GCP プロジェクトを選択または作成します。

    プロジェクト セレクタのページに移動

  3. Google Cloud Platform プロジェクトに対して課金が有効になっていることを確認します。 詳しくは、課金を有効にする方法をご覧ください。

  4. 新しいプロジェクトでは、BigQuery が自動的に有効になります。 既存のプロジェクトで BigQuery を有効にするには、 BigQuery API を有効にします。

    APIを有効にする

一般公開データセットのロケーション

現在、BigQuery のサンプル テーブルは US マルチリージョン ロケーションに保存されています。サンプル テーブルをクエリする場合は、コマンドラインで --location=US フラグを指定する、GCP Console または従来の BigQuery ウェブ UI で処理を行うロケーションとして US を選択する、あるいは、API を使用するときにジョブリソースjobReference セクションで location プロパティを指定します。サンプル テーブルは米国内に格納されているため、サンプル テーブルのクエリ結果を別のリージョンにあるテーブルに書き込むことはできません。また、サンプル テーブルのテーブルを別のリージョンにあるテーブルと結合することもできません。

BigQuery ウェブ UI での一般公開データセットへのアクセス

一般公開データセットにアクセスする際には、次の 2 つのユーザー インターフェースを使用できます。

bigquery-public-data プロジェクトは両方の UI にあるすべてのプロジェクトに自動的に固定されます。プロジェクトはナビゲーション ペインで確認できます。

bigquery-public-data プロジェクトを手動で開くためには、以下の操作を行います。

  • ブラウザで次の URL「https://bigquery.cloud.google.com/」を入力し、従来の BigQuery ウェブ UI の一般公開データセットを開きます。
  • 次の URL「https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project」を入力して、GCP Console の BigQuery ウェブ UI で一般公開データセットを開きます。

GCP Console から従来のウェブ UI に切り替えるには、従来のウェブ UI に切り替えるをご覧ください。

その他の一般公開データセット

クエリの実行が可能な一般公開データセットは他にも数多くあります。一部は Google でもホストされますが、多くはサードパーティでホストされます。他のデータセットには以下のようなものがあります。

データセットの一般公開と共有

データセットのアクセス制御を変更し、アクセス許可を「認証されたすべてのユーザー」にすることで、いずれのデータセットも一般公開データセットと共有できます。データセットのアクセス制御の設定の詳細については、データセットへのアクセスの制御を参照してください。

データセットを一般公開して共有する場合:

  • 一般公開データセットを含むプロジェクトに関連付けられた請求先アカウント単位でストレージの料金が発生します。
  • クエリジョブが実行されているプロジェクトに関連付けられた請求先アカウント単位でクエリ料金が発生します。

詳細については、料金の請求方法をご覧ください。

サンプル テーブル

BigQuery には、一般公開データセットのほかにも、クエリを実行できるサンプル テーブルがあります。これらのテーブルは、bigquery-public-data:samples データセットに含まれています。

BigQuery サンプル テーブルのクエリ要件は、一般公開データセットにクエリを実行する場合と同じです。

bigquery-public-data:samples データセットには、次のテーブルが含まれています。

名前 説明
gsod NOAA が収集した 1929 年後期から 2010 年初期の気象情報(降水量や風速など)が含まれています。
github_nested ネストされたスキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 9 月に作成されました。
github_timeline フラット スキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 5 月に作成されました。
natality 米国の出生データは、1969~2008 年に全米 50 州、コロンビア特別区、ニューヨーク市で登録された、米国のすべての出生数を表しています。
shakespeare シェイクスピア作品の単語の索引が含まれていて、それぞれのコーパスで各単語が出現する回数を示しています。
trigrams 1520~2008 年に発行された作品から抽出した英語のトリグラムが含まれています。
wikipedia 2010 年 4 月までの Wikipedia の全記事に関する完全な改訂履歴が含まれています。

お問い合わせ

BigQuery の一般公開データセット プログラムについてご不明な点がありましたら、bq-public-data@google.com までお問い合わせください。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。