Cloud 一般公開データセット プログラムのカタログは、Google Cloud Marketplace にあります。個別のデータセットの詳細については、Cloud Marketplace ページの [データセット] セクションをご覧ください。
Cloud Marketplace の [データセット] に移動
一般公開データセットは、BigQuery に保存され、Google Cloud 一般公開データセット プログラムを通じて一般提供されているデータセットです。この一般公開データセットは BigQuery でホストされ、ユーザーがアクセスして独自のアプリケーションに統合できます。Google では、これらのデータセットの保存費用を負担しており、プロジェクトを介してデータへの公開アクセスを提供しています。データで実行したクエリにのみ料金が発生します。毎月 1 TB まで無料です。クエリの料金の詳細をご覧ください。
始める前に
レガシー SQL や標準 SQL クエリを使用して分析できる一般公開データセットが用意されています。BigQuery の一般公開データセットにアクセスするには、Cloud Console、または bq
コマンドライン ツールを使用するか、Java、.NET、Python などの各種クライアント ライブラリを使用してBigQuery REST API を呼び出します。
BigQuery の一般公開データセットを使用する前に、プロジェクトを作成または選択する必要があります。毎月、最初の 1 TB のデータの処理については課金されないため、課金を有効にせずに一般公開データセットのクエリを開始できます。無料枠を超える可能性がある場合は、課金を有効にする必要があります。
- Google アカウントにログインします。
Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。
-
Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。
-
Cloud プロジェクトに対して課金が有効になっていることを確認します。プロジェクトに対して課金が有効になっていることを確認する方法を学習する。
- 新しいプロジェクトでは、BigQuery が自動的に有効になります。既存のプロジェクトで BigQuery を有効にするには BigQuery API を有効にします。
一般公開データセットのロケーション
現在、BigQuery のサンプル テーブルは US
マルチリージョン ロケーションに保存されています。サンプル テーブルのクエリを実行する場合、コマンドラインに --location=US
フラグを設定し、Cloud Console の処理を行うロケーションに US
を選択するか、API を使用するときにジョブリソースの jobReference
セクションにある location
プロパティを指定します。サンプル テーブルは米国内に格納されているため、サンプル テーブルのクエリ結果を別のリージョンにあるテーブルに書き込むことはできません。また、サンプル テーブルのテーブルを別のリージョンにあるテーブルと結合することもできません。
Cloud Console での一般公開データセットへのアクセス
一般公開データセットにアクセスするには、Cloud Console を使用します。bigquery-public-data
プロジェクトはすべてのプロジェクトに自動で固定されます。プロジェクトは、ナビゲーション ペインの [リソース] セクションで確認できます。
Cloud Console を使用して bigquery-public-data
プロジェクトを手動で開くには、ブラウザに次の URL を入力します。
https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project
その他の一般公開データセット
照会が可能な一般公開データセットは、他にも数多くあり、一部は Google でもホストされますが、多くはサードパーティでホストされます。その他のデータセットの例:
- Cloud Life Sciences の公開データセット
- NIH 胸部 X 線データセット
- Cancer Imaging Archive(TCIA)データセット
- BigQuery で一般公開されているデータセット(reddit.com)
データセットの一般公開と共有
データセットのアクセス制御を変更し、アクセス許可を「認証されたすべてのユーザー」にすることで、いずれのデータセットも一般公開データセットと共有できます。データセットのアクセス制御の設定の詳細については、データセットへのアクセスの制御を参照してください。
データセットを一般公開して共有する場合:
- 一般公開データセットを含むプロジェクトに関連付けられた請求先アカウント単位でストレージの料金が発生します。
- クエリジョブが実行されているプロジェクトに関連付けられた請求先アカウント単位でクエリ料金が発生します。
詳細については、料金の請求方法をご覧ください。
サンプル テーブル
BigQuery には、一般公開データセットのほかにも、クエリを実行できるサンプル テーブルがあります。これらのテーブルは、bigquery-public-data:samples
データセットに含まれています。
BigQuery サンプル テーブルのクエリ要件は、一般公開データセットにクエリを実行する場合と同じです。
bigquery-public-data:samples
データセットには、次のテーブルが含まれています。
名前 | 説明 |
---|---|
gsod |
NOAA が収集した 1929 年後期から 2010 年初期の気象情報(降水量や風速など)が含まれています。 |
github_nested |
ネストされたスキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 9 月に作成されました。 |
github_timeline |
フラット スキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 5 月に作成されました。 |
natality |
米国の出生データは、1969~2008 年に全米 50 州、コロンビア特別区、ニューヨーク市で登録された、米国のすべての出生数を表しています。 |
shakespeare |
シェイクスピア作品の単語の索引が含まれていて、それぞれのコーパスで各単語が出現する回数を示しています。 |
trigrams |
1520~2008 年に発行された作品から抽出した英語のトリグラムが含まれています。 |
wikipedia |
2010 年 4 月までの Wikipedia の全記事に関する完全な改訂履歴が含まれています。 |
お問い合わせ
BigQuery の一般公開データセット プログラムについてご不明な点がありましたら、bq-public-data@google.com
までお問い合わせください。
次のステップ
Cloud Console を使用したクイックスタートで、一般公開データセット内のテーブルにクエリを実行する方法を学習する。