BigQuery 公開資料集

Cloud 公開資料集計畫目錄位於 GCP Marketplace 中。您可以查看「Datasets」(資料集) 區段內的 Marketplace 頁面,藉此找到個別資料集的更多詳細資料。

前往 GCP Marketplace 中的「Datasets」(資料集) 區段

公開資料集是儲存在 BigQuery 中,透過 Google Cloud 公開資料集計畫提供給一般大眾使用的任何資料集。公共資料集是 BigQuery 託管的資料集,這些資料集皆可供您存取並整合到您的應用程式中。這些資料集的儲存空間費用由 Google 支付,Google 也透過專案將這些資料集提供給大眾存取。您只需要支付資料查詢費用 (每月前 1 TB 免費,相關規定請參閱查詢費率詳情)。

事前準備

公開資料集可使用舊版 SQL 或標準 SQL 查詢進行分析。您可以透過下列方式存取 BigQuery 公開資料集:使用 Cloud Console 的 BigQuery 網頁版 UIBigQuery 傳統網頁版 UI指令列工具,或利用各種用戶端程式庫 (例如 Java.NETPython) 來呼叫 BigQuery REST API

您必須先建立或選取專案,才能開始使用 BigQuery 公開資料集。我們免費為您提供每月 1 TB 的資料處理量,讓您無需啟用計費功能就能開始查詢公開資料集。如果您想要進行的運用會超出免費方案的範圍,則必須啟用計費功能。

  1. 登入您的 Google 帳戶。

    如果您沒有帳戶,請申請新帳戶

  2. 在 GCP Console 的專案選擇器頁面中,選取或建立 GCP 專案。

    前往專案選取器頁面

  3. 請確認您已啟用 Google Cloud Platform 專案的計費功能。瞭解如何確認您已啟用專案的計費功能

  4. 新專案會自動啟用 BigQuery。如要在現有的專案中啟用 BigQuery,請 啟用BigQuery必要的 。

    啟用 API

公開資料集位置

BigQuery 範例資料表目前儲存在 US 這個多地區位置中。查詢範例資料表時,請在指令列中提供 --location=US 旗標、在 Cloud Console 或 BigQuery 傳統網頁版 UI 中選擇 US 做為處理位置,或在使用 API 時,於工作資源jobReference 區段中指定 location 屬性。由於範例資料表儲存在美國,因此您無法將範例資料表的查詢結果寫入其他地區的資料表,也無法將範例資料表與其他地區的資料表加以彙整。

在 BigQuery 網頁版 UI 中存取公開資料集

您可透過下列兩種使用者介面來存取公開資料集:

系統會自動將 bigquery-public-data 專案固定至兩種 UI 中的每個專案。您可以在導覽窗格中找到專案。

如要手動開啟 bigquery-public-data 專案,您可以:

  • 在瀏覽器輸入下列網址,即可在 BigQuery 傳統網頁版 UI 中開啟公開資料集:https://bigquery.cloud.google.com/
  • 輸入下列網址,即可在 Cloud Console 的 BigQuery 網頁版 UI 中開啟公開資料集:https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project

如要從 Cloud Console 切換至傳統網頁版 UI,請參閱切換至傳統網頁版 UI 一節。

其他公開資料集

有其他許多公開資料集可供您查詢,其中有些也是由 Google 託管,但有更多是由第三方託管,這些資料集包括:

公開共用資料集

您可以將資料集的存取權控管設定變更為允許「所有已驗證的使用者」存取,藉此公開共用您的任何資料集。如要進一步瞭解如何設定資料集存取權控管設定,請參閱控管資料集存取權一文。

公開共用資料集時:

  • 系統會透過公開共用資料集所屬專案連結的帳單帳戶向您收取儲存費用。
  • 查詢費用則是向執行查詢工作的專案所連結的帳單帳戶收取。

如要進一步瞭解,請參閱如何解讀帳單資料一節。

範例資料表

除了公開資料集外,BigQuery 還提供了有限數量的範例資料表供您查詢。這些資料表位於 bigquery-public-data:samples 資料集中。

查詢 BigQuery 範例資料表的需求條件與查詢公開資料集的需求條件相同。

bigquery-public-data:samples 資料集包含下列資料表:

名稱 說明
gsod 提供 NOAA 收集的天氣資訊,例如 1929 年末至 2010 年初的降水量與風速。
github_nested 提供對具有巢狀結構定義的 GitHub 存放區執行之動作 (例如提取要求與評論) 的時間軸。建立時間為 2012 年 9 月。
github_timeline 提供對具有平面結構定義的 GitHub 存放區執行之動作 (例如提取要求與評論) 的時間軸。建立時間為 2012 年 5 月。
natality 提供自 1969 年至 2008 年在美國 50 州、哥倫比亞特區及紐約市註冊的所有美國出生人口。
shakespeare 提供莎士比亞作品的文字索引,能夠指出每個文字在各語料庫中出現的次數。
trigrams 提供 1520 年至 2008 年發布作品中之樣本的英語三元語法。
wikipedia 提供至 2010 年 4 月為止維基百科所有文章的完整修訂版本記錄。

聯絡我們

如果您對 BigQuery 公開資料集方案有任何問題,請透過 bq-public-data@google.com 與我們聯絡。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
需要協助嗎?請前往我們的支援網頁