Set data publik BigQuery

Set data publik adalah set data apa pun yang disimpan di BigQuery dan disediakan untuk masyarakat umum melalui Program Set Data Publik Google Cloud. Set data publik adalah set data yang dihosting BigQuery untuk Anda akses dan integrasikan ke dalam aplikasi Anda. Google membayar penyimpanan set data ini dan memberikan akses publik ke data tersebut melalui project. Anda hanya membayar untuk kueri yang Anda lakukan pada data. 1 TB pertama per bulan gratis, sesuai dengan detail harga kueri.

Set data publik tersedia untuk dianalisis menggunakan kueri GoogleSQL atau legacy SQL. Gunakan nama tabel yang sepenuhnya memenuhi syarat saat membuat kueri set data publik, misalnya bigquery-public-data.bbc_news.fulltext. Jika organisasi Anda membatasi akses data, misalnya dengan perimeter keamanan, Anda mungkin perlu menghubungi administrator untuk mendapatkan izin mengakses set data publik.

Anda dapat mengakses set data publik BigQuery menggunakan Konsol Google Cloud, menggunakan alat command line bq, atau dengan melakukan panggilan ke BigQuery REST API menggunakan berbagai library klien seperti Java, .NET, atau Python. Anda juga dapat melihat dan membuat kueri set data publik melalui Analytics Hub, platform pertukaran data yang membantu Anda menemukan dan mengakses library data.

Buka Analytics Hub

Anda dapat menemukan detail selengkapnya tentang setiap set data dengan mengklik nama set data di bagian Set Data pada Cloud Marketplace.

Buka Set Data di Cloud Marketplace

Sebelum memulai

Untuk mulai menggunakan set data publik BigQuery, Anda harus membuat atau memilih sebuah project. Satu terabyte data pertama yang diproses per bulan bersifat gratis, sehingga Anda dapat mulai membuat kueri set data publik tanpa mengaktifkan penagihan. Jika ingin melampaui paket gratis, Anda juga harus mengaktifkan penagihan.

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  5. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  6. BigQuery secara otomatis diaktifkan dalam project baru. Untuk mengaktifkan BigQuery di project yang sudah ada,

    Enable the BigQuery API.

    Enable the API

Lokasi set data publik

Setiap set data publik disimpan di lokasi tertentu seperti US atau EU. Saat ini, tabel contoh BigQuery disimpan di lokasi multi-region US. Saat Anda membuat kueri tabel contoh, berikan flag --location=US pada command line, pilih US sebagai lokasi pemrosesan di Konsol Google Cloud, atau tentukan properti location di bagian jobReference dari resource tugas saat Anda menggunakan API. Karena tabel contoh disimpan di AS, Anda tidak dapat menulis hasil kueri tabel contoh ke tabel di region lain, dan Anda tidak dapat menggabungkan tabel contoh dengan tabel di region lain.

Mengakses set data publik di Konsol Google Cloud

Anda dapat mengakses set data publik di Konsol Google Cloud melalui metode berikut:

Untuk mengetahui kapan tabel data terakhir diperbarui, buka bagian Detail pada tabel seperti yang dijelaskan dalam Mendapatkan informasi tabel, dan lihat kolom Terakhir diubah.

Set data publik lainnya

Ada banyak set data publik lainnya yang tersedia untuk dibuat kuerinya, beberapa di antaranya juga dihosting oleh Google, tetapi lebih banyak lagi yang dihosting oleh pihak ketiga. Set data lainnya mencakup:

Membagikan set data kepada publik

Anda dapat membagikan set data mana pun kepada publik dengan mengubah kontrol akses set data agar mengizinkan akses oleh "Semua Pengguna Terautentikasi". Untuk mengetahui informasi selengkapnya tentang cara menetapkan kontrol akses set data, baca Mengontrol akses ke set data.

Saat Anda membagikan sebuah set data kepada publik:

  • Biaya penyimpanan dibebankan oleh akun penagihan yang terkait dengan project yang berisi set data yang dibagikan secara publik.
  • Biaya kueri dikenakan oleh akun penagihan yang terkait dengan project tempat tugas kueri dijalankan.

Untuk informasi selengkapnya, lihat Ringkasan harga BigQuery.

Tabel contoh

Selain set data publik, BigQuery menyediakan sejumlah tabel contoh yang dapat Anda kueri. Tabel ini terdapat dalam set data bigquery-public-data:samples.

Persyaratan untuk melakukan kueri tabel contoh BigQuery sama dengan persyaratan untuk membuat kueri set data publik.

Set data bigquery-public-data:samples mencakup tabel berikut:

Nama Deskripsi
gsod Berisi informasi cuaca yang dikumpulkan oleh NOAA, seperti jumlah presipitasi dan kecepatan angin dari akhir 1929 hingga awal 2010.
github_nested Berisi linimasa tindakan seperti permintaan pull dan komentar di repositori GitHub dengan skema bertingkat. Dibuat pada September 2012.
github_timeline Berisi linimasa tindakan seperti permintaan pull dan komentar di repositori GitHub dengan skema datar. Dibuat pada Mei 2012.
natality Menjelaskan semua kelahiran di Amerika Serikat yang terdaftar di 50 Negara bagian, Distrik Columbia, dan Kota New York dari tahun 1969 hingga 2008.
shakespeare Berisi indeks kata dari karya Shakespeare, yang menunjukkan frekuensi munculnya setiap kata di setiap korpus.
trigrams Berisi trigram bahasa Inggris dari sampel karya yang diterbitkan antara tahun 1520 dan 2008.
wikipedia Berisi riwayat revisi lengkap untuk semua artikel Wikipedia hingga April 2010.

Hubungi kami

Jika ada pertanyaan tentang program set data publik BigQuery, hubungi kami di bq-public-data@google.com.

Langkah selanjutnya

Pelajari cara membuat kueri tabel dalam set data publik di Panduan memulai menggunakan Konsol Google Cloud.