Pengantar pemuatan data
Dokumen ini menjelaskan cara memuat data ke BigQuery. Dua pendekatan umum untuk integrasi data adalah mengekstrak, memuat, dan mengubah (ELT) atau mengekstrak, mengubah, memuat (ETL) data.
Untuk ringkasan pendekatan ELT dan ETL, lihat Pengantar pemuatan, transformasi, dan ekspor data.
Metode memuat atau mengakses data eksternal
Anda dapat menggunakan metode berikut untuk memuat data ke BigQuery atau mengakses data dari BigQuery. Pilih salah satu opsi berikut berdasarkan kasus penggunaan dan sumber data Anda:
Metode pemuatan | Deskripsi |
---|---|
Pemuatan batch | Metode ini cocok untuk pemuatan batch data dalam jumlah besar dari
berbagai sumber. Untuk pemuatan data secara batch atau inkremental dari Cloud Storage dan sumber data lain yang didukung, sebaiknya gunakan BigQuery Data Transfer Service. Dengan BigQuery Data Transfer Service, untuk mengotomatiskan alur kerja pemuatan data ke BigQuery, Anda dapat menjadwalkan tugas pemuatan. Anda dapat menjadwalkan transfer data satu kali atau batch secara berkala (misalnya, harian atau bulanan). Untuk memastikan data BigQuery Anda selalu yang terbaru, Anda dapat memantau dan mencatat transfer. Untuk mengetahui daftar sumber data yang didukung oleh BigQuery Data Transfer Service, lihat Sumber data yang didukung. |
Pemuatan streaming | Metode ini memungkinkan pemuatan data secara hampir real time dari sistem
pesan. Untuk melakukan streaming data ke BigQuery, Anda dapat menggunakan langganan BigQuery di Pub/Sub. Pub/Sub dapat menangani throughput pemuatan data yang tinggi ke BigQuery. API ini mendukung streaming data secara real-time, yang memuat data saat dibuat. Untuk mengetahui informasi selengkapnya, lihat Langganan BigQuery. |
Pengambilan Data Perubahan (CDC) | Metode ini memungkinkan replikasi data dari database ke
BigQuery secara mendekati real-time. Datastream dapat melakukan streaming data dari database ke data BigQuery dengan replikasi mendekati real-time. Datastream memanfaatkan kemampuan CDC untuk melacak dan mereplikasi perubahan tingkat baris dari sumber data Anda. Untuk daftar sumber data yang didukung oleh Datastream, lihat Sumber. |
Federasi ke sumber data eksternal | Metode ini memungkinkan akses ke data eksternal tanpa memuat data tersebut ke BigQuery. BigQuery mendukung akses ke sumber data eksternal tertentu melalui Cloud Storage dan kueri gabungan. Keuntungan metode ini adalah Anda tidak perlu memuat data sebelum mengubahnya untuk penggunaan berikutnya. Anda dapat melakukan transformasi dengan menjalankan pernyataan SELECT pada data eksternal. |
Anda juga dapat menggunakan metode terprogram berikut untuk memuat data:
Metode pemuatan | Deskripsi |
---|---|
Pemuatan batch | Anda dapat memuat data dari Cloud Storage atau dari file lokal dengan membuat tugas pemuatan. Jika data sumber Anda jarang berubah, atau Anda tidak memerlukan hasil yang terus-menerus diperbarui, tugas pemuatan dapat menjadi cara yang lebih murah dan tidak terlalu memerlukan banyak resource untuk memuat data ke BigQuery. Data yang dimuat dapat dalam format Avro, CSV, JSON, ORC, atau Parquet. Untuk membuat tugas pemuatan, Anda juga dapat menggunakan pernyataan SQL LOAD DATA .Sistem open source populer, seperti Spark dan berbagai partner ETL, juga mendukung pemuatan data secara batch ke BigQuery. |
Pemuatan streaming | Jika Anda harus mendukung sumber data streaming kustom, atau memproses data
sebelum melakukan streaming dengan throughput besar ke
BigQuery, gunakan Dataflow atau
BigQuery Engine untuk Apache Flink. Untuk informasi selengkapnya tentang pemuatan dari Dataflow ke BigQuery, lihat Menulis dari Dataflow ke BigQuery. Anda juga dapat langsung menggunakan BigQuery Storage Write API. |
Cloud Data Fusion dapat membantu memfasilitasi proses ETL Anda. BigQuery juga berfungsi dengan partner pihak ketiga yang mengubah dan memuat data ke BigQuery.
Cara lain untuk memperoleh data
Anda dapat menjalankan kueri pada data tanpa memuat data ke BigQuery sendiri. Bagian berikut menjelaskan beberapa alternatif.
Daftar berikut menjelaskan beberapa alternatif:
Menjalankan kueri pada data publik
Set data publik adalah set data yang disimpan di BigQuery dan dibagikan kepada publik. Untuk mengetahui informasi selengkapnya, lihat Set data publik BigQuery.
Menjalankan kueri pada data bersama
Untuk menjalankan kueri pada set data BigQuery yang telah dibagikan seseorang kepada Anda, lihat Pengantar Analytics Hub. Analytics Hub adalah platform pertukaran data yang memungkinkan berbagi data.
Menjalankan kueri dengan data log
Anda dapat menjalankan kueri pada log tanpa membuat tugas pemuatan tambahan:
Cloud Logging memungkinkan Anda me-rutekan log ke tujuan BigQuery.
Log Analytics memungkinkan Anda menjalankan kueri yang menganalisis data log.
Langkah selanjutnya
- Pelajari cara menyiapkan data dengan Gemini di BigQuery.
- Pelajari lebih lanjut cara mengubah data dengan Dataform.
- Pelajari lebih lanjut cara memantau tugas pemuatan di penjelajah tugas administratif dan metrik BigQuery.