Membuat pipeline
Dokumen ini menjelaskan cara membuat pipeline di BigQuery. Pipeline didukung oleh Dataform.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
Untuk membuat pipeline:
Pembuat Kode (
roles/dataform.codeCreator
) -
Untuk mengedit dan menjalankan pipeline:
Editor Dataform (
roles/dataform.editor
) Buka halaman BigQuery.
Di panel Explorer, temukan project yang aset kodenya telah Anda aktifkan.
Klik
View actions di samping project, lalu klik Change my default code region.Untuk Region, pilih region yang ingin Anda gunakan untuk aset kode.
Klik Pilih.
Buka halaman BigQuery.
Di panel tab panel editor, klik
panah di samping tanda +, lalu klik Pipeline.Opsional: Untuk mengganti nama pipeline, klik nama pipeline, lalu ketik nama baru.
Klik Mulai, lalu buka tab Setelan.
Di bagian Authentication, pilih untuk mengizinkan pipeline dengan kredensial pengguna Akun Google Anda atau akun layanan.
- Untuk menggunakan kredensial pengguna Akun Google Anda (Pratinjau), pilih Jalankan dengan kredensial pengguna saya.
- Untuk menggunakan akun layanan, pilih Jalankan dengan akun layanan yang dipilih, lalu pilih akun layanan.
Di bagian Location, pilih region pemrosesan untuk pipeline.
- Untuk memilih region tertentu, pilih Region, lalu pilih region di menu Region.
- Untuk memilih multi-region, pilih Multi-region, lalu pilih multi-region di menu Multi-region.
Wilayah pemrosesan pipeline tidak harus cocok dengan wilayah penyimpanan default Anda untuk aset kode.
Jika Anda berencana menambahkan notebook ke pipeline, lakukan hal berikut di bagian Opsi notebook:
Di kolom template runtime, terima runtime notebook default, atau telusuri dan pilih runtime yang ada.
- Untuk melihat spesifikasi runtime default, klik panah di sampingnya.
- Untuk membuat runtime baru, lihat Membuat template runtime.
Di kolom Cloud Storage bucket, klik Browse lalu pilih atau buat bucket Cloud Storage untuk menyimpan output notebook di pipeline Anda.
Ikuti Menambahkan akun utama ke kebijakan tingkat bucket untuk menambahkan akun layanan Dataform kustom Anda sebagai akun utama ke bucket Cloud Storage yang akan Anda gunakan untuk menyimpan output dari jalur pipeline terjadwal, dan berikan peran Storage Admin (
roles/storage.admin
) ke akun utama ini.Akun layanan Dataform kustom yang dipilih harus diberi peran IAM Storage Admin di bucket yang dipilih.
Di konsol Google Cloud , buka halaman BigQuery.
Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.
Untuk menambahkan aset kode, seperti kueri SQL, notebook, atau penyiapan data, lakukan hal berikut:
Kueri SQL
Klik Add task, lalu pilih Query. Anda dapat membuat kueri baru atau mengimpor kueri yang sudah ada.
Opsional: Di panel Query task details, di menu Run after, pilih tugas yang akan mendahului kueri Anda.
Kueri Anda akan bergantung pada tugas sebelumnya.
Membuat kueri baru
Klik menu panah
di samping Edit Query, lalu pilih In context atau In new tab.Telusuri kueri yang ada.
Pilih nama kueri, lalu tekan Enter.
Klik Simpan.
Opsional: Untuk mengganti nama kueri, klik nama kueri di panel pipeline, klik Edit Kueri, klik nama kueri yang ada di bagian atas layar, lalu ketik nama baru.
Mengimpor kueri yang ada
Klik menu panah
di samping Edit Kueri, lalu klik Impor salinan.Telusuri kueri yang ada untuk diimpor atau pilih kueri yang ada dari panel penelusuran. Saat Anda mengimpor kueri, kueri asli tidak berubah karena file sumber kueri disalin ke dalam pipeline.
Klik Edit untuk membuka kueri yang diimpor.
Klik Simpan.
Notebook
Klik Tambahkan tugas, lalu pilih Notebook. Anda dapat membuat notebook baru atau mengimpor notebook yang sudah ada. Untuk mengubah setelan template runtime notebook, lihat Opsi notebook.
Opsional: Di panel Detail tugas notebook, di menu Jalankan setelah, pilih tugas yang akan mendahului notebook Anda.
Notebook Anda akan bergantung pada tugas sebelumnya.
Membuat notebook baru
Klik menu panah
di samping Edit Notebook, lalu pilih Dalam konteks atau Di tab baru.Telusuri notebook yang ada.
Pilih nama notebook, lalu tekan Enter.
Klik Simpan.
Opsional: Untuk mengganti nama notebook, klik nama notebook di panel pipeline, klik Edit Notebook, klik nama notebook yang ada di bagian atas layar, lalu ketik nama baru.
Mengimpor notebook yang ada
Klik menu panah
di samping Edit Notebook, lalu klik Impor salinan.Telusuri notebook yang ada untuk diimpor atau pilih notebook yang ada dari panel penelusuran. Saat Anda mengimpor notebook, notebook asli tidak berubah karena file sumber notebook disalin ke dalam pipeline.
Untuk membuka notebook yang diimpor, klik Edit.
Klik Simpan.
Persiapan data
Klik Tambahkan tugas, lalu pilih Penyiapan data. Anda dapat membuat penyiapan data baru atau mengimpor penyiapan data yang sudah ada.
Opsional: Di panel Detail tugas penyiapan data, di menu Jalankan setelah, pilih tugas yang akan mendahului penyiapan data Anda.
Persiapan data Anda akan bergantung pada tugas sebelumnya.
Membuat persiapan data baru
Klik menu panah
di samping Edit Penyiapan data, lalu pilih Dalam konteks atau Di tab baru.Telusuri persiapan data yang ada.
Pilih nama penyiapan data, lalu tekan enter.
Klik Simpan.
Opsional: Untuk mengganti nama penyiapan data, klik nama penyiapan data di panel pipeline, klik Edit Penyiapan data, klik nama di bagian atas layar, lalu masukkan nama baru.
Mengimpor persiapan data yang ada
Klik menu drop-down panah
di samping Edit Penyiapan data, lalu klik Impor salinan.Telusuri persiapan data yang ada untuk diimpor atau pilih persiapan data yang ada dari panel penelusuran. Saat Anda mengimpor penyiapan data, penyiapan data asli tidak akan berubah karena file sumber penyiapan data disalin ke dalam pipeline.
Untuk membuka penyiapan data yang diimpor, klik Edit.
Klik Simpan.
Di konsol Google Cloud , buka halaman BigQuery.
Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.
Klik tugas yang dipilih.
Untuk mengubah tugas sebelumnya, di menu Run after, pilih tugas yang akan mendahului kueri atau notebook Anda.
Untuk mengedit konten tugas yang dipilih, klik Edit.
Di tab baru yang terbuka, edit konten tugas, lalu simpan perubahan pada tugas.
Di konsol Google Cloud , buka halaman BigQuery.
Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.
Klik tugas yang dipilih.
Di panel Detail tugas, klik ikon HapusHapus.
Di konsol Google Cloud , buka halaman BigQuery.
Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.
Klik Bagikan, lalu pilih Kelola izin.
Klik Tambahkan pengguna/grup.
Di kolom Akun utama baru, masukkan nama setidaknya satu pengguna atau grup.
Untuk Tetapkan Peran, pilih peran.
Klik Simpan.
Di konsol Google Cloud , buka halaman BigQuery.
Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.
Klik Bagikan, lalu pilih Bagikan link. URL untuk pipeline disalin ke papan klip komputer Anda.
Di konsol Google Cloud , buka halaman BigQuery.
Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.
Klik Run. Jika Anda memilih Jalankan dengan kredensial pengguna saya untuk autentikasi, Anda harus memberi otorisasi ke Akun Google Anda (Pratinjau).
Opsional: Untuk memeriksa proses, lihat proses manual sebelumnya.
- Buka halaman Akun Google Anda.
- Klik BigQuery Pipelines.
- Klik Hapus akses.
- Pelajari lebih lanjut pipeline BigQuery.
- Pelajari cara mengelola pipeline.
- Pelajari cara menjadwalkan pipeline.
Peran yang diperlukan untuk pipeline
Untuk mendapatkan izin yang Anda perlukan untuk membuat pipeline, minta administrator Anda untuk memberi Anda peran IAM berikut di project:
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk mengetahui informasi selengkapnya tentang IAM Dataform, lihat Mengontrol akses dengan IAM.
Peran yang diperlukan untuk opsi notebook
Untuk mendapatkan izin yang diperlukan guna memilih template runtime di opsi notebook, minta administrator untuk memberi Anda peran IAM Notebook Runtime User (roles/aiplatform.notebookRuntimeUser
) di project.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Jika tidak memiliki peran ini, Anda dapat memilih spesifikasi runtime notebook default.
Menetapkan region default untuk aset kode
Jika ini adalah pertama kalinya Anda membuat aset kode, Anda harus menetapkan region default untuk aset kode. Anda tidak dapat mengubah region untuk aset kode setelah dibuat.
Semua aset kode di BigQuery Studio menggunakan region default yang sama. Untuk menetapkan region default untuk aset kode, ikuti langkah-langkah berikut:
Untuk mengetahui daftar region tempat BigQuery Studio tersedia, lihat Lokasi BigQuery Studio.
Membuat pipeline
Untuk membuat pipeline, ikuti langkah-langkah berikut:
Opsi notebook
Menambahkan tugas pipeline
Untuk menambahkan tugas ke pipeline, ikuti langkah-langkah berikut:
Mengedit tugas pipeline
Untuk mengedit tugas pipeline, ikuti langkah-langkah berikut:
Menghapus tugas pipeline
Untuk menghapus tugas dari pipeline, ikuti langkah-langkah berikut:
Membagikan pipeline
Untuk membagikan pipeline, ikuti langkah-langkah berikut:
Membagikan link ke pipeline
Menjalankan pipeline
Untuk menjalankan versi pipeline saat ini secara manual, ikuti langkah-langkah berikut:
Memberi otorisasi pada Akun Google Anda
Untuk mengautentikasi resource dengan kredensial pengguna Akun Google Anda, Anda harus memberikan izin secara manual agar pipeline BigQuery mendapatkan token akses untuk Akun Google Anda dan mengakses data sumber atas nama Anda. Anda dapat memberikan persetujuan manual dengan antarmuka dialog OAuth.
Anda hanya perlu memberikan izin ke pipeline BigQuery satu kali.
Untuk mencabut izin yang Anda berikan, ikuti langkah-langkah berikut:
Jika pipeline Anda berisi notebook, Anda juga harus memberikan izin secara manual agar Colab Enterprise mendapatkan token akses untuk Akun Google Anda dan mengakses data sumber atas nama Anda. Anda hanya perlu memberikan izin satu kali. Anda dapat mencabut izin ini di halaman Akun Google.