Dokumen ini membantu Anda memahami konsep repositori di Dataform dan cara membuat repositori baru.
Tentang repositori Dataform
Setiap repositori Dataform menyimpan kumpulan file SQLX dan JavaScript yang membentuk alur kerja Anda, serta file dan paket konfigurasi Dataform. Anda berinteraksi dengan konten repositori di ruang kerja pengembangan.
Dataform menampilkan repositori Anda di halaman Dataform dalam urutan alfabetik ID repositori. Anda dapat mengurutkan dan memfilternya.
Untuk melihat repositori, di konsol Google Cloud, buka halaman Dataform.
Setiap repositori Dataform terhubung ke akun layanan. Anda dapat memilih akun layanan saat membuat repositori, atau mengedit akun layanan nanti.
Secara default, Dataform menggunakan akun layanan yang berasal dari nomor project Anda dalam format berikut:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform menggunakan Git untuk mencatat perubahan dan mengelola versi file. Setiap repositori Dataform sesuai dengan repositori Git. Setelah membuat repositori Dataform, Anda dapat menghubungkannya ke repositori GitHub, GitLab, atau Bitbucket jarak jauh.
Di repositori Dataform, Dataform menyimpan kode repositori. Dalam repositori yang terhubung, repositori pihak ketiga menyimpan kode repositori. Dataform berinteraksi dengan repositori pihak ketiga untuk memungkinkan Anda mengedit dan menjalankan kontennya di ruang kerja pengembangan Dataform.
Halaman repositori Dataform terdiri dari komponen berikut:
- Tab ruang kerja pengembangan
- Menampilkan ruang kerja pengembangan yang dibuat di repositori.
- Tab konfigurasi rilis
- Memungkinkan Anda memeriksa, membuat, mengedit, dan menghapus rilis.
- Tab log eksekusi alur kerja
- Menampilkan log eksekusi alur kerja Dataform.
- Tab konfigurasi alur kerja
- Memungkinkan Anda memeriksa, membuat, mengedit, dan menghapus konfigurasi alur kerja.
- Tab Setelan
- Menampilkan nama dan lokasi repositori. Untuk repositori yang terhubung ke repositori Git pihak ketiga, menampilkan sumber repositori pihak ketiga, nama cabang default, dan token rahasia. Menampilkan tombol untuk menghubungkan repositori ke repositori Git pihak ketiga dan untuk mengedit koneksi Git.
- Tombol Buat ruang kerja pengembangan
- Memungkinkan Anda membuat ruang kerja pengembangan.
Setelah membuat dan melakukan inisialisasi ruang kerja pengembangan, Anda dapat mengedit file setelan alur kerja untuk mengonfigurasi setelan Dataform berikut dari repositori Anda:
- Database default (Google Cloud project ID).
- Skema default (ID set data BigQuery).
- Lokasi BigQuery default.
- Skema default (ID set data BigQuery) untuk pernyataan.
- Gudang, yang harus ditetapkan ke
bigquery
. - Variabel buatan pengguna yang disediakan untuk kode project selama kompilasi.
Untuk mengetahui informasi selengkapnya tentang setelan repositori Dataform, lihat IProjectConfig dalam referensi inti Dataform.
Setelan repositori
Saat membuat repositori Dataform, Anda perlu menetapkan setelan repositori berikut:
- ID Repositori
- ID unik repositori. ID hanya boleh berisi angka, huruf, tanda hubung, dan garis bawah.
- Region
Region Dataform untuk menyimpan repositori dan kontennya.
Region penyimpanan ini dapat berbeda dengan region pemrosesan tempat Dataform memproses kode Anda dan menyimpan output eksekusi. Secara default, region pemrosesan ditetapkan ke region set data BigQuery default Anda. Anda dapat mengedit region pemrosesan di file setelan alur kerja setelah membuat repositori. Untuk informasi selengkapnya, lihat Mengonfigurasi setelan Dataform.
- Akun layanan
Akun layanan yang terkait dengan repositori. Anda dapat memilih akun layanan Dataform default, akun layanan yang terkait dengan project Google Cloud, atau memasukkan akun layanan lain secara manual. Secara default, Dataform menggunakan akun layanan yang berasal dari nomor project Anda dalam format berikut:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform menggunakan akun layanan default untuk semua operasi repositori. Anda dapat menggunakan akun layanan lain untuk menjalankan alur kerja di repositori, tetapi akun layanan default masih digunakan untuk semua operasi repositori lainnya.
- Enkripsi
Metode enkripsi untuk repositori. Anda dapat menggunakan enkripsi default, kunci enkripsi Cloud KMS unik yang dikelola pelanggan, atau kunci CMEK Dataform default. Untuk informasi selengkapnya tentang cara menggunakan kunci enkripsi yang dikelola pelanggan (CMEK) di Dataform, lihat Menggunakan kunci enkripsi yang dikelola pelanggan.
Setelah membuat repositori, Anda dapat menghubungkannya ke GitHub atau GitLab.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
- Untuk menggunakan enkripsi CMEK untuk repositori, aktifkan enkripsi CMEK repositori Dataform.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan guna membuat dan menghapus repositori,
minta administrator untuk memberi Anda
peran IAM Dataform Admin (roles/dataform.admin
) di repositori.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk menggunakan akun layanan selain akun layanan Dataform default, berikan akses ke akun layanan kustom.
Setelah Anda membuat repositori Dataform, Dataform akan otomatis memberi Anda peran Admin Dataform di repositori tersebut.
Membuat repositori
Untuk membuat repositori Dataform, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Dataform.
Klik Buat repositori.
Di halaman Create repository, di kolom Repository ID, masukkan ID unik.
ID hanya boleh berisi angka, huruf, tanda hubung, dan garis bawah.
Di menu drop-down Region, pilih region Dataform untuk menyimpan repositori dan kontennya. Pilih region Dataform yang paling dekat dengan lokasi Anda.
Untuk mengetahui daftar region Dataform yang tersedia, lihat Lokasi. Region repositori tidak harus cocok dengan lokasi set data BigQuery Anda.
Dalam file
workflow_settings.yaml
, Anda dapat menetapkan region pemrosesan tempat Dataform memproses kode dan menyimpan output eksekusi. Region pemrosesan harus cocok dengan lokasi set data BigQuery Anda, tetapi tidak perlu cocok dengan region repositori. Untuk informasi selengkapnya, lihat Mengonfigurasi setelan Dataform.Di menu drop-down Service account, pilih akun layanan untuk repositori.
Di menu drop-down, Anda dapat memilih akun layanan Dataform default atau akun layanan apa pun yang terkait dengan project Google Cloud yang Anda miliki aksesnya. Perlu diingat bahwa akun layanan kustom hanya digunakan untuk eksekusi alur kerja. Semua operasi repositori lainnya masih dilakukan oleh akun layanan Dataform default.
- Opsional: Untuk memilih akun layanan yang tidak ditampilkan di drop-down, klik Masukkan secara manual, lalu masukkan ID akun layanan.
Konfigurasikan mekanisme enkripsi yang dipilih untuk repositori:
Kunci CMEK default
Dataform menampilkan kotak centang Gunakan kunci KMS default dan memilihnya secara default.
- Untuk mengenkripsi repositori dengan kunci CMEK Dataform default, biarkan kotak centang Gunakan kunci KMS default dicentang.
Kunci CMEK unik
Untuk mengenkripsi repositori dengan kunci CMEK unik, lakukan hal berikut:
- Jika kotak centang Gunakan kunci KMS default dipilih secara default, batalkan pilihan kotak centang tersebut.
- Di bagian Enkripsi, pilih opsi Kunci enkripsi yang dikelola pelanggan (CMEK).
- Di drop-down Select a customer-managed key, pilih kunci CMEK yang unik.
Enkripsi dalam penyimpanan
- Untuk menggunakan enkripsi default, di bagian Encryption, pilih opsi Google-managed encryption key.
Klik Buat, lalu klik Selesai.
Mengedit akun layanan
Anda dapat mengaitkan akun layanan kustom dengan repositori Dataform untuk eksekusi alur kerja. Semua operasi repositori lainnya masih dilakukan oleh akun layanan Dataform default.
Untuk mengedit akun layanan repositori Dataform, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Dataform.
Pilih repositori, lalu klik Setelan.
Di kolom Service account, klik
Edit Service account.Di menu drop-down Service account, pilih akun layanan untuk repositori.
Di menu drop-down, Anda dapat memilih akun layanan Dataform default atau akun layanan apa pun yang terkait dengan project Google Cloud yang Anda miliki aksesnya.
- Opsional: Untuk memilih akun layanan yang tidak ditampilkan di drop-down, klik Masukkan secara manual, lalu masukkan ID akun layanan.
Klik Save.
Menghapus repositori
Untuk menghapus repositori dan semua kontennya, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Dataform.
Di repositori yang ingin Anda hapus, klik menu
More, lalu pilih Delete.Di jendela Delete repository, masukkan nama repositori untuk mengonfirmasi penghapusan.
Klik Delete.
Langkah selanjutnya
- Untuk mempelajari cara menghubungkan repositori Dataform ke repositori Git pihak ketiga, lihat Menghubungkan ke repositori Git pihak ketiga.
- Untuk mempelajari lebih lanjut pengaruh ukuran repositori terhadap pengembangan di Dataform, lihat Ringkasan ukuran repositori.
- Untuk mempelajari lebih lanjut cara memisahkan repositori di Dataform, lihat Pengantar pemisahan repositori.
- Untuk mempelajari cara mengonfigurasi setelan pemrosesan Dataform, lihat Mengonfigurasi setelan Dataform.
- Untuk mempelajari cara membuat dan melakukan inisialisasi ruang kerja, lihat Membuat ruang kerja.