Tentang perbedaan antara Dataform lama dan Dataform di Google Cloud
Dataform adalah layanan serverless bagi analis data untuk mengembangkan dan men-deploy tabel, tabel inkremental, atau tampilan ke BigQuery. Dataform menawarkan lingkungan web untuk pengembangan alur kerja SQL, koneksi dengan GitHub, GitLab, Bitbucket, dan Azure DevOps Services, continuous integration, deployment berkelanjutan, dan eksekusi alur kerja.
Formulir data di Google Cloud berbeda dengan Dataform lama dalam hal berikut:
- Formulir data di Google Cloud mendukung koneksi repositori Dataform ke repositori Bitbucket.
- Kontrol akses didasarkan pada IAM.
Konfigurasi batas serentak kueri (
concurrentQueryLimit
) didataform.json
dihapus.Dalam Dataform lama, batas serentak mencegah Dataform mengirim terlalu banyak kueri serentak ke BigQuery. Untuk mengelola keserentakan di Dataform di Google Cloud, sebaiknya aktifkan antrean kueri BigQuery.
Lingkungan lama diganti dengan konfigurasi rilis.
Jadwal lama diganti dengan konfigurasi alur kerja.
Pemberitahuan kegagalan alur kerja dikonfigurasi di Cloud Logging.
Formulir data di Google Cloud dan Dataform lama menggunakan versi NPM yang berbeda dan format
package-lock.json
yang berbeda.Untuk mengembangkan alur kerja SQL di Dataform lama dan Dataform di Google Cloud, gunakan format
package-lock.json
lama untuk penginstalan paket. Jangan menginstal paket di Dataform di Google Cloud sampai Anda sepenuhnya bermigrasi ke Dataform di Google Cloud.
Untuk mengetahui informasi selengkapnya tentang fitur Dataform di Google Cloud, lihat Ringkasan fitur Dataform.
Fitur Dataform lama tidak didukung di Google Cloud untuk saat ini
Fitur Dataform lama berikut tidak didukung dalam Dataform di Google Cloud untuk saat ini:
- Menjalankan pengujian unit secara manual.
Menelusuri konten file di ruang kerja pengembangan.
Daftar ini akan terus diperbarui seiring dengan dirilisnya fitur baru Dataform di Google Cloud.
Batasan umum
Formulir data di Google Cloud memiliki batasan umum berikut:
Formulir data di Google Cloud berjalan pada runtime V8 biasa dan tidak mendukung kemampuan dan modul tambahan yang disediakan oleh Node.js. Jika codebase yang ada memerlukan modul Node.js, Anda harus menghapus dependensi ini.
Project tanpa kolom nama di
package.json
menghasilkan perbedaan padapackage-lock.json
setiap kali paket diinstal. Untuk menghindari hal ini, Anda harus menambahkan propertiname
dipackage.json
.git
+https://
URL untuk dependensi dipackage.json
tidak didukung.Konversikan URL tersebut menjadi URL arsip
https://
biasa. Misalnya, konversikangit+https://github.com/dataform-co/dataform-segment.git#1.5
menjadihttps://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz
.
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Enable the BigQuery and Dataform APIs.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Enable the BigQuery and Dataform APIs.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan untuk mengimpor project lama,
minta administrator untuk memberi Anda peran IAM
Admin Dataform (roles/dataform.admin
) di repositori.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Mengimpor project lama
Untuk mengimpor project lama di Dataform di Google Cloud, ikuti langkah-langkah berikut di Konsol Google Cloud:
- Pastikan project Dataform Anda di
app.dataform.co
terhubung ke GitHub atau GitLab. Di konsol Google Cloud, buka halaman Dataform.
Hubungkan repositori ke repositori Git jarak jauh yang menyimpan project lama Anda.
Mengonfigurasi project Dataform yang diimpor
Untuk menyesuaikan project lama Anda ke Dataform di Google Cloud, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Dataform.
Pilih repositori Anda.
Buka ruang kerja pengembangan.
Di
dataform.json
, tambahkan parameterdefaultLocation
. Parameter ini diabaikan olehapp.dataform.co
."defaultLocation": "DATASET_LOCATION",
Ganti DATASET_LOCATION dengan lokasi default set data BigQuery Anda, misalnya,
US
,EU
, atauus-east1
.Hapus
package-lock.json
.Di
package.json
, lakukan hal berikut:- Upgrade
@dataform/core
ke3.0.0-beta.2
atau yang lebih baru. Tambahkan nama paket dalam format berikut:
{ "name": "PACKAGE_NAME", "dependencies": { "@dataform/core": "^3.0.0-beta.2" } }
Ganti PACKAGE_NAME dengan nama untuk paket Dataform Anda, misalnya, nama project Anda.
Konversi URL
git+https://
dalam dependensipackage.json
menjadi URL arsiphttps://
biasa.Misalnya, konversikan
git+https://github.com/dataform-co/dataform-segment.git#1.5
kehttps://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz
.Jika Anda menggunakan URL
git+https://
dalam paket dataform bawaan, periksa petunjuk penginstalan yang diperbarui untuk paket ini di halaman rilisnya, misalnya, halaman rilis segmen data.
- Upgrade
Konfigurasi izin BigQuery dan izin pengguna.
Migrasikan lingkungan dari
environments.json
ke konfigurasi rilis.Memigrasikan jadwal dari
environments.json
ke konfigurasi alur kerja.
Langkah selanjutnya
- Untuk mempelajari cara memigrasikan lingkungan dan jadwal lama ke Dataform di Google Cloud, lihat Memigrasikan lingkungan dan jadwal lama.
- Untuk mempelajari Dataform di Google Cloud lebih lanjut, lihat Ringkasan dataform.
- Untuk mempelajari fitur Dataform di Google Cloud lebih lanjut, lihat Ringkasan fitur Dataform.
- Untuk mempelajari cara membuat repositori, lihat Membuat repositori Dataform.
- Untuk mempelajari siklus proses kode di Dataform dan cara mengonfigurasinya, lihat Pengantar siklus proses kode di Dataform.