Bermigrasi dari Dataform lama

Dataform Lama tidak akan digunakan lagi mulai 26 Februari 2024. Setelah itu, Anda tidak akan dapat mengakses project lama. Dokumen ini menjelaskan perbedaan antara Dataform lama dan Dataform di Google Cloud, serta menunjukkan cara mengimpor project Dataform lama ke Dataform di Google Cloud.

Tentang perbedaan antara Dataform lama dan Dataform di Google Cloud

Dataform adalah layanan serverless bagi analis data untuk mengembangkan dan men-deploy tabel, tabel inkremental, atau tampilan ke BigQuery. Dataform menawarkan lingkungan web untuk pengembangan alur kerja SQL, koneksi dengan GitHub, GitLab, Bitbucket, dan Azure DevOps Services, continuous integration, deployment berkelanjutan, dan eksekusi alur kerja.

Formulir data di Google Cloud berbeda dengan Dataform lama dalam hal berikut:

  • Formulir data di Google Cloud mendukung koneksi repositori Dataform ke repositori Bitbucket.
  • Kontrol akses didasarkan pada IAM.
  • Konfigurasi batas serentak kueri (concurrentQueryLimit) di dataform.json dihapus.

    Dalam Dataform lama, batas serentak mencegah Dataform mengirim terlalu banyak kueri serentak ke BigQuery. Untuk mengelola keserentakan di Dataform di Google Cloud, sebaiknya aktifkan antrean kueri BigQuery.

  • Lingkungan lama diganti dengan konfigurasi rilis.

  • Jadwal lama diganti dengan konfigurasi alur kerja.

  • Pemberitahuan kegagalan alur kerja dikonfigurasi di Cloud Logging.

  • Formulir data di Google Cloud dan Dataform lama menggunakan versi NPM yang berbeda dan format package-lock.json yang berbeda.

    Untuk mengembangkan alur kerja SQL di Dataform lama dan Dataform di Google Cloud, gunakan format package-lock.json lama untuk penginstalan paket. Jangan menginstal paket di Dataform di Google Cloud sampai Anda sepenuhnya bermigrasi ke Dataform di Google Cloud.

Untuk mengetahui informasi selengkapnya tentang fitur Dataform di Google Cloud, lihat Ringkasan fitur Dataform.

Fitur Dataform lama tidak didukung di Google Cloud untuk saat ini

Fitur Dataform lama berikut tidak didukung dalam Dataform di Google Cloud untuk saat ini:

  • Menjalankan pengujian unit secara manual.
  • Menelusuri konten file di ruang kerja pengembangan.

Daftar ini akan terus diperbarui seiring dengan dirilisnya fitur baru Dataform di Google Cloud.

Batasan umum

Formulir data di Google Cloud memiliki batasan umum berikut:

  • Formulir data di Google Cloud berjalan pada runtime V8 biasa dan tidak mendukung kemampuan dan modul tambahan yang disediakan oleh Node.js. Jika codebase yang ada memerlukan modul Node.js, Anda harus menghapus dependensi ini.

    Project tanpa kolom nama di package.json menghasilkan perbedaan pada package-lock.json setiap kali paket diinstal. Untuk menghindari hal ini, Anda harus menambahkan properti name di package.json.

  • git+https:// URL untuk dependensi di package.json tidak didukung.

    Konversikan URL tersebut menjadi URL arsip https:// biasa. Misalnya, konversikan git+https://github.com/dataform-co/dataform-segment.git#1.5 menjadi https://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Enable the BigQuery and Dataform APIs.

    Enable the APIs

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk mengimpor project lama, minta administrator untuk memberi Anda peran IAM Admin Dataform (roles/dataform.admin) di repositori. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Mengimpor project lama

Untuk mengimpor project lama di Dataform di Google Cloud, ikuti langkah-langkah berikut di Konsol Google Cloud:

  1. Pastikan project Dataform Anda di app.dataform.co terhubung ke GitHub atau GitLab.
  2. Di konsol Google Cloud, buka halaman Dataform.

    Buka halaman Dataform

  3. Buat repositori baru.

  4. Hubungkan repositori ke repositori Git jarak jauh yang menyimpan project lama Anda.

Mengonfigurasi project Dataform yang diimpor

Untuk menyesuaikan project lama Anda ke Dataform di Google Cloud, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Dataform.

    Buka halaman Dataform

  2. Pilih repositori Anda.

  3. Membuat ruang kerja pengembangan.

  4. Buka ruang kerja pengembangan.

  5. Di dataform.json, tambahkan parameter defaultLocation. Parameter ini diabaikan oleh app.dataform.co.

    "defaultLocation": "DATASET_LOCATION",
    

    Ganti DATASET_LOCATION dengan lokasi default set data BigQuery Anda, misalnya, US, EU, atau us-east1.

  6. Hapus package-lock.json.

  7. Di package.json, lakukan hal berikut:

    1. Upgrade @dataform/core ke 3.0.0-beta.2 atau yang lebih baru.
    2. Tambahkan nama paket dalam format berikut:

      {
          "name": "PACKAGE_NAME",
          "dependencies": {
              "@dataform/core": "^3.0.0-beta.2"
          }
      }
      

      Ganti PACKAGE_NAME dengan nama untuk paket Dataform Anda, misalnya, nama project Anda.

    3. Konversi URL git+https:// dalam dependensi package.json menjadi URL arsip https:// biasa.

      Misalnya, konversikan git+https://github.com/dataform-co/dataform-segment.git#1.5 ke https://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz.

      Jika Anda menggunakan URL git+https:// dalam paket dataform bawaan, periksa petunjuk penginstalan yang diperbarui untuk paket ini di halaman rilisnya, misalnya, halaman rilis segmen data.

  8. Konfigurasi izin BigQuery dan izin pengguna.

  9. Migrasikan lingkungan dari environments.json ke konfigurasi rilis.

  10. Memigrasikan jadwal dari environments.json ke konfigurasi alur kerja.

  11. Konfigurasi pemberitahuan menggunakan Cloud logging.

Langkah selanjutnya