Membuat dan menjalankan alur kerja SQL di Dataform

Panduan memulai ini memandu Anda melalui proses berikut di Dataform untuk membuat alur kerja SQL dan menjalankannya di BigQuery:

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery and Dataform APIs.

    Enable the APIs

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk melakukan semua tugas dalam tutorial ini, minta administrator Anda untuk memberi Anda peran IAM berikut di project Anda:

  • Dataform Admin (roles/dataform.admin) - repositori
  • Dataform Editor (roles/dataform.editor) - ruang kerja dan pemanggilan alur kerja

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Membuat repositori Dataform

  1. Di konsol Google Cloud, buka halaman Dataform.

    Buka Dataform

  2. Klik Create repository.

  3. Di halaman Create repository, lakukan hal berikut:

    1. Di kolom Repository ID, masukkan quickstart-repository.

    2. Dalam daftar Region, pilih europe-west4.

    3. Klik Create.

Membuat dan melakukan inisialisasi ruang kerja pengembangan Dataform

  1. Di konsol Google Cloud, buka halaman Dataform.

    Buka Dataform

  2. Klik quickstart-repository.

  3. Klik Create development workspace.

  4. Di jendela Create development workspace, lakukan hal berikut:

    1. Di kolom Workspace ID, masukkan quickstart-workspace.

    2. Klik Create.

    Halaman ruang kerja pengembangan akan muncul.

  5. Klik Initialize workspace.

Membuat tampilan

Di bagian berikut, tentukan tabel virtual yang nantinya akan Anda gunakan sebagai sumber data untuk suatu tabel.

Membuat file SQLX untuk menentukan tabel virtual

  1. Di panel Files, di samping definitions/, klik menu More.

  2. Klik Create file.

  3. Di panel Create new file, lakukan hal berikut:

    1. Di kolom Add a file path, masukkan definitions/quickstart-source.sqlx.

    2. Klik Create file.

Menentukan tabel virtual

  1. Di panel Files, luaskan folder definitions.

  2. Klik definitions/quickstart-source.sqlx.

  3. Di file tersebut, masukkan cuplikan kode berikut:

    config {
     type: "view"
    }
    
    SELECT
     "apples" AS fruit,
     2 AS count
    UNION ALL
    SELECT
     "oranges" AS fruit,
     5 AS count
    UNION ALL
    SELECT
     "pears" AS fruit,
     1 AS count
    UNION ALL
    SELECT
     "bananas" AS fruit,
     0 AS count
    
  4. Klik Format.

Membuat tabel

Pada bagian berikut, tentukan jenis tabel dalam file SQLX, lalu tulis pernyataan SELECT untuk menentukan struktur tabel dalam file yang sama.

Membuat file SQLX untuk definisi tabel

  1. Di panel Files, di samping definitions/, klik menu More , lalu pilih Create file.

  2. Di kolom Add a file path, masukkan definitions/quickstart-table.sqlx.

  3. Klik Create file.

Tentukan jenis tabel, struktur, dan dependensinya

  1. Di panel Files, luaskan direktori definitions/.

  2. Pilih quickstart-table.sqlx, lalu masukkan jenis tabel berikut dan pernyataan SELECT:

    config {
     type: "table"
    }
    
    SELECT
     fruit,
     SUM(count) as count
    FROM ${ref("quickstart-source")}
    GROUP BY 1
    
  3. Klik Format.

Setelah menentukan jenis tabel, Dataform akan menampilkan error validasi kueri karena quickstart-source belum ada di BigQuery. Error ini akan teratasi saat Anda menjalankan alur kerja SQL nanti dalam tutorial ini.

Memberikan akses Dataform ke BigQuery

Untuk menjalankan alur kerja di BigQuery, akun layanan Dataform harus memiliki peran yang diperlukan berikut:

  • BigQuery Data Editor di project yang memerlukan akses baca dan tulis Dataform. File ini biasanya menyertakan project yang menghosting repositori Dataform Anda.
  • BigQuery Data Viewer di project yang memerlukan akses hanya baca untuk Dataform.
  • BigQuery Job User di project yang menghosting repositori Dataform Anda.

Untuk memberikan peran ini, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman IAM.

    Buka halaman IAM

  2. Klik Tambahkan.

  3. Di kolom New principals, masukkan ID akun layanan Dataform Anda.

  4. Di menu drop-down Select a role, pilih peran BigQuery Job User.

  5. Klik Add another role, lalu di menu drop-down Select a role, pilih peran BigQuery Data Editor.

  6. Klik Add another role, lalu di menu drop-down Select a role, pilih peran BigQuery Data Viewer.

  7. Klik Simpan.

Menjalankan alur kerja

  1. Di konsol Google Cloud, buka halaman Dataform.

    Buka Dataform

  2. Di halaman quickstart-workspace, klik Start execution.

  3. Klik Semua tindakan.

  4. Di panel Execute, klik Start execution.

    Dataform menggunakan setelan repositori default untuk membuat konten alur kerja Anda dalam set data BigQuery yang disebut dataform.

Melihat log eksekusi di Dataform

  1. Di halaman quickstart-repository, klik Log Eksekusi Alur Kerja.

  2. Untuk melihat detail eksekusi Anda, klik eksekusi terbaru.

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Menghapus set data yang dibuat di BigQuery

Untuk menghindari tagihan aset BigQuery, hapus set data yang bernama dataform.

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda dan pilih dataform.

  3. Klik menu Tindakan , lalu pilih Hapus.

  4. Pada dialog Delete dataset, masukkan delete ke dalam kolom, lalu klik Delete.

Menghapus ruang kerja pengembangan Dataform

Pembuatan ruang kerja pengembangan Dataform tidak dikenai biaya, tetapi untuk menghapus ruang kerja pengembangan, Anda dapat mengikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Dataform.

    Buka Dataform

  2. Klik quickstart-repository.

  3. Di tab Development workspaces, klik menu More di samping quickstart-workspace, lalu pilih Delete.

  4. Untuk mengonfirmasi, klik Hapus.

Menghapus repositori Dataform

Pembuatan repositori Dataform tidak dikenai biaya, tetapi untuk menghapus repositori, Anda dapat mengikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Dataform.

    Buka Dataform

  2. Dengan quickstart-repository, klik menu More, lalu pilih Delete.

  3. Di jendela Delete repository, masukkan nama repositori untuk mengonfirmasi penghapusan.

  4. Untuk mengonfirmasi, klik Hapus.

Langkah selanjutnya