Panduan memulai: Membuat data lake

Dokumen ini menunjukkan cara memulai penggunaan Dataplex di konsol Google Cloud, dengan panduan membuat data lake, menambahkan zona, dan melampirkan aset.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Aktifkan API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage .

    Mengaktifkan API

  5. Make sure that you have the following role or roles on the project: `roles/dataplex.admin`, `roles/dataplex.editor`

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Buka IAM
    2. Pilih project.
    3. Klik Berikan akses.
    4. Di kolom New principals, masukkan ID pengguna Anda. Ini biasanya adalah alamat email untuk Akun Google.

    5. Di daftar Pilih peran, pilih peran.
    6. Untuk memberikan peran tambahan, klik Tambahkan peran lain, lalu tambahkan setiap peran tambahan.
    7. Klik Simpan.
    8. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

      Buka pemilih project

    9. Make sure that billing is enabled for your Google Cloud project.

    10. Aktifkan API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage .

      Mengaktifkan API

    11. Make sure that you have the following role or roles on the project: `roles/dataplex.admin`, `roles/dataplex.editor`

      Check for the roles

      1. In the Google Cloud console, go to the IAM page.

        Go to IAM
      2. Select the project.
      3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

      4. For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.

      Grant the roles

      1. In the Google Cloud console, go to the IAM page.

        Buka IAM
      2. Pilih project.
      3. Klik Berikan akses.
      4. Di kolom New principals, masukkan ID pengguna Anda. Ini biasanya adalah alamat email untuk Akun Google.

      5. Di daftar Pilih peran, pilih peran.
      6. Untuk memberikan peran tambahan, klik Tambahkan peran lain, lalu tambahkan setiap peran tambahan.
      7. Klik Simpan.
      8. Buat bucket Cloud Storage:
        1. Di Konsol Google Cloud, buka halaman Bucket Cloud Storage.

          Buka halaman Bucket

        2. Klik Buat bucket.
        3. Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke langkah berikutnya, klik Lanjutkan.
          • Untuk Beri nama bucket Anda, masukkan nama bucket yang unik. Jangan sertakan informasi sensitif pada nama bucket, karena namespace bucket bersifat global dan dapat dilihat publik.
          • Untuk Pilih tempat untuk menyimpan data, lakukan tindakan berikut:
            • Pilih opsi Jenis lokasi.
            • Pilih opsi Lokasi.
          • Untuk Memilih kelas penyimpanan default untuk data Anda, pilih opsi berikut: Standar.
          • Untuk Memilih cara mengontrol akses ke objek, pilih opsi Kontrol akses.
          • Untuk Setelan lanjutan (opsional), tentukan metode enkripsi, kebijakan retensi, atau label bucket.
        4. Klik Buat.

Membuat data lake

Data lake adalah konstruksi logis yang mewakili domain data atau unit bisnis. Misalnya, jika perlu mengatur data berdasarkan penggunaan grup, Anda akan membuat data lake untuk setiap departemen (misalnya, retail, penjualan, dan keuangan).

Langkah-langkah berikut menunjukkan cara membuat data lake menggunakan konsol Google Cloud.

  1. Buka Dataplex di konsol Google Cloud.

    Buka Dataplex

  2. Buka tampilan Kelola.

  3. Klik Create.

  4. Masukkan Nama tampilan.

  5. ID danau dibuat secara otomatis untuk Anda.

  6. Tentukan Region tempat membuat lake.

    Untuk data lake yang dibuat di region tertentu (misalnya, us-central1), data satu region (us-central1) dan data multi-region (us multi-region) dapat dilampirkan bergantung pada setelan zona.

  7. Klik Create.

Menambahkan zona ke data lake

Setelah membuat data lake, Anda dapat menambahkan zona ke data lake. Zona adalah pengelompokan logis dalam data lake, yang berguna untuk mengategorikan data terstruktur dan tidak terstruktur.

  1. Di tampilan Manage, klik nama data lake tempat Anda ingin menambahkan zona.

  2. Klik Add zone.

  3. Masukkan Nama tampilan untuk zona Anda.

  4. Klik drop-down Type. Pilih Zona Mentah atau Zona Terpilih. Pelajari lebih lanjut jenis zona.

  5. Di bagian Lokasi data, pilih Regional atau Multi-regional. Pilihan Anda tidak dapat diubah nanti. Data satu region dan multi-region tidak dapat dicampur dalam zona yang sama.

  6. Klik Create.

Mungkin diperlukan waktu beberapa menit untuk membuat zona.

Melampirkan aset

Data dapat disimpan di bucket Cloud Storage atau set data BigQuery, dan dapat dilampirkan sebagai aset ke zona data dalam data lake Dataplex.

Untuk melampirkan bucket Cloud Storage sebagai aset, ikuti langkah-langkah berikut:

  1. Di tampilan Manage, klik nama data lake tempat Anda ingin melampirkan bucket Cloud Storage.

  2. Di tab Zones, klik zona tempat aset akan ditambahkan.

  3. Di tab Assets, klik Add Assets.

  4. Klik Add an asset.

  5. Di bagian Type, pilih Storage bucket.

  6. Di bagian Nama tampilan, masukkan nama untuk aset.

  7. Di kolom Bucket, klik Browse. Jika Anda memiliki bucket Cloud Storage, cari bucket tersebut, lalu klik Select. Jika tidak memiliki bucket Cloud Storage, Anda dapat membuatnya dengan mengklik tombol .

    1. Masukkan nama unik untuk bucket. Klik Lanjutkan.

    2. Pilih Jenis lokasi. Klik Lanjutkan.

    3. Pilih kelas penyimpanan default untuk data Anda. Klik Lanjutkan.

    4. Pilih tingkat kontrol akses. Klik Lanjutkan.

    5. Pilih opsi perlindungan data atau Tidak ada. Klik Lanjutkan.

    6. Klik Create.

    7. Klik Select.

  8. Klik Done.

  9. Klik Lanjutkan.

  10. Di bagian Discovery settings, pilih Inherit untuk mewarisi Discovery settings dari tingkat zona.

  11. Klik Lanjutkan.

  12. Di bagian Add assets, klik Submit.

Tunggu hingga pembuatan Aset selesai.

Untuk menggunakan danau, lihat bagian Langkah berikutnya. Jika tidak, hapus resource yang Anda buat dengan mengikuti langkah-langkah di bagian Pembersihan.

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Jika project yang ingin Anda hapus tertaut ke organisasi, buka daftar Organization di kolom Name.
  3. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  4. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Atau, Anda dapat menghapus resource yang digunakan dalam tutorial ini. Danau tidak akan dihapus hingga Anda menghapus semua resource zona datanya. Demikian pula, zona data tidak akan dihapus kecuali jika Anda menghapus semua resource asetnya.

Melepaskan bucket penyimpanan

Untuk melepaskan aset Dataplex yang Anda buat, ikuti langkah-langkah berikut:

  1. Buka Dataplex di konsol Google Cloud.

    Buka Dataplex

  2. Di tampilan Manage, klik nama data lake yang Anda buat.

  3. Di tab Zones, klik nama zona yang Anda buat.

  4. Di tab Assets, pilih aset yang akan dilepaskan dengan mencentang kotak di sebelah kiri nama bucket.

  5. Klik Hapus Aset.

  6. Klik Hapus untuk mengonfirmasi pemisahan.

Menghapus zona

Untuk menghapus zona Dataplex yang Anda buat, ikuti langkah-langkah berikut:

  1. Buka Dataplex di konsol Google Cloud.

    Buka Dataplex

  2. Di tampilan Manage, klik data lake yang Anda buat.

  3. Di tab Zones, pilih zona yang akan dihapus dengan mencentang kotak di sebelah kiri nama zona data.

  4. Klik Delete Zone.

  5. Klik Delete untuk mengonfirmasi penghapusan.

Menghapus data lake

Langkah-langkah berikut menunjukkan cara menghapus data lake Dataplex yang Anda buat.

  1. Buka Dataplex di konsol Google Cloud.

    Buka Dataplex

  2. Di tampilan Manage, klik data lake yang Anda buat.

  3. Di bagian atas halaman, klik Delete.

  4. Konfirmasi penghapusan dengan mengetik "delete" di kolom.

  5. Klik Delete Lake untuk mengonfirmasi penghapusan.

Langkah selanjutnya