Panduan memulai: Membuat data lake

Dokumen ini menunjukkan cara memulai penggunaan Dataplex di konsol Google Cloud, dengan panduan membuat data lake, menambahkan zona, dan melampirkan aset.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. Make sure that you have the following role or roles on the project: `roles/dataplex.admin`, `roles/dataplex.editor`

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Buka IAM
    2. Pilih project.
    3. Klik Berikan akses.
    4. Di kolom New principals, masukkan ID pengguna Anda. Ini biasanya adalah alamat email untuk Akun Google.

    5. Di daftar Pilih peran, pilih peran.
    6. Untuk memberikan peran tambahan, klik Tambahkan peran lain, lalu tambahkan setiap peran tambahan.
    7. Klik Simpan.
    8. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    9. Make sure that billing is enabled for your Google Cloud project.

    10. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage APIs.

      Enable the APIs

    11. Make sure that you have the following role or roles on the project: `roles/dataplex.admin`, `roles/dataplex.editor`

      Check for the roles

      1. In the Google Cloud console, go to the IAM page.

        Go to IAM
      2. Select the project.
      3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

      4. For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.

      Grant the roles

      1. In the Google Cloud console, go to the IAM page.

        Buka IAM
      2. Pilih project.
      3. Klik Berikan akses.
      4. Di kolom New principals, masukkan ID pengguna Anda. Ini biasanya adalah alamat email untuk Akun Google.

      5. Di daftar Pilih peran, pilih peran.
      6. Untuk memberikan peran tambahan, klik Tambahkan peran lain, lalu tambahkan setiap peran tambahan.
      7. Klik Simpan.
      8. Buat bucket Cloud Storage:
        1. In the Google Cloud console, go to the Cloud Storage Buckets page.

          Go to Buckets page

        2. Click Create bucket.
        3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
          • For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
          • For Choose where to store your data, do the following:
            • Select a Location type option.
            • Select a Location option.
          • For Choose a default storage class for your data, select the following: Standard.
          • For Choose how to control access to objects, select an Access control option.
          • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
        4. Click Create.

Membuat data lake

Data lake adalah konstruksi logis yang mewakili domain data atau unit bisnis. Misalnya, jika perlu mengatur data berdasarkan penggunaan grup, Anda akan membuat data lake untuk setiap departemen (misalnya, retail, penjualan, dan keuangan).

Langkah-langkah berikut menunjukkan cara membuat data lake menggunakan konsol Google Cloud.

  1. Buka Dataplex di konsol Google Cloud.

    Buka Dataplex

  2. Buka tampilan Kelola.

  3. Klik Create.

  4. Masukkan Nama tampilan.

  5. ID danau dibuat secara otomatis untuk Anda.

  6. Tentukan Region tempat membuat lake.

    Untuk data lake yang dibuat di region tertentu (misalnya, us-central1), data satu region (us-central1) dan data multi-region (us multi-region) dapat dilampirkan bergantung pada setelan zona.

  7. Klik Create.

Menambahkan zona ke data lake

Setelah membuat data lake, Anda dapat menambahkan zona ke data lake. Zona adalah pengelompokan logis dalam data lake, yang berguna untuk mengategorikan data terstruktur dan tidak terstruktur.

  1. Di tampilan Manage, klik nama data lake tempat Anda ingin menambahkan zona.

  2. Klik Add zone.

  3. Masukkan Nama tampilan untuk zona Anda.

  4. Klik drop-down Type. Pilih Zona Mentah atau Zona Terpilih. Pelajari lebih lanjut jenis zona.

  5. Di bagian Lokasi data, pilih Regional atau Multi-regional. Pilihan Anda tidak dapat diubah nanti. Data satu region dan multi-region tidak dapat dicampur dalam zona yang sama.

  6. Klik Create.

Mungkin diperlukan waktu beberapa menit untuk membuat zona.

Melampirkan aset

Data dapat disimpan di bucket Cloud Storage atau set data BigQuery, dan dapat dilampirkan sebagai aset ke zona data dalam data lake Dataplex.

Untuk melampirkan bucket Cloud Storage sebagai aset, ikuti langkah-langkah berikut:

  1. Di tampilan Manage, klik nama data lake tempat Anda ingin melampirkan bucket Cloud Storage.

  2. Di tab Zones, klik zona tempat aset akan ditambahkan.

  3. Di tab Assets, klik Add Assets.

  4. Klik Add an asset.

  5. Di bagian Type, pilih Storage bucket.

  6. Di bagian Nama tampilan, masukkan nama untuk aset.

  7. Di kolom Bucket, klik Browse. Jika Anda memiliki bucket Cloud Storage, cari bucket tersebut, lalu klik Select. Jika tidak memiliki bucket Cloud Storage, Anda dapat membuatnya dengan mengklik tombol .

    1. Masukkan nama unik untuk bucket. Klik Lanjutkan.

    2. Pilih Jenis lokasi. Klik Lanjutkan.

    3. Pilih kelas penyimpanan default untuk data Anda. Klik Lanjutkan.

    4. Pilih tingkat kontrol akses. Klik Lanjutkan.

    5. Pilih opsi perlindungan data atau Tidak ada. Klik Lanjutkan.

    6. Klik Create.

    7. Klik Select.

  8. Klik Done.

  9. Klik Lanjutkan.

  10. Di bagian Discovery settings, pilih Inherit untuk mewarisi Discovery settings dari tingkat zona.

  11. Klik Lanjutkan.

  12. Di bagian Add assets, klik Submit.

Tunggu hingga pembuatan Aset selesai.

Untuk menggunakan danau, lihat bagian Langkah berikutnya. Jika tidak, hapus resource yang Anda buat dengan mengikuti langkah-langkah di bagian Pembersihan.

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
  3. In the project list, select the project that you want to delete, and then click Delete.
  4. In the dialog, type the project ID, and then click Shut down to delete the project.

Atau, Anda dapat menghapus resource yang digunakan dalam tutorial ini. Danau tidak akan dihapus hingga Anda menghapus semua resource zona datanya. Demikian pula, zona data tidak akan dihapus kecuali jika Anda menghapus semua resource asetnya.

Melepaskan bucket penyimpanan

Untuk melepaskan aset Dataplex yang Anda buat, ikuti langkah-langkah berikut:

  1. Buka Dataplex di konsol Google Cloud.

    Buka Dataplex

  2. Di tampilan Manage, klik nama data lake yang Anda buat.

  3. Di tab Zones, klik nama zona yang Anda buat.

  4. Di tab Assets, pilih aset yang akan dilepaskan dengan mencentang kotak di sebelah kiri nama bucket.

  5. Klik Hapus Aset.

  6. Klik Hapus untuk mengonfirmasi pemisahan.

Menghapus zona

Untuk menghapus zona Dataplex yang Anda buat, ikuti langkah-langkah berikut:

  1. Buka Dataplex di konsol Google Cloud.

    Buka Dataplex

  2. Di tampilan Manage, klik data lake yang Anda buat.

  3. Di tab Zones, pilih zona yang akan dihapus dengan mencentang kotak di sebelah kiri nama zona data.

  4. Klik Delete Zone.

  5. Klik Delete untuk mengonfirmasi penghapusan.

Menghapus data lake

Langkah-langkah berikut menunjukkan cara menghapus data lake Dataplex yang Anda buat.

  1. Buka Dataplex di konsol Google Cloud.

    Buka Dataplex

  2. Di tampilan Manage, klik data lake yang Anda buat.

  3. Di bagian atas halaman, klik Delete.

  4. Konfirmasi penghapusan dengan mengetik "delete" di kolom.

  5. Klik Delete Lake untuk mengonfirmasi penghapusan.

Langkah selanjutnya