Membuat Dataplex lake

Dokumen ini menjelaskan cara membuat data lake Dataplex. Anda dapat membuat data lake di salah satu region yang mendukung Dataplex.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

Kontrol akses

  1. Untuk membuat dan mengelola data lake, pastikan Anda memiliki peran standar roles/dataplex.admin atau roles/dataplex.editor yang diberikan. Untuk mengetahui informasi selengkapnya, lihat memberikan satu peran.

  2. Untuk melampirkan bucket Cloud Storage dari project lain ke lake Anda, berikan peran administrator pada bucket tersebut kepada akun layanan Dataplex berikut dengan menjalankan perintah berikut:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Membuat metastore

Anda dapat mengakses metadata Dataplex menggunakan Hive Metastore dalam kueri Spark dengan mengaitkan instance layanan Dataproc Metastore dengan data lake Dataplex Anda. Anda harus memiliki Dataproc Metastore yang mengaktifkan gRPC (versi 3.1.2 atau yang lebih tinggi) yang terkait dengan data lake Dataplex.

  1. Buat layanan Dataproc Metastore.

  2. Konfigurasikan instance layanan Dataproc Metastore untuk mengekspos endpoint gRPC (bukan endpoint Thrift Metastore default):

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Lihat endpoint gRPC:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Membuat data lake

Konsol

  1. Di konsol Google Cloud, buka Dataplex.

    Buka Dataplex

  2. Buka tampilan Kelola.

  3. Klik Create .

  4. Masukkan Nama tampilan.

  5. ID danau dibuat secara otomatis untuk Anda. Jika mau, Anda dapat memberikan tanda pengenal Anda sendiri. Lihat Konvensi penamaan resource.

  6. Opsional: Masukkan Deskripsi..

  7. Tentukan Region tempat membuat lake.

    Untuk data lake yang dibuat di region tertentu (misalnya, us-central1), Anda dapat melampirkan data satu region (us-central1) dan data multi-region (us multi-region) bergantung pada setelan zona.

  8. Opsional: Tambahkan label ke danau Anda.

  9. Opsional: Di bagian Metastore, klik menu Metastore service, lalu pilih layanan yang Anda buat di bagian Before you begin.

  10. Klik Create.

gcloud

Untuk membuat danau, gunakan perintah gcloud alpha dataplex lakes create:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Ganti kode berikut:

  • LAKE: nama danau baru
  • LOCATION: merujuk ke region Google Cloud
  • k1=v1,k2=v2,k3=v3: label yang digunakan (jika ada)
  • METASTORE_SERVICE: layanan Dataproc Metastore, jika dibuat

REST

Untuk membuat danau, gunakan metode lakes.create.

Apa langkah selanjutnya?