Dataplex-Lake erstellen

In diesem Dokument wird beschrieben, wie Sie einen Dataplex-Data Lake erstellen. Sie können einen Data Lake in einer beliebigen Region erstellen, die Dataplex unterstützt.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

Zugriffssteuerung

  1. Damit Sie einen Datensee erstellen und verwalten können, müssen Sie die vordefinierten Rollen roles/dataplex.admin oder roles/dataplex.editor haben. Weitere Informationen finden Sie unter Einzelne Rolle zuweisen.

  2. Wenn Sie einen Cloud Storage-Bucket aus einem anderen Projekt an Ihren Datensee anhängen möchten, gewähren Sie dem folgenden Dataplex-Dienstkonto die Administratorrolle für den Bucket. Führen Sie dazu den folgenden Befehl aus:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Metastore erstellen

Sie können in Spark-Abfragen über Hive Metastore auf Dataplex-Metadaten zugreifen, indem Sie eine Dataproc Metastore-Dienstinstanz mit Ihrem Dataplex-Lake verknüpfen. Sie benötigen einen gRPC-fähigen Dataproc Metastore (Version 3.1.2 oder höher), der mit dem Dataplex-Lake verknüpft ist.

  1. Erstellen Sie einen Dataproc Metastore-Dienst.

  2. Konfigurieren Sie die Dataproc Metastore-Dienstinstanz so, dass ein gRPC-Endpunkt (anstelle des standardmäßigen Thrift Metastore-Endpunkts) freigegeben wird:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. GRPC-Endpunkt ansehen:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Lakes erstellen

  1. Rufen Sie in der Google Cloud Console „Dataplex“ auf.

    Zu Dataplex

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Klicken Sie auf Erstellen.

  4. Geben Sie einen Anzeigenamen ein.

  5. Die See-ID wird automatisch für Sie generiert. Wenn Sie möchten, können Sie auch Ihre eigene ID angeben. Weitere Informationen finden Sie unter Namenskonvention für Ressourcen.

  6. Optional: Geben Sie eine Beschreibung ein.

  7. Geben Sie die Region an, in der die Instanz erstellt werden soll.

    Bei Lakes, die in einer bestimmten Region erstellt wurden (z. B. us-central1), können je nach Zoneneinstellungen sowohl Daten mit einer Region (us-central1) als auch Daten mit mehreren Regionen (us multi-region) angehängt werden.

  8. Optional: Fügen Sie Ihrem Lake Labels hinzu.

  9. Optional: Klicken Sie im Abschnitt Metastore auf das Menü Metastore-Dienst und wählen Sie den Dienst aus, den Sie im Abschnitt Vorab erstellt haben.

  10. Klicken Sie auf Erstellen.

Verwenden Sie den Befehl gcloud alpha dataplex lakes create, um einen See zu erstellen:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Ersetzen Sie Folgendes:

  • LAKE: Name des neuen Sees
  • LOCATION: bezieht sich auf eine Google Cloud Region
  • k1=v1,k2=v2,k3=v3: verwendete Labels (falls zutreffend)
  • METASTORE_SERVICE: den Dataproc Metastore-Dienst, falls erstellt

Verwenden Sie zum Erstellen eines Sees die Methode lakes.create.

Nächste Schritte