Lakes erstellen

In diesem Leitfaden erfahren Sie, wie Sie einen Dataplex-Datensee mit der Google Cloud Console, der gcloud CLI oder der lakes.create API erstellen.

Sie können Ihren Lake in jeder der Regionen erstellen, unterstützen Dataplex.

Hinweis

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

Zugriffssteuerung

  1. Prüfen Sie, ob Sie die vordefinierten Rollen haben. roles/dataplex.admin oder roles/dataplex.editor wurden Ihnen gewährt, damit Sie den Lake erstellen und verwalten. Folgen Sie der Anleitung in der IAM-Dokumentation zum Verleihen von Rollen.

  2. So hängen Sie einen Cloud Storage-Bucket aus einem anderen Projekt an Ihren Lake an: Gewähren Sie dem folgenden Dataplex-Dienstkonto ein Administratorrolle für den Bucket haben, indem Sie den folgenden Befehl ausführen:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Metastore erstellen

Sie können in Spark-Abfragen über Hive Metastore auf Dataplex-Metadaten zugreifen, indem Sie eine Dataproc Metastore-Dienstinstanz mit Ihrem Dataplex-Lake verknüpfen. Sie benötigen einen gRPC-fähigen Dataproc Metastore (Version 3.1.2 oder höher), die mit dem Dataplex-Lake.

  1. Erstellen Sie einen Dataproc Metastore-Dienst.

  2. Konfigurieren Sie die Dataproc Metastore-Dienstinstanz so, dass ein gRPC-Endpunkt (anstelle des standardmäßigen Thrift Metastore-Endpunkts) freigegeben wird. Führen Sie die folgende Update API-Anfrage aus:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. gRPC-Endpunkt ansehen. Führen Sie dazu diesen Befehl aus:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Dataplex-Lake erstellen

Die folgenden Schritte zeigen, wie Sie einen Dataplex-Lake erstellen.

Console

  1. Rufen Sie Dataplex in der Google Cloud Console auf.

    Rufen Sie Dataplex auf.

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Klicken Sie auf Erstellen.

  4. Geben Sie einen Anzeigenamen ein.

  5. Die Lake-ID wird automatisch für Sie generiert. Sie können auch können Sie Ihre eigene ID angeben. Weitere Informationen finden Sie unter Namenskonvention für Ressourcen.

  6. Optional: Geben Sie eine Beschreibung ein.

  7. Geben Sie die Region an, in der die Instanz erstellt werden soll.

    Bei Lakes, die in einer bestimmten Region erstellt wurden (z. B. us-central1), können je nach Zoneneinstellungen sowohl Daten mit einer Region (us-central1) als auch Daten mit mehreren Regionen (us multi-region) angehängt werden.

  8. Optional: Fügen Sie dem Lake Labels hinzu.

  9. Optional: Klicken Sie im Abschnitt Metastore auf den Metastore-Dienst. und wählen Sie den Dienst aus, den Sie im Schritt Vorbereitung erstellt haben. .

  10. Klicken Sie auf Erstellen.

gcloud

Verwenden Sie den folgenden gcloud preview dataplex lake create-Befehl, um einen See zu erstellen:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Ersetzen Sie Folgendes:

  • LAKE: Der Name des neuen Sees.
  • LOCATION: Bezieht sich auf eine Google Cloud-Region.
  • k1=v1,k2=v2,k3=v3: Die verwendeten Labels (falls vorhanden).
  • METASTORE_SERVICE: Der Dataproc Metastore-Dienst, falls einer erstellt wurde.

REST

Folgen Sie der API-Anleitung zum Erstellen eines Lake. mit APIs Explorer.

Nächste Schritte