Lakes erstellen

In dieser Anleitung wird beschrieben, wie Sie einen Dataplex-Lake mit der Google Cloud Console, der gcloud CLI oder der API-Methode lakes.create erstellen.

Sie können Ihren Lake in jeder der Regionen erstellen, die Dataplex unterstützen.

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery und Cloud Storage. APIs aktivieren.

    Aktivieren Sie die APIs

  5. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  6. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  7. Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery und Cloud Storage. APIs aktivieren.

    Aktivieren Sie die APIs

Zugriffssteuerung

  1. Achten Sie darauf, dass Ihnen die vordefinierten Rollen roles/dataplex.admin oder roles/dataplex.editor gewährt wurden, damit Sie Ihren Lake erstellen und verwalten können. Folgen Sie den Schritten in der IAM-Dokumentation zum Zuweisen von Rollen.

  2. Wenn Sie einen Cloud Storage-Bucket aus einem anderen Projekt an Ihren Lake anhängen möchten, weisen Sie dem folgenden Dataplex-Dienstkonto eine Administratorrolle für den Bucket zu. Dazu führen Sie den folgenden Befehl aus:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Metastore erstellen

Sie können mit Hive Metastore in Spark-Abfragen auf Dataplex-Metadaten zugreifen. Dazu verknüpfen Sie eine Dataproc Metastore-Dienstinstanz mit Ihrem Dataplex-Lake. Sie benötigen einen gRPC-fähigen Dataproc Metastore (Version 3.1.2 oder höher), der dem Dataplex-Lake zugeordnet ist.

  1. Erstellen Sie einen Dataproc Metastore-Dienst.

  2. Konfigurieren Sie die Dataproc Metastore-Dienstinstanz so, dass ein gRPC-Endpunkt verfügbar ist (anstelle des standardmäßigen Thrift Metastore-Endpunkts). Führen Sie die folgende Aktualisierungs-API-Anfrage aus:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Sehen Sie sich den gRPC-Endpunkt an. Führen Sie dazu diesen Befehl aus:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Dataplex-Lake erstellen

Die folgenden Schritte zeigen, wie Sie einen Dataplex-Lake erstellen.

Console

  1. Rufen Sie Dataplex in der Google Cloud Console auf.

    Zu Dataplex

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Klicken Sie auf Erstellen.

  4. Geben Sie einen Anzeigenamen ein.

  5. Die Lake-ID wird automatisch für Sie generiert. Wenn Sie möchten, können Sie auch Ihre eigene ID angeben. Siehe Namenskonvention für Ressourcen.

  6. Optional: Geben Sie eine Beschreibung ein.

  7. Geben Sie die Region an, in der die Instanz erstellt werden soll.

    Für Lakes, die in einer bestimmten Region (z. B. us-central1) erstellt wurden, können je nach Zoneneinstellungen sowohl Daten mit einer einzelnen Region (us-central1) als auch Daten aus mehreren Regionen (us multi-region) angehängt werden.

  8. Optional: Fügen Sie dem Lake Labels hinzu.

  9. Optional: Klicken Sie im Bereich Metastore auf das Drop-down-Menü Metastore-Dienst und wählen Sie den Dienst aus, den Sie im Abschnitt Vorbereitung erstellt haben.

  10. Klicken Sie auf Erstellen.

gcloud

Verwenden Sie den folgenden gcloud preview dataplex lake create-Befehl, um einen Lake zu erstellen:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Ersetzen Sie Folgendes:

  • LAKE: Der Name des neuen Lakes.
  • LOCATION: Bezieht sich auf eine Google Cloud-Region.
  • k1=v1,k2=v2,k3=v3: Die verwendeten Labels (falls vorhanden).
  • METASTORE_SERVICE: Der Dataproc Metastore-Dienst, falls einer erstellt wurde.

REST

Folgen Sie der API-Anleitung zum Erstellen eines Lakes mit APIs Explorer.

Nächste Schritte