In dieser Anleitung wird beschrieben, wie Sie einen Dataplex-Lake mit der Google Cloud Console, der gcloud CLI oder der API-Methode lakes.create
erstellen.
Sie können Ihren Lake in jeder der Regionen erstellen, die Dataplex unterstützen.
Hinweise
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery und Cloud Storage. APIs aktivieren.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery und Cloud Storage. APIs aktivieren.
Zugriffssteuerung
Achten Sie darauf, dass Ihnen die vordefinierten Rollen
roles/dataplex.admin
oderroles/dataplex.editor
gewährt wurden, damit Sie Ihren Lake erstellen und verwalten können. Folgen Sie den Schritten in der IAM-Dokumentation zum Zuweisen von Rollen.Wenn Sie einen Cloud Storage-Bucket aus einem anderen Projekt an Ihren Lake anhängen möchten, weisen Sie dem folgenden Dataplex-Dienstkonto eine Administratorrolle für den Bucket zu. Dazu führen Sie den folgenden Befehl aus:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Metastore erstellen
Sie können mit Hive Metastore in Spark-Abfragen auf Dataplex-Metadaten zugreifen. Dazu verknüpfen Sie eine Dataproc Metastore-Dienstinstanz mit Ihrem Dataplex-Lake. Sie benötigen einen gRPC-fähigen Dataproc Metastore (Version 3.1.2 oder höher), der dem Dataplex-Lake zugeordnet ist.
Erstellen Sie einen Dataproc Metastore-Dienst.
Konfigurieren Sie die Dataproc Metastore-Dienstinstanz so, dass ein gRPC-Endpunkt verfügbar ist (anstelle des standardmäßigen Thrift Metastore-Endpunkts). Führen Sie die folgende Aktualisierungs-API-Anfrage aus:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Sehen Sie sich den gRPC-Endpunkt an. Führen Sie dazu diesen Befehl aus:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Dataplex-Lake erstellen
Die folgenden Schritte zeigen, wie Sie einen Dataplex-Lake erstellen.
Console
Rufen Sie Dataplex in der Google Cloud Console auf.
Zu Dataplex
Rufen Sie die Ansicht Verwalten auf.
Klicken Sie auf
Erstellen.Geben Sie einen Anzeigenamen ein.
Die Lake-ID wird automatisch für Sie generiert. Wenn Sie möchten, können Sie auch Ihre eigene ID angeben. Siehe Namenskonvention für Ressourcen.
Optional: Geben Sie eine Beschreibung ein.
Geben Sie die Region an, in der die Instanz erstellt werden soll.
Für Lakes, die in einer bestimmten Region (z. B.
us-central1
) erstellt wurden, können je nach Zoneneinstellungen sowohl Daten mit einer einzelnen Region (us-central1
) als auch Daten aus mehreren Regionen (us multi-region
) angehängt werden.Optional: Fügen Sie dem Lake Labels hinzu.
Optional: Klicken Sie im Bereich Metastore auf das Drop-down-Menü Metastore-Dienst und wählen Sie den Dienst aus, den Sie im Abschnitt Vorbereitung erstellt haben.
Klicken Sie auf Erstellen.
gcloud
Verwenden Sie den folgenden gcloud preview dataplex lake create
-Befehl, um einen Lake zu erstellen:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Ersetzen Sie Folgendes:
LAKE
: Der Name des neuen Lakes.LOCATION
: Bezieht sich auf eine Google Cloud-Region.k1=v1,k2=v2,k3=v3
: Die verwendeten Labels (falls vorhanden).METASTORE_SERVICE
: Der Dataproc Metastore-Dienst, falls einer erstellt wurde.
REST
Folgen Sie der API-Anleitung zum Erstellen eines Lakes mit APIs Explorer.
Nächste Schritte
- Daten in Lakes und Zonen organisieren
- Weitere Informationen zum Schutz Ihres Lakes
- Informationen zum Verwalten Ihres Lakes