In diesem Dokument wird beschrieben, wie Sie einen Dataplex-Data Lake erstellen. Sie können einen Data Lake in einer beliebigen Region erstellen, die Dataplex unterstützt.
Hinweis
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
Zugriffssteuerung
Damit Sie einen Datensee erstellen und verwalten können, müssen Sie die vordefinierten Rollen
roles/dataplex.admin
oderroles/dataplex.editor
haben. Weitere Informationen finden Sie unter Einzelne Rolle zuweisen.Wenn Sie einen Cloud Storage-Bucket aus einem anderen Projekt an Ihren Datensee anhängen möchten, gewähren Sie dem folgenden Dataplex-Dienstkonto die Administratorrolle für den Bucket. Führen Sie dazu den folgenden Befehl aus:
gcloud alpha dataplex lakes authorize \ --project
PROJECT_ID_OF_LAKE \ --storage-bucket-resourceBUCKET_NAME
Metastore erstellen
Sie können in Spark-Abfragen über Hive Metastore auf Dataplex-Metadaten zugreifen, indem Sie eine Dataproc Metastore-Dienstinstanz mit Ihrem Dataplex-Lake verknüpfen. Sie benötigen einen gRPC-fähigen Dataproc Metastore (Version 3.1.2 oder höher), der mit dem Dataplex-Lake verknüpft ist.
Erstellen Sie einen Dataproc Metastore-Dienst.
Konfigurieren Sie die Dataproc Metastore-Dienstinstanz so, dass ein gRPC-Endpunkt (anstelle des standardmäßigen Thrift Metastore-Endpunkts) freigegeben wird:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/
PROJECT_ID /locations/LOCATION /services/SERVICE_ID ?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'GRPC-Endpunkt ansehen:
gcloud metastore services describe
SERVICE_ID \ --projectPROJECT_ID \ --locationLOCATION \ --format "value(endpointUri)"
Lakes erstellen
Rufen Sie in der Google Cloud Console „Dataplex“ auf.
Rufen Sie die Ansicht Verwalten auf.
Klicken Sie auf
Erstellen.Geben Sie einen Anzeigenamen ein.
Die See-ID wird automatisch für Sie generiert. Wenn Sie möchten, können Sie auch Ihre eigene ID angeben. Weitere Informationen finden Sie unter Namenskonvention für Ressourcen.
Optional: Geben Sie eine Beschreibung ein.
Geben Sie die Region an, in der die Instanz erstellt werden soll.
Bei Lakes, die in einer bestimmten Region erstellt wurden (z. B.
us-central1
), können je nach Zoneneinstellungen sowohl Daten mit einer Region (us-central1
) als auch Daten mit mehreren Regionen (us multi-region
) angehängt werden.Optional: Fügen Sie Ihrem Lake Labels hinzu.
Optional: Klicken Sie im Abschnitt Metastore auf das Menü Metastore-Dienst und wählen Sie den Dienst aus, den Sie im Abschnitt Vorab erstellt haben.
Klicken Sie auf Erstellen.
Verwenden Sie den Befehl gcloud alpha dataplex lakes create
, um einen See zu erstellen:
gcloud alpha dataplex lakes createLAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Ersetzen Sie Folgendes:
LAKE
: Name des neuen SeesLOCATION
: bezieht sich auf eine Google Cloud Regionk1=v1,k2=v2,k3=v3
: verwendete Labels (falls zutreffend)METASTORE_SERVICE
: den Dataproc Metastore-Dienst, falls erstellt
Verwenden Sie zum Erstellen eines Sees die Methode lakes.create.
Nächste Schritte
- Weitere Informationen zum Hinzufügen von Zonen zu einem See
- Weitere Informationen zum Anhängen von Assets an eine Zone
- Weitere Informationen zum Schützen Ihres Datenspeichers
- Weitere Informationen zum Verwalten von Seen