Questo documento descrive come creare un lake Dataplex. Puoi creare un lake in una delle regioni che supportano Dataplex.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
Controllo degli accessi
Per creare e gestire il tuo lake, assicurati di disporre dei ruoli predefiniti
roles/dataplex.admin
oroles/dataplex.editor
. Per ulteriori informazioni, consulta Concedere un singolo ruolo.Per collegare un bucket Cloud Storage di un altro progetto al tuo lake, assegna al seguente account di servizio Dataplex un ruolo di amministratore sul bucket eseguendo il seguente comando:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Crea un metastore
Puoi accedere ai metadati di Dataplex utilizzando Hive Metastore nelle query Spark associando un'istanza del servizio Dataproc Metastore al tuo lake Dataplex. Devi disporre di un Dataproc Metastore (versione 3.1.2 o successiva) abilitato gRPC associato al lake Dataplex.
Crea un servizio Dataproc Metastore.
Configura l'istanza del servizio Dataproc Metastore in modo da esporre un endpoint gRPC (anziché l'endpoint Metastore Thrift predefinito):
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Visualizza l'endpoint gRPC:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Crea un lake
Console
Nella console Google Cloud, vai a Dataplex.
Vai alla visualizzazione Gestisci.
Fai clic su
Crea.Inserisci un Nome visualizzato.
L'ID lago viene generato automaticamente. Se preferisci, puoi fornire il tuo documento di identità. Consulta la Convenzione di denominazione delle risorse.
(Facoltativo) Inserisci una Descrizione.
Specifica la Regione in cui creare il lake.
Per i lake creati in una determinata regione (ad esempio
us-central1
), puoi associare i dati sia a singola regione (us-central1
) che a più regioni (us multi-region
) a seconda delle impostazioni della zona.(Facoltativo) Aggiungi etichette al lake.
(Facoltativo) Nella sezione Metastore, fai clic sul menu Servizio Metastore e seleziona il servizio che hai creato nella sezione Prima di iniziare.
Fai clic su Crea.
gcloud
Per creare un lago, utilizza il comando gcloud alpha dataplex lakes create
:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Sostituisci quanto segue:
LAKE
: nome del nuovo lakeLOCATION
: si riferisce a una regione Google Cloudk1=v1,k2=v2,k3=v3
: eventuali etichette utilizzateMETASTORE_SERVICE
: il servizio Dataproc Metastore, se creato
REST
Per creare un lake, utilizza il metodo lakes.create.
Passaggi successivi
- Scopri come aggiungere zone a un lake.
- Scopri come collegare gli asset a una zona.
- Scopri come proteggere il tuo lake.
- Scopri come gestire il tuo lago.