Questa guida mostra come creare un lake Dataplex utilizzando la console Google Cloud, gcloud CLI o il metodo API lakes.create
.
Puoi creare il tuo lake in una qualsiasi delle aree geografiche che supportano Dataplex.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery e Cloud Storage. .
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery e Cloud Storage. .
Controllo dell'accesso
Assicurati di averti concessi i ruoli predefiniti
roles/dataplex.admin
oroles/dataplex.editor
per poter creare e gestire il lake. Segui i passaggi nella documentazione di IAM per concedere i ruoli.Per collegare al tuo lake un bucket Cloud Storage di un altro progetto, concedi al seguente account di servizio Dataplex un ruolo di amministratore sul bucket eseguendo questo comando:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Crea un metastore
Puoi accedere ai metadati Dataplex utilizzando Hive Metastore nelle query Spark associando un'istanza di servizio Dataproc Metastore al tuo lake Dataplex. Devi avere un Dataproc Metastore abilitato per gRPC (versione 3.1.2 o successive) associato al lake Dataplex.
Crea un servizio Dataproc Metastore.
Configura l'istanza del servizio Dataproc Metastore per esporre un endpoint gRPC (anziché l'endpoint predefinito di Thrift Metastore). Esegui la seguente richiesta API di aggiornamento:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Visualizzare l'endpoint gRPC. Esegui questo comando:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Crea un lake Dataplex
I passaggi seguenti mostrano come creare un lake Dataplex.
Console
Vai a Dataplex nella console Google Cloud.
Vai a Dataplex
Vai alla visualizzazione Gestisci.
Fai clic su
Crea.Inserisci un Nome visualizzato.
L'ID lake viene generato automaticamente. Se preferisci, puoi fornire un tuo documento di identità. Vedi Convenzione di denominazione delle risorse.
(Facoltativo) Inserisci una descrizione.
Specifica la Regione in cui creare il lake.
Per i lake creati in una determinata regione (ad esempio
us-central1
), è possibile collegare sia i dati di una singola regione (us-central1
) sia quelli di più regioni (us multi-region
), a seconda delle impostazioni della zona.(Facoltativo) Aggiungi etichette al lake.
(Facoltativo) Nella sezione Metastore, fai clic sul menu a discesa Servizio Metastore e seleziona il servizio che hai creato nella sezione Prima di iniziare.
Fai clic su Crea.
gcloud
Utilizza il seguente comando gcloud preview dataplex lake create
per creare un lago:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Sostituisci quanto segue:
LAKE
: il nome del nuovo lake.LOCATION
: fa riferimento a una regione Google Cloud.k1=v1,k2=v2,k3=v3
: le etichette utilizzate (se presenti).METASTORE_SERVICE
: il servizio Dataproc Metastore, se ne è stato creato uno.
REST
Segui le istruzioni dell'API per creare un lake utilizzando Explorer API.
Che cosa succede dopo?
- Scopri come organizzare i dati in lake e zone.
- Aggiungi zone al lake.
- Collega asset alle tue zone.
- Scopri come proteggere il tuo lake.
- Scopri come gestire il tuo lake.