Crea un lake

Questa guida mostra come creare un lake Dataplex utilizzando la console Google Cloud, gcloud CLI o il metodo API lakes.create.

Puoi creare il tuo lake in una qualsiasi delle aree geografiche che supportano Dataplex.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Abilita le API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery e Cloud Storage. .

    Abilita le API

  5. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  7. Abilita le API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery e Cloud Storage. .

    Abilita le API

Controllo dell'accesso

  1. Assicurati di averti concessi i ruoli predefiniti roles/dataplex.admin o roles/dataplex.editor per poter creare e gestire il lake. Segui i passaggi nella documentazione di IAM per concedere i ruoli.

  2. Per collegare al tuo lake un bucket Cloud Storage di un altro progetto, concedi al seguente account di servizio Dataplex un ruolo di amministratore sul bucket eseguendo questo comando:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Crea un metastore

Puoi accedere ai metadati Dataplex utilizzando Hive Metastore nelle query Spark associando un'istanza di servizio Dataproc Metastore al tuo lake Dataplex. Devi avere un Dataproc Metastore abilitato per gRPC (versione 3.1.2 o successive) associato al lake Dataplex.

  1. Crea un servizio Dataproc Metastore.

  2. Configura l'istanza del servizio Dataproc Metastore per esporre un endpoint gRPC (anziché l'endpoint predefinito di Thrift Metastore). Esegui la seguente richiesta API di aggiornamento:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Visualizzare l'endpoint gRPC. Esegui questo comando:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Crea un lake Dataplex

I passaggi seguenti mostrano come creare un lake Dataplex.

Console

  1. Vai a Dataplex nella console Google Cloud.

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Fai clic su Crea.

  4. Inserisci un Nome visualizzato.

  5. L'ID lake viene generato automaticamente. Se preferisci, puoi fornire un tuo documento di identità. Vedi Convenzione di denominazione delle risorse.

  6. (Facoltativo) Inserisci una descrizione.

  7. Specifica la Regione in cui creare il lake.

    Per i lake creati in una determinata regione (ad esempio us-central1), è possibile collegare sia i dati di una singola regione (us-central1) sia quelli di più regioni (us multi-region), a seconda delle impostazioni della zona.

  8. (Facoltativo) Aggiungi etichette al lake.

  9. (Facoltativo) Nella sezione Metastore, fai clic sul menu a discesa Servizio Metastore e seleziona il servizio che hai creato nella sezione Prima di iniziare.

  10. Fai clic su Crea.

gcloud

Utilizza il seguente comando gcloud preview dataplex lake create per creare un lago:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Sostituisci quanto segue:

  • LAKE: il nome del nuovo lake.
  • LOCATION: fa riferimento a una regione Google Cloud.
  • k1=v1,k2=v2,k3=v3: le etichette utilizzate (se presenti).
  • METASTORE_SERVICE: il servizio Dataproc Metastore, se ne è stato creato uno.

REST

Segui le istruzioni dell'API per creare un lake utilizzando Explorer API.

Che cosa succede dopo?