Deployment di un servizio Dataproc Metastore

Questa pagina mostra come creare un servizio Dataproc Metastore e connetterti da un cluster Dataproc. Successivamente, esegui la connessione tramite SSH avviare un'istanza di Apache Hive ed eseguire alcune query di base.

Dataproc Metastore offre un ambiente Hive completamente compatibile Metastore (HMS), lo standard consolidato per i big data open source per la gestione dei metadati tecnici. Questo servizio ti aiuta a gestire metadati dei tuoi data lake e offre l'interoperabilità tra i vari gli strumenti di elaborazione dei dati utilizzati.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:

Procedura guidata


Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Enable the Dataproc Metastore, Dataproc APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  7. Enable the Dataproc Metastore, Dataproc APIs.

    Enable the APIs

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per creare un cluster Dataproc Metastore e un cluster Dataproc, chiedi all'amministratore di concederti seguenti ruoli IAM:

  • Per concedere l'accesso completo a tutte le risorse Dataproc Metastore, inclusa l'impostazione delle autorizzazioni IAM: (roles/metastore.admin) sull'account utente o sull'account di servizio
  • Per concedere il controllo completo delle risorse Dataproc Metastore: Editor Dataproc Metastore (roles/metastore.editor) sull'account utente o sull'account di servizio
  • Per creare un cluster Dataproc: (roles/dataproc.worker) sull'account di servizio

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti le autorizzazioni necessarie per creare un cluster Dataproc Metastore e un cluster Dataproc. Per vedere le autorizzazioni esatte obbligatorie, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per creare un cluster Dataproc Metastore e un cluster Dataproc sono necessarie le seguenti autorizzazioni:

  • Per creare un servizio Dataproc Metastore: metastore.services.create sull'account utente o sull'account di servizio
  • Per creare un cluster Dataproc: Dataproc worker (roles/dataproc.worker) attiva per l'account di servizio

Potresti anche riuscire a ottenere queste autorizzazioni con ruoli personalizzati altri ruoli predefiniti.

Per ulteriori informazioni su ruoli e autorizzazioni specifici di Dataproc Metastore, consulta la panoramica su IAM di Dataproc Metastore.

Crea un servizio Dataproc Metastore

Le seguenti istruzioni mostrano come creare un elemento di base servizio Dataproc Metastore utilizzando le impostazioni predefinite fornite.

Console

  1. Nella console Google Cloud, vai alla pagina Dataproc Metastore.

    Vai a Dataproc Metastore

  2. Nel menu di navigazione, fai clic su +Crea.

    Si apre la finestra di dialogo Crea servizio Metastore.

  3. Seleziona Dataproc Metastore 2.

  4. Nel campo Nome servizio, inserisci example-service.

  5. Nel campo Località dei dati, seleziona us-central1.

  6. Per le restanti opzioni di configurazione del servizio, utilizza i valori predefiniti.

  7. Per creare e avviare il servizio, fai clic su Invia.

Il nuovo servizio metastore viene visualizzato nella pagina Dataproc Metastore. La lo stato è Creazione in corso... finché il servizio non è pronto per l'uso. Quando pronto, lo stato diventa Attivo. Il provisioning del servizio potrebbe richiedere per un paio di minuti.

Lo screenshot seguente mostra un esempio della pagina Crea servizio utilizzando alcuni dei valori predefiniti forniti.

La pagina Crea servizio.

Interfaccia a riga di comando gcloud

Per creare un servizio metastore utilizzando i valori predefiniti forniti, esegui questo gcloud metastore services create :

 gcloud metastore services create example-service \
     --location=us-central1 \
     --instance-size=MEDIUM

Questo comando crea un servizio denominato example-service nell'impostazione predefinita regione (us-central1) e con la dimensione predefinita dell'istanza (MEDIUM).

REST

Segui le istruzioni dell'API per creare un servizio utilizzando Explorer API.

Crea un cluster Dataproc e connettiti a Dataproc Metastore

Successivamente, dovrai creare un cluster Dataproc e connetterti al tuo metastore dal cluster. Dopodiché, il cluster utilizzerà il servizio metastore in quanto HMS. Il cluster che crei qui utilizza le impostazioni predefinite fornite.

Console

  1. Nella console Google Cloud, vai alla pagina Cluster Dataproc.

    Vai a Cluster Dataproc

  2. Nella barra di navigazione, seleziona + Crea cluster.

    Si apre la finestra di dialogo Crea un cluster, in cui sono presenti diverse opzioni di infrastruttura che tra cui scegliere.

  3. Nella riga Cluster su Compute Engine, seleziona Crea.

    Pagina Crea un cluster Dataproc su Compute Engine si apre.

  4. Nel campo Nome cluster, inserisci example-cluster.

  5. Nei menu Regione e Zona, seleziona us-central1.

  6. Per le rimanenti opzioni di Configura cluster, utilizza i valori predefiniti forniti.

  7. Nel menu di navigazione, fai clic sulla scheda Personalizza cluster (facoltativo).

  8. Nella sezione Dataproc Metastore, seleziona il metastore creato in precedenza.

    Se hai seguito questo tutorial così com'è, il titolo si chiama example-service.

  9. Per le restanti opzioni di configurazione del servizio, utilizza i valori predefiniti forniti.

  10. Per creare il cluster, fai clic su Crea.

    Il nuovo cluster viene visualizzato nell'elenco Cluster. Lo stato del cluster mostra Provisioning in corso finché il cluster non è pronto per l'uso. Quando pronto, lo stato diventa Attivo. Il provisioning del cluster potrebbe richiede qualche minuto.

Interfaccia a riga di comando gcloud

Per creare un cluster utilizzando le impostazioni predefinite fornite, esegui persone che seguo: gcloud dataproc clusters create :

 gcloud dataproc clusters create example-cluster \
    --dataproc-metastore=projects/PROJECT_ID/locations/us-central1/services/example-service \
    --region=us-central1

Sostituisci PROJECT_ID con l'ID progetto del progetto in cui hai creato il servizio Dataproc Metastore.

REST

Segui le istruzioni dell'API per creare un cluster utilizzando Explorer API.

Connettiti ad Apache Hive con un cluster Dataproc

I passaggi successivi mostrano come eseguire alcuni comandi di esempio in Apache Hive per creare un database e una tabella.

A questo punto, apri una sessione SSH sul cluster Dataproc e avvia un Sessione Hive.

  1. Nella console Google Cloud, vai alla VM Istanze.
  2. Nell'elenco delle istanze di macchine virtuali, fai clic su SSH accanto a example-cluster.

Nella home directory sul nodo si apre una finestra del browser con un output simile a:

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

Per avviare Hive e creare un database e una tabella, esegui questi comandi nella sessione SSH:

  1. Avvia Hive.

    hive
    
  2. Crea un database denominato myDatabase.

    create database myDatabase;
    
  3. Mostra il database che hai creato.

    show databases;
    
  4. Utilizza il database che hai creato.

    use myDatabase;
    
  5. Crea una tabella denominata myTable.

    create table myTable(id int,name string);
    
  6. Elenca le tabelle sotto myDatabase.

    show tables;
    
  7. Descrivi lo schema della tabella che hai creato.

    desc MyTable;
    

Se esegui questi comandi, viene visualizzato un output simile al seguente:

$hive

hive> show databases;
OK
default
hive> create database myDatabase;
OK
hive> use myDatabase;
OK
hive> create table myTable(id int,name string);
OK
hive> show tables;
OK
myTable
hive> desc myTable;
OK
id                      int
name                    string

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi per le risorse utilizzate in questa pagina, segui questi passaggi.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
  3. In the project list, select the project that you want to delete, and then click Delete.
  4. In the dialog, type the project ID, and then click Shut down to delete the project.

In alternativa, puoi eliminare le risorse utilizzate in questo tutorial:

  1. Elimina il servizio Dataproc Metastore.

    Console

    1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

      Vai a Dataproc Metastore

    2. Nell'elenco dei servizi, seleziona example-service.

    3. Nella barra di navigazione, fai clic su Elimina.

      Viene visualizzata la finestra di dialogo Elimina servizio.

    4. Nella finestra di dialogo, fai clic su Elimina.

      Il tuo servizio non viene più visualizzato nell'Elenco di servizi.

    Interfaccia a riga di comando gcloud

    Per eliminare il servizio, esegui questo comando gcloud metastore services delete.

     gcloud metastore services delete example-service \
         --location=us-central1

    REST

    Segui le istruzioni dell'API per eliminare un servizio utilizzando Explorer API.

    Tutte le eliminazioni vengono eseguite immediatamente.

  2. Elimina il bucket Cloud Storage per il servizio Dataproc Metastore.

  3. Elimina il cluster Dataproc che utilizzavano il servizio Dataproc Metastore.

Passaggi successivi