Connettiti ad Apache Spark
In qualità di amministratore BigQuery, puoi creare connection per consentire agli analisti di dati di eseguire stored procedure per Apache Spark.
Prima di iniziare
Abilita l'API BigQuery Connection.
-
Per ottenere le autorizzazioni necessarie per creare una connessione Spark, chiedi all'amministratore di concederti Ruolo IAM Amministratore connessione BigQuery (
roles/bigquery.connectionAdmin
) nel progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
- (Facoltativo) Per gestire i metadati utilizzando Dataproc Metastore, assicurati di aver creato un servizio Dataproc Metastore.
- (Facoltativo) Per visualizzare la cronologia dei job utilizzando Spark History Server web interfacce, assicurati di aver creato una cronologia permanente di Dataproc (PHS)
Considerazioni sulla località
Quando scegli una località per i tuoi dati, considera quanto segue:
Più regioni
Devi specificare le risorse Google Cloud che si trovano nello stesso spazio area geografica:
Una connessione nell'area multiregionale degli Stati Uniti di BigQuery può fare riferimento a un server di cronologia Spark o un Dataproc Metastore in qualsiasi singola regione dell'area geografica degli Stati Uniti, ad esempio
us-central1
,us-east4
ous-west2
.Una connessione nella località multiregionale dell'UE di BigQuery può fare riferimento a un server di cronologia Spark o a Dataproc Metastore nel membro stati del Unione Europea, ad esempio
europe-north1
oeurope-west3
.
Regioni singole
Una connessione in una singola regione può fare riferimento solo alle risorse Google Cloud nella stessa regione. Ad esempio, una connessione nel singolo
regione us-east4
può fare riferimento solo a un server di cronologia Spark o a un
Dataproc Metastore in us-east4
.
Crea connessioni
Seleziona una delle seguenti opzioni:
Console
Vai alla pagina BigQuery.
Per creare una connessione, fai clic su Aggiungi
Aggiungi dati e fai clic su Connessioni a origini dati esterne.Nell'elenco Tipo di connessione, seleziona Apache Spark.
Nel campo ID connessione, inserisci un nome per la connessione, ad esempio
spark_connection
.Nell'elenco Località dei dati, seleziona una regione.
Puoi creare una connessione nelle regioni e nelle regioni multi che supportano BigQuery. Per ulteriori informazioni, consulta Considerazioni sulla posizione.
(Facoltativo) Nell'elenco Servizio Metastore, seleziona un Dataproc Metastore.
(Facoltativo) Nel campo Cluster di server di cronologia, inserisci un server di cronologia permanente Dataproc.
Fai clic su Crea connessione.
Fai clic su Vai alla connessione.
Nel riquadro Informazioni sulla connessione, copia l'ID account di servizio da utilizzare in un passaggio successivo.
bq
In un ambiente a riga di comando, utilizza
bq mk
un comando kubectl per creare connessione:bq mk --connection --connection_type='SPARK' \ --properties=PROPERTIES \ --project_id=PROJECT_ID \ --location=LOCATION CONNECTION_ID
Sostituisci quanto segue:
PROPERTIES
: una coppia chiave-valore da fornire parametri specifici della connessione in formato JSONAd esempio:
--properties='{ "metastoreServiceConfig": {"metastoreService": "METASTORE_SERVICE_NAME"}, "sparkHistoryServerConfig": {"dataprocCluster": "DATAPROC_CLUSTER_NAME"} }'
Sostituisci quanto segue:
METASTORE_SERVICE_NAME
: il Dataproc Metastore con una configurazione di rete gRPC, ad esempioprojects/my-project-id/locations/us-central1/services/my-service
Per ulteriori informazioni, scopri come accedere ai metadati del metastore Hive memorizzati utilizzando un protocollo endpoint.
DATAPROC_CLUSTER_NAME
: la configurazione del server di cronologia Spark, ad esempioprojects/my-project-id/regions/us-central1/clusters/my-cluster
Per ulteriori informazioni, consulta Creare un server di cronologia permanente cluster.
PROJECT_ID
: il tuo ID progetto Google CloudLOCATION
: la posizione in cui vuoi memorizzare la connessione, ad esempioUS
CONNECTION_ID
: la connessione ID, ad esempiomyconnection
Quando visualizzi i dettagli della connessione nella console Google Cloud, l'ID connessione è il valore nell'ultima dell'ID connessione completo visualizzato in ID connessione, ad esempio
projects/.../locations/.../connections/myconnection
Recupera e copia l'ID account di servizio perché ne hai bisogno in un altro passaggio:
bq show --location=LOCATION --connection PROJECT_ID.LOCATION.CONNECTION_ID
L'output è simile al seguente:
Connection myproject.us.myconnection name type properties ---------------------- ------- --------------------------------------------------- myproject.us.myconnection SPARK {"serviceAccountId": "bqserver@example.iam.gserviceaccount.com"}
Per informazioni su come gestire le connessioni, vedi Gestire le connessioni.
Concedi l'accesso all'account di servizio
Per consentire a una procedura memorizzata per Apache Spark di accedere alle tue risorse Google Cloud, devi concedere all'account di servizio associato alla connessione della procedura memorizzata le autorizzazioni IAM necessarie. In alternativa, puoi utilizzare il tuo account di servizio personalizzato per l'accesso ai dati.
Per leggere e scrivere dati da e in BigQuery, devi fornire le seguenti autorizzazioni IAM per l'account di servizio:
bigquery.tables.*
nelle tue tabelle BigQuerybigquery.readsessions.*
nel tuo progetto
Il ruolo IAM
roles/bigquery.admin
include le autorizzazioni necessarie per l'account di servizio per leggere e scrivere dati da e verso BigQuery.Per leggere e scrivere dati da e verso Cloud Storage, devi concedere all'account di servizio l'autorizzazione
storage.objects.*
per i tuoi oggetti Cloud Storage.Il ruolo IAM
roles/storage.objectAdmin
include le autorizzazioni necessarie all'account di servizio per leggere e scrivere dati da e in Cloud Storage.Se specifichi Dataproc Metastore quando crei una connessione, affinché BigQuery possa recuperare i dettagli sulla configurazione del metastore, devi concedere all'account di servizio l'autorizzazione
metastore.services.get
su Dataproc Metastore.Il ruolo
roles/metastore.metadataViewer
predefinito include l'autorizzazione necessarie all'account di servizio per recuperare i dettagli del metastore.Devi inoltre concedere all'account di servizio l'autorizzazione
roles/storage.objectAdmin
sul bucket Cloud Storage, in modo che i tuoi può accedere alla directory del warehouse Hive del tuo Dataproc Metastore (hive.metastore.warehouse.dir
). Se la stored procedure esegue operazioni sul metastore, potrebbe dover concedere autorizzazioni aggiuntive. Per ulteriori informazioni su ruoli e autorizzazioni IAM in Dataproc Metastore, consulta Ruoli e autorizzazioni predefiniti di Dataproc Metastore.Se specifichi un server di cronologia permanente Dataproc durante creare una connessione, devi concedere all'account di servizio ruoli:
- Il ruolo
roles/dataproc.viewer
in Dataproc Server di cronologia permanente che contienedataproc.clusters.get
autorizzazione. - Ruolo
roles/storage.objectAdmin
nel bucket Cloud Storage specificato per la proprietàspark:spark.history.fs.logDirectory
quando crei il server di cronologia permanente di Dataproc.
Per ulteriori informazioni, consulta Server di cronologia permanente Dataproc e Ruoli e autorizzazioni Dataproc.
- Il ruolo
Condividere le connessioni con gli utenti
Puoi concedere i seguenti ruoli per consentire agli utenti di eseguire query sui dati e gestire le connessioni:
roles/bigquery.connectionUser
: consente agli utenti di utilizzare le connessioni per collegarsi a origini dati esterne ed eseguire query su di esse.roles/bigquery.connectionAdmin
: consente agli utenti di gestire le connessioni.
Per ulteriori informazioni su ruoli e autorizzazioni IAM in BigQuery, vedi Autorizzazioni e ruoli predefiniti.
Seleziona una delle seguenti opzioni:
Console
Vai alla pagina BigQuery.
Le connessioni sono elencate nel progetto, in un gruppo denominato Connessioni esterne.
Nel riquadro Explorer, fai clic sul nome del tuo progetto. > Connessioni esterne > connessione.
Nel riquadro Dettagli, fai clic su Condividi per condividere una connessione. Quindi:
Nella finestra di dialogo Autorizzazioni di connessione, condividi il connessione con altre entità aggiungendo o modificando tra cui scegliere.
Fai clic su Salva.
bq
Non puoi condividere una connessione con lo strumento a riga di comando bq. Per condividere una connessione, usa la console Google Cloud oppure il metodo dell'API BigQuery Connections per condividere una connessione.
API
Utilizza la
Metodo projects.locations.connections.setIAM
nella sezione di riferimento dell'API REST di BigQuery Connections
fornisce un'istanza della risorsa policy
.
Java
Prima di provare questo esempio, segui le istruzioni di configurazione Java riportate nella guida rapida all'utilizzo di BigQuery con le librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Java.
Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configurare l'autenticazione per le librerie client.
Passaggi successivi
- Scopri i diversi tipi di connessione.
- Scopri di più sulla gestione delle connessioni.
- Scopri come creare una stored procedure per Apache Spark.
- Scopri come gestire le procedure memorizzate.