Questa pagina è stata tradotta dall'API Cloud Translation.

Connettiti ad Apache Spark

In qualità di amministratore BigQuery, puoi creare una connessione per consentire agli analisti dei dati di eseguire procedure memorizzate per Apache Spark.

Prima di iniziare

Abilita l'API BigQuery Connection.

Attiva l'API
Per ottenere le autorizzazioni necessarie per creare una connessione Spark, chiedi all'amministratore di concederti il ruolo IAM Amministratore di connessione BigQuery (roles/bigquery.connectionAdmin) nel progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
(Facoltativo) Per gestire i metadati utilizzando Dataproc Metastore, assicurati di aver creato un servizio Dataproc Metastore.
(Facoltativo) Per visualizzare la cronologia dei job utilizzando le interfacce web del server di cronologia Spark, assicurati di aver creato un server di cronologia permanente (PHS) Dataproc.

Considerazioni sulla località

Quando scegli una località per i tuoi dati, tieni presente quanto segue:

Più regioni

Devi specificare Google Cloud le risorse situate nella stessa grande area geografica:

Una connessione nella regione multipla degli Stati Uniti di BigQuery può fare riferimento a un server Spark History o a un Metastore Dataproc in qualsiasi regione dell'area geografica degli Stati Uniti, ad esempio us-central1, us-east4 o us-west2.
Una connessione nella località multiregionale dell'UE di BigQuery può fare riferimento a un server di cronologia Spark o a un metastore Dataproc negli stati membri dell'Unione europea, ad esempio europe-north1 o europe-west3.

Regioni singole

Un collegamento in una singola regione può fare riferimento solo alle risorse Google Cloud della stessa regione. Ad esempio, una connessione nella singola regione us-east4 può fare riferimento solo a un server di cronologia Spark o a un metastore Dataproc in us-east4.

Creare connessioni

Seleziona una delle seguenti opzioni:

Console

Vai alla pagina BigQuery.

Vai a BigQuery
Per creare una connessione, fai clic su Aggiungi Aggiungi e poi su Connessioni a origini dati esterne.
Nell'elenco Tipo di connessione, seleziona Apache Spark.
Nel campo ID connessione, inserisci un nome per la connessione, ad esempio spark_connection.
Nell'elenco Località dei dati, seleziona una regione.

Puoi creare una connessione nelle regioni e nelle aree multi-regione che supportano BigQuery. Per ulteriori informazioni, consulta Considerazioni sulla località.
(Facoltativo) Nell'elenco Servizio Metastore, seleziona un Dataproc Metastore.
(Facoltativo) Nel campo Cluster di server di cronologia, inserisci un server di cronologia permanente Dataproc.
Fai clic su Crea connessione.
Fai clic su Vai alla connessione.
Nel riquadro Informazioni sulla connessione, copia l'ID account di servizio da utilizzare in un passaggio successivo.

bq

In un ambiente a riga di comando, utilizza il comando bq mk per creare una connessione:
```
bq mk --connection --connection_type='SPARK' \
 --properties=PROPERTIES \
 --project_id=PROJECT_ID \
 --location=LOCATION
 CONNECTION_ID
```
Sostituisci quanto segue:
- PROPERTIES: una coppia chiave-valore per fornire parametri specifici per la connessione in formato JSON
  
  Ad esempio:
```
--properties='{
"metastoreServiceConfig": {"metastoreService": "METASTORE_SERVICE_NAME"},
"sparkHistoryServerConfig": {"dataprocCluster": "DATAPROC_CLUSTER_NAME"}
}'
```
  Sostituisci quanto segue:
  - METASTORE_SERVICE_NAME: il Dataproc Metastore con una configurazione di rete gRPC, ad esempio projects/my-project-id/locations/us-central1/services/my-service
    
    Per ulteriori informazioni, scopri come accedere ai metadati del metastore Hive memorizzati utilizzando un protocollo endpoint.
  - DATAPROC_CLUSTER_NAME: la configurazione del server di cronologia Spark, ad esempioprojects/my-project-id/regions/us-central1/clusters/my-cluster
    
    Per ulteriori informazioni, vedi Creare un cluster di server di cronologia permanente.
- PROJECT_ID: il tuo ID progetto Google Cloud
- LOCATION: la posizione in cui vuoi memorizzare la connessione, ad esempio US
- CONNECTION_ID: l'ID connessione, ad esempio myconnection
  
  Quando visualizzi i dettagli della connessione nella console Google Cloud, l'ID connessione è il valore nell'ultima sezione dell'ID connessione completo visualizzato in ID connessione, ad esempio projects/.../locations/.../connections/myconnection

Recupera e copia l'ID account di servizio perché ti servirà in un altro passaggio:

bq show --location=LOCATION --connection PROJECT_ID.LOCATION.CONNECTION_ID

L'output è simile al seguente:

Connection myproject.us.myconnection

       name           type                    properties
---------------------- ------- ---------------------------------------------------
myproject.us.myconnection  SPARK   {"serviceAccountId": "bqserver@example.iam.gserviceaccount.com"}

Per informazioni su come gestire le connessioni, vedi Gestire le connessioni.

Concedi l'accesso all'account di servizio

Per consentire a una procedura memorizzata per Apache Spark di accedere alle tue risorse Google Cloud, devi concedere all'account di servizio associato alla connessione della procedura memorizzata le autorizzazioni IAM necessarie. In alternativa, puoi utilizzare il tuo account di servizio personalizzato per l'accesso ai dati.

Per leggere e scrivere dati da e verso BigQuery, devi assegnare all'account di servizio le seguenti autorizzazioni IAM:
- bigquery.tables.* nelle tue tabelle BigQuery
- bigquery.readsessions.* sul tuo progetto
Il ruolo IAM roles/bigquery.admin include le autorizzazioni necessarie per l'account di servizio per leggere e scrivere dati da e verso BigQuery.

Nota: se la procedura memorizzata scrive dati in un bucket Cloud Storage temporaneo e poi carica i dati di Cloud Storage in BigQuery, devi concedere all'account di servizio l'autorizzazione bigquery.jobs.create nel tuo progetto. Per saperne di più su ruoli e autorizzazioni IAM in BigQuery, consulta Controllo dell'accesso con IAM.
Per leggere e scrivere dati da e verso Cloud Storage, devi concedere all'account di servizio l'autorizzazione storage.objects.* per i tuoi oggetti Cloud Storage.

Il ruolo IAM roles/storage.objectAdmin include le autorizzazioni necessarie all'account di servizio per leggere e scrivere dati da e verso Cloud Storage.
Se specifichi Dataproc Metastore quando crei una connessione, affinché BigQuery possa recuperare i dettagli sulla configurazione del metastore, devi concedere all'account di servizio l'autorizzazione metastore.services.get su Dataproc Metastore.

Il ruolo roles/metastore.metadataViewer predefinito include l'autorizzazione necessaria all'account di servizio per recuperare i dettagli sulla configurazione del metastore.

Devi anche concedere all'account di servizio il ruolo roles/storage.objectAdmin nel bucket Cloud Storage in modo che la procedura memorizzata possa accedere alla directory del magazzino Hive di Dataproc Metastore (hive.metastore.warehouse.dir). Se la procedura memorizzata esegue operazioni sul metastore, potrebbe essere necessario concedere autorizzazioni aggiuntive. Per ulteriori informazioni su ruoli e autorizzazioni IAM in Dataproc Metastore, consulta Ruoli e autorizzazioni predefiniti di Dataproc Metastore.
Se specifichi un server di cronologia permanente Dataproc quando crei una connessione, devi concedere all'account di servizio i seguenti ruoli:
- Il ruolo roles/dataproc.viewer sul server di cronologia permanente Dataproc che contiene l'autorizzazione dataproc.clusters.get.
- Il ruolo roles/storage.objectAdmin nel bucket Cloud Storage che specifichi per la proprietà spark:spark.history.fs.logDirectory quando crei il server di cronologia permanente Dataproc.
Per ulteriori informazioni, consulta Server di cronologia permanente Dataproc e Ruoli e autorizzazioni Dataproc.

Condividere le connessioni con gli utenti

Puoi concedere i seguenti ruoli per consentire agli utenti di eseguire query sui dati e gestire le connessioni:

roles/bigquery.connectionUser: consente agli utenti di utilizzare le connessioni per collegarsi a origini dati esterne ed eseguire query su di esse.
roles/bigquery.connectionAdmin: consente agli utenti di gestire le connessioni.

Per ulteriori informazioni sui ruoli e sulle autorizzazioni IAM in BigQuery, consulta Ruoli e autorizzazioni predefiniti.

Seleziona una delle seguenti opzioni:

Console

Vai alla pagina BigQuery.

Vai a BigQuery

Le connessioni sono elencate nel progetto, in un gruppo denominato Connessioni esterne.
Nel riquadro Explorer, fai clic sul nome del progetto > Connessioni esterne > Connessione.
Nel riquadro Dettagli, fai clic su Condividi per condividere una connessione. Poi:
1. Nella finestra di dialogo Autorizzazioni di connessione, condividi la connessione con altre entità aggiungendole o modificandole.
2. Fai clic su Salva.

bq

Non puoi condividere una connessione con lo strumento a riga di comando bq. Per condividere una connessione, utilizza la console Google Cloud o il metodo dell'API BigQuery Connections.

API

Utilizza il metodo projects.locations.connections.setIAM nella sezione di riferimento dell'API REST BigQuery Connections e fornisci un'istanza della risorsa policy.

Java

Prima di provare questo esempio, segui le istruzioni di configurazione Java riportate nella guida rapida all'utilizzo di BigQuery con le librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Java.

Per autenticarti in BigQuery, configura le credenziali predefinite dell'applicazione. Per saperne di più, consulta Configurare l'autenticazione per le librerie client.

import com.google.api.resourcenames.ResourceName;
import com.google.cloud.bigquery.connection.v1.ConnectionName;
import com.google.cloud.bigqueryconnection.v1.ConnectionServiceClient;
import com.google.iam.v1.Binding;
import com.google.iam.v1.Policy;
import com.google.iam.v1.SetIamPolicyRequest;
import java.io.IOException;

// Sample to share connections
public class ShareConnection {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "MY_PROJECT_ID";
    String location = "MY_LOCATION";
    String connectionId = "MY_CONNECTION_ID";
    shareConnection(projectId, location, connectionId);
  }

  static void shareConnection(String projectId, String location, String connectionId)
      throws IOException {
    try (ConnectionServiceClient client = ConnectionServiceClient.create()) {
      ResourceName resource = ConnectionName.of(projectId, location, connectionId);
      Binding binding =
          Binding.newBuilder()
              .addMembers("group:example-analyst-group@google.com")
              .setRole("roles/bigquery.connectionUser")
              .build();
      Policy policy = Policy.newBuilder().addBindings(binding).build();
      SetIamPolicyRequest request =
          SetIamPolicyRequest.newBuilder()
              .setResource(resource.toString())
              .setPolicy(policy)
              .build();
      client.setIamPolicy(request);
      System.out.println("Connection shared successfully");
    }
  }
}

Passaggi successivi

Scopri i diversi tipi di connessione.
Scopri di più sulla gestione delle connessioni.
Scopri come creare una stored procedure per Apache Spark.
Scopri come gestire le procedure memorizzate.