Conectarse a Apache Spark

Como administrador de BigQuery, puedes crear una conexión para que los analistas de datos puedan ejecutar procedimientos almacenados de Apache Spark.

Antes de empezar

Consideraciones de ubicación

Cuando elijas una ubicación para tus datos, ten en cuenta lo siguiente:

Multirregional

Debes especificar Google Cloud recursos ubicados en la misma zona geográfica grande:

  • Una conexión en la multirregión de EE. UU. de BigQuery puede hacer referencia a un servidor de historial de Spark o a un metastore de Dataproc en cualquier región de la zona geográfica de EE. UU., como us-central1, us-east4 o us-west2.

  • Una conexión en la multirregión de la UE de BigQuery puede hacer referencia a un servidor de historial de Spark o a un metastore de Dataproc en Estados miembros de la Unión Europea, como europe-north1 o europe-west3.

Una sola región

Una conexión de una sola región solo puede hacer referencia a recursos de la misma región. Google Cloud Por ejemplo, una conexión de la región única us-east4 solo puede hacer referencia a un servidor de historial de Spark o a un metastore de Dataproc en us-east4.

Crear conexiones

Selecciona una de las opciones siguientes:

Consola

  1. Ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, haz clic en Añadir datos.

    Se abrirá el cuadro de diálogo Añadir datos.

  3. En el panel Filtrar por, en la sección Tipo de fuente de datos, selecciona Bases de datos.

    También puede introducir Spark en el campo Buscar fuentes de datos.

  4. En la sección Fuentes de datos destacadas, haga clic en Apache Spark.

  5. Haga clic en la tarjeta de solución Apache Spark: federación de BigQuery.

  6. En el panel Fuente de datos externa, introduce la siguiente información:

    • En la lista Tipo de conexión, selecciona Apache Spark.

    • En el campo ID de conexión, introduce un nombre para la conexión (por ejemplo, spark_connection).

    • En la lista Ubicación de los datos, selecciona una región.

    Puedes crear una conexión en las regiones y multirregiones que admitan BigQuery. Para obtener más información, consulta Cuestiones importantes sobre ubicación.

  7. Haga clic en Crear conexión.

  8. Haz clic en Ir a la conexión.

  9. En el panel Información de conexión, copie el ID de la cuenta de servicio para usarlo en un paso posterior.

bq

  1. En un entorno de línea de comandos, usa el bq mk comando para crear una conexión:

    bq mk --connection --connection_type='SPARK' \
     --properties=PROPERTIES \
     --project_id=PROJECT_ID \
     --location=LOCATION
     CONNECTION_ID
    

    Haz los cambios siguientes:

    • PROPERTIES: un par clave-valor para proporcionar parámetros específicos de la conexión en formato JSON.

      Por ejemplo:

      --properties='{
      "metastoreServiceConfig": {"metastoreService": "METASTORE_SERVICE_NAME"},
      "sparkHistoryServerConfig": {"dataprocCluster": "DATAPROC_CLUSTER_NAME"}
      }'
      

      Haz los cambios siguientes:

    • PROJECT_ID: tu ID de proyecto Google Cloud

    • LOCATION: la ubicación en la que quieres almacenar la conexión (por ejemplo, US).

    • CONNECTION_ID: el ID de la conexión, por ejemplo, myconnection

      Cuando consultas los detalles de la conexión en la consola de Google Cloud , el ID de conexión es el valor de la última sección del ID de conexión completo que se muestra en ID de conexión, por ejemplo, projects/.../locations/.../connections/myconnection.

  2. Obtén y copia el ID de la cuenta de servicio, ya que lo necesitarás en otro paso:

    bq show --location=LOCATION --connection PROJECT_ID.LOCATION.CONNECTION_ID
    

    El resultado debería ser similar al siguiente:

    Connection myproject.us.myconnection
    
           name           type                    properties
    ---------------------- ------- ---------------------------------------------------
    myproject.us.myconnection  SPARK   {"serviceAccountId": "bqserver@example.iam.gserviceaccount.com"}
    

Para obtener información sobre cómo gestionar las conexiones, consulta el artículo Gestionar conexiones.

Conceder acceso a la cuenta de servicio

Para permitir que un procedimiento almacenado de Apache Spark acceda a tus recursos Google Cloud, debes conceder a la cuenta de servicio asociada a la conexión del procedimiento almacenado los permisos de gestión de identidades y accesos necesarios. También puedes usar tu cuenta de servicio personalizada para acceder a los datos.

  • Para leer y escribir datos en BigQuery, debes dar a la cuenta de servicio los siguientes permisos de gestión de identidades y accesos:

    • bigquery.tables.* en tus tablas de BigQuery
    • bigquery.readsessions.* en tu proyecto

    El rol de gestión de identidades y accesos roles/bigquery.admin incluye los permisos que necesita la cuenta de servicio para leer y escribir datos en BigQuery.

  • Para leer y escribir datos en Cloud Storage, debes conceder a la cuenta de servicio el permiso storage.objects.* en tus objetos de Cloud Storage.

    El rol de IAM roles/storage.objectAdmin incluye los permisos que necesita la cuenta de servicio para leer y escribir datos en Cloud Storage.

  • Si especificas Dataproc Metastore al crear una conexión, para que BigQuery pueda obtener detalles sobre la configuración del almacén de metadatos, debes conceder a la cuenta de servicio el permiso metastore.services.get en tu Dataproc Metastore.

    El rol predefinido roles/metastore.metadataViewer incluye el permiso que necesita la cuenta de servicio para obtener detalles sobre la configuración del metastore.

    También debes conceder a la cuenta de servicio el rol roles/storage.objectAdmin en el segmento de Cloud Storage para que el procedimiento almacenado pueda acceder al directorio del almacén de Hive de tu Dataproc Metastore (hive.metastore.warehouse.dir). Si el procedimiento almacenado realiza operaciones en el metastore, es posible que tengas que conceder permisos adicionales. Para obtener más información sobre los roles y permisos de gestión de identidades y accesos en Dataproc Metastore, consulta el artículo Roles y permisos predefinidos de Dataproc Metastore.

  • Si especifica un servidor de historial persistente de Dataproc al crear una conexión, debe conceder a la cuenta de servicio los siguientes roles:

    • El rol roles/dataproc.viewer de tu servidor de historial persistente de Dataproc que contiene el permiso dataproc.clusters.get.
    • El rol roles/storage.objectAdmin en el segmento de Cloud Storage que especifiques para la propiedad spark:spark.history.fs.logDirectory cuando crees el servidor de historial persistente de Dataproc.

    Para obtener más información, consulta Servidor de historial persistente de Dataproc y Roles y permisos de Dataproc.

Compartir conexiones con usuarios

Puede conceder los siguientes roles para permitir que los usuarios consulten datos y gestionen conexiones:

  • roles/bigquery.connectionUser: permite a los usuarios usar conexiones para conectarse con fuentes de datos externas y ejecutar consultas en ellas.

  • roles/bigquery.connectionAdmin: permite a los usuarios gestionar las conexiones.

Para obtener más información sobre los roles y permisos de gestión de identidades y accesos en BigQuery, consulta el artículo sobre roles y permisos predefinidos.

Selecciona una de las opciones siguientes:

Consola

  1. Ve a la página BigQuery.

    Ir a BigQuery

    Las conexiones se muestran en tu proyecto, en un grupo llamado Conexiones externas.

  2. En el panel Explorador, haga clic en el nombre del proyecto > Conexiones externas > conexión.

  3. En el panel Detalles, haz clic en Compartir para compartir una conexión. A continuación, sigue estas instrucciones:

    1. En el cuadro de diálogo Permisos de conexión, comparte la conexión con otras entidades principales añadiendo o editando entidades principales.

    2. Haz clic en Guardar.

bq

No puedes compartir una conexión con la herramienta de línea de comandos bq. Para compartir una conexión, usa la Google Cloud consola o el método de la API Connections de BigQuery.

API

Usa el método projects.locations.connections.setIAM de la sección de referencia de la API REST Connections de BigQuery y proporciona una instancia del recurso policy.

Java

Antes de probar este ejemplo, sigue las Javainstrucciones de configuración de la guía de inicio rápido de BigQuery con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java de BigQuery.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación para bibliotecas de cliente.

import com.google.api.resourcenames.ResourceName;
import com.google.cloud.bigquery.connection.v1.ConnectionName;
import com.google.cloud.bigqueryconnection.v1.ConnectionServiceClient;
import com.google.iam.v1.Binding;
import com.google.iam.v1.Policy;
import com.google.iam.v1.SetIamPolicyRequest;
import java.io.IOException;

// Sample to share connections
public class ShareConnection {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "MY_PROJECT_ID";
    String location = "MY_LOCATION";
    String connectionId = "MY_CONNECTION_ID";
    shareConnection(projectId, location, connectionId);
  }

  static void shareConnection(String projectId, String location, String connectionId)
      throws IOException {
    try (ConnectionServiceClient client = ConnectionServiceClient.create()) {
      ResourceName resource = ConnectionName.of(projectId, location, connectionId);
      Binding binding =
          Binding.newBuilder()
              .addMembers("group:example-analyst-group@google.com")
              .setRole("roles/bigquery.connectionUser")
              .build();
      Policy policy = Policy.newBuilder().addBindings(binding).build();
      SetIamPolicyRequest request =
          SetIamPolicyRequest.newBuilder()
              .setResource(resource.toString())
              .setPolicy(policy)
              .build();
      client.setIamPolicy(request);
      System.out.println("Connection shared successfully");
    }
  }
}

Siguientes pasos