Conéctate a Apache Spark
Como administrador de BigQuery, puedes crear una conexión a fin de permitir que los analistas de datos ejecuten procedimientos almacenados para Apache Spark.
Antes de comenzar
Habilita la API de conexión de BigQuery.
-
Para obtener los permisos que necesitas para crear una conexión de Spark, pídele a tu administrador que te otorgue el rol de IAM administrador de conexión de BigQuery (
roles/bigquery.connectionAdmin
) en el proyecto. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
- Opcional: Para administrar tus metadatos mediante Dataproc Metastore, asegúrate de crear un servicio de Dataproc Metastore.
- Opcional: Para ver el historial de trabajos con las interfaces web del servidor de historial de Spark, asegúrate de haber creado un servidor de historial persistente (PHS) de Dataproc.
Consideraciones de ubicación
Cuando elijas una ubicación para tus datos, ten en cuenta esta información:
Multirregiones
Debes especificar los recursos de Google Cloud ubicados en la misma área geográfica grande:
Una conexión en la multirregión EE.UU. de BigQuery puede hacer referencia a un servidor del historial de Spark o a Dataproc Metastore en cualquier región individual de la región geográfica de EE.UU. como
us-central1
,us-east4
ous-west2
.Una conexión en la multirregión UE de BigQuery puede hacer referencia a un servidor de historial de Spark o un almacén de metadatos de Dataproc en Estados miembros de la Unión Europea, como
europe-north1
oeurope-west3
Regiones individuales
Una conexión en una sola región solo puede hacer referencia a recursos de Google Cloud en la misma región. Por ejemplo, una conexión en la región única us-east4
solo puede hacer referencia a un servidor de historial de Spark o a un Dataproc Metastore en us-east4
.
Crear conexiones
Selecciona una de las opciones siguientes:
Console
Ve a la página de BigQuery.
Para crear una conexión, haz clic en Agregar
Agregar y, luego, en Conexiones a fuentes de datos externas.En la lista Tipo de conexión, selecciona Apache Spark.
En el campo ID de conexión, ingresa un nombre para tu conexión, por ejemplo,
spark_connection
.En la lista Ubicación de los datos, selecciona una región.
Puedes crear una conexión en regiones y multirregiones que sean compatibles con BigQuery. Para obtener más información, consulta Consideraciones sobre la ubicación.
En la lista Servicio de almacén de metadatos, selecciona un Dataproc Metastore (opcional).
En el campo Clúster del servidor de historial, ingresa un Servidor del historial persistente de Dataproc (opcional).
Haga clic en Crear conexión.
Haz clic en Ir a la conexión.
En el panel Información de conexión, copia el ID de la cuenta de servicio para usarlo en un paso siguiente.
bq
En un entorno de línea de comandos, usa el comando
bq mk
para crear una conexión:bq mk --connection --connection_type='SPARK' \ --properties=PROPERTIES \ --project_id=PROJECT_ID \ --location=LOCATION CONNECTION_ID
Reemplaza lo siguiente:
PROPERTIES
: Es un par clave-valor para proporcionar parámetros específicos de la conexión en formato JSON.Por ejemplo:
--properties='{ "metastoreServiceConfig": {"metastoreService": "METASTORE_SERVICE_NAME"}, "sparkHistoryServerConfig": {"dataprocCluster": "DATAPROC_CLUSTER_NAME"} }'
Reemplaza lo siguiente:
METASTORE_SERVICE_NAME
: Dataproc Metastore con una configuración de red de gRPC, por ejemplo,projects/my-project-id/locations/us-central1/services/my-service
Para obtener más información, consulta cómo acceder a los metadatos del almacén de metadatos de Hive almacenados mediante un protocolo de extremo.
DATAPROC_CLUSTER_NAME
: la configuración del servidor de historial de Spark, por ejemplo,projects/my-project-id/regions/us-central1/clusters/my-cluster
Para obtener más información, consulta Crea un clúster de servidor del historial persistente.
PROJECT_ID
: El ID del proyecto de Google Cloud.LOCATION
: es la ubicación en la que deseas almacenar la conexión, por ejemplo,US
.CONNECTION_ID
: el ID de conexión, por ejemplo,myconnection
.Cuando ves los detalles de conexión en la consola de Google Cloud, el ID de conexión es el valor en la última sección del ID de conexión completamente calificado que se muestra en ID de conexión, por ejemplo
projects/.../locations/.../connections/myconnection
.
Recupera y copia el ID de cuenta de servicio porque lo necesitarás en otro paso:
bq show --location=LOCATION --connection PROJECT_ID.LOCATION.CONNECTION_ID
El resultado es similar a este:
Connection myproject.us.myconnection name type properties ---------------------- ------- --------------------------------------------------- myproject.us.myconnection SPARK {"serviceAccountId": "bqserver@example.iam.gserviceaccount.com"}
Para obtener información sobre cómo administrar las conexiones, consulta Administra conexiones.
Otorga acceso a la cuenta de servicio
A fin de permitir que un procedimiento almacenado para Apache Spark acceda a tus recursos de Google Cloud, debes otorgar a la cuenta de servicio asociada con la conexión del procedimiento almacenado y los permisos de IAM necesarios. Como alternativa, puedes usar tu cuenta de servicio personalizada para acceder a los datos.
Para leer y escribir datos desde y hacia BigQuery, debes otorgarle a la cuenta de servicio los siguientes permisos de IAM:
bigquery.tables.*
en tus tablas de BigQuerybigquery.readsessions.*
en tu proyecto
El rol de IAM
roles/bigquery.admin
incluye los permisos que la cuenta de servicio necesita para leer y escribir datos desde y hacia BigQuery.Para leer y escribir datos en Cloud Storage y en él, debes otorgar a la cuenta de servicio el permiso
storage.objects.*
en tus objetos de Cloud Storage.El rol de IAM
roles/storage.objectAdmin
incluye los permisos que la cuenta de servicio necesita para leer y escribir datos desde y hacia Cloud Storage.Si especificas Dataproc Metastore cuando creas una conexión, para que BigQuery recupere detalles sobre la configuración de almacén de metadatos, debes otorgar a la cuenta de servicio el permiso
metastore.services.get
en Dataproc Metastore.El rol predefinido
roles/metastore.metadataViewer
incluye el permiso que necesita la cuenta de servicio para recuperar detalles sobre la configuración del almacén de metadatos.También debes otorgar a la cuenta de servicio el rol de
roles/storage.objectAdmin
en el bucket de Cloud Storage para que tu procedimiento almacenado pueda acceder al directorio de almacenes de Hive de tu Dataproc Metastore (hive.metastore.warehouse.dir
). Si tu procedimiento almacenado realiza operaciones en el almacén de metadatos, es posible que debas otorgar permisos adicionales. Para obtener más información sobre los roles y los permisos de IAM en Dataproc Metastore, consulta Roles y permisos predefinidos de Dataproc Metastore.Si especificas un servidor de historial persistente de Dataproc cuando creas una conexión, debes otorgar a la cuenta de servicio los siguientes roles:
- El rol
roles/dataproc.viewer
en el servidor de historial persistente de Dataproc que contiene el permisodataproc.clusters.get
- El rol
roles/storage.objectAdmin
en el bucket de Cloud Storage que especificas para la propiedadspark:spark.history.fs.logDirectory
cuando creas el servidor del historial persistente de Dataproc
Para obtener más información, consulta Servidor de historial persistente de Dataproc y Roles y permisos de Dataproc.
- El rol
Comparte conexiones con usuarios
Puedes otorgar los siguientes roles para permitir que los usuarios consulten datos y administren conexiones:
roles/bigquery.connectionUser
: Permite que los usuarios usen conexiones para conectarse con fuentes de datos externas y ejecutar consultas en ellas.roles/bigquery.connectionAdmin
: Permite que los usuarios administren conexiones.
Para obtener más información sobre los roles y los permisos de IAM en BigQuery, consulta Roles y permisos predefinidos.
Selecciona una de las opciones siguientes:
Console
Ve a la página de BigQuery.
Las conexiones se enumeran en tu proyecto, en un grupo llamado Conexiones externas.
En el panel Explorador, haz clic en el nombre de tu proyecto > Conexiones externas > conexión.
En el panel Detalles, haz clic en Compartir para compartir una conexión. A continuación, sigue estos pasos:
En el cuadro de diálogo Permisos de conexión, agrega o edita las principales para compartir la conexión con otros principales.
Haz clic en Guardar.
bq
No puedes compartir una conexión con la herramienta de línea de comandos de bq. Para compartir una conexión, usa la consola de Google Cloud o el método de la API de conexiones de BigQuery.
API
Consulta el método projects.locations.connections.setIAM
en la sección de referencia de la API de REST de las conexiones de BigQuery y proporciona una instancia del recurso policy
.
Java
Antes de probar este ejemplo, sigue las instrucciones de configuración para Java incluidas en la guía de inicio rápido de BigQuery sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de BigQuery para Java.
Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para bibliotecas cliente.
¿Qué sigue?
- Obtén información sobre los diferentes tipos de conexión.
- Obtén información sobre cómo administrar conexiones.
- Aprende a crear un procedimiento almacenado para Apache Spark.
- Obtén más información sobre cómo administrar los procedimientos almacenados.