Conector de BigQuery

Puedes usar un conector de BigQuery para habilitar el acceso de lectura o escritura de manera programática a BigQuery. Esta es una forma ideal de procesar datos que se almacenan en BigQuery. El acceso a la línea de comandos no está expuesto. El conector de BigQuery es una biblioteca que permite que las aplicaciones de Spark y Hadoop procesen datos de BigQuery y los escriban en BigQuery con su terminología nativa.

Consideraciones sobre el precio

Cuando usas el conector, los cargos incluyen tarifas de uso de BigQuery. También se pueden aplicar los siguientes cargos específicos del servicio:

  • Cloud Storage: el conector descarga datos en un bucket de Cloud Storage antes o durante la ejecución del trabajo. Una vez que el trabajo se completa con éxito, los datos se borran de Cloud Storage. Se te cobra por el almacenamiento según los precios de Cloud Storage. Para evitar cargos excesivos, verifica tu cuenta de Cloud Storage y quita los archivos temporales innecesarios.
  • API de BigQuery Storage: Para lograr un mejor rendimiento, el conector lee los datos con la API de almacenamiento de BigQuery. Este uso se cobra según los precios de la API de BigQuery Storage.

Conectores disponibles

Los siguientes conectores de BigQuery están disponibles para su uso en el ecosistema de Hadoop:

  1. El conector de BigQuery de Spark agrega una fuente de datos de Spark, lo que permite que los DataFrames interactúen directamente con las tablas de BigQuery mediante operaciones read y write de Spark.
  2. El conector de BigQuery de Hive agrega un controlador de almacenamiento, que permite que Apache Hive interactúe directamente con las tablas de BigQuery mediante la sintaxis de HiveQL.
  3. El conector de Hadoop BigQuery permite que los asignadores y reductores de Hadoop interactúen con las tablas de BigQuery mediante versiones abstractas de las clases InputFormat y OutputFormat.

Usa los conectores

Para un inicio rápido mediante el conector de BigQuery, consulta los siguientes ejemplos:

¿Qué sigue?