Conector de BigQuery

Puedes usar un conector de BigQuery para habilitar el acceso de lectura o escritura de manera programática a BigQuery. Esta es una forma ideal de procesar datos que se almacenan en BigQuery. No se expone ningún acceso a la línea de comandos. El conector de BigQuery es una biblioteca de Java que permite a Hadoop procesar datos de BigQuery mediante versiones resumidas de las clases InputFormat y OutputFormat de Apache Hadoop.

Consideraciones sobre el precio

Cuando usas el conector, también se te cobrarán las tarifas por uso de BigQuery asociadas. Además, el conector de BigQuery descarga datos en un depósito de Cloud Storage antes de ejecutar un trabajo de Hadoop. Una vez que el trabajo de Hadoop se completa con éxito, los datos se borran de Cloud Storage. Se te cobra por el almacenamiento según los precios de Cloud Storage. Para evitar cargos excesivos, verifica tu cuenta de Cloud Storage y asegúrate de quitar los archivos temporales innecesarios.

Obtén el conector

Clústeres de Cloud Dataproc

El conector de BigQuery se instala de forma predeterminada en todos los nodos de los clústeres de Cloud Dataproc 1.0-1.2 en /usr/lib/hadoop/lib/. Está disponible en entornos de Spark y PySpark.

Debido a que el conector BigQuery no se instala de forma predeterminada en Cloud Dataproc 1.3 y superior, debes usarlo de una de las siguientes maneras:

  1. instalar el conector de BigQuery con la acción de inicialización
  2. especificar el conector de BigQuery en el parámetro jars cuando envías un trabajo:
    --jars=gs://hadoop-lib/bigquery/bigquery-connector-hadoop2-latest.jar
  3. incluir las clases de conector de BigQuery en el jar-with-dependencies de la aplicación

Otros clústeres de Spark/Hadoop

Puedes descargar el conector de BigQuery para Hadoop 1.x o el conector de BigQuery para Hadoop 2.x. Para obtener más información, consulta bigdata-interop en GitHub.

Usa el conector

Para comenzar rápido a usar el conector de BigQuery, consulta los siguientes ejemplos:

Versión de Java

El conector de BigQuery requiere Java 8.

Información sobre las dependencias de Apache Maven

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>bigquery-connector</artifactId>
    <version>insert "hadoopX-X.X.X" connector version number here</version>
</dependency>

Para obtener información más detallada, consulta las notas de la versión del conector de BigQuery y la referencia de Javadoc.

Pasos siguientes

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Documentación de Cloud Dataproc
Si necesitas ayuda, visita nuestra página de asistencia.