Descripción general de las transferencias de Cloud Storage

El Servicio de transferencia de datos de BigQuery para Cloud Storage te permite programar cargas de datos recurrentes de Cloud Storage a BigQuery. La ruta y la tabla de destino de Cloud Storage se pueden parametrizar, lo que te permite cargar datos de los depósitos de Cloud Storage organizados por fecha.

Formatos de archivo compatibles

En la actualidad, el Servicio de transferencia de datos de BigQuery es compatible con la carga de datos de Cloud Storage en uno de los formatos siguientes:

  • Valores separados por comas (CSV)
  • JSON (delimitado por saltos de línea)
  • Avro
  • Parquet
  • ORC

Tipos de compresión compatibles

El Servicio de transferencia de datos de BigQuery para Cloud Storage admite la carga de datos comprimidos. Los tipos de compresión que admite el Servicio de transferencia de datos de BigQuery son los mismos que los que admiten los trabajos de carga de BigQuery. Para obtener más información, consulta Carga datos comprimidos y sin comprimir.

URI de Cloud Storage

Para cargar datos desde una fuente de datos de Cloud Storage, debes proporcionar el URI de Cloud Storage.

El URI de Cloud Storage incluye el nombre de tu depósito y tu objeto (nombre del archivo). Por ejemplo, si el depósito de Cloud Storage se llama mybucket y el archivo de datos se llama myfile.csv, el URI del depósito será gs://mybucket/myfile.csv. Si los datos se separan en varios archivos, puedes usar un comodín en el URI. Para obtener más información, consulta la documentación Solicitar extremos de Cloud Storage.

El Servicio de transferencia de datos de BigQuery no admite URI de origen que incluyan múltiples barras consecutivas después de la doble barra inicial. Los nombres de los objetos de Cloud Storage pueden contener varios caracteres de barras consecutivas (“/”). Sin embargo, el Servicio de transferencia de datos de BigQuery convierte múltiples barras consecutivas en una sola barra. Por ejemplo, el siguiente URI de origen, aunque es válido en Cloud Storage, no funciona en el Servicio de transferencia de datos de BigQuery: gs://bucket/my//object//name.

Para recuperar el URI de Cloud Storage, sigue estos pasos:

  1. Abre la consola de Cloud Storage.

    Consola de Cloud Storage

  2. Explora la ubicación del objeto (archivo) que contiene los datos de origen.

  3. En la parte superior de la consola de Cloud Storage, toma nota de la ruta al objeto. Para redactar el URI, reemplaza gs://bucket/file por la ruta adecuada, por ejemplo, gs://mybucket/myfile.json. bucket es el nombre del depósito de Cloud Storage y file es el nombre del objeto (archivo) que contiene los datos.

Compatibilidad con comodines para los URI de Cloud Storage

Si tus datos de Cloud Storage están separados en varios archivos que comparten un nombre base común, puedes usar un comodín en el URI cuando cargues los datos.

Para agregar un comodín al URI de Cloud Storage, debes agregar un asterisco (*) al nombre base. Por ejemplo, si tuvieras dos archivos llamados fed-sample000001.csv y fed-sample000002.csv, el URI del depósito sería gs://mybucket/fed-sample*. Este URI de comodín se puede usar en la IU web o en la herramienta de línea de comandos (CLI) de gcloud.

Puedes usar varios comodines para los objetos (nombres de archivo) dentro de los depósitos. El comodín puede aparecer en cualquier lugar dentro del nombre del objeto.

Los comodines no expanden un directorio en un gs://bucket/. Por ejemplo, gs://bucket/dir/* puede encontrar archivos en el directorio dir, pero no en el subdirectorio gs://bucket/dir/subdir/.

Tampoco puedes hacer coincidir prefijos sin comodines. Por ejemplo, gs://bucket/dir no busca coincidencias en gs://bucket/dir/file.csv ni gs://bucket/file.csv.

Sin embargo, puedes usar varios comodines para los nombres de archivos dentro de los depósitos. Por ejemplo, gs://bucket/dir/*/*.csv coincide con gs://bucket/dir/subdir/file.csv.

Para ver ejemplos de compatibilidad de comodines en combinación con nombres de tablas parametrizados, consulta la página sobre cómo usar parámetros de entorno de ejecución en transferencias.

Consideraciones de ubicación

Cuando elijas una ubicación para tus datos, ten en cuenta esta información:

  • Ubica los depósitos de Cloud Storage para cargar datos.
    • Si el conjunto de datos del Servicio de transferencia de datos de BigQuery está en una ubicación multirregional, el depósito de Cloud Storage que contiene los datos que estás cargando debe estar en un depósito regional o multirregional en la misma ubicación. Por ejemplo, si el conjunto de datos del Servicio de transferencia de datos de BigQuery se encuentra en la UE, el depósito de Cloud Storage debe estar en un depósito regional o multirregional en la UE.
    • Si tu conjunto de datos está en una ubicación regional, tu depósito de Cloud Storage debe ser un depósito regional en la misma ubicación. Por ejemplo, si tu conjunto de datos está en la región de Tokio, tu depósito de Cloud Storage debe ser un depósito regional en Tokio.
    • Excepción: Si el conjunto de datos se encuentra en la ubicación multirregional de los EE.UU., puedes cargar datos desde un depósito de Cloud Storage en cualquier ubicación regional o multirregional.
  • Desarrolla un plan de administración de datos.
    • Si eliges un recurso de almacenamiento regional, como un conjunto de datos del Servicio de transferencia de datos de BigQuery o un depósito de Cloud Storage, debes desarrollar un plan para administrar de manera geográfica tus datos.

Para obtener más información sobre las ubicaciones de Cloud Storage, consulta Ubicaciones de depósitos en la documentación de Cloud Storage.

Si deseas obtener más información sobre cómo usar Cloud Storage para almacenar y mover conjuntos de datos grandes, consulta Usa Cloud Storage con macrodatos.

Precios

  • A los trabajos de carga se les aplican cuotas y límites estándar de BigQuery.

  • Una vez transferidos los datos a BigQuery, se les aplican los precios estándar de BigQuery para el almacenamiento y las consultas.

  • Los datos no se borrarán de forma automática de tu depósito de Cloud Storage una vez que estén subidos a BigQuery, a menos que indiques su eliminación cuando configures la transferencia. Consulta la página sobre cómo configurar una transferencia de Cloud Storage.

  • Consulta la página de precios de transferencias para obtener más detalles.

Cuotas y límites

El Servicio de transferencia de datos de BigQuery usa trabajos de carga para cargar los datos de Cloud Storage en BigQuery.

Todas las cuotas y límites de BigQuery para los trabajos de carga se aplican a los trabajos de carga recurrentes de Cloud Storage.

Próximos pasos