Descripción general de las transferencias de Cloud Storage

El Servicio de transferencia de datos de BigQuery para Cloud Storage te permite programar cargas de datos recurrentes de Cloud Storage a BigQuery. La ruta y la tabla de destino de Cloud Storage se pueden parametrizar, lo que te permite cargar datos de los depósitos de Cloud Storage organizados por fecha.

Formatos de archivo compatibles

En la actualidad, el Servicio de transferencia de datos de BigQuery es compatible con la carga de datos de Cloud Storage en uno de los formatos siguientes:

  • Valores separados por comas (CSV)
  • JSON (delimitado por saltos de línea)
  • Avro
  • Parquet
  • ORC

URI de Cloud Storage

Para cargar los datos desde la fuente de datos de Cloud Storage, debes proporcionar el URI de Cloud Storage.

El URI de Cloud Storage comprende tu depósito y tu objeto (nombre del archivo). Por ejemplo, si tu depósito de Cloud Storage se llama mybucket y el archivo de datos se llama myfile.csv, el URI del depósito sería gs://mybucket/myfile.csv. Si tus datos se separan en varios archivos, puedes usar un comodín en el URI. Para obtener más información, consulta los URI de solicitud de Cloud Storage.

BigQuery no es compatible con los URI de origen que incluyen varias barras consecutivas después de la doble barra inicial. Los nombres de los objetos de Cloud Storage pueden contener varios caracteres de barras consecutivas (“/”). Sin embargo, BigQuery convierte varias barras consecutivas en una sola barra. Por ejemplo, el URI de fuente siguiente, a pesar de ser válido en Cloud Storage, no funciona en BigQuery: gs://[BUCKET]/my//object//name.

Para recuperar el URI de Cloud Storage, sigue estos pasos:

  1. Abre Cloud Storage Console

    Cloud Storage Console

  2. Explora la ubicación del objeto (archivo) que contiene los datos de origen.

  3. En la parte superior de Cloud Storage Console, toma nota de la ruta al objeto. Para redactar el URI, reemplaza gs://[BUCKET]/[FILE] con la ruta adecuada, por ejemplo, gs://mybucket/myfile.json. [BUCKET] es el nombre del depósito de Cloud Storage y [FILE] es el nombre del objeto (archivo) que contiene los datos.

Admisión de comodines para el URI de Cloud Storage

Si tus datos de Cloud Storage están separados en varios archivos que comparten un nombre base común, puedes usar un comodín en el URI cuando cargas los datos.

Para agregar un comodín al URI de Cloud Storage, debes agregar un asterisco (*) al nombre base. Por ejemplo, si tienes dos archivos con nombre fed-sample000001.csv y fed-sample000002.csv, el URI del depósito sería gs://mybucket/fed-sample*. Este URI comodín se puede usar en la IU web o CLI.

Solo puedes usar un comodín para los objetos (nombres de archivos) dentro de tu depósito. El comodín puede aparecer dentro o al final del nombre del objeto. No se admite la adición de un comodín al nombre del depósito.

Consideraciones de ubicación

Cuando elijas una ubicación para tus datos, ten en cuenta esta información:
  • Coloca tu conjunto de datos de BigQuery y tu fuente de datos externa.
    • Cuando consultes datos en una fuente de datos externos como Cloud Storage, los datos que consultas deben estar en la misma ubicación que tu conjunto de datos de BigQuery. Por ejemplo, si tu conjunto de datos de BigQuery se encuentra en la ubicación multirregional de la UE, el depósito de Cloud Storage que contiene los datos que consultas debe estar en un depósito multirregional en la UE. Si tu conjunto de datos se encuentra en la ubicación multirregional de los EE.UU., tu depósito de Cloud Storage debe estar en un depósito multirregional en los EE.UU.
    • Si tu conjunto de datos se encuentra en una ubicación regional, el depósito de Cloud Storage que contiene los datos que consultas debe estar en un depósito regional en la misma ubicación. Por ejemplo, si tu conjunto de datos está en la región de Tokio, tu depósito de Cloud Storage debe estar un depósito regional en Tokio.
    • Si tu conjunto de datos externo está en Cloud Bigtable, tu conjunto de datos debe estar en los EE.UU. o en la ubicación multirregional de la UE. Tus datos de Cloud Bigtable deben estar en una de las ubicaciones de Cloud Bigtable compatibles.
    • Las consideraciones de ubicación no se aplican a las fuentes de datos externos de Google Drive.
  • Coloca tus depósitos de Cloud Storage para cargar datos.
    • Si tu conjunto de datos de BigQuery está en una ubicación multirregional, el depósito de Cloud Storage que contiene los datos que cargas debe estar en un depósito regional o multirregional en la misma ubicación. Por ejemplo, si tu conjunto de datos de BigQuery está en la UE, el depósito de Cloud Storage debe estar en un depósito regional o multirregional en la UE.
    • Si tu conjunto de datos está en una ubicación regional, tu depósito de Cloud Storage debe ser un depósito regional en la misma ubicación. Por ejemplo, si tu conjunto de datos está en la región de Tokio, tu depósito de Cloud Storage debe estar un depósito regional en Tokio.
    • Excepción: Si tu conjunto de datos se encuentra en la ubicación multirregional de los EE.UU., puedes cargar datos desde un depósito de Cloud Storage en cualquier ubicación regional o multirregional.
  • Coloca tus depósitos de Cloud Storage para exportar datos.
    • Cuando exportes datos, el depósito de Cloud Storage regional o multirregional debe estar en la misma ubicación que el conjunto de datos de BigQuery. Por ejemplo, si tu conjunto de datos de BigQuery se encuentra en la ubicación multirregional de la UE, el depósito de Cloud Storage que contiene los datos que estás exportando debe estar en un depósito regional o multirregional en la UE.
    • Si tu conjunto de datos está en una ubicación regional, tu depósito de Cloud Storage debe ser un depósito regional en la misma ubicación. Por ejemplo, si tu conjunto de datos está en la región de Tokio, tu depósito de Cloud Storage debe estar un depósito regional en Tokio.
    • Excepción: Si tu conjunto de datos se encuentra en la ubicación multirregional de los EE.UU., puedes exportar datos desde un depósito de Cloud Storage en cualquier ubicación regional o multirregional.
  • Desarrolla un plan de administración de datos.
    • Si eliges un recurso de almacenamiento regional como un conjunto de datos de BigQuery o un depósito de Cloud Storage, debes desarrollar un plan para administrar tus datos geográficamente.
Para obtener más información sobre las ubicaciones de Cloud Storage, consulta Ubicaciones de depósitos en la documentación de Cloud Storage.

Traslada datos de BigQuery entre ubicaciones

No puedes cambiar la ubicación de un conjunto de datos después de crearlo. Además, no puedes mover un conjunto de datos de una ubicación a otra. Si necesitas mover un conjunto de datos de una ubicación a otra, sigue este proceso:

  1. Exporta los datos desde tus tablas de BigQuery a un depósito de Cloud Storage regional o multirregión en la misma ubicación que tu conjunto de datos. Por ejemplo, si tu conjunto de datos se encuentra en la ubicación multirregión de la UE, exporta tus datos a un depósito regional o multirregión en la UE.

    No se aplican cargos por exportar datos desde BigQuery, pero sí por almacenar los datos exportados en Cloud Storage. Las exportaciones de BigQuery están sujetas a los límites de los trabajos de exportación.

  2. Copia o mueve los datos de tu depósito de Cloud Storage a un grupo regional o multirregión en la ubicación nueva. Por ejemplo, si trasladas tus datos desde la ubicación multirregión de los EE.UU. a la ubicación regional de Tokio, transferirás los datos a un depósito regional en Tokio. Para obtener más información sobre la transferencia de objetos de Cloud Storage, consulta Renombra, copia y mueve objetos en la documentación de Cloud Storage.

    Ten en cuenta que la transferencia de datos entre regiones incurre en cargos de salida de red en Cloud Storage.

  3. Después de transferir los datos a un depósito de Cloud Storage en la ubicación nueva, crea un conjunto de datos nuevo de BigQuery (en la ubicación nueva). Luego, carga tus datos del depósito de Cloud Storage en BigQuery.

    No se te cobrará por cargar los datos en BigQuery, pero incurrirás en cargos por almacenar los datos en Cloud Storage hasta que borres los datos o el depósito. También se te cobra por almacenar los datos en BigQuery después de que se carguen. La carga de datos en BigQuery está sujeta a los límites de los trabajos de carga.

A fin de obtener más información sobre el uso de Cloud Storage para almacenar y mover conjuntos de datos grandes, consulta Usa Cloud Storage con macrodatos.

Cuotas y límites

El Servicio de transferencia de datos de BigQuery usa trabajos de carga para cargar los datos de Cloud Storage en BigQuery. Todas las cuotas y los límites de BigQuery en los trabajos de carga se aplican a los trabajos de carga de Cloud Storage recurrentes.

Pasos siguientes

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Si necesitas ayuda, visita nuestra página de asistencia.