Introducción a las fuentes de datos externas

Esta página proporciona una descripción general sobre la consulta de datos almacenados fuera de BigQuery.

Descripción general

Una fuente de datos externa (también conocida como fuente de datos federada) es una fuente de datos que puedes consultar directamente, aunque los datos no estén almacenados en BigQuery. En lugar de cargar o transmitir los datos, creas una tabla que hace referencia a la fuente de datos externa.

BigQuery ofrece asistencia para consultar datos directamente desde:

Los casos prácticos para fuentes de datos externas incluyen:

  • Cargar y limpiar tus datos en una sola pasada mediante la consulta de datos de una fuente de datos externa (una ubicación externa a BigQuery) y la escritura del resultado limpio en el almacenamiento de BigQuery.
  • Tener una pequeña cantidad de datos que cambian con frecuencia y que se unen con otras tablas. Como fuente de datos externa, no es necesario volver a cargar los datos que cambian de manera frecuente cada vez que se actualiza.

Limitaciones de la fuente de datos externa

Las limitaciones de la fuente de datos externa incluyen lo siguiente:

  • BigQuery no garantiza la coherencia de los datos de las fuentes de datos externas. Los cambios en los datos subyacentes mientras se ejecuta una consulta pueden dar como resultado un comportamiento inesperado.
  • El rendimiento de las consultas de las fuentes de datos externas puede no ser tan alto como consultar datos en una tabla nativa de BigQuery. Si la velocidad de consulta es una prioridad, carga los datos en BigQuery en lugar de configurar una fuente de datos externa. El rendimiento de una consulta que incluye una fuente de datos externa depende del tipo de almacenamiento externo. Por ejemplo, consultar datos almacenados en Google Cloud Storage es más rápido que consultar datos almacenados en Google Drive. En general, el rendimiento de las consultas para las fuentes de datos externas debe ser equivalente a leer los datos directamente desde el almacenamiento externo.
  • No puedes utilizar el método de la API de JSON TableDataList para recuperar datos de tablas que residen en una fuente de datos externa. Para obtener más información, consulta Tabledata: list.

    Para evitar esta limitación, puedes guardar los resultados de la consulta en una tabla de destino. Puedes usar el método TableDataList en la tabla de resultados.

  • No puedes ejecutar un trabajo de BigQuery que exporte datos desde una fuente de datos externa.

    Para evitar esta limitación, puedes guardar los resultados de la consulta en una tabla de destino. Luego puedes ejecutar un trabajo de exportación en la tabla de resultados.

  • No puedes hacer referencia a una fuente de datos externa en una consulta de tabla comodín.

  • Actualmente, no puedes consultar datos externos almacenados en formato ORC o Parquet.

  • Cuando consultas una fuente de datos externa, los resultados no se almacenan en caché. Se te cobrará por cada consulta en una tabla externa, incluso si realizas la misma consulta varias veces. Si necesitas realizar una consulta de manera repetida en una tabla externa que no cambia con frecuencia, considera escribir los resultados de la consulta en una tabla permanente y, en cambio, ejecuta las consultas en la tabla permanente.

  • Actualmente, la consulta de datos en Cloud Bigtable solo está disponible en las siguientes regiones y zonas:
    Región Zonas
    us-central1

    us-central1-a

    us-central1-b

    us-central1-c

    us-central1-f

    europe-west1

    europe-west1-b

    europe-west1-c

    europe-west1-d

  • Tienes un límite de 4 consultas simultáneas en una fuente de datos externa de Cloud Bigtable.

Consideraciones sobre la ubicación

Cuando elijas una ubicación para tus datos, considera lo siguiente:
  • Coloca tu conjunto de datos de BigQuery y tu fuente de datos externa.
    • Cuando consultes datos en una fuente de datos externa como Cloud Storage, los datos que estés consultando deben estar en la misma ubicación que tu conjunto de datos de BigQuery. Por ejemplo, si tu conjunto de datos de BigQuery se encuentra en la ubicación multirregional de la UE, el depósito de Cloud Storage que contiene los datos que estás consultando debe estar en un depósito multirregional en la UE. Si tu conjunto de datos se encuentra en la ubicación multirregional de los EE.UU., tu depósito de Cloud Storage debe estar en un depósito multirregional en los EE.UU.
    • Si tu conjunto de datos se encuentra en una ubicación regional, el depósito de Cloud Storage que contiene los datos que estás consultando debe estar en un depósito regional en la misma ubicación. Por ejemplo, si tu conjunto de datos está en la región de Tokio, tu depósito de Cloud Storage debe estar en un depósito regional en Tokio.
    • Si tu conjunto de datos externo está en Cloud Bigtable, tu conjunto de datos debe estar en los EE.UU. o en la ubicación multirregional de la UE. Tus datos de Cloud Bigtable deben estar en una de las ubicaciones compatibles de Cloud Bigtable.
    • Las consideraciones sobre la ubicación no se aplican a las fuentes de datos externas de Google Drive.
  • Coloca tus depósitos de Cloud Storage para cargar datos.
    • Si tu conjunto de datos de BigQuery está en una ubicación multirregional, el depósito de Cloud Storage que contiene los datos que estás cargando debe estar en un depósito regional o multirregional en la misma ubicación. Por ejemplo, si tu conjunto de datos de BigQuery está en la UE, el depósito de Cloud Storage debe estar en un depósito regional o multirregional en la UE.
    • Si tu conjunto de datos está en una ubicación regional, tu depósito de Cloud Storage debe ser un depósito regional en la misma ubicación. Por ejemplo, si tu conjunto de datos está en la región de Tokio, tu depósito de Cloud Storage debe estar en un depósito regional en Tokio.
    • Excepción: Si tu conjunto de datos se encuentra en la ubicación multirregional de los EE.UU., puedes cargar datos desde un depósito de Cloud Storage en cualquier ubicación regional o multirregional.
  • Coloca tus depósitos de Cloud Storage para exportar datos.
    • Cuando exportes datos, el depósito de Cloud Storage regional o multirregional debe estar en la misma ubicación que el conjunto de datos de BigQuery. Por ejemplo, si tu conjunto de datos de BigQuery se encuentra en la ubicación multirregional de la UE, el depósito de Cloud Storage que contiene los datos que estás exportando debe estar en un depósito regional o multirregional en la UE.
    • Si tu conjunto de datos está en una ubicación regional, tu depósito de Cloud Storage debe ser un depósito regional en la misma ubicación. Por ejemplo, si tu conjunto de datos está en la región de Tokio, tu depósito de Cloud Storage debe estar en un depósito regional en Tokio.
    • Excepción: Si tu conjunto de datos se encuentra en la ubicación multirregional de los EE.UU., puedes exportar datos desde un depósito de Cloud Storage en cualquier ubicación regional o multirregional.
  • Desarrolla un plan de administración de datos.
Para obtener más información sobre las ubicaciones de Cloud Storage, consulta Ubicaciones de los depósitos en la documentación de Cloud Storage.

Cómo mover datos de BigQuery entre ubicaciones

No puedes cambiar la ubicación de un conjunto de datos después de crearlo. Además, no puedes mover un conjunto de datos de una ubicación a otra. Si necesitas mover un conjunto de datos de una ubicación a otra, sigue este proceso:

  1. Exporta los datos desde tus tablas de BigQuery a un depósito de Cloud Storage regional o multirregional en la misma ubicación que tu conjunto de datos. Por ejemplo, si tu conjunto de datos se encuentra en la ubicación multirregional de la UE, exporta tus datos a un depósito regional o multirregional en la UE.

    No hay cargos por exportar datos desde BigQuery, pero sí incurres en cargos por almacenar los datos exportados en Cloud Storage. Las exportaciones de BigQuery están sujetas a los límites de los trabajos de exportación.

  2. Copia o mueve los datos de tu depósito de Cloud Storage a un depósito regional o multirregional en la nueva ubicación. Por ejemplo, si mueves tus datos desde la ubicación multirregional de los EE.UU. a la ubicación regional de Tokio, transferirás los datos a un depósito regional en Tokio. Para obtener más información sobre la transferencia de objetos de Cloud Storage, consulta Cómo cambiar el nombre, copiar y mover objetos en la documentación de Cloud Storage.

    Ten en cuenta que la transferencia de datos entre regiones incurre en cargos por salida de red en Cloud Storage.

  3. Después de transferir los datos a un depósito de Cloud Storage en la nueva ubicación, crea un nuevo conjunto de datos de BigQuery (en la nueva ubicación). Luego, carga tus datos desde el depósito de Cloud Storage en BigQuery.

    No se te cobrará por cargar los datos en BigQuery, pero incurrirás en cargos por almacenar los datos en Cloud Storage hasta que borres los datos o el depósito. También se te cobra por almacenar los datos en BigQuery después de que se carguen. La carga de datos en BigQuery está sujeta a los límites de los trabajos de carga.

Para obtener más información sobre el uso de Cloud Storage para almacenar y mover conjuntos de datos grandes, consulta Cómo usar Cloud Storage con macrodatos.

Cuotas de fuentes de datos externas

Los límites para las fuentes de datos externas son los mismos que para los trabajos de carga, como se describe en la sección Trabajos de carga en la página Política de cuotas.

Precios de las fuentes de datos externas

Al consultar una fuente de datos externa de BigQuery, se te cobrará por el número de bytes leídos por la consulta. Para obtener más información, consulta Precios de consultas.

También se te cobra por almacenar los datos y por cualquier recurso utilizado por la aplicación fuente, sujeto a los lineamientos de precios de la aplicación:

  • Para obtener información sobre precios de Google Cloud Storage, consulta Precios de Cloud Storage.
  • Para obtener información sobre los precios de Google Cloud Bigtable, consulta Precios.
  • Para obtener información sobre los precios de Google Drive, consulta Precios.

Próximos pasos

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.