Introducción a las tablas de BigLake

En este documento, se proporciona una descripción general de BigLake y se supone que estás familiarizado con las tablas de bases de datos y la administración de permisos. Para obtener instrucciones sobre cómo usar las tablas de BigLake, consulta Crea y administra tablas de BigLake.

Descripción general

BigLake es un motor de almacenamiento unificado que simplifica el acceso a los datos para almacenes de datos y data lakes mediante un control de acceso uniforme y detallado en el almacenamiento en múltiples nubes y formatos abiertos.

BigLake extiende la seguridad detallada de BigQuery a nivel de filas y de columnas a las tablas en almacenes de objetos residentes de datos, como Amazon S3, Azure Data Lake Storage Gen2 y Cloud Storage. BigLake separa el acceso a la tabla de los datos subyacentes de Cloud Storage mediante la delegación de acceso. Esta función te ayuda a otorgar acceso de forma segura a nivel de fila y de columna a los usuarios y las canalizaciones de la organización sin proporcionarles acceso completo a la tabla.

Después de crear una tabla de BigLake, puedes consultarla como otras tablas de BigQuery. BigQuery aplica controles de acceso a nivel de fila y columna. Cada usuario ve solo la porción de datos que está autorizado a ver. Las políticas de administración se aplican a todo el acceso a los datos a través de las API de BigQuery. Por ejemplo, la API de BigQuery Storage permite a los usuarios acceder a datos autorizados mediante motores de consultas de código abierto, como Apache Spark, como se muestra en el siguiente diagrama:

Arquitectura de BigLake.

Tablas de BigLake en almacenes de objetos

Para los administradores de datos, BigLake permite abstraer la administración de acceso en los data lakes de archivos a tablas y te ayuda a administrar el acceso de los usuarios a los datos en data lakes.

Debido a que las tablas de BigLake en los almacenes de objetos están diseñadas a fin de simplificar el modelo de acceso para las tablas que están conectadas a los almacenes de objetos, recomendamos usar tablas de BigLake para compilar y mantener conexiones a estos almacenes de objetos.

Puedes usar tablas externas en los casos en que la administración no sea un requisito o para el descubrimiento y la manipulación de datos ad hoc.

Limitaciones

  • Las tablas de BigLake en los almacenes de objetos están sujetas a las mismas limitaciones que las tablas de BigQuery. Para obtener más información, consulta Cuotas.
  • BigLake no admite la autenticación de clúster personal de Dataproc. Los clústeres de Dataproc que leen desde BigLake deben tener la autenticación personal del clúster de Dataproc desactivada y pasar las credenciales de usuario a través de la opción gcpAccessToken, o usar la cuenta de servicio de máquina virtual (VM) de Dataproc como un proxy para grupos de usuarios.
  • Las tablas de BigLake admiten los siguientes cinco formatos:

    • Avro
    • CSV
    • JSON
    • ORC
    • Parquet
  • La API de BigQuery Storage no está disponible en otros entornos de nube, como AWS y Azure.

Modelo de seguridad

Esta guía está orientada a los siguientes roles organizativos:

  • Administradores de data lakes. Estos administradores suelen gestionar las políticas de Identity and Access Management (IAM) en los buckets y objetos de Cloud Storage.
  • Administradores de almacenes de datos. Estos administradores suelen crear, borrar y actualizar tablas de BigLake. Los administradores de almacenes de datos necesitan los siguientes roles de IAM:
    • BigQuery Admin o BigQuery Data Owner
    • Administrador de conexión de BigQuery
  • Analistas de datos. Por lo general, los analistas tienen el rol BigQuery User y pueden leer datos y ejecutar consultas.

Los administradores de data lakes son responsables de otorgar privilegios de lectura a las conexiones que gestionan los administradores de almacenes de datos. A su vez, los administradores de almacenes de datos definen las tablas de BigLake, establecen los controles de acceso adecuados (como la seguridad de la columna y la fila) y comparten las tablas de BigQuery con analistas de datos.

Tablas de BigLake con Analytics Hub

Las tablas de BigLake son compatibles con Analytics Hub. Los conjuntos de datos que contienen tablas de BigLake se pueden publicar como listas de Analytics Hub. Los suscriptores de Analytics Hub pueden suscribirse a estas listas, que aprovisionan un conjunto de datos de solo lectura, llamado conjunto de datos vinculados, en su proyecto. Los suscriptores pueden consultar todas las tablas en el conjunto de datos vinculado, incluidas todas las tablas de BigLake. Para obtener más información, consulta Suscríbete a una ficha.

BigQuery ML con tablas de BigLake

Puedes usar BigQuery ML para entrenar y ejecutar modelos en BigLake en Cloud Storage.

¿Qué sigue?