Crea y consulta tablas de metastore desde Spark

Puedes consultar tablas de Apache Spark Iceberg en un notebook de BigQuery con motores de código abierto, como Spark. Estas tablas son tablas Iceberg normales con metadatos almacenados en el metastore de BigQuery. Se puede consultar la misma tabla desde BigQuery y Spark.

Antes de comenzar

Consideraciones

  • Actualmente, solo se admiten tablas de iceberg.
  • Cuando ejecutes tus consultas, recuerda asignar los nombres de tu espacio de nombres y tu base de datos como nombres de conjuntos de datos de BigQuery. En la siguiente tabla, se enumeran las asignaciones de teclas aplicables que se deben usar:

    Código abierto BigQuery
    Espacio de nombres Conjunto de datos de BigQuery
    Base de datos Conjunto de datos de BigQuery
    Tabla (particionada o no) Tabla de BigQuery

Cómo ver y consultar una tabla

Después de crear tus recursos de BigQuery en Spark, puedes verlos y consultarlos en la consola deGoogle Cloud . En el siguiente ejemplo, se muestran los pasos generales para consultar una tabla de metastore con Spark interactivo:

  1. Usa el catálogo de Iceberg personalizado:

    USE `CATALOG_NAME`;

    Reemplaza lo siguiente:

    • CATALOG_NAME: Es el nombre del catálogo de Spark que usas con tu trabajo de SQL.
  2. Crea un espacio de nombres:

    CREATE NAMESPACE IF NOT EXISTS NAMESPACE_NAME;

    Reemplaza lo siguiente:

    • NAMESPACE_NAME: Es el nombre del espacio de nombres que hace referencia a tu tabla de Spark.
  3. Usa el espacio de nombres creado:

    USE NAMESPACE_NAME;
  4. Crea una tabla de Iceberg:

    CREATE TABLE TABLE_NAME (id int, data string) USING ICEBERG;

    Reemplaza lo siguiente:

    • TABLE_NAME: Un nombre para tu tabla de Iceberg.
  5. Inserta una fila de la tabla:

    INSERT INTO TABLE_NAME VALUES (1, "first row");
  6. Usa la consola de Google Cloud para hacer una de las siguientes acciones:

     SELECT * FROM `TABLE_NAME`;

¿Qué sigue?