Criar e consultar tabelas do metastore no Spark
É possível consultar tabelas do Apache Spark Iceberg em um notebook do BigQuery usando mecanismos de código aberto, como o Spark. Essas tabelas são tabelas regulares do Iceberg com metadados armazenados no metastore do BigLake. A mesma tabela pode ser consultada no BigQuery e no Spark.
Antes de começar
- Crie uma tabela do Iceberg usando o Spark em um notebook do BigQuery. O esquema da tabela é armazenado no metastore do BigLake. Por exemplo, é possível criar a tabela com o Dataproc, o Google Cloud sem servidor para Apache Spark ou um procedimento armazenado.
Ver e consultar uma tabela
Depois de criar os recursos do BigQuery no Spark, é possível conferir e consultar esses recursos no consoleGoogle Cloud . O exemplo a seguir mostra as etapas gerais para consultar uma tabela do metastore usando o Spark interativo:
Use o catálogo personalizado do Iceberg:
USE `CATALOG_NAME`;
Substitua:
CATALOG_NAME
: o nome do catálogo do Spark que você está usando com seu job do SQL.
Para criar um namespace:
CREATE NAMESPACE IF NOT EXISTS NAMESPACE_NAME;
Substitua:
NAMESPACE_NAME
: o nome do namespace que referencia sua tabela do Spark.
Use o namespace criado:
USE NAMESPACE_NAME;
Crie uma tabela do Iceberg:
CREATE TABLE TABLE_NAME (id int, data string) USING ICEBERG;
Substitua:
TABLE_NAME
: um nome para sua tabela do Iceberg.
Insira uma linha da tabela:
INSERT INTO TABLE_NAME VALUES (1, "first row");
Use o console Google Cloud para fazer uma das seguintes ações:
SELECT * FROM `TABLE_NAME`;
A seguir
- Configure outros recursos do metastore do BigLake.