Creare ed eseguire query sulle tabelle metastore da Spark

Puoi eseguire query sulle tabelle Apache Spark Iceberg in un notebook BigQuery utilizzando motori open source, come Spark. Queste tabelle sono tabelle Iceberg regolari con metadati archiviati in BigLake Metastore. È possibile eseguire query sulla stessa tabella sia da BigQuery sia da Spark.

Prima di iniziare

  • Crea una tabella Iceberg mentre utilizzi Spark in un notebook BigQuery. Lo schema della tabella è archiviato nel metastore BigLake. Ad esempio, puoi creare la tabella con Dataproc, Dataproc Serverless o una stored procedure.

Visualizzare ed eseguire query su una tabella

Dopo aver creato le risorse BigQuery in Spark, puoi visualizzarle ed eseguire query su di esse nella consoleGoogle Cloud . L'esempio seguente mostra i passaggi generali per eseguire query su una tabella metastore utilizzando Spark interattivo:

  1. Utilizza il catalogo Iceberg personalizzato:

    USE `CATALOG_NAME`;

    Sostituisci quanto segue:

    • CATALOG_NAME: il nome del catalogo Spark che utilizzi con il tuo job SQL.
  2. Creare uno spazio dei nomi:

    CREATE NAMESPACE IF NOT EXISTS NAMESPACE_NAME;

    Sostituisci quanto segue:

    • NAMESPACE_NAME: il nome dello spazio dei nomi che fa riferimento alla tabella Spark.
  3. Utilizza lo spazio dei nomi creato:

    USE NAMESPACE_NAME;
  4. Crea una tabella Iceberg:

    CREATE TABLE TABLE_NAME (id int, data string) USING ICEBERG;

    Sostituisci quanto segue:

    • TABLE_NAME: un nome per la tabella Iceberg.
  5. Inserisci una riga della tabella:

    INSERT INTO TABLE_NAME VALUES (1, "first row");
  6. Utilizza la console Google Cloud per eseguire una delle seguenti operazioni:

     SELECT * FROM `TABLE_NAME`;

Passaggi successivi