Metastore-Tabellen aus Spark erstellen und abfragen

Sie können Apache Spark Iceberg-Tabellen in einem BigQuery-Notebook mit Open-Source-Engines wie Spark abfragen. Diese Tabellen sind reguläre Iceberg-Tabellen, deren Metadaten im BigLake Metastore gespeichert sind. Dieselbe Tabelle kann sowohl über BigQuery als auch über Spark abgefragt werden.

Hinweise

  • Erstellen Sie eine Iceberg-Tabelle mit Spark in einem BigQuery-Notebook. Das Tabellenschema wird im BigLake-Metastore gespeichert. Sie können die Tabelle beispielsweise mit Dataproc, Dataproc Serverless oder einer gespeicherten Prozedur erstellen.

Tabelle ansehen und abfragen

Nachdem Sie Ihre BigQuery-Ressourcen in Spark erstellt haben, können Sie sie in derGoogle Cloud -Konsole ansehen und abfragen. Das folgende Beispiel zeigt die allgemeinen Schritte zum Abfragen einer Metastore-Tabelle mit interaktivem Spark:

  1. Benutzerdefinierten Iceberg-Katalog verwenden:

    USE `CATALOG_NAME`;

    Ersetzen Sie Folgendes:

    • CATALOG_NAME: der Name des Spark-Katalogs, den Sie mit Ihrem SQL-Job verwenden.
  2. Erstellen Sie einen Namespace:

    CREATE NAMESPACE IF NOT EXISTS NAMESPACE_NAME;

    Ersetzen Sie Folgendes:

    • NAMESPACE_NAME: Der Namespace-Name, der auf Ihre Spark-Tabelle verweist.
  3. So verwenden Sie den erstellten Namespace:

    USE NAMESPACE_NAME;
  4. Iceberg-Tabelle erstellen:

    CREATE TABLE TABLE_NAME (id int, data string) USING ICEBERG;

    Ersetzen Sie Folgendes:

    • TABLE_NAME: Ein Name für Ihre Iceberg-Tabelle.
  5. So fügen Sie eine Tabellenzeile ein:

    INSERT INTO TABLE_NAME VALUES (1, "first row");
  6. Verwenden Sie die Google Cloud Console, um einen der folgenden Schritte auszuführen:

     SELECT * FROM `TABLE_NAME`;

Nächste Schritte