Delta Lake BigLake-Tabellen erstellen

Mit BigLake können Sie über eine detaillierte Zugriffssteuerung auf Delta Lake-Tabellen zugreifen. Delta Lake ist ein von Databricks entwickeltes Open-Source-Tabellenformat zur Speicherung tabellarischer Daten, das Datentabellen im Petabytebereich unterstützt.

BigQuery unterstützt die folgenden Features mit Delta Lake-Tabellen:

  • Zugriffsdelegation: Fragen Sie strukturierte Daten in externen Datenspeichern mit Zugriffsdelegation ab. Durch die Zugriffsdelegation wird der Zugriff auf die Delta Lake-Tabelle vom Zugriff auf den zugrunde liegenden Datenspeicher entkoppelt.
  • Detaillierte Zugriffssteuerung: Detaillierte Sicherheit auf Tabellenebene erzwingen, einschließlich Sicherheit auf Zeilenebene und Spaltenebene. Für Delta Lake-Tabellen, die auf Cloud Storage basieren, können Sie auch die dynamische Datenmaskierung verwenden.
  • Schemaentwicklung: Schemaänderungen in den Delta Lake-Tabellen werden automatisch erkannt. Änderungen am Schema werden in die BigQuery-Tabelle übernommen.

Delta Lake-Tabellen unterstützen alle BigLake-Features, wenn Sie sie als BigLake-Tabellen konfigurieren.

Hinweise

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery Connection and BigQuery Reservation APIs.

    Enable the APIs

  4. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

  5. Sorgen Sie dafür, dass Sie ein BigQuery-Dataset haben.

  6. Prüfen Sie, ob Ihre Version des Google Cloud SDK 366.0.0 oder höher ist:

    gcloud version
    

    Aktualisieren Sie das Google Cloud SDK bei Bedarf.

  7. Erstellen Sie eine Cloud-Ressourcenverbindung anhand der externen Datenquelle und gewähren Sie dieser Verbindung Zugriff auf Cloud Storage. Wenn Sie nicht die erforderlichen Berechtigungen zum Erstellen einer Verbindung haben, bitten Sie Ihren BigQuery-Administrator, eine Verbindung zu erstellen und die Verbindung mit Ihnen zu teilen.

Erforderliche Rollen

Die folgenden Berechtigungen sind zum Erstellen einer Delta Lake-Tabelle erforderlich:

  • bigquery.tables.create
  • bigquery.connections.delegate

Die vordefinierte IAM-Rolle „Identity and Access Management“ (BigQuery) (roles/bigquery.admin) enthält diese Berechtigungen.

Wenn Sie in dieser Rolle kein Hauptkonto darstellen, bitten Sie Ihren Administrator, Ihnen diese Berechtigungen zu gewähren oder die Delta Lake-Tabelle für Sie zu erstellen.

Darüber hinaus muss das mit der Verbindung verknüpfte Dienstkonto die folgende Berechtigung und den folgenden Zugriff haben, damit BigQuery-Nutzer die Tabelle abfragen können:

  • Rolle „BigQuery-Betrachter“ (roles/bigquery.viewer)
  • Rolle „BigQuery-Verbindungsnutzer“ (roles/bigquery.connectionUser)
  • Zugriff auf den Cloud Storage-Bucket, der diese Daten enthält

Weitere Informationen zu Rollen und Berechtigungen für das Identity and Access Management in BigQuery finden Sie unter Vordefinierte Rollen und Berechtigungen.

Tabellen mit Delta Lake erstellen

So erstellen Sie Delta Lake-Tabellen:

SQL

Verwenden Sie die Anweisung CREATE EXTERNAL TABLE, um die Delta Lake-Tabelle zu erstellen:

CREATE EXTERNAL TABLE `PROJECT_ID.DATASET.DELTALAKE_TABLE_NAME`
WITH CONNECTION `PROJECT_ID.REGION.CONNECTION_ID`
OPTIONS (
  format ="DELTA_LAKE",
  uris=['DELTA_TABLE_GCS_BASE_PATH']);

Ersetzen Sie die folgenden Werte:

  • PROJECT_ID: ID des Projekts, in dem Sie die Delta Lake-Tabelle erstellen möchten
  • DATASET: BigQuery-Dataset, das die Delta Lake-Tabelle enthalten soll
  • DELTALAKE_TABLE_NAME: Name Ihrer Delta Lake-Tabelle
  • REGION: Region, die die Verbindung zum Erstellen der Delta Lake-Tabelle enthält, z. B. us
  • CONNECTION_ID: die Verbindungs-ID, z. B. myconnection.

    Wenn Sie sich Verbindungsdetails in der Google Cloud Console ansehen, ist die Verbindungs-ID der Wert im letzten Abschnitt der voll qualifizierten Verbindungs-ID, der unter Verbindungs-ID angezeigt wird, z. B. projects/myproject/locations/connection_location/connections/myconnection.

  • DELTA_TABLE_GCS_BASE_PATH: Delta Lake-Tabellenpräfix

bq

Verwenden Sie in einer Befehlszeilenumgebung den Befehl bq mk, um die Delta Lake-Tabelle zu erstellen:

bq mk --table --external_table_definition=DEFINITION_FILE PROJECT_ID:DATASET.DELTALAKE_TABLE_NAME

Ersetzen Sie die folgenden Werte:

  • DEFINITION_FILE: der Pfad zur Tabellendefinitionsdatei.
  • PROJECT_ID: ID des Projekts, in dem Sie die Delta Lake-Tabelle erstellen möchten
  • DATASET: BigQuery-Dataset, das die Delta Lake-Tabelle enthalten soll
  • DELTALAKE_TABLE_NAME: Name Ihrer Delta Lake-Tabelle

REST

Verwenden Sie die BigQuery API, um eine Delta Lake-Tabelle durch den Aufruf der API-Methode tables.insert zu erstellen:

REQUEST='{
  "autodetect": true,
  "externalDataConfiguration": {
  "sourceFormat": "DELTA_LAKE",
  "connectionId": "PROJECT_ID.REGION.CONNECTION_ID",
  "sourceUris": [
    "DELTA_TABLE_GCS_BASE_PATH"
  ],
 },
"tableReference": {
"tableId": "DELTALAKE_TABLE_NAME"
}
}'

echo $REQUEST | curl -X POST -d @- -H "Content-Type: application/json" -H "Authorization: Bearer $(gcloud auth print-access-token)" https://bigquery.googleapis.com/bigquery/v2/projects/PROJECT_ID/datasets/DATASET/tables?autodetect_schema=true

Ersetzen Sie die folgenden Werte:

  • PROJECT_ID: ID des Projekts, in dem Sie die Delta Lake-Tabelle erstellen möchten
  • REGION: Region, die die Verbindung zum Erstellen der Delta Lake-Tabelle enthält, z. B. us
  • CONNECTION_ID: die Verbindungs-ID, z. B. myconnection.

    Wenn Sie sich Verbindungsdetails in der Google Cloud Console ansehen, ist die Verbindungs-ID der Wert im letzten Abschnitt der voll qualifizierten Verbindungs-ID, der unter Verbindungs-ID angezeigt wird, z. B. projects/myproject/locations/connection_location/connections/myconnection.

  • DELTA_TABLE_GCS_BASE_PATH: Delta Lake-Tabellenpräfix

  • DELTALAKE_TABLE_NAME: Name Ihrer Delta Lake-Tabelle

  • DATASET: BigQuery-Dataset, das die Delta Lake-Tabelle enthalten soll

Wenn Sie Delta Lake-Tabellen erstellen, wird das Delta Lake-Präfix als URI für die Tabelle verwendet. Für eine Tabelle mit Logs im Bucket gs://bucket/warehouse/basictable/_delta_log lautet der Tabellen-URI beispielsweise gs://bucket/warehouse/basictable. Wenn Sie Abfragen für die Delta Lake-Tabelle ausführen, liest BigQuery Daten unter dem Präfix, um die aktuelle Version der Tabelle zu ermitteln, und berechnet dann die Metadaten und die Dateien für die Tabelle.

Delta Lake-Tabellen aktualisieren

So aktualisieren (erfrischen) Sie das Schema von Delta Lake-Tabellen:

bq

Verwenden Sie in einer Befehlszeilenumgebung den Befehl bq update, um das Schema der Delta Lake-Tabelle zu aktualisieren (aufzufrischen):

bq update --autodetect_schema PROJECT_ID:DATASET.DELTALAKE_TABLE_NAME

Ersetzen Sie die folgenden Werte:

  • PROJECT_ID: ID des Projekts, in dem Sie die Delta Lake-Tabelle erstellen möchten
  • DATASET: BigQuery-Dataset, das die Delta Lake-Tabelle enthalten soll
  • DELTALAKE_TABLE_NAME: Name Ihrer Delta Lake-Tabelle

REST

Verwenden Sie die BigQuery API, um eine Delta Lake-Tabelle durch den Aufruf der API-Methode tables.patch zu aktualisieren:

REQUEST='{
  "externalDataConfiguration": {
    "sourceFormat": "DELTA_LAKE",
    "sourceUris": [
      "DELTA_TABLE_GCS_BASE_PATH"
    ],
    "connectionId": "PROJECT_ID.REGION.CONNECTION_ID",
    "autodetect": true
  },
  "tableReference": {
    "tableId": "DELTALAKE_TABLE_NAME"
  }
}'
echo $REQUEST |curl -X POST -d @- -H "Content-Type: application/json" -H "Authorization: Bearer $(gcloud auth print-access-token)" https://bigquery.googleapis.com/bigquery/v2/projects/PROJECT_ID/datasets/DATASET/tables

Ersetzen Sie die folgenden Werte:

  • DELTA_TABLE_GCS_BASE_PATH: Delta Lake-Tabellenpräfix
  • PROJECT_ID: ID des Projekts, in dem Sie die Delta Lake-Tabelle erstellen möchten
  • REGION: Region, die die Verbindung zum Erstellen der Delta Lake-Tabelle enthält, z. B. us
  • CONNECTION_ID: die Verbindungs-ID, z. B. myconnection.

    Wenn Sie sich Verbindungsdetails in der Google Cloud Console ansehen, ist die Verbindungs-ID der Wert im letzten Abschnitt der voll qualifizierten Verbindungs-ID, der unter Verbindungs-ID angezeigt wird, z. B. projects/myproject/locations/connection_location/connections/myconnection.

  • DELTALAKE_TABLE_NAME: Name Ihrer Delta Lake-Tabelle

  • DATASET: BigQuery-Dataset, das die Delta Lake-Tabelle enthalten soll

Delta Lake-Tabellen abfragen

Nachdem Sie eine Delta Lake-BigLake-Tabelle erstellt haben, können Sie sie mit der GoogleSQL-Syntax abfragen, genauso wie eine Standard-BigQuery-Tabelle. Beispiel:

SELECT field1, field2 FROM mydataset.my_cloud_storage_table;

Weitere Informationen finden Sie unter Cloud Storage-Daten in BigLake-Tabellen abfragen.

Für den Verbindungsaufbau zum Datenspeicher wird eine externe Verbindung verwendet, die mit einem Dienstkonto verknüpft ist. Da das Dienstkonto Daten aus dem Datenspeicher abruft, benötigen Nutzer nur Zugriff auf die Delta Lake-Tabelle.

Datenabgleich

BigQuery konvertiert Delta Lake-Datentypen in BigQuery-Datentypen, wie in der folgenden Tabelle dargestellt:

Delta Lake-Typ BigQuery-Typ
boolean BOOL
byte INT64
int INT64
long INT64
float FLOAT64
double FLOAT64
Decimal(P/S) NUMERIC oder BIG_NUMERIC, je nach Precision
date DATE
time TIME
timestamp (not partition column) TIMESTAMP
timestamp (partition column) DATETIME
string STRING
binary BYTES
array<Type> ARRAY<Type>
struct STRUCT
map<KeyType, ValueType> ARRAY<Struct<key KeyType, value ValueType>>

Beschränkungen

Für Delta Lake-Tabellen gelten BigLake-Tabelleneinschränkungen sowie die folgenden Einschränkungen:

  • Unterstützt die Delta Lake-Leserversion 3 mit Löschvektoren und Spaltenzuordnung.
  • Delta Lake V2-Prüfpunkte werden nicht unterstützt.
  • Sie müssen die Leserversion in der Datei des letzten Logeintrags angeben. Neue Tabellen müssen beispielsweise 00000..0.json enthalten.
  • CDC-Vorgänge (Change Data Capture) werden nicht unterstützt. Alle vorhandenen CDC-Vorgänge werden ignoriert.
  • Das Schema wird automatisch erkannt. Das Ändern des Schemas mit BigQuery wird nicht unterstützt.
  • Die Namen der Tabellenspalten müssen den Einschränkungen für Spaltennamen von BigQuery entsprechen.
  • Materialisierte Ansichten werden nicht unterstützt.
  • Die Read API wird für Delta Lake nicht unterstützt.