BigQuery

Mit dem BigQuery-Connector können Sie Google BigQuery-Daten einfügen, löschen, aktualisieren und lesen.

Hinweise

Führen Sie vor der Verwendung des BigQuery-Connectors die folgenden Aufgaben aus:

  • In Ihrem Google Cloud-Projekt:
    • Weisen Sie dem Nutzer, der den Connector konfiguriert, die IAM-Rolle roles/connectors.admin zu.
    • Weisen Sie dem Dienstkonto, das Sie für den Connector verwenden möchten, die folgenden IAM-Rollen zu:
      • roles/bigquery.dataEditor

      Ein Dienstkonto ist eine spezielle Art von Google-Konto, das einen nicht menschlichen Nutzer repräsentiert. Es muss authentifiziert und autorisiert werden, um Zugriff auf Daten in Google APIs zu erhalten. Wenn Sie kein Dienstkonto haben, müssen Sie eins erstellen. Weitere Informationen finden Sie unter Dienstkonto erstellen.

    • Aktivieren Sie die folgenden Dienste:
      • secretmanager.googleapis.com (Secret Manager API)
      • connectors.googleapis.com (Connectors API)

      Informationen zum Aktivieren von Diensten finden Sie unter Dienste aktivieren.

    Wenn diese Dienste oder Berechtigungen für Ihr Projekt zuvor nicht aktiviert wurden, werden Sie aufgefordert, sie beim Konfigurieren des Connectors zu aktivieren.

Connector konfigurieren

Für die Konfiguration des Connectors müssen Sie eine Verbindung zu Ihrer Datenquelle (Backend-System) erstellen. Eine Verbindung ist für eine Datenquelle spezifisch. Wenn Sie also viele Datenquellen haben, müssen Sie für jede Datenquelle eine separate Verbindung erstellen. So erstellen Sie eine Verbindung:

  1. Rufen Sie in der Cloud Console die Seite Integration Connectors > Verbindungen auf und wählen Sie ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Seite „Verbindungen“

  2. Klicken Sie auf + NEU ERSTELLEN, um die Seite Verbindung erstellen zu öffnen.
  3. Wählen Sie im Abschnitt Standort den Standort für die Verbindung aus.
    1. Region: Wählen Sie einen Standort aus der Drop-down-Liste aus.

      Eine Liste aller unterstützten Regionen finden Sie unter Standorte.

    2. Tippen Sie auf Weiter.
  4. Führen Sie im Abschnitt Verbindungsdetails folgende Schritte aus:
    1. Connector: Wählen Sie BigQuery aus der Drop-down-Liste der verfügbaren Connectors aus.
    2. Connector-Version: Wählen Sie die Connector-Version aus der Drop-down-Liste der verfügbaren Versionen aus.
    3. Geben Sie im Feld Verbindungsname einen Namen für die Verbindungsinstanz ein.

      Verbindungsnamen müssen die folgenden Kriterien erfüllen:

      • Verbindungsnamen können Buchstaben, Ziffern oder Bindestriche enthalten.
      • Buchstaben müssen Kleinbuchstaben sein.
      • Verbindungsnamen müssen mit einem Buchstaben beginnen und mit einem Buchstaben oder einer Ziffer enden.
      • Verbindungsnamen dürfen maximal 63 Zeichen haben.
    4. Geben Sie optional unter Beschreibung eine Beschreibung für die Verbindungsinstanz ein.
    5. Dienstkonto: Wählen Sie ein Dienstkonto, das über die erforderlichen Rollen verfügt.
    6. Konfigurieren Sie optional die Einstellungen für Verbindungsknoten:

      • Mindestanzahl von Knoten: Geben Sie die Mindestanzahl von Verbindungsknoten ein.
      • Maximale Anzahl von Knoten: Geben Sie die maximale Anzahl von Verbindungsknoten ein.

      Ein Knoten ist eine Einheit (oder ein Replikat) einer Verbindung, die Transaktionen verarbeitet. Zur Verarbeitung von mehr Transaktionen für eine Verbindung sind mehr Knoten erforderlich. Umgekehrt sind weniger Knoten erforderlich, um weniger Transaktionen zu verarbeiten. Informationen zu den Auswirkungen der Knoten auf Ihre Connector-Preise finden Sie unter Preise für Verbindungsknoten. Wenn Sie keine Werte eingeben, wird die Mindestanzahl von Knoten standardmäßig auf 2 (für eine bessere Verfügbarkeit) und die maximale Anzahl von Knoten auf 50 festgelegt.

    7. Projekt-ID: Die ID des Google Cloud-Projekts, in dem sich die Daten befinden.
    8. Dataset-ID: Die ID des BigQuery-Datasets.
    9. Proxy verwenden: Klicken Sie dieses Kästchen an, um einen Proxyserver für die Verbindung und die folgenden Werte zu konfigurieren:
      • Proxy-Authentifizierungsschema: Wählen Sie den Authentifizierungstyp für die Authentifizierung beim Proxyserver aus. Die folgenden Authentifizierungstypen werden unterstützt:
        • Standard: Basis-HTTP-Authentifizierung.
        • Digest: Digest-HTTP-Authentifizierung.
      • Proxy User: Ein Nutzername, der zur Authentifizierung beim Proxyserver verwendet werden soll.
      • Proxy-Passwort: Das Secret Manager-Secret des Nutzerpassworts.
      • Proxy-SSL-Typ: Der SSL-Typ, der beim Herstellen einer Verbindung zum Proxyserver verwendet werden soll. Die folgenden Authentifizierungstypen werden unterstützt:
        • Automatisch: Standardeinstellung. Wenn die URL eine HTTPS-URL ist, wird die Option „Tunnel“ verwendet. Wenn die URL eine HTTP-URL ist, wird die Option NEVER verwendet.
        • Immer: Die Verbindung ist immer SSL aktiviert.
        • Nie: Die Verbindung ist nicht SSL-fähig.
        • Tunnel: Die Verbindung erfolgt über einen Tunneling-Proxy. Der Proxyserver stellt eine Verbindung zum Remote-Host her und der Traffic fließt über den Proxy hin und her.
      • Geben Sie im Abschnitt Proxyserver die Details des Proxyservers ein.
        1. Klicken Sie auf + Ziel hinzufügen.
        2. Wählen Sie einen Zieltyp aus.
          • Hostadresse: Geben Sie den Hostnamen oder die IP-Adresse des Ziels an.

            Wenn Sie eine private Verbindung zu Ihrem Back-End-System herstellen möchten, gehen Sie so vor:

            • Erstellen Sie einen PSC-Dienstanhang.
            • Erstellen Sie einen Endpunktanhang und geben Sie dann die Details des Endpunktanhangs in das Feld Hostadresse ein.
    10. Klicken Sie optional auf + LABEL HINZUFÜGEN, um der Verbindung ein Label in Form eines Schlüssel/Wert-Paars hinzuzufügen.
    11. Tippen Sie auf Weiter.
  5. Geben Sie im Abschnitt Authentifizierung die Authentifizierungsdetails ein.
    1. Für die BigQuery-Verbindung ist keine Authentifizierung erforderlich.
    2. Tippen Sie auf Weiter.
  6. Überprüfen: Prüfen Sie Ihre Verbindungs- und Authentifizierungsdetails.
  7. Klicken Sie auf Erstellen.

Entitäten, Vorgänge und Aktionen

Alle Integration Connectors bieten eine Abstraktionsebene für die Objekte der verbundenen Anwendung. Sie können nur über diese Abstraktion auf die Objekte einer Anwendung zugreifen. Die Abstraktion wird Ihnen als Entitäten, Vorgänge und Aktionen zur Verfügung gestellt.

  • Entität: Eine Entität kann als Objekt oder Sammlung von Attributen in der verbundenen Anwendung oder im verbundenen Dienst verstanden werden. Die Definition einer Entität unterscheidet sich von Connector zu Connector. Beispiel: In einem Datenbank-Connector sind Tabellen die Entitäten, in einem Dateiserver-Connector sind Ordner die Entitäten und in einem Nachrichtensystem-Connector sind Warteschlangen die Entitäten.

    Es ist jedoch möglich, dass ein Connector keine Entitäten unterstützt oder keine Entitäten enthält. In diesem Fall ist die Liste Entities leer.

  • Vorgang: Ein Vorgang ist die Aktivität, die Sie für eine Entität ausführen können. Sie können einen der folgenden Vorgänge für eine Entität ausführen:

    Durch Auswahl einer Entität aus der verfügbaren Liste wird eine Liste der Vorgänge generiert, die für die Entität verfügbar sind. Eine detaillierte Beschreibung der Vorgänge finden Sie in den Entitätsvorgängen der Connectors-Aufgabe. Wenn ein Connector jedoch keinen der Entitätsvorgänge unterstützt, werden solche nicht unterstützten Vorgänge nicht in der Liste Operations aufgeführt.

  • Aktion: Eine Aktion ist eine Funktion erster Klasse, die über die Connector-Benutzeroberfläche für die Integration verfügbar gemacht wird. Mit einer Aktion können Sie Änderungen an einer oder mehreren Entitäten vornehmen, die von Connector zu Connector unterschiedlich sind. Es ist jedoch möglich, dass ein Connector keine Aktionen unterstützt. In diesem Fall ist die Actions-Liste leer.

Systemeinschränkungen

Der BigQuery-Connector kann maximal 8 Transaktionen pro Sekunde und Knoten verarbeiten und Transaktionen über dieses Limit hinaus drosseln. Standardmäßig weisen Integration Connectors einer Verbindung zwei Knoten zu, um die Verfügbarkeit zu verbessern.

Informationen zu den Limits, die für Integration Connectors gelten, finden Sie hier.

Unterstützte Datentypen

Folgende Datentypen werden für diesen Connector unterstützt:

  • BIGINT
  • BINARY
  • BIT
  • BOOLEAN
  • CHAR
  • DATUM
  • DECIMAL
  • DOUBLE
  • FLOAT
  • INTEGER
  • LONGN VARCHAR
  • LONG VARCHAR
  • Nchar
  • NUMERIC
  • NVARCHAR
  • REAL
  • KLEINE INTE
  • UHRZEIT
  • TIMESTAMP
  • TINY INT
  • VARBINARY
  • VARCHAR

Bekannte Probleme

Der BigQuery-Connector unterstützt den Primärschlüssel in einer BigQuery-Tabelle nicht. Das bedeutet, dass Sie die Entitätsvorgänge zum Abrufen, Aktualisieren und Löschen nicht mit einem entityId ausführen können. Alternativ können Sie die Filterklausel verwenden, um Datensätze basierend auf einer ID zu filtern.

Aktionen

In diesem Abschnitt werden die im BigQuery-Connector verfügbaren Aktionen beschrieben.

Vorgang „CancelJob“

Mit dieser Aktion können Sie einen laufenden BigQuery-Job abbrechen.

In der folgenden Tabelle werden die Eingabeparameter der Aktion CancelJob beschrieben.

Parametername Datentyp Beschreibung
JobId String Die ID des Jobs, den Sie abbrechen möchten. Dies ist ein Pflichtfeld.
Region String Die Region, in der der Job gerade ausgeführt wird. Dies ist nicht erforderlich, wenn sich der Job in einer Region in den USA oder in der EU befindet.

GetJob-Aktion

Mit dieser Aktion können Sie die Konfigurationsinformationen und den Ausführungsstatus eines vorhandenen Jobs abrufen.

In der folgenden Tabelle werden die Eingabeparameter der Aktion GetJob beschrieben.

Parametername Datentyp Beschreibung
JobId String Die ID des Jobs, für den Sie die Konfiguration abrufen möchten. Dies ist ein Pflichtfeld.
Region String Die Region, in der der Job gerade ausgeführt wird. Dies ist nicht erforderlich, wenn sich der Job in einer Region in den USA oder in der EU befindet.

Aktion „InsertJob“

Mit dieser Aktion können Sie einen BigQuery-Job einfügen, der später zum Abrufen der Abfrageergebnisse ausgewählt werden kann.

In der folgenden Tabelle werden die Eingabeparameter der Aktion InsertJob beschrieben.

Parametername Datentyp Beschreibung
Abfrage String Die an BigQuery zu sendende Abfrage. Dies ist ein Pflichtfeld.
IsDML String Sollte auf true gesetzt sein, wenn die Abfrage eine DML-Anweisung ist, oder auf false. Der Standardwert ist false.
DestinationTable String Die Zieltabelle für die Abfrage im Format DestProjectId:DestDatasetId.DestTable.
WriteDisposition String Gibt an, wie Daten in die Zieltabelle geschrieben werden, z. B. das Abschneiden vorhandener Ergebnisse, das Anfügen vorhandener Ergebnisse oder das Schreiben nur, wenn die Tabelle leer ist. Folgende Werte werden unterstützt:
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
Der Standardwert ist WRITE_TRUNCATE.
DryRun String Gibt an, ob der Job als Probelauf ausgeführt wird.
MaximumBytesBilled String Gibt die maximale Anzahl von Byte an, die vom Job verarbeitet werden können. BigQuery bricht den Job ab, wenn der Job versucht, mehr Byte als den angegebenen Wert zu verarbeiten.
Region String Gibt die Region an, in der der Job ausgeführt werden soll.

Aktion „InsertLoadJob“

Mit dieser Aktion können Sie einen BigQuery-Ladejob einfügen, der Daten aus Google Cloud Storage in eine vorhandene Tabelle einfügt.

In der folgenden Tabelle werden die Eingabeparameter der Aktion InsertLoadJob beschrieben.

Parametername Datentyp Beschreibung
SourceURIs String Eine durch Leerzeichen getrennte Liste von Google Cloud Storage-URIs.
SourceFormat String Das Quellformat der Dateien. Folgende Werte werden unterstützt:
  • AVRO
  • NEWLINE_DELIMITED_JSON
  • DATASTORE_BACKUP
  • PARQUET
  • ORC
  • CSV
DestinationTable String Die Zieltabelle für die Abfrage im Format DestProjectId.DestDatasetId.DestTable.
DestinationTableProperties String Ein JSON-Objekt, das den Anzeigenamen für die Tabelle, die Beschreibung und die Liste der Labels angibt.
DestinationTableSchema String Eine JSON-Liste, die die Felder angibt, die zum Erstellen der Tabelle verwendet werden.
DestinationEncryptionConfiguration String Ein JSON-Objekt, das die KMS-Verschlüsselungseinstellungen für die Tabelle angibt.
SchemaUpdateOptions String Eine JSON-Liste mit den Optionen, die beim Aktualisieren des Zieltabellenschemas angewendet werden sollen.
TimePartitioning String Ein JSON-Objekt, das den Typ und das Feld für die Zeitpartitionierung angibt.
RangePartitioning String Ein JSON-Objekt, das das Feld zur Bereichspartitionierung und die Buckets angibt.
Clustering String Ein JSON-Objekt, das die Felder angibt, die für das Clustering verwendet werden sollen.
Automatisch erkennen String Gibt an, ob Optionen und Schema für JSON- und CSV-Dateien automatisch ermittelt werden sollen.
CreateDisposition String Gibt an, ob die Zieltabelle erstellt werden muss, falls sie noch nicht vorhanden ist. Folgende Werte werden unterstützt:
  • CREATE_IF_NEEDED
  • CREATE_NEVER
Der Standardwert ist CREATE_IF_NEEDED.
WriteDisposition String Gibt an, wie Daten in die Zieltabelle geschrieben werden, z. B. das Abschneiden vorhandener Ergebnisse, das Anfügen vorhandener Ergebnisse oder das Schreiben nur, wenn die Tabelle leer ist. Folgende Werte werden unterstützt:
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
Der Standardwert ist WRITE_APPEND.
Region String Gibt die Region an, in der der Job ausgeführt werden soll. Die Google Cloud Storage-Ressourcen und das BigQuery-Dataset müssen sich in derselben Region befinden.
DryRun String Gibt an, ob der Job als Probelauf ausgeführt wird. Der Standardwert ist false.
MaximumBadRecords String Gibt die Anzahl der Datensätze an, die ungültig sein können, bevor der gesamte Job abgebrochen wird. Standardmäßig müssen alle Datensätze gültig sein. Der Standardwert ist 0.
IgnoreUnknownValues String Gibt an, ob die unbekannten Felder in der Eingabedatei ignoriert oder als Fehler behandelt werden sollen. Standardmäßig werden sie als Fehler behandelt. Der Standardwert ist false.
AvroUseLogicalTypes String Gibt an, ob logische AVRO-Typen zum Konvertieren von AVRO-Daten in BigQuery-Typen verwendet werden müssen. Der Standardwert ist true.
CSVSkipLeadingRows String Gibt an, wie viele Zeilen am Anfang von CSV-Dateien übersprungen werden sollen. Dies wird normalerweise verwendet, um Kopfzeilen zu überspringen.
CSVEncoding String Codierungstyp der CSV-Dateien. Folgende Werte werden unterstützt:
  • ISO-8859-1
  • UTF-8
Der Standardwert ist UTF-8.
CSVNullMarker String Wenn dieser String angegeben wird, wird er für NULL-Werte in CSV-Dateien verwendet. Standardmäßig können CSV-Dateien nicht NULL verwenden.
CSVFieldDelimiter String Das Zeichen, das zum Trennen von Spalten in CSV-Dateien verwendet wird. Der Standardwert ist ein Komma (,).
CSVQuote String Das Zeichen, das in CSV-Dateien für Felder in Anführungszeichen verwendet wird. Kann auf leer gesetzt werden, um Anführungszeichen zu deaktivieren. Der Standardwert besteht aus doppelten Anführungszeichen (").
CSVAllowQuotedNewlines String Gibt an, ob die CSV-Dateien Zeilenumbrüche in Feldern in Anführungszeichen enthalten können. Der Standardwert ist false.
CSVAllowJaggedRows String Gibt an, ob die CSV-Dateien fehlende Felder enthalten dürfen. Der Standardwert ist false.
DSBackupProjectionFields String Eine JSON-Liste der Felder, die aus einer Cloud Datastore-Sicherung geladen werden sollen.
ParquetOptions String Ein JSON-Objekt, das die Parquet-spezifischen Importoptionen angibt.
DecimalTargetTypes String Eine JSON-Liste mit der Präferenzreihenfolge, die auf numerische Typen angewendet wird.
HivePartitioningOptions String Ein JSON-Objekt, das die quellenseitigen Partitionierungsoptionen angibt.

Benutzerdefinierte SQL-Abfrage ausführen

So erstellen Sie eine benutzerdefinierte Abfrage:

  1. Folgen Sie der detaillierten Anleitung zum Hinzufügen einer Connector-Aufgabe.
  2. Wenn Sie die Connector-Aufgabe konfigurieren, wählen Sie als Aktionstyp Aktionen aus.
  3. Wählen Sie in der Liste Aktion die Option Benutzerdefinierte Abfrage ausführen aus und klicken Sie dann auf Fertig.
  4. Maximieren Sie den Bereich Aufgabeneingabe und gehen Sie so vor:
    1. Geben Sie im Feld Zeitlimit nach ein, wie viele Sekunden auf die Ausführung der Abfrage gewartet werden soll.

      Standardwert: 180 Sekunden.

    2. Geben Sie im Feld Maximale Anzahl von Zeilen die maximale Anzahl von Zeilen ein, die von der Datenbank zurückgegeben werden sollen.

      Standardwert: 25.

    3. Klicken Sie auf Benutzerdefinierte Abfrage bearbeiten, um die benutzerdefinierte Abfrage zu aktualisieren. Das Dialogfeld Skripteditor wird geöffnet.
    4. Geben Sie im Dialogfeld Skripteditor die SQL-Abfrage ein und klicken Sie auf Speichern.

      Sie können in einer SQL-Anweisung ein Fragezeichen (?) verwenden, um einen einzelnen Parameter darzustellen, der in der Liste der Abfrageparameter angegeben werden muss. Mit der folgenden SQL-Abfrage werden beispielsweise alle Zeilen aus der Tabelle Employees ausgewählt, die den in der Spalte LastName angegebenen Werten entsprechen:

      SELECT * FROM Employees where LastName=?

    5. Wenn Sie in Ihrer SQL-Abfrage Fragezeichen verwendet haben, müssen Sie den Parameter hinzufügen, indem Sie bei jedem Fragezeichen auf + Parameternamen hinzufügen klicken. Beim Ausführen der Integration ersetzen diese Parameter die Fragezeichen (?) in der SQL-Abfrage nacheinander. Wenn Sie beispielsweise drei Fragezeichen (?) hinzugefügt haben, müssen Sie drei Parameter in der Reihenfolge der Reihenfolge hinzufügen. So fügen Sie Abfrageparameter hinzu:
      1. Wählen Sie in der Liste Typ den Datentyp des Parameters aus.
      2. Geben Sie im Feld Wert den Wert des Parameters ein.
      3. Wenn Sie mehrere Parameter hinzufügen möchten, klicken Sie auf + Suchparameter hinzufügen.

Mit Terraform Verbindungen erstellen

Mit der Terraform-Ressource können Sie eine neue Verbindung erstellen.

Informationen zum Anwenden oder Entfernen einer Terraform-Konfiguration finden Sie unter Grundlegende Terraform-Befehle.

Ein Beispiel für eine Terraform-Vorlage zum Erstellen von Verbindungen finden Sie unter Beispielvorlage.

Wenn Sie diese Verbindung mit Terraform erstellen, müssen Sie die folgenden Variablen in der Terraform-Konfigurationsdatei festlegen:

Parametername Datentyp Erforderlich Beschreibung
project_id STRING Wahr Die ID des Projekts mit dem BigQuery-Dataset, z. B. meinprojekt.
dataset_id STRING Falsch Dataset-ID des BigQuery-Datasets ohne Projektnamen, z. B. dataset.
proxy_enabled BOOLEAN Falsch Aktivieren Sie dieses Kästchen, um einen Proxyserver für die Verbindung zu konfigurieren.
proxy_auth_scheme ENUM Falsch Der Authentifizierungstyp, der zur Authentifizierung beim ProxyServer-Proxy verwendet werden soll. Unterstützte Werte: BASIC, DIGEST, NONE
proxy_user STRING Falsch Ein Nutzername, der für die Authentifizierung beim ProxyServer-Proxy verwendet werden soll.
proxy_password SECRET Falsch Ein Passwort, das zur Authentifizierung beim ProxyServer-Proxy verwendet werden soll.
proxy_ssltype ENUM Falsch Der SSL-Typ, der beim Herstellen einer Verbindung zum ProxyServer-Proxy verwendet werden soll. Unterstützte Werte sind: AUTO, ALWAYS, NEVER, Tunnel

BigQuery-Verbindung in einer Integration verwenden

Nachdem Sie die Verbindung erstellt haben, ist sie sowohl in Apigee Integration als auch in Application Integration verfügbar. Sie können die Verbindung über die Connector-Aufgabe in einer Integration verwenden.

  • Informationen zum Erstellen und Verwenden der Connectors-Aufgabe in der Apigee-Integration finden Sie unter Connectors-Task.
  • Informationen zum Erstellen und Verwenden der Aufgabe „Connectors“ in Application Integration finden Sie unter Connectors-Aufgabe.

Hilfe von der Google Cloud-Community erhalten

Sie können Ihre Fragen und Anregungen zu diesem Connector in der Google Cloud-Community unter Cloud-Foren posten.

Nächste Schritte