BigQuery
Mit dem BigQuery-Connector können Sie Google BigQuery-Daten einfügen, löschen, aktualisieren und lesen.
Hinweise
Führen Sie vor der Verwendung des BigQuery-Connectors die folgenden Aufgaben aus:
- In Ihrem Google Cloud-Projekt:
- Weisen Sie dem Nutzer, der den Connector konfiguriert, die IAM-Rolle roles/connectors.admin zu.
- Weisen Sie dem Dienstkonto, das Sie für den Connector verwenden möchten, die folgenden IAM-Rollen zu:
roles/bigquery.dataEditor
Ein Dienstkonto ist eine spezielle Art von Google-Konto, das einen nicht menschlichen Nutzer repräsentiert. Es muss authentifiziert und autorisiert werden, um Zugriff auf Daten in Google APIs zu erhalten. Wenn Sie kein Dienstkonto haben, müssen Sie eins erstellen. Weitere Informationen finden Sie unter Dienstkonto erstellen.
- Aktivieren Sie die folgenden Dienste:
secretmanager.googleapis.com
(Secret Manager API)connectors.googleapis.com
(Connectors API)
Informationen zum Aktivieren von Diensten finden Sie unter Dienste aktivieren.
Wenn diese Dienste oder Berechtigungen für Ihr Projekt zuvor nicht aktiviert wurden, werden Sie aufgefordert, sie beim Konfigurieren des Connectors zu aktivieren.
Connector konfigurieren
Für die Konfiguration des Connectors müssen Sie eine Verbindung zu Ihrer Datenquelle (Backend-System) erstellen. Eine Verbindung ist für eine Datenquelle spezifisch. Wenn Sie also viele Datenquellen haben, müssen Sie für jede Datenquelle eine separate Verbindung erstellen. So erstellen Sie eine Verbindung:
- Rufen Sie in der Cloud Console die Seite Integration Connectors > Verbindungen auf und wählen Sie ein Google Cloud-Projekt aus oder erstellen Sie eines.
- Klicken Sie auf + NEU ERSTELLEN, um die Seite Verbindung erstellen zu öffnen.
- Wählen Sie im Abschnitt Standort den Standort für die Verbindung aus.
- Region: Wählen Sie einen Standort aus der Drop-down-Liste aus.
Eine Liste aller unterstützten Regionen finden Sie unter Standorte.
- Tippen Sie auf Weiter.
- Region: Wählen Sie einen Standort aus der Drop-down-Liste aus.
- Führen Sie im Abschnitt Verbindungsdetails folgende Schritte aus:
- Connector: Wählen Sie BigQuery aus der Drop-down-Liste der verfügbaren Connectors aus.
- Connector-Version: Wählen Sie die Connector-Version aus der Drop-down-Liste der verfügbaren Versionen aus.
- Geben Sie im Feld Verbindungsname einen Namen für die Verbindungsinstanz ein.
Verbindungsnamen müssen die folgenden Kriterien erfüllen:
- Verbindungsnamen können Buchstaben, Ziffern oder Bindestriche enthalten.
- Buchstaben müssen Kleinbuchstaben sein.
- Verbindungsnamen müssen mit einem Buchstaben beginnen und mit einem Buchstaben oder einer Ziffer enden.
- Verbindungsnamen dürfen maximal 63 Zeichen haben.
- Geben Sie optional unter Beschreibung eine Beschreibung für die Verbindungsinstanz ein.
- Dienstkonto: Wählen Sie ein Dienstkonto, das über die erforderlichen Rollen verfügt.
- Konfigurieren Sie optional die Einstellungen für Verbindungsknoten:
- Mindestanzahl von Knoten: Geben Sie die Mindestanzahl von Verbindungsknoten ein.
- Maximale Anzahl von Knoten: Geben Sie die maximale Anzahl von Verbindungsknoten ein.
Ein Knoten ist eine Einheit (oder ein Replikat) einer Verbindung, die Transaktionen verarbeitet. Zur Verarbeitung von mehr Transaktionen für eine Verbindung sind mehr Knoten erforderlich. Umgekehrt sind weniger Knoten erforderlich, um weniger Transaktionen zu verarbeiten. Informationen zu den Auswirkungen der Knoten auf Ihre Connector-Preise finden Sie unter Preise für Verbindungsknoten. Wenn Sie keine Werte eingeben, wird die Mindestanzahl von Knoten standardmäßig auf 2 (für eine bessere Verfügbarkeit) und die maximale Anzahl von Knoten auf 50 festgelegt.
- Projekt-ID: Die ID des Google Cloud-Projekts, in dem sich die Daten befinden.
- Dataset-ID: Die ID des BigQuery-Datasets.
- Proxy verwenden: Klicken Sie dieses Kästchen an, um einen Proxyserver für die Verbindung und die folgenden Werte zu konfigurieren:
-
Proxy-Authentifizierungsschema: Wählen Sie den Authentifizierungstyp für die Authentifizierung beim Proxyserver aus. Die folgenden Authentifizierungstypen werden unterstützt:
- Standard: Basis-HTTP-Authentifizierung.
- Digest: Digest-HTTP-Authentifizierung.
- Proxy User: Ein Nutzername, der zur Authentifizierung beim Proxyserver verwendet werden soll.
- Proxy-Passwort: Das Secret Manager-Secret des Nutzerpassworts.
-
Proxy-SSL-Typ: Der SSL-Typ, der beim Herstellen einer Verbindung zum Proxyserver verwendet werden soll. Die folgenden Authentifizierungstypen werden unterstützt:
- Automatisch: Standardeinstellung. Wenn die URL eine HTTPS-URL ist, wird die Option „Tunnel“ verwendet. Wenn die URL eine HTTP-URL ist, wird die Option NEVER verwendet.
- Immer: Die Verbindung ist immer SSL aktiviert.
- Nie: Die Verbindung ist nicht SSL-fähig.
- Tunnel: Die Verbindung erfolgt über einen Tunneling-Proxy. Der Proxyserver stellt eine Verbindung zum Remote-Host her und der Traffic fließt über den Proxy hin und her.
- Geben Sie im Abschnitt Proxyserver die Details des Proxyservers ein.
- Klicken Sie auf + Ziel hinzufügen.
- Wählen Sie einen Zieltyp aus.
- Hostadresse: Geben Sie den Hostnamen oder die IP-Adresse des Ziels an.
Wenn Sie eine private Verbindung zu Ihrem Back-End-System herstellen möchten, gehen Sie so vor:
- Erstellen Sie einen PSC-Dienstanhang.
- Erstellen Sie einen Endpunktanhang und geben Sie dann die Details des Endpunktanhangs in das Feld Hostadresse ein.
- Hostadresse: Geben Sie den Hostnamen oder die IP-Adresse des Ziels an.
- Klicken Sie optional auf + LABEL HINZUFÜGEN, um der Verbindung ein Label in Form eines Schlüssel/Wert-Paars hinzuzufügen.
- Tippen Sie auf Weiter.
-
Geben Sie im Abschnitt Authentifizierung die Authentifizierungsdetails ein.
- Für die BigQuery-Verbindung ist keine Authentifizierung erforderlich.
- Tippen Sie auf Weiter.
- Überprüfen: Prüfen Sie Ihre Verbindungs- und Authentifizierungsdetails.
- Klicken Sie auf Erstellen.
Entitäten, Vorgänge und Aktionen
Alle Integration Connectors bieten eine Abstraktionsebene für die Objekte der verbundenen Anwendung. Sie können nur über diese Abstraktion auf die Objekte einer Anwendung zugreifen. Die Abstraktion wird Ihnen als Entitäten, Vorgänge und Aktionen zur Verfügung gestellt.
- Entität: Eine Entität kann als Objekt oder Sammlung von Attributen in der verbundenen Anwendung oder im verbundenen Dienst verstanden werden. Die Definition einer Entität unterscheidet sich von Connector zu Connector. Beispiel: In einem Datenbank-Connector sind Tabellen die Entitäten, in einem Dateiserver-Connector sind Ordner die Entitäten und in einem Nachrichtensystem-Connector sind Warteschlangen die Entitäten.
Es ist jedoch möglich, dass ein Connector keine Entitäten unterstützt oder keine Entitäten enthält. In diesem Fall ist die Liste
Entities
leer. - Vorgang: Ein Vorgang ist die Aktivität, die Sie für eine Entität ausführen können. Sie können einen der folgenden Vorgänge für eine Entität ausführen:
Durch Auswahl einer Entität aus der verfügbaren Liste wird eine Liste der Vorgänge generiert, die für die Entität verfügbar sind. Eine detaillierte Beschreibung der Vorgänge finden Sie in den Entitätsvorgängen der Connectors-Aufgabe. Wenn ein Connector jedoch keinen der Entitätsvorgänge unterstützt, werden solche nicht unterstützten Vorgänge nicht in der Liste
Operations
aufgeführt. - Aktion: Eine Aktion ist eine Funktion erster Klasse, die über die Connector-Benutzeroberfläche für die Integration verfügbar gemacht wird. Mit einer Aktion können Sie Änderungen an einer oder mehreren Entitäten vornehmen, die von Connector zu Connector unterschiedlich sind. Es ist jedoch möglich, dass ein Connector keine Aktionen unterstützt. In diesem Fall ist die
Actions
-Liste leer.
Systemeinschränkungen
Der BigQuery-Connector kann maximal 8 Transaktionen pro Sekunde und Knoten verarbeiten und Transaktionen über dieses Limit hinaus drosseln. Standardmäßig weisen Integration Connectors einer Verbindung zwei Knoten zu, um die Verfügbarkeit zu verbessern.
Informationen zu den Limits, die für Integration Connectors gelten, finden Sie hier.
Unterstützte Datentypen
Folgende Datentypen werden für diesen Connector unterstützt:
- BIGINT
- BINARY
- BIT
- BOOLEAN
- CHAR
- DATUM
- DECIMAL
- DOUBLE
- FLOAT
- INTEGER
- LONGN VARCHAR
- LONG VARCHAR
- Nchar
- NUMERIC
- NVARCHAR
- REAL
- KLEINE INTE
- UHRZEIT
- TIMESTAMP
- TINY INT
- VARBINARY
- VARCHAR
Bekannte Probleme
Der BigQuery-Connector unterstützt den Primärschlüssel in einer BigQuery-Tabelle nicht. Das bedeutet, dass Sie die Entitätsvorgänge zum Abrufen, Aktualisieren und Löschen nicht mit einem entityId
ausführen können.
Alternativ können Sie die Filterklausel verwenden, um Datensätze basierend auf einer ID zu filtern.
Aktionen
In diesem Abschnitt werden die im BigQuery-Connector verfügbaren Aktionen beschrieben.
Vorgang „CancelJob“
Mit dieser Aktion können Sie einen laufenden BigQuery-Job abbrechen.
In der folgenden Tabelle werden die Eingabeparameter der Aktion CancelJob
beschrieben.
Parametername | Datentyp | Beschreibung |
---|---|---|
JobId | String | Die ID des Jobs, den Sie abbrechen möchten. Dies ist ein Pflichtfeld. |
Region | String | Die Region, in der der Job gerade ausgeführt wird. Dies ist nicht erforderlich, wenn sich der Job in einer Region in den USA oder in der EU befindet. |
GetJob-Aktion
Mit dieser Aktion können Sie die Konfigurationsinformationen und den Ausführungsstatus eines vorhandenen Jobs abrufen.
In der folgenden Tabelle werden die Eingabeparameter der Aktion GetJob
beschrieben.
Parametername | Datentyp | Beschreibung |
---|---|---|
JobId | String | Die ID des Jobs, für den Sie die Konfiguration abrufen möchten. Dies ist ein Pflichtfeld. |
Region | String | Die Region, in der der Job gerade ausgeführt wird. Dies ist nicht erforderlich, wenn sich der Job in einer Region in den USA oder in der EU befindet. |
Aktion „InsertJob“
Mit dieser Aktion können Sie einen BigQuery-Job einfügen, der später zum Abrufen der Abfrageergebnisse ausgewählt werden kann.
In der folgenden Tabelle werden die Eingabeparameter der Aktion InsertJob
beschrieben.
Parametername | Datentyp | Beschreibung |
---|---|---|
Abfrage | String | Die an BigQuery zu sendende Abfrage. Dies ist ein Pflichtfeld. |
IsDML | String | Sollte auf true gesetzt sein, wenn die Abfrage eine DML-Anweisung ist, oder auf false . Der Standardwert ist false . |
DestinationTable | String | Die Zieltabelle für die Abfrage im Format DestProjectId:DestDatasetId.DestTable . |
WriteDisposition | String | Gibt an, wie Daten in die Zieltabelle geschrieben werden, z. B. das Abschneiden vorhandener Ergebnisse, das Anfügen vorhandener Ergebnisse oder das Schreiben nur, wenn die Tabelle leer ist. Folgende Werte werden unterstützt:
|
DryRun | String | Gibt an, ob der Job als Probelauf ausgeführt wird. |
MaximumBytesBilled | String | Gibt die maximale Anzahl von Byte an, die vom Job verarbeitet werden können. BigQuery bricht den Job ab, wenn der Job versucht, mehr Byte als den angegebenen Wert zu verarbeiten. |
Region | String | Gibt die Region an, in der der Job ausgeführt werden soll. |
Aktion „InsertLoadJob“
Mit dieser Aktion können Sie einen BigQuery-Ladejob einfügen, der Daten aus Google Cloud Storage in eine vorhandene Tabelle einfügt.
In der folgenden Tabelle werden die Eingabeparameter der Aktion InsertLoadJob
beschrieben.
Parametername | Datentyp | Beschreibung |
---|---|---|
SourceURIs | String | Eine durch Leerzeichen getrennte Liste von Google Cloud Storage-URIs. |
SourceFormat | String | Das Quellformat der Dateien. Folgende Werte werden unterstützt:
|
DestinationTable | String | Die Zieltabelle für die Abfrage im Format DestProjectId.DestDatasetId.DestTable . |
DestinationTableProperties | String | Ein JSON-Objekt, das den Anzeigenamen für die Tabelle, die Beschreibung und die Liste der Labels angibt. |
DestinationTableSchema | String | Eine JSON-Liste, die die Felder angibt, die zum Erstellen der Tabelle verwendet werden. |
DestinationEncryptionConfiguration | String | Ein JSON-Objekt, das die KMS-Verschlüsselungseinstellungen für die Tabelle angibt. |
SchemaUpdateOptions | String | Eine JSON-Liste mit den Optionen, die beim Aktualisieren des Zieltabellenschemas angewendet werden sollen. |
TimePartitioning | String | Ein JSON-Objekt, das den Typ und das Feld für die Zeitpartitionierung angibt. |
RangePartitioning | String | Ein JSON-Objekt, das das Feld zur Bereichspartitionierung und die Buckets angibt. |
Clustering | String | Ein JSON-Objekt, das die Felder angibt, die für das Clustering verwendet werden sollen. |
Automatisch erkennen | String | Gibt an, ob Optionen und Schema für JSON- und CSV-Dateien automatisch ermittelt werden sollen. |
CreateDisposition | String | Gibt an, ob die Zieltabelle erstellt werden muss, falls sie noch nicht vorhanden ist. Folgende Werte werden unterstützt:
|
WriteDisposition | String | Gibt an, wie Daten in die Zieltabelle geschrieben werden, z. B. das Abschneiden vorhandener Ergebnisse, das Anfügen vorhandener Ergebnisse oder das Schreiben nur, wenn die Tabelle leer ist. Folgende Werte werden unterstützt:
|
Region | String | Gibt die Region an, in der der Job ausgeführt werden soll. Die Google Cloud Storage-Ressourcen und das BigQuery-Dataset müssen sich in derselben Region befinden. |
DryRun | String | Gibt an, ob der Job als Probelauf ausgeführt wird. Der Standardwert ist false . |
MaximumBadRecords | String | Gibt die Anzahl der Datensätze an, die ungültig sein können, bevor der gesamte Job abgebrochen wird. Standardmäßig müssen alle Datensätze gültig sein. Der Standardwert ist 0 . |
IgnoreUnknownValues | String | Gibt an, ob die unbekannten Felder in der Eingabedatei ignoriert oder als Fehler behandelt werden sollen. Standardmäßig werden sie als Fehler behandelt. Der Standardwert ist false . |
AvroUseLogicalTypes | String | Gibt an, ob logische AVRO-Typen zum Konvertieren von AVRO-Daten in BigQuery-Typen verwendet werden müssen. Der Standardwert ist true . |
CSVSkipLeadingRows | String | Gibt an, wie viele Zeilen am Anfang von CSV-Dateien übersprungen werden sollen. Dies wird normalerweise verwendet, um Kopfzeilen zu überspringen. |
CSVEncoding | String | Codierungstyp der CSV-Dateien. Folgende Werte werden unterstützt:
|
CSVNullMarker | String | Wenn dieser String angegeben wird, wird er für NULL-Werte in CSV-Dateien verwendet. Standardmäßig können CSV-Dateien nicht NULL verwenden. |
CSVFieldDelimiter | String | Das Zeichen, das zum Trennen von Spalten in CSV-Dateien verwendet wird. Der Standardwert ist ein Komma (, ). |
CSVQuote | String | Das Zeichen, das in CSV-Dateien für Felder in Anführungszeichen verwendet wird. Kann auf leer gesetzt werden, um Anführungszeichen zu deaktivieren. Der Standardwert besteht aus doppelten Anführungszeichen (" ). |
CSVAllowQuotedNewlines | String | Gibt an, ob die CSV-Dateien Zeilenumbrüche in Feldern in Anführungszeichen enthalten können. Der Standardwert ist false . |
CSVAllowJaggedRows | String | Gibt an, ob die CSV-Dateien fehlende Felder enthalten dürfen. Der Standardwert ist false . |
DSBackupProjectionFields | String | Eine JSON-Liste der Felder, die aus einer Cloud Datastore-Sicherung geladen werden sollen. |
ParquetOptions | String | Ein JSON-Objekt, das die Parquet-spezifischen Importoptionen angibt. |
DecimalTargetTypes | String | Eine JSON-Liste mit der Präferenzreihenfolge, die auf numerische Typen angewendet wird. |
HivePartitioningOptions | String | Ein JSON-Objekt, das die quellenseitigen Partitionierungsoptionen angibt. |
Benutzerdefinierte SQL-Abfrage ausführen
So erstellen Sie eine benutzerdefinierte Abfrage:
- Folgen Sie der detaillierten Anleitung zum Hinzufügen einer Connector-Aufgabe.
- Wenn Sie die Connector-Aufgabe konfigurieren, wählen Sie als Aktionstyp Aktionen aus.
- Wählen Sie in der Liste Aktion die Option Benutzerdefinierte Abfrage ausführen aus und klicken Sie dann auf Fertig.
- Maximieren Sie den Bereich Aufgabeneingabe und gehen Sie so vor:
- Geben Sie im Feld Zeitlimit nach ein, wie viele Sekunden auf die Ausführung der Abfrage gewartet werden soll.
Standardwert:
180
Sekunden. - Geben Sie im Feld Maximale Anzahl von Zeilen die maximale Anzahl von Zeilen ein, die von der Datenbank zurückgegeben werden sollen.
Standardwert:
25
. - Klicken Sie auf Benutzerdefinierte Abfrage bearbeiten, um die benutzerdefinierte Abfrage zu aktualisieren. Das Dialogfeld Skripteditor wird geöffnet.
- Geben Sie im Dialogfeld Skripteditor die SQL-Abfrage ein und klicken Sie auf Speichern.
Sie können in einer SQL-Anweisung ein Fragezeichen (?) verwenden, um einen einzelnen Parameter darzustellen, der in der Liste der Abfrageparameter angegeben werden muss. Mit der folgenden SQL-Abfrage werden beispielsweise alle Zeilen aus der Tabelle
Employees
ausgewählt, die den in der SpalteLastName
angegebenen Werten entsprechen:SELECT * FROM Employees where LastName=?
- Wenn Sie in Ihrer SQL-Abfrage Fragezeichen verwendet haben, müssen Sie den Parameter hinzufügen, indem Sie bei jedem Fragezeichen auf + Parameternamen hinzufügen klicken. Beim Ausführen der Integration ersetzen diese Parameter die Fragezeichen (?) in der SQL-Abfrage nacheinander. Wenn Sie beispielsweise drei Fragezeichen (?) hinzugefügt haben, müssen Sie drei Parameter in der Reihenfolge der Reihenfolge hinzufügen. So fügen Sie Abfrageparameter hinzu:
- Wählen Sie in der Liste Typ den Datentyp des Parameters aus.
- Geben Sie im Feld Wert den Wert des Parameters ein.
- Wenn Sie mehrere Parameter hinzufügen möchten, klicken Sie auf + Suchparameter hinzufügen.
- Geben Sie im Feld Zeitlimit nach ein, wie viele Sekunden auf die Ausführung der Abfrage gewartet werden soll.
Mit Terraform Verbindungen erstellen
Mit der Terraform-Ressource können Sie eine neue Verbindung erstellen.Informationen zum Anwenden oder Entfernen einer Terraform-Konfiguration finden Sie unter Grundlegende Terraform-Befehle.
Ein Beispiel für eine Terraform-Vorlage zum Erstellen von Verbindungen finden Sie unter Beispielvorlage.
Wenn Sie diese Verbindung mit Terraform erstellen, müssen Sie die folgenden Variablen in der Terraform-Konfigurationsdatei festlegen:
Parametername | Datentyp | Erforderlich | Beschreibung |
---|---|---|---|
project_id | STRING | Wahr | Die ID des Projekts mit dem BigQuery-Dataset, z. B. meinprojekt. |
dataset_id | STRING | Falsch | Dataset-ID des BigQuery-Datasets ohne Projektnamen, z. B. dataset. |
proxy_enabled | BOOLEAN | Falsch | Aktivieren Sie dieses Kästchen, um einen Proxyserver für die Verbindung zu konfigurieren. |
proxy_auth_scheme | ENUM | Falsch | Der Authentifizierungstyp, der zur Authentifizierung beim ProxyServer-Proxy verwendet werden soll. Unterstützte Werte: BASIC, DIGEST, NONE |
proxy_user | STRING | Falsch | Ein Nutzername, der für die Authentifizierung beim ProxyServer-Proxy verwendet werden soll. |
proxy_password | SECRET | Falsch | Ein Passwort, das zur Authentifizierung beim ProxyServer-Proxy verwendet werden soll. |
proxy_ssltype | ENUM | Falsch | Der SSL-Typ, der beim Herstellen einer Verbindung zum ProxyServer-Proxy verwendet werden soll. Unterstützte Werte sind: AUTO, ALWAYS, NEVER, Tunnel |
BigQuery-Verbindung in einer Integration verwenden
Nachdem Sie die Verbindung erstellt haben, ist sie sowohl in Apigee Integration als auch in Application Integration verfügbar. Sie können die Verbindung über die Connector-Aufgabe in einer Integration verwenden.
- Informationen zum Erstellen und Verwenden der Connectors-Aufgabe in der Apigee-Integration finden Sie unter Connectors-Task.
- Informationen zum Erstellen und Verwenden der Aufgabe „Connectors“ in Application Integration finden Sie unter Connectors-Aufgabe.
Hilfe von der Google Cloud-Community erhalten
Sie können Ihre Fragen und Anregungen zu diesem Connector in der Google Cloud-Community unter Cloud-Foren posten.Nächste Schritte
- Informationen zum Sperren und Fortsetzen einer Verbindung
- Informationen zum Überwachen der Connector-Nutzung
- Connector-Protokolle ansehen