Diese Seite wurde von der Cloud Translation API übersetzt.

Datenbank-Batchquelle

Auf dieser Seite finden Sie eine Anleitung zum Konfigurieren des Datenbank-Batch-Quell-Plug-ins in Cloud Data Fusion.

Sie können diese allgemeine Quelle verwenden, wenn Sie aus einer Datenbank lesen müssen. Sie können damit beispielsweise tägliche Snapshots einer generischen Datenbanktabelle erstellen und die Ausgabe in BigQuery schreiben.

Plug-in konfigurieren

Rufen Sie die Cloud Data Fusion-Weboberfläche auf und klicken Sie auf Studio.
Achten Sie darauf, dass Datenpipeline – Batch ausgewählt ist (nicht Echtzeit).
Klicken Sie im Menü Quelle auf Datenbank.
Bewegen Sie den Mauszeiger auf den Plug-in-Knoten und klicken Sie auf Eigenschaften, um das Plug-in zu konfigurieren.
Geben Sie die folgenden Properties ein. Weitere Informationen zu den einzelnen Properties finden Sie unter Properties.
1. Geben Sie ein Label für den Datenbankknoten ein, z. B. database tables.
2. Geben Sie die Verbindungsdetails ein. Sie können eine neue einmalige Verbindung oder eine vorhandene wiederverwendbare Verbindung einrichten.
  Neue Verbindung
  So fügen Sie eine einmalige Verbindung zur Datenbank hinzu:
  1. Lassen Sie die Option Verbindung verwenden deaktiviert.
  2. Geben Sie die folgenden Verbindungseigenschaften ein:
    
    Geben Sie im Feld „Name des JDBC-Treibers“ den Namen des Treibers ein, falls vorhanden. Andernfalls belassen Sie die Auswahl bei Keine JDBC-Plug-ins.
    
    Geben Sie im Feld Verbindungsstring den JDBC-Verbindungsstring einschließlich des Datenbanknamens ein.
    
    Optional: Wenn für Ihre Datenbank eine Authentifizierung erforderlich ist, geben Sie den Nutzernamen und das Passwort für die Datenbank ein.
    
    Optional: Wenn Ihr JDBC-Treiber zusätzliche Konfigurationen benötigt, geben Sie im Feld Verbindungsargumente Schlüssel/Wert-Argumente für die Verbindung ein.
  Wiederverwendbare Verbindung
  So verwenden Sie eine vorhandene Verbindung wieder:
  1. Aktivieren Sie Verbindung verwenden.
  2. Klicken Sie auf Verbindungen durchsuchen.
  3. Wählen Sie die Verbindung aus.
    
    Hinweis :Weitere Informationen zum Hinzufügen, Importieren und Bearbeiten von Verbindungen, die beim Durchsuchen von Verbindungen angezeigt werden, finden Sie unter Verbindungen erstellen und verwalten.
  4. Optional: Wenn noch keine Verbindung vorhanden ist und Sie eine neue, wiederverwendbare Verbindung erstellen möchten, klicken Sie auf Verbindung hinzufügen und folgen Sie der Anleitung auf dem Tab Neue Verbindung auf dieser Seite.
3. Optional: Klicken Sie auf Schema abrufen, um die Verbindung zu testen. Dieses Schema wird anstelle des Schemas verwendet, das von der Abfrage zurückgegeben wird. Es muss mit dem Schema übereinstimmen, das von der Abfrage zurückgegeben wird. Sie können Felder jedoch als „Nullable“ kennzeichnen und es kann einen Teil der Felder enthalten.
4. Geben Sie im Feld Importabfrage eine SELECT-Abfrage zum Importieren von Daten aus der angegebenen Tabelle ein, z. B. select id, name, email, phone from users;.
5. Optional: Geben Sie im Feld Bounding query (Begrenzungsanfrage) den minimalen und maximalen Wert ein, der gelesen werden soll, z. B. SELECT * FROM table WHERE $CONDITIONS.
6. Optional: Geben Sie im Feld Name des Felds für die Aufteilung den Namen des Felds ein, anhand dessen die Aufteilungen generiert werden.
7. Optional: Geben Sie im Feld Anzahl der zu generierenden Aufteilungen eine Zahl ein, z. B. 2.
8. Optional: Geben Sie im Feld Abrufgröße eine Zahl ein, z. B. 1000.
9. Optional: Geben Sie Erweiterte Eigenschaften ein, um z. B. die Groß-/Kleinschreibung der Spaltennamen zu ändern.
Optional: Klicken Sie auf Validieren und beheben Sie alle gefundenen Fehler.
Klicken Sie auf Schließen. Die Properties werden gespeichert und Sie können Ihre Datenpipeline in Cloud Data Fusion Studio weiter erstellen.

Attribute

Attribut	Makro aktiviert	Erforderlich	Beschreibung
Label	Nein	Ja	Der Name des Knotens in Ihrer Datenpipeline.
Verbindung verwenden	Nein	Nein	Suchen Sie nach einer Verbindung zur Quelle. Wenn Verbindung verwenden ausgewählt ist, müssen Sie keine Anmeldedaten angeben.
Verbindung	Ja	Ja	Name der zu verwendenden Verbindung. Wenn Verbindung verwenden ausgewählt ist, wird dieses Feld angezeigt. Datenbank- und Tabelleninformationen werden über die Verbindung bereitgestellt.
Name des JDBC-Treibers	Ja	Ja	Der zu verwendende JDBC-Treiber. Standardmäßig ist Keine JDBC-Plug-ins ausgewählt.
Verbindungsstring	Ja	Ja	JDBC-Verbindungsstring, einschließlich Datenbankname
Nutzername	Ja	Nein	Nutzeridentität für die Verbindung zur Datenbank. Erforderlich für Datenbanken, die eine Authentifizierung erfordern. Optional für Datenbanken, für die keine Authentifizierung erforderlich ist.
Passwort	Ja	Nein	Passwort für die Verbindung zur angegebenen Datenbank. Erforderlich für Datenbanken, die eine Authentifizierung erfordern. Optional für Datenbanken, für die keine Authentifizierung erforderlich ist.
Verbindungsargumente	Ja	Nein	Eine Liste beliebiger String-Tag/Wert-Paare als Verbindungsargumente. Bei JDBC-Treibern, die eine zusätzliche Konfiguration erfordern, werden diese Argumente als Verbindungsargumente im folgenden Format an den JDBC-Treiber übergeben: `key1=value1;key2=value`.
Referenzname	Nein	Ja	Ein Name, der diese Quelle eindeutig für die Datenverlaufskontrolle und das Annotieren von Metadaten identifiziert. Das ist in der Regel der Name der Tabelle oder Ansicht.
Schema abrufen	Nein	Nein	Das Schema der von der Quelle ausgegebene Einträge. Er wird anstelle des Schemas verwendet, das von der Abfrage zurückgegeben wird. Es muss mit dem Schema übereinstimmen, das von der Abfrage zurückgegeben wird. Sie können jedoch Felder als „Nullable“ kennzeichnen und es kann eine Teilmenge der Felder enthalten.
Abfrage importieren	Ja	Ja	Die `SELECT`-Abfrage zum Importieren von Daten aus der angegebenen Tabelle. Sie können eine beliebige Anzahl von Spalten zum Importieren angeben oder alle Spalten mit `` importieren. Die Abfrage muss den String `$CONDITIONS` enthalten. Beispiel: `SELECT FROM table WHERE $CONDITIONS`. Der String `$CONDITIONS` wird durch die im Feld Bounding query angegebene Begrenzung für das Feld `splitBy` ersetzt. Der String `$CONDITIONS` ist nicht erforderlich, wenn das Feld Anzahl der Aufteilungen auf 1 gesetzt ist.
Begrenzungsanfrage	Ja	Nein	Die Begrenzungsabfrage, die das Minimum und Maximum der Werte aus der Spalte mit Teilwerten zurückgibt. Beispiel: `SELECT MIN(id),MAX(id) FROM table`. Nicht erforderlich, wenn die Anzahl der Splits auf 1 festgelegt ist.
Nach Feldname aufteilen	Ja	Nein	Der Feldname, der zum Generieren von Aufteilungen verwendet wird. Nicht erforderlich, wenn die Anzahl der zu generierenden Aufteilungen auf 1 festgelegt ist.
Anzahl der zu generierenden Aufteilungen	Ja	Nein	Anzahl der zu generierenden Splits. 1 ist der Standardwert.
Abrufgröße	Ja	Nein	Die Anzahl der Zeilen, die pro Teilung gleichzeitig abgerufen werden sollen. Eine größere Abrufgröße kann zu einem schnelleren Import führen, was jedoch zu einer höheren Speichernutzung führt. Der Standardwert ist 1.000.
Automatische Commits aktivieren	Nein	Nein	Ob die automatische Commit-Funktion für Abfragen aktiviert werden soll, die über diese Quelle ausgeführt werden. Lassen Sie diese Einstellung auf False, es sei denn, Sie verwenden einen JDBC-Treiber, der beim Ausführen des Commit-Vorgangs zu einem Fehler führt. Default is False.
Groß- und Kleinschreibung von Spaltennamen	Ja	Nein	Legt die Groß- und Kleinschreibung der Spaltennamen fest, die von der Abfrage zurückgegeben werden. Sie können Groß- oder Kleinbuchstaben verwenden. Standardmäßig oder bei jeder anderen Eingabe werden die Spaltennamen nicht geändert und die Groß- und Kleinschreibung wird verwendet, die aus der Datenbank zurückgegeben wird. Wenn Sie diese Property festlegen, ist die Groß- und Kleinschreibung von Spaltennamen in verschiedenen Datenbanken vorhersehbar. Es kann jedoch zu Konflikten bei Spaltennamen kommen, wenn mehrere Spaltennamen identisch sind, wenn die Groß- und Kleinschreibung ignoriert wird. Der Standardwert ist Keine Änderung.
Transaktionsisolationsebene	Ja	Nein	Die Transaktionsisolationsebene für Abfragen, die über diesen Datenablauf ausgeführt werden. Weitere Informationen finden Sie unter `setTransactionIsolation()`. Der Phoenix-JDBC-Treiber löst eine Ausnahme aus, wenn in der Phoenix-Datenbank keine Transaktionen aktiviert sind und dieses Feld auf `true` festgelegt ist. Legen Sie für solche Fahrer `TRANSACTION_NONE` für dieses Feld fest. Default ist TRANSACTION_SERIALIZABLE.
Muster zum Ersetzen	Nein	Nein	Das Muster, das im Feldnamen in der Tabelle ersetzt werden soll (wird in der Regel mit der Eigenschaft Replace with verwendet). Wenn die Property Replace with (Ersetzen durch) nicht festgelegt ist, wird das Muster aus dem Feldnamen entfernt.
Ersetzen durch	Nein	Nein	Der String, der im Feldnamen in der Tabelle ersetzt wird. Außerdem müssen Sie das Feld Muster zum Ersetzen konfigurieren.
Ausgabeschema	Nein	Nein	Gibt das Ausgabeschema an. Nur im Schema definierte Spalten werden in den Ausgabedatensatz aufgenommen.

Best Practices

Prüfen Sie, ob für Ihre Datenbank ein spezielleres Plug-in verfügbar ist. Wenn Sie beispielsweise eine Oracle-Datenbankquelle haben, verwenden Sie stattdessen das Plug-in für die Oracle-Datenbank-Batchquelle, da es für die Arbeit mit dem Oracle-Schema entwickelt wurde.

Versionshinweise

Nächste Schritte

Weitere Informationen zu Plug-ins in Cloud Data Fusion