Datenbank-Batchquelle

Auf dieser Seite finden Sie eine Anleitung zum Konfigurieren des Datenbank-Batch-Quell-Plug-ins in Cloud Data Fusion.

Sie können diese allgemeine Quelle verwenden, wenn Sie aus einer Datenbank lesen müssen. Sie können damit beispielsweise tägliche Snapshots einer generischen Datenbanktabelle erstellen und die Ausgabe in BigQuery schreiben.

Plug-in konfigurieren

  1. Rufen Sie die Cloud Data Fusion-Weboberfläche auf und klicken Sie auf Studio.
  2. Achten Sie darauf, dass Datenpipeline – Batch ausgewählt ist (nicht Echtzeit).
  3. Klicken Sie im Menü Quelle auf Datenbank.
  4. Bewegen Sie den Mauszeiger auf den Plug-in-Knoten und klicken Sie auf Eigenschaften, um das Plug-in zu konfigurieren.
  5. Geben Sie die folgenden Properties ein. Weitere Informationen zu den einzelnen Properties finden Sie unter Properties.

    1. Geben Sie ein Label für den Datenbankknoten ein, z. B. database tables.
    2. Geben Sie die Verbindungsdetails ein. Sie können eine neue einmalige Verbindung oder eine vorhandene wiederverwendbare Verbindung einrichten.

      Neue Verbindung

      So fügen Sie eine einmalige Verbindung zur Datenbank hinzu:

      1. Lassen Sie die Option Verbindung verwenden deaktiviert.
      2. Geben Sie die folgenden Verbindungseigenschaften ein:
        1. Geben Sie im Feld „Name des JDBC-Treibers“ den Namen des Treibers ein, falls vorhanden. Andernfalls belassen Sie die Auswahl bei Keine JDBC-Plug-ins.
        2. Geben Sie im Feld Verbindungsstring den JDBC-Verbindungsstring einschließlich des Datenbanknamens ein.
        3. Optional: Wenn für Ihre Datenbank eine Authentifizierung erforderlich ist, geben Sie den Nutzernamen und das Passwort für die Datenbank ein.
        4. Optional: Wenn Ihr JDBC-Treiber zusätzliche Konfigurationen benötigt, geben Sie im Feld Verbindungsargumente Schlüssel/Wert-Argumente für die Verbindung ein.

      Wiederverwendbare Verbindung

      So verwenden Sie eine vorhandene Verbindung wieder:

      1. Aktivieren Sie Verbindung verwenden.
      2. Klicken Sie auf Verbindungen durchsuchen.
      3. Wählen Sie die Verbindung aus.

      4. Optional: Wenn noch keine Verbindung vorhanden ist und Sie eine neue, wiederverwendbare Verbindung erstellen möchten, klicken Sie auf Verbindung hinzufügen und folgen Sie der Anleitung auf dem Tab Neue Verbindung auf dieser Seite.

    3. Optional: Klicken Sie auf Schema abrufen, um die Verbindung zu testen. Dieses Schema wird anstelle des Schemas verwendet, das von der Abfrage zurückgegeben wird. Es muss mit dem Schema übereinstimmen, das von der Abfrage zurückgegeben wird. Sie können Felder jedoch als „Nullable“ kennzeichnen und es kann einen Teil der Felder enthalten.

    4. Geben Sie im Feld Importabfrage eine SELECT-Abfrage zum Importieren von Daten aus der angegebenen Tabelle ein, z. B. select id, name, email, phone from users;.

    5. Optional: Geben Sie im Feld Bounding query (Begrenzungsanfrage) den minimalen und maximalen Wert ein, der gelesen werden soll, z. B. SELECT * FROM table WHERE $CONDITIONS.

    6. Optional: Geben Sie im Feld Name des Felds für die Aufteilung den Namen des Felds ein, anhand dessen die Aufteilungen generiert werden.

    7. Optional: Geben Sie im Feld Anzahl der zu generierenden Aufteilungen eine Zahl ein, z. B. 2.

    8. Optional: Geben Sie im Feld Abrufgröße eine Zahl ein, z. B. 1000.

    9. Optional: Geben Sie Erweiterte Eigenschaften ein, um z. B. die Groß-/Kleinschreibung der Spaltennamen zu ändern.

  6. Optional: Klicken Sie auf Validieren und beheben Sie alle gefundenen Fehler.

  7. Klicken Sie auf Schließen. Die Properties werden gespeichert und Sie können Ihre Datenpipeline in Cloud Data Fusion Studio weiter erstellen.

Attribute

Attribut Makro aktiviert Erforderlich Beschreibung
Label Nein Ja Der Name des Knotens in Ihrer Datenpipeline.
Verbindung verwenden Nein Nein Suchen Sie nach einer Verbindung zur Quelle. Wenn Verbindung verwenden ausgewählt ist, müssen Sie keine Anmeldedaten angeben.
Verbindung Ja Ja Name der zu verwendenden Verbindung. Wenn Verbindung verwenden ausgewählt ist, wird dieses Feld angezeigt. Datenbank- und Tabelleninformationen werden über die Verbindung bereitgestellt.
Name des JDBC-Treibers Ja Ja Der zu verwendende JDBC-Treiber.
Standardmäßig ist Keine JDBC-Plug-ins ausgewählt.
Verbindungsstring Ja Ja JDBC-Verbindungsstring, einschließlich Datenbankname
Nutzername Ja Nein Nutzeridentität für die Verbindung zur Datenbank. Erforderlich für Datenbanken, die eine Authentifizierung erfordern. Optional für Datenbanken, für die keine Authentifizierung erforderlich ist.
Passwort Ja Nein Passwort für die Verbindung zur angegebenen Datenbank. Erforderlich für Datenbanken, die eine Authentifizierung erfordern. Optional für Datenbanken, für die keine Authentifizierung erforderlich ist.
Verbindungsargumente Ja Nein Eine Liste beliebiger String-Tag/Wert-Paare als Verbindungsargumente. Bei JDBC-Treibern, die eine zusätzliche Konfiguration erfordern, werden diese Argumente als Verbindungsargumente im folgenden Format an den JDBC-Treiber übergeben: key1=value1;key2=value.
Referenzname Nein Ja Ein Name, der diese Quelle eindeutig für die Datenverlaufskontrolle und das Annotieren von Metadaten identifiziert. Das ist in der Regel der Name der Tabelle oder Ansicht.
Schema abrufen Nein Nein Das Schema der von der Quelle ausgegebene Einträge. Er wird anstelle des Schemas verwendet, das von der Abfrage zurückgegeben wird. Es muss mit dem Schema übereinstimmen, das von der Abfrage zurückgegeben wird. Sie können jedoch Felder als „Nullable“ kennzeichnen und es kann eine Teilmenge der Felder enthalten.
Abfrage importieren Ja Ja Die SELECT-Abfrage zum Importieren von Daten aus der angegebenen Tabelle. Sie können eine beliebige Anzahl von Spalten zum Importieren angeben oder alle Spalten mit * importieren. Die Abfrage muss den String $CONDITIONS enthalten. Beispiel: SELECT * FROM table WHERE $CONDITIONS. Der String $CONDITIONS wird durch die im Feld Bounding query angegebene Begrenzung für das Feld splitBy ersetzt. Der String $CONDITIONS ist nicht erforderlich, wenn das Feld Anzahl der Aufteilungen auf 1 gesetzt ist.
Begrenzungsanfrage Ja Nein Die Begrenzungsabfrage, die das Minimum und Maximum der Werte aus der Spalte mit Teilwerten zurückgibt. Beispiel: SELECT MIN(id),MAX(id) FROM table. Nicht erforderlich, wenn die Anzahl der Splits auf 1 festgelegt ist.
Nach Feldname aufteilen Ja Nein Der Feldname, der zum Generieren von Aufteilungen verwendet wird. Nicht erforderlich, wenn die Anzahl der zu generierenden Aufteilungen auf 1 festgelegt ist.
Anzahl der zu generierenden Aufteilungen Ja Nein Anzahl der zu generierenden Splits.
1 ist der Standardwert.
Abrufgröße Ja Nein Die Anzahl der Zeilen, die pro Teilung gleichzeitig abgerufen werden sollen. Eine größere Abrufgröße kann zu einem schnelleren Import führen, was jedoch zu einer höheren Speichernutzung führt.
Der Standardwert ist 1.000.
Automatische Commits aktivieren Nein Nein Ob die automatische Commit-Funktion für Abfragen aktiviert werden soll, die über diese Quelle ausgeführt werden. Lassen Sie diese Einstellung auf False, es sei denn, Sie verwenden einen JDBC-Treiber, der beim Ausführen des Commit-Vorgangs zu einem Fehler führt.
Default is False.
Groß- und Kleinschreibung von Spaltennamen Ja Nein Legt die Groß- und Kleinschreibung der Spaltennamen fest, die von der Abfrage zurückgegeben werden. Sie können Groß- oder Kleinbuchstaben verwenden. Standardmäßig oder bei jeder anderen Eingabe werden die Spaltennamen nicht geändert und die Groß- und Kleinschreibung wird verwendet, die aus der Datenbank zurückgegeben wird. Wenn Sie diese Property festlegen, ist die Groß- und Kleinschreibung von Spaltennamen in verschiedenen Datenbanken vorhersehbar. Es kann jedoch zu Konflikten bei Spaltennamen kommen, wenn mehrere Spaltennamen identisch sind, wenn die Groß- und Kleinschreibung ignoriert wird.
Der Standardwert ist Keine Änderung.
Transaktionsisolationsebene Ja Nein Die Transaktionsisolationsebene für Abfragen, die über diesen Datenablauf ausgeführt werden. Weitere Informationen finden Sie unter setTransactionIsolation(). Der Phoenix-JDBC-Treiber löst eine Ausnahme aus, wenn in der Phoenix-Datenbank keine Transaktionen aktiviert sind und dieses Feld auf true festgelegt ist. Legen Sie für solche Fahrer TRANSACTION_NONE für dieses Feld fest.
Default ist TRANSACTION_SERIALIZABLE.
Muster zum Ersetzen Nein Nein Das Muster, das im Feldnamen in der Tabelle ersetzt werden soll (wird in der Regel mit der Eigenschaft Replace with verwendet). Wenn die Property Replace with (Ersetzen durch) nicht festgelegt ist, wird das Muster aus dem Feldnamen entfernt.
Ersetzen durch Nein Nein Der String, der im Feldnamen in der Tabelle ersetzt wird. Außerdem müssen Sie das Feld Muster zum Ersetzen konfigurieren.
Ausgabeschema Nein Nein Gibt das Ausgabeschema an. Nur im Schema definierte Spalten werden in den Ausgabedatensatz aufgenommen.

Best Practices

Prüfen Sie, ob für Ihre Datenbank ein spezielleres Plug-in verfügbar ist. Wenn Sie beispielsweise eine Oracle-Datenbankquelle haben, verwenden Sie stattdessen das Plug-in für die Oracle-Datenbank-Batchquelle, da es für die Arbeit mit dem Oracle-Schema entwickelt wurde.

Nächste Schritte