Datenbank-Batchquelle

Auf dieser Seite finden Sie eine Anleitung zum Konfigurieren des Datenbank-Batch-Quell-Plug-ins in Cloud Data Fusion.

Sie können diese generische Quelle immer dann verwenden, wenn Sie aus einer Datenbank lesen müssen. Sie können damit beispielsweise tägliche Snapshots einer generischen Datenbanktabelle erstellen und die Ausgabe in BigQuery schreiben.

Plug-in konfigurieren

  1. Zur Weboberfläche von Cloud Data Fusion und klicke auf Studio.
  2. Achten Sie darauf, dass Data Pipeline – Batch (Datenpipeline – Batch) ausgewählt ist (nicht Realtime).
  3. Klicken Sie im Menü Quelle auf Datenbank.
  4. Halten Sie zum Konfigurieren des Plug-ins den Mauszeiger über den Plug-in-Knoten und klicken Sie auf Properties:
  5. Geben Sie die folgenden Eigenschaften ein. Weitere Informationen zu den einzelnen Eigenschaften Siehe Eigenschaften.

    1. Geben Sie ein Label für den Datenbankknoten ein, z. B. database tables.
    2. Geben Sie die Verbindungsdetails ein. Sie können einmalig eine neue Verbindung einrichten, oder eine vorhandene wiederverwendbare Verbindung.

      Neue Verbindung

      So fügen Sie eine einmalige Verbindung zur Datenbank hinzu:

      1. Lassen Sie Verbindung verwenden deaktiviert.
      2. Geben Sie die folgenden Verbindungseigenschaften ein:
        1. Geben Sie im Feld „Name des JDBC-Treibers“ den Namen des Treibers ein, falls vorhanden. Lassen Sie andernfalls Keine JDBC-Plug-ins ausgewählt.
        2. Geben Sie im Feld Verbindungsstring die JDBC-Verbindung ein. String einschließlich des Datenbanknamens.
        3. Optional: Wenn für Ihre Datenbank eine Authentifizierung erforderlich ist, geben Sie den Nutzernamen und das Passwort für die Datenbank ein.
        4. Optional: Wenn Ihr JDBC-Treiber zusätzliche Konfigurationen benötigt, geben Sie im Feld Verbindungsargumente Schlüssel/Wert-Argumente für die Verbindung ein.

      Wiederverwendbare Verbindung

      So verwenden Sie eine vorhandene Verbindung wieder:

      1. Aktivieren Sie Verbindung verwenden.
      2. Klicken Sie auf Verbindungen durchsuchen.
      3. Wählen Sie die Verbindung aus.

      4. Optional: Wenn keine Verbindung vorhanden ist und Sie eine klicken Sie auf Add connection (Verbindung hinzufügen) und verweisen Sie auf die Schritte auf dem Tab Neue Verbindung auf dieser Seite.

    3. Optional: Klicken Sie auf Schema abrufen, um die Verbindung zu testen. Dieses Schema ist anstelle des von der Abfrage zurückgegebenen Schemas verwendet wird. Er muss mit dem Schema übereinstimmen, das von der Abfrage zurückgegeben wird. Felder als Nullwerte zulässig markieren und eine Teilmenge der Felder enthalten.

    4. Geben Sie im Feld Importabfrage eine SELECT-Abfrage zum Importieren von Daten aus der angegebenen Tabelle ein, z. B. select id, name, email, phone from users;.

    5. Optional: Geben Sie im Feld Bounding query (Begrenzungsabfrage) den minimalen und maximalen Wert ein, der gelesen werden soll, z. B. SELECT * FROM table WHERE $CONDITIONS.

    6. Optional: Geben Sie in das Feld Aufteilen nach Feldname den Namen des zur Generierung der Aufteilungen.

    7. Optional: Geben Sie in das Feld Anzahl der zu generierenden Aufteilungen einen Wert ein. Zahl, z. B. 2.

    8. Optional: Geben Sie im Feld Abrufgröße eine Zahl ein, z. B. 1000.

    9. Optional: Geben Sie Erweiterte Eigenschaften ein und ändern Sie beispielsweise die Groß-/Kleinschreibung Spaltennamen.

  6. Optional: Klicken Sie auf Validieren und beheben Sie eventuelle Fehler.

  7. Klicken Sie auf Schließen. Die Properties werden gespeichert und Sie können Ihre Datenpipeline in Cloud Data Fusion Studio weiter erstellen.

Attribute

Attribut Makro aktiviert Erforderlich Beschreibung
Label Nein Ja Der Name des Knotens in Ihrer Datenpipeline.
Verbindung verwenden Nein Nein Suchen Sie nach einer Verbindung zur Quelle. Wenn Verbindung verwenden ausgewählt ist, müssen Sie keine Anmeldedaten angeben.
Verbindung Ja Ja Name der zu verwendenden Verbindung. Wenn Verbindung verwenden ausgewählt ist, wird dieses Feld angezeigt. Datenbank- und Tabelleninformationen werden über die Verbindung bereitgestellt.
JDBC-Treibername Ja Ja Der zu verwendende JDBC-Treiber.
Der Standardwert ist Keine JDBC-Plug-ins.
Verbindungsstring Ja Ja JDBC-Verbindungsstring, einschließlich Datenbankname
Nutzername Ja Nein Nutzeridentität zum Herstellen einer Verbindung zur Datenbank. Erforderlich für Datenbanken, die eine Authentifizierung erfordern. Optional für Datenbanken, für die keine Authentifizierung erforderlich ist.
Passwort Ja Nein Passwort für die Verbindung mit der angegebenen Datenbank. Erforderlich für Datenbanken, die eine Authentifizierung erfordern. Optional für Datenbanken, die keine erfordern eine Authentifizierung.
Verbindungsargumente Ja Nein Eine Liste mit beliebigen String-Tag/Wert-Paaren als Verbindungsargumente. Bei JDBC-Treibern, die eine zusätzliche Konfiguration erfordern, werden diese Argumente als Verbindungsargumente im folgenden Format an den JDBC-Treiber übergeben: key1=value1;key2=value.
Referenzname Nein Ja Ein Name, der diese Quelle für Herkunft und Anmerkungen eindeutig identifiziert Metadaten. In der Regel ist das der Name der Tabelle oder Ansicht.
Schema abrufen Nein Nein Das Schema der von der Quelle ausgegebene Einträge. Es wird anstelle des das von der Abfrage zurückgegeben wird. Es muss mit dem Schema übereinstimmen, das von der Abfrage zurückgegeben wird, mit der Ausnahme, dass Sie Felder als „Nullable“ kennzeichnen und es eine Teilmenge der Felder enthalten kann.
Abfrage importieren Ja Ja Die SELECT-Abfrage zum Importieren von Daten aus der angegebenen Tabelle. Sie können eine beliebige Anzahl von Spalten zum Importieren angeben oder alle Spalten mit * importieren. Die Abfrage sollte den Parameter $CONDITIONS-String. Beispiel: SELECT * FROM table WHERE $CONDITIONS Die Der String „$CONDITIONS“ wird durch das Feld „splitBy“ ersetzt das Limit, das im Feld Begrenzungsabfrage angegeben wurde. Der String $CONDITIONS ist nicht erforderlich, wenn das Feld Anzahl der Aufteilungen auf 1 gesetzt ist.
Begrenzungsanfrage Ja Nein Die Begrenzungsabfrage, die den Mindest- und Höchstwert der Werte zurückgibt aus der Spalte „Split“. Beispiel: SELECT MIN(id),MAX(id) FROM table. Nicht erforderlich, wenn die Anzahl der Splits auf 1 festgelegt ist.
Nach Feldname aufteilen Ja Nein Der Feldname, der zum Generieren von Aufteilungen verwendet wird. Nicht erforderlich, wenn die Anzahl der zu generierenden Aufteilungen auf 1 festgelegt ist.
Anzahl der zu generierenden Aufteilungen Ja Nein Anzahl der zu generierenden Splits.
Der Standardwert ist 1.
Abrufgröße Ja Nein Die Anzahl der Zeilen, die pro Teilung gleichzeitig abgerufen werden sollen. Eine größere Abrufgröße kann zu einem schnelleren Import führen, was jedoch zu einer höheren Speichernutzung führt.
Der Standardwert ist 1000.
Automatische Commits aktivieren Nein Nein Gibt an, ob Autocommit für Abfragen aktiviert wird, die von dieser Quelle ausgeführt werden. Lassen Sie diese Einstellung auf False, es sei denn, Sie verwenden einen JDBC-Treiber, der beim Ausführen des Commit-Vorgangs zu einem Fehler führt.
Standardwert ist False.
Groß- und Kleinschreibung von Spaltennamen Ja Nein Legt die Groß-/Kleinschreibung der Spaltennamen fest, die von der Abfrage zurückgegeben werden. Ich können Sie zwischen Groß- und Kleinschreibung wählen. Standardmäßig und bei jeder anderen Eingabe werden die Spaltennamen nicht geändert und die Groß-/Kleinschreibung wird vom Datenbank verwendet wird. Durch Festlegen dieses Attributs können Sie die Großschreibung von Spaltennamen in verschiedenen Datenbanken. Spaltennamen steht in Konflikt, wenn mehrere Spaltennamen identisch sind, wenn die Groß-/Kleinschreibung wird ignoriert.
Die Standardeinstellung ist Keine Änderung.
Transaktionsisolationsebene Ja Nein Die Transaktionsisolationsebene für Abfragen, die über diesen Datenablauf ausgeführt werden. Weitere Informationen finden Sie unter setTransactionIsolation(). Der Phoenix-JDBC-Treiber löst eine Ausnahme aus, wenn die Phoenix-Datenbank Für sind keine Transaktionen aktiviert und dieses Feld ist auf true Legen Sie für solche Fahrer TRANSACTION_NONE für dieses Feld fest.
Der Standardwert ist TRANSACTION_SERIALIZABLE.
Zu ersetzendes Muster Nein Nein Das Muster, das im Feldnamen in der Tabelle ersetzt werden soll (wird in der Regel mit der Eigenschaft Replace with verwendet). Wenn die Property Replace with (Ersetzen durch) nicht festgelegt ist, wird das Muster aus dem Feldnamen entfernt.
Ersetzen durch Nein Nein Der String, der im Feldnamen in der Tabelle ersetzt wird. Außerdem müssen Sie das Feld Zu ersetzendes Muster konfigurieren.
Ausgabeschema Nein Nein Gibt das Ausgabeschema an. Nur im Schema definierte Spalten im Ausgabedatensatz enthalten.

Best Practices

Prüfen Sie, ob für Ihre Datenbank ein spezielleres Plug-in verfügbar ist. Beispiel: Sie eine Oracle-Datenbankquelle haben, verwenden Sie stattdessen die Oracle-Datenbank-Batchquelle da es für das Oracle-Schema entwickelt wurde.

Nächste Schritte