Sie können diese generische Quelle immer dann verwenden, wenn Sie aus einer Datenbank lesen müssen. Sie können damit beispielsweise tägliche Snapshots einer generischen Datenbanktabelle erstellen und die Ausgabe in BigQuery schreiben.
Plug-in konfigurieren
- Zur Weboberfläche von Cloud Data Fusion und klicke auf Studio.
- Achten Sie darauf, dass Data Pipeline – Batch (Datenpipeline – Batch) ausgewählt ist (nicht Realtime).
- Klicken Sie im Menü Quelle auf Datenbank.
- Halten Sie zum Konfigurieren des Plug-ins den Mauszeiger über den Plug-in-Knoten und klicken Sie auf Properties:
Geben Sie die folgenden Eigenschaften ein. Weitere Informationen zu den einzelnen Eigenschaften Siehe Eigenschaften.
- Geben Sie ein Label für den Datenbankknoten ein, z. B.
database tables
. Geben Sie die Verbindungsdetails ein. Sie können einmalig eine neue Verbindung einrichten, oder eine vorhandene wiederverwendbare Verbindung.
Neue Verbindung
So fügen Sie eine einmalige Verbindung zur Datenbank hinzu:
- Lassen Sie Verbindung verwenden deaktiviert.
- Geben Sie die folgenden Verbindungseigenschaften ein:
- Geben Sie im Feld „Name des JDBC-Treibers“ den Namen des Treibers ein, falls vorhanden. Lassen Sie andernfalls Keine JDBC-Plug-ins ausgewählt.
- Geben Sie im Feld Verbindungsstring die JDBC-Verbindung ein. String einschließlich des Datenbanknamens.
- Optional: Wenn für Ihre Datenbank eine Authentifizierung erforderlich ist, geben Sie den Nutzernamen und das Passwort für die Datenbank ein.
- Optional: Wenn Ihr JDBC-Treiber zusätzliche Konfigurationen benötigt, geben Sie im Feld Verbindungsargumente Schlüssel/Wert-Argumente für die Verbindung ein.
Wiederverwendbare Verbindung
So verwenden Sie eine vorhandene Verbindung wieder:
- Aktivieren Sie Verbindung verwenden.
- Klicken Sie auf Verbindungen durchsuchen.
Wählen Sie die Verbindung aus.
Optional: Wenn keine Verbindung vorhanden ist und Sie eine klicken Sie auf Add connection (Verbindung hinzufügen) und verweisen Sie auf die Schritte auf dem Tab Neue Verbindung auf dieser Seite.
Optional: Klicken Sie auf Schema abrufen, um die Verbindung zu testen. Dieses Schema ist anstelle des von der Abfrage zurückgegebenen Schemas verwendet wird. Er muss mit dem Schema übereinstimmen, das von der Abfrage zurückgegeben wird. Felder als Nullwerte zulässig markieren und eine Teilmenge der Felder enthalten.
Geben Sie im Feld Importabfrage eine
SELECT
-Abfrage zum Importieren von Daten aus der angegebenen Tabelle ein, z. B.select id, name, email, phone from users;
.Optional: Geben Sie im Feld Bounding query (Begrenzungsabfrage) den minimalen und maximalen Wert ein, der gelesen werden soll, z. B.
SELECT * FROM table WHERE $CONDITIONS
.Optional: Geben Sie in das Feld Aufteilen nach Feldname den Namen des zur Generierung der Aufteilungen.
Optional: Geben Sie in das Feld Anzahl der zu generierenden Aufteilungen einen Wert ein. Zahl, z. B.
2
.Optional: Geben Sie im Feld Abrufgröße eine Zahl ein, z. B.
1000
.Optional: Geben Sie Erweiterte Eigenschaften ein und ändern Sie beispielsweise die Groß-/Kleinschreibung Spaltennamen.
- Geben Sie ein Label für den Datenbankknoten ein, z. B.
Optional: Klicken Sie auf Validieren und beheben Sie eventuelle Fehler.
Klicken Sie auf Schließen. Die Properties werden gespeichert und Sie können Ihre Datenpipeline in Cloud Data Fusion Studio weiter erstellen.
Attribute
Attribut | Makro aktiviert | Erforderlich | Beschreibung |
---|---|---|---|
Label | Nein | Ja | Der Name des Knotens in Ihrer Datenpipeline. |
Verbindung verwenden | Nein | Nein | Suchen Sie nach einer Verbindung zur Quelle. Wenn Verbindung verwenden ausgewählt ist, müssen Sie keine Anmeldedaten angeben. |
Verbindung | Ja | Ja | Name der zu verwendenden Verbindung. Wenn Verbindung verwenden ausgewählt ist, wird dieses Feld angezeigt. Datenbank- und Tabelleninformationen werden über die Verbindung bereitgestellt. |
JDBC-Treibername | Ja | Ja | Der zu verwendende JDBC-Treiber. Der Standardwert ist Keine JDBC-Plug-ins. |
Verbindungsstring | Ja | Ja | JDBC-Verbindungsstring, einschließlich Datenbankname |
Nutzername | Ja | Nein | Nutzeridentität zum Herstellen einer Verbindung zur Datenbank. Erforderlich für Datenbanken, die eine Authentifizierung erfordern. Optional für Datenbanken, für die keine Authentifizierung erforderlich ist. |
Passwort | Ja | Nein | Passwort für die Verbindung mit der angegebenen Datenbank. Erforderlich für Datenbanken, die eine Authentifizierung erfordern. Optional für Datenbanken, die keine erfordern eine Authentifizierung. |
Verbindungsargumente | Ja | Nein | Eine Liste mit beliebigen String-Tag/Wert-Paaren als Verbindungsargumente.
Bei JDBC-Treibern, die eine zusätzliche Konfiguration erfordern, werden diese Argumente als Verbindungsargumente im folgenden Format an den JDBC-Treiber übergeben: key1=value1;key2=value . |
Referenzname | Nein | Ja | Ein Name, der diese Quelle für Herkunft und Anmerkungen eindeutig identifiziert Metadaten. In der Regel ist das der Name der Tabelle oder Ansicht. |
Schema abrufen | Nein | Nein | Das Schema der von der Quelle ausgegebene Einträge. Es wird anstelle des das von der Abfrage zurückgegeben wird. Es muss mit dem Schema übereinstimmen, das von der Abfrage zurückgegeben wird, mit der Ausnahme, dass Sie Felder als „Nullable“ kennzeichnen und es eine Teilmenge der Felder enthalten kann. |
Abfrage importieren | Ja | Ja | Die SELECT -Abfrage zum Importieren von Daten aus der angegebenen Tabelle. Sie können eine beliebige Anzahl von Spalten zum Importieren angeben oder alle Spalten mit * importieren. Die Abfrage sollte den Parameter
$CONDITIONS -String. Beispiel:
SELECT * FROM table WHERE $CONDITIONS Die
Der String „$CONDITIONS “ wird durch das Feld „splitBy “ ersetzt
das Limit, das im Feld Begrenzungsabfrage angegeben wurde. Der String $CONDITIONS ist nicht erforderlich, wenn das Feld Anzahl der Aufteilungen auf 1 gesetzt ist. |
Begrenzungsanfrage | Ja | Nein | Die Begrenzungsabfrage, die den Mindest- und Höchstwert der Werte zurückgibt
aus der Spalte „Split“. Beispiel: SELECT MIN(id),MAX(id) FROM table . Nicht erforderlich, wenn die Anzahl der Splits auf 1 festgelegt ist. |
Nach Feldname aufteilen | Ja | Nein | Der Feldname, der zum Generieren von Aufteilungen verwendet wird. Nicht erforderlich, wenn die Anzahl der zu generierenden Aufteilungen auf 1 festgelegt ist. |
Anzahl der zu generierenden Aufteilungen | Ja | Nein | Anzahl der zu generierenden Splits. Der Standardwert ist 1. |
Abrufgröße | Ja | Nein | Die Anzahl der Zeilen, die pro Teilung gleichzeitig abgerufen werden sollen. Eine größere Abrufgröße kann zu einem schnelleren Import führen, was jedoch zu einer höheren Speichernutzung führt. Der Standardwert ist 1000. |
Automatische Commits aktivieren | Nein | Nein | Gibt an, ob Autocommit für Abfragen aktiviert wird, die von dieser Quelle ausgeführt werden. Lassen Sie diese Einstellung auf False, es sei denn, Sie verwenden einen JDBC-Treiber, der beim Ausführen des Commit-Vorgangs zu einem Fehler führt. Standardwert ist False. |
Groß- und Kleinschreibung von Spaltennamen | Ja | Nein | Legt die Groß-/Kleinschreibung der Spaltennamen fest, die von der Abfrage zurückgegeben werden. Ich
können Sie zwischen Groß- und
Kleinschreibung wählen. Standardmäßig und bei jeder anderen Eingabe
werden die Spaltennamen nicht geändert und die Groß-/Kleinschreibung wird vom
Datenbank verwendet wird. Durch Festlegen dieses Attributs können Sie
die Großschreibung von Spaltennamen in verschiedenen Datenbanken.
Spaltennamen steht in Konflikt, wenn mehrere Spaltennamen identisch sind, wenn die Groß-/Kleinschreibung
wird ignoriert. Die Standardeinstellung ist Keine Änderung. |
Transaktionsisolationsebene | Ja | Nein | Die Transaktionsisolationsebene für Abfragen, die über diesen Datenablauf ausgeführt werden. Weitere Informationen finden Sie unter setTransactionIsolation() .
Der Phoenix-JDBC-Treiber löst eine Ausnahme aus, wenn die Phoenix-Datenbank
Für sind keine Transaktionen aktiviert und dieses Feld ist auf
true Legen Sie für solche Fahrer TRANSACTION_NONE für dieses Feld fest.Der Standardwert ist TRANSACTION_SERIALIZABLE. |
Zu ersetzendes Muster | Nein | Nein | Das Muster, das im Feldnamen in der Tabelle ersetzt werden soll (wird in der Regel mit der Eigenschaft Replace with verwendet). Wenn die Property Replace with (Ersetzen durch) nicht festgelegt ist, wird das Muster aus dem Feldnamen entfernt. |
Ersetzen durch | Nein | Nein | Der String, der im Feldnamen in der Tabelle ersetzt wird. Außerdem müssen Sie das Feld Zu ersetzendes Muster konfigurieren. |
Ausgabeschema | Nein | Nein | Gibt das Ausgabeschema an. Nur im Schema definierte Spalten im Ausgabedatensatz enthalten. |
Best Practices
Prüfen Sie, ob für Ihre Datenbank ein spezielleres Plug-in verfügbar ist. Beispiel: Sie eine Oracle-Datenbankquelle haben, verwenden Sie stattdessen die Oracle-Datenbank-Batchquelle da es für das Oracle-Schema entwickelt wurde.