Diese Seite wurde von der Cloud Translation API übersetzt.

Daten mithilfe von Vorlagen aufnehmen

Dataplex bietet Vorlagen (basierend auf Dataflow), mit denen häufige Datenverarbeitungsaufgaben wie die Datenaufnahme, Verarbeitung und Verwaltung des Datenlebenszyklus ausgeführt werden können. In dieser Anleitung wird beschrieben, wie Sie eine Vorlage konfigurieren und ausführen, die Daten über eine JDBC-Verbindung aufnimmt.

Hinweise

Dataplex-Aufgabenvorlagen basieren auf Dataflow. Aktivieren Sie die Dataflow APIs, bevor Sie Vorlagen verwenden.

Dataflow APIs aktivieren

Vorlage: Daten über eine JDBC-Verbindung in Dataplex aufnehmen

Mit der Dataplex-JDBC-Aufnahmevorlage werden Daten aus einer relationalen Datenbank in ein Dataplex-Asset-Ziel kopiert. Das Dataplex-Asset kann ein Cloud Storage- oder BigQuery-Asset sein.

Diese Pipeline verwendet JDBC, um eine Verbindung zur relationalen Datenbank herzustellen. Als zusätzliche Schutzmaßnahme können Sie auch einen Cloud KMS-Schlüssel zusammen mit einem Base64-codierten Nutzernamen, Passwort und Verbindungsstring-Parametern übergeben, die mit dem Cloud KMS-Schlüssel verschlüsselt sind.

Die Vorlage verarbeitet die verschiedenen Asset-Typen transparent. Die im Cloud Storage-Asset gespeicherten Daten werden im Hive-Partitionierungsstil gespeichert und über Dataplex Discovery automatisch als Tabelle in Data Catalog, BigQuery (externe Tabelle) oder einer angehängten Dataproc Metastore-Instanz verfügbar gemacht.

Vorlagenparameter

Parameter	Beschreibung
`driverJars`	Trennen Sie Cloud Storage-Pfade für JDBC-Treiber mit Kommas. Beispiel: `gs://your-bucket/driver_jar1.jar`, `gs://your-bucket/driver_jar2.jar.`
`connectionURL`	Der URL-Verbindungsstring für die Verbindung zur JDBC-Quelle. Beispiel: `jdbc:mysql://some-host:3306/sampledb`. Sie können die Verbindungs-URL als Klartext oder als Base64-codierten String übergeben, der mit Cloud KMS verschlüsselt ist.
`driverClassName`	Der Name der JDBC-Treiberklasse. Beispiel: `com.mysql.jdbc.Driver`.
`connectionProperties`	Attributstring für die JDBC-Verbindung. Beispiel: `unicode=true&characterEncoding=UTF-8`.
`query`	Die Abfrage, die in der Quelle zur Extraktion der Daten ausgeführt wird. Beispiel: `select * from sampledb.sample_table`.
`outputAsset`	Die Dataplex-Ausgabe-Asset-ID, in der die Ergebnisse gespeichert werden. Verwenden Sie für die ID das Format `projects/your-project/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/assets/<asset-name></code>`. Sie finden die `outputAsset` in der Google Cloud Console auf dem Tab Details des Dataplex-Assets.
`username`	Der Nutzername, der für die JDBC-Verbindung verwendet werden soll. Sie können den Nutzernamen als Klartext oder als Base64-codierten String übergeben, der mit Cloud KMS verschlüsselt ist.
`password`	Das Passwort für die JDBC-Verbindung. Sie können das Passwort als Klartext oder als Base64-codierten String übergeben, der mit Cloud KMS verschlüsselt ist.
`outputTable`	Der Speicherort der BigQuery-Tabelle oder der Name des Cloud Storage-Oberordners, in den die Ausgabe geschrieben werden soll. Wenn es sich um den Speicherort einer BigQuery-Tabelle handelt, muss das Schema der Tabelle mit dem Schema der Quellabfrage übereinstimmen und im Format `some-project-id:somedataset.sometable` vorliegen. Wenn es sich um einen Cloud Storage-Ordner der obersten Ebene handelt, geben Sie den Namen des Ordners der obersten Ebene an.
`KMSEncryptionKey`	Optional: Wenn Sie den Parameter `KMSEncryptionKey` angeben, müssen `password`, `username` und `connectionURL` mit Cloud KMS verschlüsselt sein. Verschlüsseln Sie diese Parameter mit dem Verschlüsselungsendpunkt der Cloud KMS API. Beispiel: `projects/your-project/locations/global/keyRings/test/cryptoKeys/quickstart`.
`writeDisposition`	Optional: Die Strategie, die angewendet werden soll, wenn die Zieldatei/-tabelle vorhanden ist. Es werden die Formate `WRITE_APPEND` (Zeilen werden angefügt, wenn die Tabelle vorhanden ist), `WRITE_TRUNCATE` (Tabelle/Datei wird überschrieben), `WRITE_EMPTY` (Ausgabetabelle muss leer sein/Ausgabedatei darf nicht vorhanden sein) und `SKIP` (Schreiben in Datei wird übersprungen, wenn sie vorhanden ist) unterstützt. Für BigQuery sind folgende Formate zulässig: `WRITE_APPEND`, `WRITE_TRUNCATE`, `WRITE_EMPTY`. Für Cloud Storage sind folgende Formate zulässig: `SKIP`, `WRITE_TRUNCATE`, `WRITE_EMPTY`. Standard: `WRITE_EMPTY`.
`partitioningScheme`	Optional: Das Partitionsschema beim Schreiben der Datei. Der Standardwert für diesen Parameter ist `DAILY`. Andere Werte für den Parameter können `MONTHLY` oder `HOURLY` sein.
`partitionColumn`	Optional: Die Partitionsspalte, auf der die Partition basiert. Der Spaltentyp muss das Format `timestamp/date` haben. Wenn der Parameter `partitionColumn` nicht angegeben wird, werden die Daten nicht partitioniert.
`fileFormat`	Optional: Das Ausgabedateiformat in Cloud Storage. Dateien werden mit der Standardeinstellung „Snappy-Komprimierung“ komprimiert. Der Standardwert für diesen Parameter ist `PARQUET`. Ein weiterer Wert für den Parameter ist `AVRO`.
`updateDataplexMetadata`	Optional: Ob die Dataplex-Metadaten für die neu erstellten Entitäten aktualisiert werden sollen. Der Standardwert für diesen Parameter ist `false`. Wenn diese Option aktiviert ist, kopiert die Pipeline das Schema automatisch von der Quelle in die Ziel-Dataplex-Entitäten. Die automatische Dataplex-Erkennung wird für sie nicht ausgeführt. Verwenden Sie dieses Flag, wenn Sie das Schema an der Quelle verwaltet haben. Nur für Cloud Storage-Ziele unterstützt.

Führen Sie die Vorlage aus.

Console

Rufen Sie in der Google Cloud Console die Seite „Dataplex“ auf:

Zu Dataplex
Rufen Sie die Ansicht Prozess auf.
Klicken Sie auf Aufgabe erstellen.
Klicken Sie unter JDBC in Dataplex aufnehmen auf Aufgabe erstellen.
Wählen Sie einen Dataplex-Lake aus.
Geben Sie einen Aufgabennamen an.
Wählen Sie eine Region für die Aufgabenausführung aus.
Füllen Sie die erforderlichen Parameter aus.
Klicken Sie auf Weiter.

gcloud

Führen Sie die folgende Vorlage in der Shell oder im Terminal aus:

gcloud beta dataflow flex-template run JOB_NAME \
--project=PROJECT_ID \
--region=REGION_NAME \
--template-file-gcs-location=gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_JDBC_Ingestion_Preview \
--parameters \
driverJars=DRIVER_JARS,\
connectionUrl=CONNECTION_URL,\
driverClassName=DRIVER_CLASS_NAME,\
connectionProperties=CONNECTION_PROPERTIES,\
query=QUERY\
outputAsset=OUTPUT_ASSET\

Ersetzen Sie Folgendes:

JOB_NAME: a job name of your choice
PROJECT_ID: your template project ID
DRIVER_JARS: path to your JDBC drivers
CONNECTION_URL: your JDBC connection URL string
DRIVER_CLASS_NAME: your JDBC driver class name
CONNECTION_PROPERTIES: your JDBC connection property string
QUERY: your JDBC source SQL query
OUTPUT_ASSET: your Dataplex output asset ID

REST API

Senden Sie eine HTTP-POST-Anfrage:

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION_NAME/flexTemplates:launch
{
   "launch_parameter": {
      "jobName": "JOB_NAME",
      "parameters": {
          "driverJars": "DRIVER_JARS",
          "connectionUrl": "CONNECTION_URL",
          "driverClassName": "DRIVER_CLASS_NAME",
          "connectionProperties": "CONNECTION_PROPERTIES",
          "query": "QUERY"
          "outputAsset": "OUTPUT_ASSET"
      },
      "containerSpecGcsPath": "gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_JDBC_Ingestion_Preview",
   }
}