Pipelines mit Versionsverwaltung verwalten

Auf dieser Seite wird beschrieben, wie Sie Pipelines mithilfe der Versionsverwaltung in Cloud Data Fusion über Git-Repositories

Versionsverwaltung

Cloud Data Fusion bietet die Möglichkeit, Pipelines visuell zu entwerfen für ETL- und ELT-Integrationen. Für eine bessere Verwaltung von Pipelines zwischen Entwicklung und Produktion ermöglicht Cloud Data Fusion die Versionsverwaltung der Pipelines mit GitHub und anderen Versionsverwaltungssystemen.

Mit der Versionsverwaltung in Cloud Data Fusion haben Sie folgende Möglichkeiten:

  • Integrieren Sie jeden Cloud Data Fusion-Namespace in ein Versionsverwaltungssystem.
  • Verwalten Sie Ihre Pipelines in einem zentralen Git-Repository.
  • Pipelineänderungen prüfen und prüfen.
  • Pipelineänderungen rückgängig machen.
  • Effektiv mit dem Team zusammenarbeiten und gleichzeitig eine zentrale Kontrolle gewährleisten.

Hinweise

  • Source Control Management unterstützt die Integration in GitHub, Bitbucket Server, Bitbucket Cloud und Gitlab-Repositories.
  • GitHub-OAuth wird nicht unterstützt.
  • Versionsverwaltung unterstützt nur Batchpipelines.
  • Die Versionsverwaltung unterstützt nur JSON-Dateien für Pipelinedesign für Push- und Pull-Vorgänge. Ausführungskonfigurationen werden nicht unterstützt.
  • Die Größenbeschränkung für das verknüpfte Repository beträgt 5 GB.

Erforderliche Rollen und Berechtigungen

Die Versionsverwaltung in Cloud Data Fusion umfasst zwei wichtige Vorgänge:

  • Versionsverwaltung-Repositories konfigurieren
  • Pipelines mit Git-Repositories mithilfe von Push- und Pull-Vorgängen synchronisieren

Um die Berechtigungen zu erhalten, die Sie zur Verwendung der Funktion zur Verwaltung der Versionsverwaltung benötigen, fragen Sie Ihren Administrator, der Ihnen eine der folgenden vordefinierten Rollen auf Ihrem Projekt:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Möglicherweise können Sie die erforderlichen Berechtigungen auch über andere Vordefinierte Rollen.

Git-Repository einrichten

Um ein Git-Repository in GitHub zu erstellen, folgen Sie der Anleitung unter Erstellen Sie ein Repository.

Weitere Informationen zu persönlichen Zugriffstokens in GitHub und anderen Versionen finden Sie auf den folgenden Seiten:

Git-Repository mit Cloud Data Fusion verbinden

Mit Cloud Data Fusion können Sie Ihr Git-Repository konfigurieren und verbinden auf dem Tab Versionsverwaltung für jeden Namespace. So verknüpfen Sie einen Namespace mit Ihrem Git-Repository zu erstellen, führen Sie die folgenden Schritte aus:

Console

  1. In Cloud Data Fusion Studio Klicken Sie auf Menü.
  2. Klicken Sie auf Namespace-Verwaltung.
  3. Klicken Sie auf der Seite Namespace-Verwaltung auf Verwaltung des Quellsteuerelements. .
  4. Klicken Sie auf Repository verknüpfen.
  5. Geben Sie die folgenden Informationen ein:

    • Anbieter: Wählen Sie einen Git-Dienstanbieter wie GitHub oder GitLab.
    • Repository-URL: Geben Sie die URL ein, unter der sich das Repository befinden kann. Zugriff haben. Für GitHub lautet die Repository-URL https://github.com/HOST/REPO
    • Standardzweig (optional): Geben Sie den ersten Zweig von Git ein. Dieses Branch kann sich vom auf GitHub konfigurierten Standardzweig unterscheiden. Dieser Zweig wird zum Synchronisieren von Pipelines verwendet, unabhängig vom Standardzweig auf GitHub.
    • Pfadpräfix (optional): Geben Sie für den Pipelinenamen ein Präfix ein. die im Git-Repository gespeichert sind. Wenn beispielsweise der Name Ihrer Pipeline ist DataFusionQuickStart und wenn Sie das Präfix als namespaceName, wird die Pipeline als namespaceName/DataFusionQuickStart im Git-Repository.
    • Authentifizierungstyp: Mit Cloud Data Fusion können Sie den personalisiertes Zugriffstoken als Authentifizierungstyp festlegen. Dies ist automatisch ausgewählt.
    • Tokenname: Geben Sie einen Namen ein, der mit dem Token verknüpft werden kann.
    • Token: Geben Sie das vom GitHub-Repository bereitgestellte Token ein.
    • Optional: Nutzername: Geben Sie einen Nutzernamen oder einen Inhaber für das Token ein.
  6. Klicke auf Validieren. Warten Sie, bis die Verbindung verifiziert wurde.

  7. Wenn die Konfiguration abgeschlossen ist, klicken Sie auf Save and Close (Speichern und schließen). Konfiguration.

Git-Repository mit Cloud Data Fusion verbinden

REST API

  1. Erstellen Sie einen geheimen Schlüssel in Cloud Data Fusion mit dem persönlichen Zugriffstoken.

  2. Führen Sie dazu diesen Befehl aus:

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" 
    ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/securekeys/PASSWORD_SECRET_KEY -X PUT -d '{ "description": "Example Secure Key","data": "PERSONAL_ACCESS_TOKEN"}'
    

    Ersetzen Sie Folgendes:

    • NAMESPACE_ID: die ID des Namespace.
    • PASSWORD_SECRET_KEY: der Name des Secrets Schlüssel, der persönliches Zugriffstoken enthält.
    • PERSONAL_ACCESS_TOKEN: persönlicher Zugriff Token von GitHub.
  3. Führen Sie dazu diesen Befehl aus:

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" 
    ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/repository -X PUT -d '{"test": "TEST_ONLY", "config": {"provider": "PROVIDER_TYPE", "link": "REPO_URL", "defaultBranch": "DEFAULT_BRANCH", "pathPrefix": "PATH_TO_DIRECTORY", "auth": {"type": "AUTH_TYPE", "patConfig": {"passwordName": "PASSWORD_SECRET_KEY", "username": "USER_NAME"}}}}'
    

    Ersetzen Sie Folgendes:

    • NAMESPACE_ID: die ID des Namespace.
    • TEST_ONLY: Legen Sie true fest, wenn Sie möchten die Konfiguration nur zu validieren und nicht zu ihr hinzuzufügen.
    • PROVIDER_TYPE: der Name des Git-Anbieters, der ist GITHUB.
    • REPO_URL: Repository-URL, die verknüpft werden soll. Verwenden Sie Eine https-URL, z. B. https://github.com/user/repo.git.
    • DEFAULT_BRANCH: Zweig, der für Push- und Pull-Operationen. Wenn nichts angegeben ist, wird der standardmäßig konfigurierte Zweig im Repository verwendet, z. B. der Hauptzweig.
    • PATH_TO_DIRECTORY: Pfad zum Verzeichnis in Das Repository, in dem die Konfigurationsdateien gespeichert sind.
    • AUTH_TYPE: der Authentifizierungstyp. Es wird nur PAT unterstützt. Siehe Detailgenaues persönliches Zugriffstoken in GitHub
    • PASSWORD_SECRET_KEY: der Name des Secrets Schlüssel, der das persönliche Zugriffstoken für den Authentifizierungstyp PAT enthält.
    • USER_NAME: Sie können diesen Wert weglassen für Authentifizierungstyp PAT.

Cloud Data Fusion-Pipelines mit einem Remote-Repository synchronisieren

Nachdem Sie ein Git-Repository mit einem Namespace konfiguriert haben, können Sie Daten hoch- und herunterladen und synchronisieren sie mit dem Git-Repository.

Pipelines von Cloud Data Fusion in das Git-Repository übertragen

Um mehrere bereitgestellte Pipelines von einem Namespace mit einem Git-Repository zu synchronisieren, führen Sie folgende Schritte aus:

Console

  1. In Cloud Data Fusion Studio Klicken Sie auf Menü.
  2. Klicken Sie auf Namespace-Verwaltung.
  3. Klicken Sie auf der Seite Namespace-Verwaltung auf Verwaltung des Quellsteuerelements. .
  4. Suchen Sie das Git-Repository, mit dem Sie eine Synchronisierung durchführen möchten, und Klicken Sie auf Sync pipelines (Pipelines synchronisieren).
  5. Klicken Sie auf den Tab Namespace-Pipelines.
  6. Suchen Sie nach den Pipelines, die Sie an Git übertragen möchten, und wählen Sie sie aus zu erstellen.

    Wenn die neueste Version der Pipeline an Git übertragen oder daraus abgerufen wird Repository ist, wird für den Status Mit Git verbunden der Status Connected angezeigt. Wenn die Pipeline wurde nie an GitHub übertragen, der Status Mit Git verbunden wird angezeigt ist leer (-).

    Wenn Sie eine neuere Version einer Pipeline bereitstellen, die bereits mit dem Git-Repository: Der Status Mit Git verbunden ändert sich von Connected zu leer (-).

  7. Klicken Sie auf An Repository senden.

  8. Geben Sie eine Commit-Nachricht ein und klicken Sie auf OK.

    Der Push-Vorgang wird gestartet und in einer Meldung wird angezeigt, dass der ausgewählte Pipelines werden per Push-Befehl an das Remote-Repository übertragen.

Pipelines von Cloud Data Fusion in das Git-Repository übertragen.

Wenn der Push-Vorgang erfolgreich abgeschlossen wurde, wird eine Erfolgsmeldung angezeigt. mit der Anzahl der Pipelines, die an das Remote- zu erstellen.

Wenn der Push-Vorgang fehlschlägt, sehen Sie in der Pipeline in GitHub nach, ob es sich um den aktuelle Version. Für jeden fehlgeschlagenen Push-Vorgang wird eine Fehlermeldung angezeigt, angezeigt. Wenn Sie sich die Details des Fehlers ansehen möchten, maximieren Sie die Fehlermeldung.

Sie können auch einzelne Pipelines von der Pipeline in ein Git-Repository übertragen. Designstudio:

  1. In Cloud Data Fusion Studio Klicken Sie auf Menü.
  2. Klicken Sie auf Liste.
  3. Klicken Sie auf die Pipeline, die Sie in das Git-Repository übertragen möchten.
  4. Klicken Sie auf der Pipeline-Seite auf Aktionen > An Repository senden
  5. Geben Sie eine Commit-Nachricht ein und klicken Sie auf OK.

Pipelines aus dem Pipeline Design Studio per Push übertragen.

REST API

  1. Übertragen Sie eine Reihe von Pipelines von Cloud Data Fusion in das Git-Repository:

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"
    ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/repository/apps/push -X POST
    -d '{"apps": ["PIPELINE_NAME_1", "PIPELINE_NAME_2"]}, "commitMessage": "COMMIT_MESSAGE"'
    

    Ersetzen Sie Folgendes:

    • NAMESPACE_ID: die ID des Namespace.
    • PIPELINE_NAME_1, PIPELINE_NAME_2: Namen der Pipelines, die übertragen werden sollen.
    • COMMIT_MESSAGE: Commit-Nachricht für Git Commit durchführen.

    Die Antwort enthält die ID des Push-Vorgangs. Beispiel:

    RESPONSE
    {
    "id": OPERATION_ID
    }
    
  2. Führen Sie den folgenden Befehl aus, um den Status des Push-Vorgangs abzufragen:

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" 
    ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/operations/OPERATION_ID
    

    Ersetzen Sie Folgendes:

    • NAMESPACE_ID: die ID des Namespace.
    • OPERATION_ID: die Vorgangs-ID, die von der Push-Operation.

    Die Antwort enthält den Status des Push-Vorgangs. Beispiel:

    RESPONSE
    {
    "id": OPERATION_ID
    "done": True/False
    "status": STARTING/RUNNING/SUCCEEDED/FAILED
    "error": {"message": ERROR_MESSAGE, "details":[{"resourceUri": RESOURCE, "message": ERROR_MESSAGE}]}
    }
    

    Wenn Sie prüfen möchten, ob der Push-Vorgang abgeschlossen ist, sehen Sie in der done nach in der Antwort angeben. Wenn der Vorgang fehlgeschlagen ist, prüfen Sie den error. .

Pipelines aus dem Git-Repository in Cloud Data Fusion abrufen

So synchronisieren Sie mehrere Pipelines aus einem Git-Repository mit Ihrem Namespace: Schritte:

Console

  1. In Cloud Data Fusion Studio Klicken Sie auf Menü.
  2. Klicken Sie auf Namespace-Verwaltung.
  3. Klicken Sie auf der Seite Namespace-Verwaltung auf Verwaltung des Quellsteuerelements. .
  4. Suchen Sie das Git-Repository, mit dem Sie eine Synchronisierung durchführen möchten, und klicken Sie auf Synchronisierungspipelines
  5. Klicken Sie auf den Tab Repository-Pipelines. Alle im Git-Repository gespeicherten Pipelines werden angezeigt.
  6. Suchen Sie nach den Pipelines, die Sie aus Git abrufen möchten, und wählen Sie sie aus in Ihren Cloud Data Fusion-Namespace ein.
  7. Klicken Sie auf Aus Repository abrufen.

    Der Pull-Vorgang wird gestartet und in einer Meldung wird angezeigt, dass der ausgewählte Pipelines werden aus dem Remote-Repository abgerufen. Cloud Data Fusion sucht unter dem konfigurierten Pfad nach JSON-Dateien und und stellt sie als Pipelines in Cloud Data Fusion bereit.

Pipelines aus dem Git-Repository per Pull in Cloud Data Fusion abrufen

Wenn der Pull-Vorgang erfolgreich abgeschlossen wurde, wird eine Erfolgsmeldung angezeigt. mit der Anzahl der Pipelines, die aus dem Remote-Repository.

Wenn der Pull-Vorgang fehlschlägt, wird eine Fehlermeldung angezeigt. So rufen Sie die Details zum Fehler, maximieren Sie die Fehlermeldung.

Sie können auch einzelne Pipelines von einem Git-Repository in einen Namespace abrufen. Pipeline-Designstudio erhalten:

  1. In Cloud Data Fusion Studio Klicken Sie auf Menü.
  2. Klicken Sie auf Liste.
  3. Klicken Sie auf die Pipeline, die Sie aus dem Git-Repository abrufen möchten.
  4. Klicken Sie auf der Pipeline-Seite auf Aktionen > Aus dem Repository abrufen

Pipelines aus dem Pipeline Design Studio abrufen

REST API

  1. Rufen Sie eine Reihe von Pipelines aus dem Git-Repository in Cloud Data Fusion ab:

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" 
    ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/repository/apps/pull -X POST -d '{"apps": ["PIPELINE_NAME_1", "PIPELINE_NAME_2"]}'
    

    Ersetzen Sie Folgendes:

    • NAMESPACE_ID: die ID des Namespace.
    • PIPELINE_NAME_1, PIPELINE_NAME_2: Namen der abzurufenden Pipelines.

    Die Antwort enthält die ID des Pull-Vorgangs. Beispiel:

    RESPONSE
    {
    "id": OPERATION_ID
    }
    
  2. Führen Sie den folgenden Befehl aus, um den Status des Pull-Vorgangs abzufragen:

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" 
    ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/operations/OPERATION_ID
    

    Ersetzen Sie Folgendes:

    • NAMESPACE_ID: die ID des Namespace.
    • OPERATION_ID: die Vorgangs-ID, die von den Pull-Vorgang.

    Die Antwort enthält den Status des Pull-Vorgangs. Beispiel:

    RESPONSE
    {
    "id": OPERATION_ID
    "done": True/False
    "status": STARTING/RUNNING/SUCCEEDED/FAILED
    "error": {"message": ERROR_MESSAGE, "details":[{"resourceUri": RESOURCE, "message": ERROR_MESSAGE}]}
    }
    

    Prüfen Sie im done, ob der Pull-Vorgang abgeschlossen ist in der Antwort angeben. Wenn der Vorgang fehlgeschlagen ist, prüfen Sie den error. .

Git-Repository-Konfiguration löschen

So löschen Sie die Git-Repository-Konfiguration aus einem Namespace:

Console

  1. In Cloud Data Fusion Studio Klicken Sie auf Menü:
  2. Klicken Sie auf Namespace-Verwaltung.
  3. Klicken Sie auf der Seite Namespace-Verwaltung auf Verwaltung des Quellsteuerelements. .
  4. Klicken Sie für die zu löschende Git-Repository-Konfiguration auf > Löschen.

REST API

Löschen Sie die Git-Repository-Konfiguration:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)"
${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/repository -X DELETE

Ersetzen Sie NAMESPACE_ID durch die ID der -Namespace auf sie zugegriffen werden.

Nächste Schritte