Fehlerbehebung bei nicht unterstützten Programmtypen

Auf dieser Seite wird beschrieben, wie Sie ein bekanntes Problem in Cloud Data Fusion 6.8.0 und 6.8.1 beheben, bei dem eine Datenpipeline mit einem Fehler für nicht unterstützte Programmtypen in Cloud Data Fusion fehlschlägt. Dieses Problem wurde in Version 6.8.2 behoben.

Um die Startzeit für Pipelines zu verkürzen, werden in Cloud Data Fusion-Instanzen der Version 6.8.0 und 6.8.1 die Artefakte, die zum Starten einer Pipeline in einem Dataproc-Cluster in einem Cloud Storage-Bucket erforderlich sind, im Cache gespeichert. Eines dieser im Cache gespeicherten Artefakte ist application.jar. Je nach Reihenfolge, in der Sie Ihre Pipelines ausführen, können einige Pipelines mit dem folgenden Fehler fehlschlagen:

Unsupported program type: Spark

Wenn Sie beispielsweise eine neue Instanz von 6.8.1 erstellen (oder ein Upgrade auf 6.8.1 durchführen), wird eine Pipeline, die nur Aktionen enthält, beim ersten Mal erfolgreich ausgeführt. Die nächsten Pipelineausführungen, die Quellen oder Senken enthalten, können jedoch mit diesem Fehler fehlschlagen.

Empfehlung

Führen Sie einen der folgenden Schritte aus, um das Problem zu beheben:

Sie können das Caching für folgende Elemente deaktivieren:

  • Für alle Pipelines in einer Instanz.
  • Für einen bestimmten Namespace.
  • Für die Dataproc-Profile, die die fehlgeschlagenen Pipelines enthalten.
  • Nur für die fehlgeschlagenen Pipelines.

Cloud Storage-Caching für alle Pipelines in einer Instanz deaktivieren

So deaktivieren Sie das Cloud Storage-Caching für alle Pipelines in einer Instanz:

Console

  1. Rufen Sie Ihre Instanz auf:
    1. Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.

    2. Wenn Sie die Instanz in Cloud Data Fusion Studio öffnen möchten, klicken Sie auf Instanzen und dann auf Instanz anzeigen.

      Zur Seite „VM-Instanzen“

  2. Klicken Sie auf Systemadministration > Systemeinstellungen und legen Sie den Wert für system.profile.properties.gcsCacheEnabled auf false. fest.

    Dialogfeld „Einstellungen“

REST API

Wie du system.profile.properties.gcsCacheEnabled auf false festlegst, erfährst du unter Einstellungen festlegen.

Cloud Storage-Caching für einen bestimmten Namespace deaktivieren

So deaktivieren Sie das Cloud Storage-Caching für einen bestimmten Namespace:

Console

  1. Rufen Sie Ihre Instanz auf:
    1. Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.

    2. Wenn Sie die Instanz in Cloud Data Fusion Studio öffnen möchten, klicken Sie auf Instanzen und dann auf Instanz anzeigen.

      Zur Seite „VM-Instanzen“

  2. Klicken Sie auf Systemadministrator > Namespaces und wählen Sie Ihren Namespace aus.
  3. Klicken Sie auf Einstellungen > Bearbeiten und legen Sie den Wert für system.profile.properties.gcsCacheEnabled auf false fest.

    Dialogfeld „Namespace-Einstellungen“

REST API

Informationen zum Festlegen dieser Option über die REST API findest du unter Einstellungen festlegen.

Cloud Storage-Caching für ein Dataproc-Profil deaktivieren

So deaktivieren Sie das Cloud Storage-Caching für die Dataproc-Profile, die die fehlgeschlagenen Pipelines enthalten:

Console

  • Legen Sie im Dataproc-Profil gcsCacheEnabled auf false fest.

Cloud Storage-Caching nur für die fehlgeschlagenen Pipelines deaktivieren

So deaktivieren Sie das Cloud Storage-Caching nur für die fehlgeschlagenen Pipelines:

Console

  1. Rufen Sie Ihre Instanz auf:
    1. Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.

    2. Wenn Sie die Instanz in Cloud Data Fusion Studio öffnen möchten, klicken Sie auf Instanzen und dann auf Instanz anzeigen.

      Zur Seite „VM-Instanzen“

  2. Klicken Sie auf Liste und wählen Sie die fehlerhafte Pipeline aus.
  3. Klicken Sie neben Ausführen auf Maximieren und legen Sie das Laufzeitargument system.profile.properties.gcsCacheEnabled auf false fest.
  4. Wiederholen Sie diese Schritte für alle anderen Pipelines, die fehlschlagen.

Dialogfeld „Laufzeit“

REST API

Das Cloud Storage-Caching kann deaktiviert werden, wenn eine Pipeline über die REST API gestartet wird. Optional können Sie auch Laufzeitargumente als JSON-Map im Anfragetext angeben. Weitere Informationen finden Sie unter Programm starten.