Um die Startzeit für Pipelines zu verkürzen, werden in Cloud Data Fusion-Instanzen der Version 6.8.0 und 6.8.1 die Artefakte, die zum Starten einer Pipeline in einem Dataproc-Cluster in einem Cloud Storage-Bucket erforderlich sind, im Cache gespeichert.
Eines dieser im Cache gespeicherten Artefakte ist application.jar
. Je nach Reihenfolge, in der Sie Ihre Pipelines ausführen, können einige Pipelines mit dem folgenden Fehler fehlschlagen:
Unsupported program type: Spark
Wenn Sie beispielsweise eine neue Instanz von 6.8.1 erstellen (oder ein Upgrade auf 6.8.1 durchführen), wird eine Pipeline, die nur Aktionen enthält, beim ersten Mal erfolgreich ausgeführt. Die nächsten Pipelineausführungen, die Quellen oder Senken enthalten, können jedoch mit diesem Fehler fehlschlagen.
Empfehlung
Führen Sie einen der folgenden Schritte aus, um das Problem zu beheben:
- Empfohlen:Führen Sie ein Upgrade der Instanz auf Cloud Data Fusion Version 6.8.2 oder höher durch.
- Deaktivieren Sie das Cloud Storage-Caching mit einer Einstellung oder einem Laufzeitargument.
Sie können das Caching für folgende Elemente deaktivieren:
- Für alle Pipelines in einer Instanz.
- Für einen bestimmten Namespace.
- Für die Dataproc-Profile, die die fehlgeschlagenen Pipelines enthalten.
- Nur für die fehlgeschlagenen Pipelines.
Cloud Storage-Caching für alle Pipelines in einer Instanz deaktivieren
So deaktivieren Sie das Cloud Storage-Caching für alle Pipelines in einer Instanz:
Console
- Rufen Sie Ihre Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Wenn Sie die Instanz in Cloud Data Fusion Studio öffnen möchten, klicken Sie auf Instanzen und dann auf Instanz anzeigen.
Klicken Sie auf Systemadministration > Systemeinstellungen und legen Sie den Wert für
system.profile.properties.gcsCacheEnabled
auffalse.
fest.
REST API
Wie du system.profile.properties.gcsCacheEnabled
auf false
festlegst, erfährst du unter Einstellungen festlegen.
Cloud Storage-Caching für einen bestimmten Namespace deaktivieren
So deaktivieren Sie das Cloud Storage-Caching für einen bestimmten Namespace:
Console
- Rufen Sie Ihre Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Wenn Sie die Instanz in Cloud Data Fusion Studio öffnen möchten, klicken Sie auf Instanzen und dann auf Instanz anzeigen.
- Klicken Sie auf Systemadministrator > Namespaces und wählen Sie Ihren Namespace aus.
Klicken Sie auf Einstellungen > Bearbeiten und legen Sie den Wert für
system.profile.properties.gcsCacheEnabled
auffalse
fest.
REST API
Informationen zum Festlegen dieser Option über die REST API findest du unter Einstellungen festlegen.
Cloud Storage-Caching für ein Dataproc-Profil deaktivieren
So deaktivieren Sie das Cloud Storage-Caching für die Dataproc-Profile, die die fehlgeschlagenen Pipelines enthalten:
Console
- Legen Sie im Dataproc-Profil
gcsCacheEnabled
auffalse
fest.
Cloud Storage-Caching nur für die fehlgeschlagenen Pipelines deaktivieren
So deaktivieren Sie das Cloud Storage-Caching nur für die fehlgeschlagenen Pipelines:
Console
- Rufen Sie Ihre Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Wenn Sie die Instanz in Cloud Data Fusion Studio öffnen möchten, klicken Sie auf Instanzen und dann auf Instanz anzeigen.
- Klicken Sie auf Liste und wählen Sie die fehlerhafte Pipeline aus.
- Klicken Sie neben Ausführen auf
system.profile.properties.gcsCacheEnabled
auffalse
fest.
Maximieren und legen Sie das Laufzeitargument - Wiederholen Sie diese Schritte für alle anderen Pipelines, die fehlschlagen.
REST API
Das Cloud Storage-Caching kann deaktiviert werden, wenn eine Pipeline über die REST API gestartet wird. Optional können Sie auch Laufzeitargumente als JSON-Map im Anfragetext angeben. Weitere Informationen finden Sie unter Programm starten.