Um die Startzeit für Pipelines zu verkürzen, werden in Cloud Data Fusion-Instanzen der Version 6.8.0 und 6.8.1 die Artefakte im Cache gespeichert, die zum Starten einer Pipeline in einem Dataproc-Cluster in einem Cloud Storage-Bucket erforderlich sind.
Eines dieser im Cache gespeicherten Artefakte ist application.jar
. Je nach Reihenfolge im
wenn Sie Ihre Pipelines ausführen, schlagen einige Pipelines möglicherweise mit folgendem Fehler fehl:
Fehler:
Unsupported program type: Spark
Wenn Sie beispielsweise eine neue Instanz von 6.8.1 erstellen (oder ein Upgrade auf 6.8.1 durchführen), wird eine Pipeline, die nur Aktionen enthält, beim ersten Mal erfolgreich ausgeführt. Die nächsten Pipelineausführungen, die Quellen oder Senken enthalten, schlagen jedoch möglicherweise mit Fehler.
Empfehlung
Führen Sie einen der folgenden Schritte aus, um das Problem zu beheben:
- Empfohlen:Upgrade der Instanz durchführen auf Cloud Data Fusion Version 6.8.2 oder höher.
- Deaktivieren Sie das Cloud Storage-Caching durch eine Einstellungs- oder Laufzeitargument.
Sie können das Caching für folgende Elemente deaktivieren:
- Für alle Pipelines in einer Instanz.
- Für einen bestimmten Namespace.
- Für die spezifischen Dataproc-Profile, die fehlerhaften Pipelines enthält.
- Nur für die fehlgeschlagenen Pipelines.
Cloud Storage-Caching für alle Pipelines in einer Instanz deaktivieren
So deaktivieren Sie das Cloud Storage-Caching für alle Pipelines in einer Instanz:
Console
- Rufen Sie Ihre Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.
Klicken Sie auf Systemadministrator > Systemeinstellungen und legen Sie den Wert für Von
system.profile.properties.gcsCacheEnabled
nachfalse.
REST API
Informationen zum Festlegen von system.profile.properties.gcsCacheEnabled
auf false
findest du unter
Legen Sie die Einstellungen fest.
Cloud Storage-Caching für einen bestimmten Namespace deaktivieren
So deaktivieren Sie das Cloud Storage-Caching für einen bestimmten Namespace: Schritte:
Console
- Rufen Sie Ihre Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.
- Klicken Sie auf System Admin > Namespaces und wählen Sie Ihren gewünschten Namespace aus. -Namespace auf sie zugegriffen werden.
Klicken Sie auf Einstellungen > Bearbeiten und legen Sie den Wert für
system.profile.properties.gcsCacheEnabled
auffalse
fest.
REST API
Informationen zur Festlegung über die REST API finden Sie unter Einstellungen festlegen
Cloud Storage-Caching für ein Dataproc-Profil deaktivieren
So deaktivieren Sie das Cloud Storage-Caching für die Dataproc-Profile, die die fehlgeschlagenen Pipelines enthalten:
Console
- Legen Sie im Dataproc-Profil
gcsCacheEnabled
auffalse
fest.
Cloud Storage-Caching nur für die fehlgeschlagenen Pipelines deaktivieren
So deaktivieren Sie das Cloud Storage-Caching nur für die fehlgeschlagenen Pipelines:
Console
- Rufen Sie Ihre Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.
- Klicken Sie auf Liste und wählen Sie die fehlerhafte Pipeline aus.
- Klicken Sie neben Ausführen auf
system.profile.properties.gcsCacheEnabled
auffalse
fest.
Maximieren und legen Sie das Laufzeitargument - Wiederholen Sie diese Schritte für alle anderen Pipelines, die fehlschlagen.
REST API
Cloud Storage-Caching kann deaktiviert werden, wenn eine Pipeline über REST gestartet wird API und durch optionale Angabe von Laufzeitargumenten als JSON-Zuordnung im Anfragetext. Weitere Informationen finden Sie unter Starten Sie ein Programm.