Per ridurre il tempo di avvio delle pipeline, le istanze di Cloud Data Fusion versione 6.8.0 e 6.8.1 memorizzano nella cache gli artefatti necessari per avviare una pipeline in un cluster Dataproc all'interno di un bucket Cloud Storage.
Uno di questi artefatti memorizzati nella cache è application.jar
. A seconda dell'ordine in cui esegui le pipeline, alcune pipeline potrebbero restituire un errore e generare il seguente errore:
Unsupported program type: Spark
Ad esempio, dopo aver creato una nuova istanza 6.8.1 (o aver eseguito l'upgrade alla versione 6.8.1), la prima volta che esegui una pipeline che contiene solo azioni, l'operazione ha esito positivo. Tuttavia, le esecuzioni successive della pipeline, che includono origini o sink, potrebbero non riuscire con questo errore.
Consiglio
Per risolvere il problema, procedi in uno dei seguenti modi:
- Consigliato: esegui l'upgrade dell'istanza a Cloud Data Fusion versione 6.8.2 o successive.
- Disabilita la memorizzazione nella cache di Cloud Storage in base a un argomento di preferenza o di runtime.
Puoi disattivare la memorizzazione nella cache per:
- Per tutte le pipeline in un'istanza.
- Per un determinato spazio dei nomi.
- Per i profili Dataproc specifici che contengono le pipeline in errore.
- Solo per le pipeline in errore.
Disabilita la memorizzazione nella cache di Cloud Storage per tutte le pipeline in un'istanza
Per disabilitare la memorizzazione nella cache di Cloud Storage per tutte le pipeline in un'istanza, segui questi passaggi:
Console
- Vai all'istanza:
Nella console Google Cloud, vai alla pagina di Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.
Fai clic su Amministratore di sistema > Preferenze di sistema e imposta il valore di
system.profile.properties.gcsCacheEnabled
sufalse.
API REST
Per impostare system.profile.properties.gcsCacheEnabled
su false
, consulta
Impostare le preferenze.
Disabilita la memorizzazione nella cache di Cloud Storage per un determinato spazio dei nomi
Per disabilitare la memorizzazione nella cache di Cloud Storage per un determinato spazio dei nomi, segui questi passaggi:
Console
- Vai all'istanza:
Nella console Google Cloud, vai alla pagina di Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.
- Fai clic su Amministratore di sistema > Spazi dei nomi e seleziona lo spazio dei nomi.
Fai clic su Preferenze > Modifica e imposta il valore di
system.profile.properties.gcsCacheEnabled
sufalse
.
API REST
Per farlo tramite l'API REST, consulta Impostare le preferenze.
Disabilita memorizzazione nella cache di Cloud Storage per un profilo Dataproc
Per disabilitare la memorizzazione nella cache di Cloud Storage per i profili Dataproc specifici che contengono le pipeline in errore, segui questi passaggi:
Console
- Imposta
gcsCacheEnabled
sufalse
nel profilo Dataproc.
Disabilita la memorizzazione nella cache di Cloud Storage solo per le pipeline in errore
Per disabilitare la memorizzazione nella cache di Cloud Storage solo per le pipeline in errore, segui questi passaggi:
Console
- Vai all'istanza:
Nella console Google Cloud, vai alla pagina di Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.
- Fai clic su Elenco e seleziona la pipeline con errori.
- Fai clic su
system.profile.properties.gcsCacheEnabled
sufalse
.
Espandi accanto a Esegui e imposta l'argomento di runtime
- Ripeti l'operazione per tutte le altre pipeline in errore.
API REST
La memorizzazione nella cache di Cloud Storage può essere disabilitata quando viene avviata una pipeline tramite l'API REST, nonché specificando facoltativamente gli argomenti di runtime come mappa JSON nel corpo della richiesta. Per ulteriori informazioni, consulta la sezione Avviare un programma.