为了缩短流水线的启动时间,Cloud Data Fusion 版本 6.8.0 和 6.8.1 实例会将在 Dataproc 集群中启动流水线所需的工件缓存在 Cloud Storage 存储分区中。其中一个缓存工件是 application.jar
。根据您运行流水线的顺序,某些流水线可能会失败并显示以下错误:
Unsupported program type: Spark
例如,创建新的 6.8.1 实例(或升级到 6.8.1)后,您首次运行仅包含操作的流水线时,该流水线会成功运行。不过,下次运行流水线(包括源或接收器)时,可能会因此错误而失败。
建议
如需解决此问题,请执行以下任一操作:
- 建议:将实例升级到 Cloud Data Fusion 6.8.2 或更高版本。
- 通过偏好设置或运行时参数停用 Cloud Storage 缓存。
您可以为以下任一项停用缓存:
- 适用于实例中的所有流水线。
- 对于给定命名空间。
- 针对包含失败流水线的特定 Dataproc 配置文件。
- 仅适用于失败的流水线。
为实例中的所有流水线停用 Cloud Storage 缓存
如需为实例中的所有流水线停用 Cloud Storage 缓存,请按以下步骤操作:
控制台
- 前往您的实例:
在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。
依次点击系统管理 > 系统偏好设置,然后将
system.profile.properties.gcsCacheEnabled
的值设置为false.
REST API
如需将 system.profile.properties.gcsCacheEnabled
设置为 false
,请参阅设置偏好设置。
为给定命名空间停用 Cloud Storage 缓存
如需为给定命名空间停用 Cloud Storage 缓存,请按以下步骤操作:
控制台
- 前往您的实例:
在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。
- 依次点击系统管理 > 命名空间,然后选择您的命名空间。
依次点击偏好设置 > 修改,然后将
system.profile.properties.gcsCacheEnabled
的值设置为false
。
REST API
如需通过 REST API 进行设置,请参阅设置偏好设置。
为 Dataproc 配置文件停用 Cloud Storage 缓存
如需为包含失败流水线的特定 Dataproc 配置文件停用 Cloud Storage 缓存,请按以下步骤操作:
控制台
- 在 Dataproc 配置文件中将
gcsCacheEnabled
设置为false
。
仅为失败的流水线停用 Cloud Storage 缓存
如需仅为失败的流水线停用 Cloud Storage 缓存,请按以下步骤操作:
控制台
- 前往您的实例:
在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。
- 点击列表,然后选择失败的流水线。
- 点击运行旁边的
system.profile.properties.gcsCacheEnabled
设置为false
。
展开,然后将运行时参数 - 对任何其他失败的流水线重复上述操作。
REST API
您可以在通过 REST API 启动流水线时停用 Cloud Storage 缓存,也可以在请求正文中选择将运行时参数指定为 JSON 映射来停用 Cloud Storage 缓存。如需了解详情,请参阅启动程序。