Dataflow 作业图

当您选择特定 Dataflow 作业时，监控界面会提供流水线的图形表示，即作业图。控制台中的作业图页面还提供了作业摘要、作业日志以及流水线中每个步骤的相关信息。

在流水线的作业图中，每个方框表示流水线中的一个转换。每个方框都包含转换名称和一些有关作业状态的信息，其中包括以下内容：

默认情况下，作业图页面会显示图表视图。如需以表形式查看作业图，请在作业步骤视图中选择表视图。表视图以不同的格式包含相同的信息。表视图在以下场景中非常有用：

基本作业图

在作业图中，您可以展开复合转换（即包含多个嵌套子转换的转换）。展开式复合转换在执行图中以箭头标示。点击此箭头即可展开相关转换并查看其中所含的子转换。

在流水线代码中，您可能按如下方式调用了复合转换：

result = transform.apply(input);

以这种方式调用的复合转换会忽略预期的嵌套，因此可能会在 Dataflow 监控界面中显示为展开状态。您的流水线在执行时，也可能会产生与固定的唯一名称有关的警告或错误。

如需避免这些问题，请确保使用建议的格式调用转换：

result = input.apply(transform);

Dataflow 可通过几种不同的方式来获取监控作业图中显示的转换名称。

Dataflow 可以使用您在应用转换时分配的名称。您为 apply 方法提供的第一个参数将作为转换名称。
Dataflow 可以推断转换名称：根据类名称（如果您已构建自定义转换）或 DoFn 函数对象的名称（如果您使用的是 ParDo 等核心转换）进行推断。

Dataflow 可以使用您在应用转换时分配的名称。您可以通过指定转换的 label 参数设置转换名称。
Dataflow 可以推断转换名称：根据类名称（如果您已构建自定义转换）或 DoFn 函数对象的名称（如果您使用的是 ParDo 等核心转换）进行推断。

本部分详细介绍了与作业图关联的指标。

点击某个步骤时，实际用时指标会显示在步骤信息面板中。实际用时提供了在所有工作器的所有线程中完成以下操作所花费的大致总时长：

对于复合步骤，实际用时会告知您在各个分步骤中所花费时间的总和。此估算值可帮助您确定执行缓慢的步骤，以及诊断流水线中的哪个部分超出了预期执行时间。

侧边输入指标反映了侧边输入访问模式和算法对流水线性能的影响。如果您的流水线使用侧边输入，Dataflow 会将集合写入永久性层（如磁盘），而您的转换操作会从该永久性集合中读取内容。这些读取和写入操作会影响作业的运行时间。

如果您选择的转换会创建或使用侧边输入集合，Dataflow 监控界面便会显示侧边输入指标。您可以在步骤信息面板的侧边输入指标部分中查看相关指标。

如果所选转换创建了侧边输入集合，侧边输入指标部分便会显示集合名称以及如下指标：

从侧边输入读取用时和字节数表包含各侧边输入使用者的以下信息：

如果您的流水线包含一个可创建侧边输入的复合转换，请展开此复合转换，直到您看到创建该侧边输入的特定子转换。然后，选择该子转换以查看侧边输入指标部分。

图 4 显示了创建侧边输入集合的转换的侧边输入指标。

如果选择的转换使用一个或多个侧边输入，侧边输入指标部分便会显示从侧边输入读取用时和字节数表。此表会显示每个侧边输入集合的以下信息：

如果您的流水线包含一个可读取侧边输入的复合转换，请展开此复合转换，直到您看到读取该侧边输入的特定子转换。然后，选择该子转换以查看侧边输入指标部分。

图 5 显示读取侧边输入集合的转换的侧边输入指标。

重复是常见的侧边输入性能问题。如果您的侧边输入 PCollection 过大，工作器将无法在内存中缓存整个集合。因此，工作器必须反复读取永久性侧边输入集合。

在图 6 中，侧边输入指标表明，从侧边输入集合读取的总字节数远远大于集合的实际大小（写入的总字节数）。

如需提升此流水线的性能，请重新设计算法，以避免循环访问或重新获取侧边输入数据。在此示例中，流水线生成两个集合的笛卡尔积。算法遍历整个侧边输入集合以获取主集合的各元素。您可以通过将主集合的多个元素一起进行批处理来改善管道的访问模式。这项更改可减少工作器必须重新读取侧边输入集合的次数。

如果您的流水线通过应用带有一个或多个大型侧边输入的 ParDo 来执行联接操作，则可能会出现另一个常见的性能问题。在这种情况下，工作器会将大部分处理时间用于从侧边输入集合中读取联接操作。

图 7 显示了此问题的侧边输入指标示例：

如需提升此流水线的性能，请使用 CoGroupByKey 代替侧边输入。