对 Cloud Storage 进行排序

用于对 Cloud Storage 中的文本文件内容进行排序的 PySpark 作业示例

代码示例

Python

在试用此示例之前,请按照《Dataproc 快速入门:使用客户端库》中的 Python 设置说明进行操作。如需了解详情,请参阅 Dataproc Python API 参考文档

import pyspark

sc = pyspark.SparkContext()
rdd = sc.textFile("gs://path-to-your-GCS-file")
print(sorted(rdd.collect()))