对 Cloud Storage 进行排序

用于对 Cloud Storage 中的文本文件内容进行排序的 PySpark 作业示例

代码示例

Python

在试用此示例之前,请按照使用客户端库的 Dataproc 快速入门中的 Python 设置说明进行操作。如需了解详情,请参阅 Dataproc Python API 参考文档

如需向 Dataproc 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证

import pyspark

sc = pyspark.SparkContext()
rdd = sc.textFile("gs://path-to-your-GCS-file")
print(sorted(rdd.collect()))

后续步骤

如需搜索和过滤其他 Google Cloud 产品的代码示例,请参阅 Google Cloud 示例浏览器