使用可选组件功能创建 Dataproc 集群时,可以安装 Solr 等其他组件。本页面介绍了 Solr 组件。
Apache Solr
组件是一个开源企业搜索平台。您可以通过集群的主节点上的端口 8983
访问 Solr 服务器和网页界面。
Persisting Solr 文件:默认情况下,Solr 会在 HDFS 中写入和读取索引和事务日志文件。如需保存 Solr 文件,请在安装组件时设置 dataproc:solr.gcs.path
集群属性,以将 Cloud Storage 路径用作 Solr 主目录。
安装组件
在创建 Dataproc 集群时安装组件。 组件可添加到使用 Dataproc 版本 1.3 及更高版本创建的 集群中。
如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本。
gcloud 命令
如需创建包含 Solr 组件的 Dataproc 集群,请使用带有 --optional-components
标志的 gcloud dataproc clusters create cluster-name 命令。以下示例命令使用可选的 properties
标志将 Cloud Storage 路径设置为 Solr 主目录。
gcloud dataproc clusters create cluster-name \ --region=region \ --optional-components=SOLR \ --enable-component-gateway \ ... other flags
gcloud dataproc clusters create
命令中添加 --properties="dataproc:solr.gcs.path=gs://bucket-name/"
集群属性,以设置用来存储 Solr 文档的 Cloud Storage 存储桶(Solr 主目录)。REST API
可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Solr 组件指定为 clusters.create 请求的一部分。
控制台
- 启用组件和组件网关。
- 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。选中“设置集群”面板。
- 在组件部分中执行以下操作:
- 在可选组件下,选择 Solr 和其他可选组件安装在集群上。
- 在“组件网关”下,选择“启用组件网关”(请参阅查看和访问组件网关网址)。