Dataproc Solr 组件

使用可选组件功能创建 Dataproc 集群时,可以安装其他组件。本页面介绍了 Solr 组件。

Apache Solr 组件是一个开源企业搜索平台。您可以通过集群的主节点上的端口 8983 访问 Solr 服务器和网页界面。

Persisting Solr 文件:默认情况下,Solr 会在 HDFS 中写入和读取索引和事务日志文件。如需保存 Solr 文件,请在安装组件时设置 dataproc:solr.gcs.path 集群属性,以将 Cloud Storage 路径用作 Solr 主目录。

安装组件

在创建 Dataproc 集群时安装组件。 组件可添加到使用 Dataproc 版本 1.3 及更高版本创建的 集群中。

如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本

gcloud 命令

如需创建包含 Solr 组件的 Dataproc 集群,请使用带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。以下示例命令使用可选的 properties 标志将 Cloud Storage 路径设置为 Solr 主目录。

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=SOLR \
    --enable-component-gateway \
    ... other flags
gcloud dataproc clusters create 命令中添加 --properties="dataproc:solr.gcs.path=gcs://bucket-name/" 集群属性,以设置用来存储 Solr 文档的 Cloud Storage 存储分区。(Sol 主目录)。

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Solr 组件指定为 clusters.create 请求的一部分。

控制台

  1. 启用组件和组件网关。
    • 在 Cloud Console 中,打开 Dataproc 创建集群页面。选中“设置集群”面板。
    • 在组件部分中执行以下操作:
      • 在可选组件下,选择 Solr 和其他可选组件安装在集群上。
      • 在“组件网关”下,选择“启用组件网关”(请参阅查看和访问组件网关网址)。