O modelo do Cloud Storage para Elasticsearch é um pipeline em lote que lê dados de arquivos CSV armazenados em um bucket do Cloud Storage e os grava no Elasticsearch como documentos JSON.
Requisitos de pipeline
- O bucket do Cloud Storage precisa existir.
- É necessário que haja um host do Elasticsearch em uma instância do Google Cloud ou no Elasticsearch Cloud acessível pelo Dataflow.
- Uma tabela do BigQuery para saída de erros precisa existir.
Esquema CSV
Se os arquivos CSV tiverem cabeçalhos, defina o parâmetro de modelo containsHeaders
como true
.
Caso contrário, crie um arquivo de esquema JSON que descreva os dados. Especifique o URI do Cloud Storage do arquivo de esquema no parâmetro de modelo jsonSchemaPath
. O exemplo a seguir mostra um esquema JSON:
[{"name":"id", "type":"text"}, {"name":"age", "type":"integer"}]
Como alternativa, é possível fornecer uma função definida pelo usuário (UDF, na sigla em inglês) que analisa o texto CSV e gera documentos do Elasticsearch.
Parâmetros do modelo
Parâmetro | Descrição |
---|---|
inputFileSpec |
O padrão de arquivo do Cloud Storage para pesquisar arquivos CSV. Exemplo: gs://mybucket/test-*.csv . |
connectionUrl |
URL do Elasticsearch no formato https://hostname:[port] ou especifique o CloudID se estiver usando o Elastic Cloud. |
apiKey |
Chave da API codificada em Base64 usada para autenticação. |
index |
O índice do Elasticsearch para onde as solicitações serão emitidas, como my-index . |
deadletterTable |
A tabela de mensagens inativas do BigQuery para enviar inserções com falha. Exemplo: <your-project>:<your-dataset>.<your-table-name> . |
containsHeaders |
(Opcional) Booleano que indica se os cabeçalhos estão incluídos no CSV. Padrãofalse . |
delimiter |
(Opcional) O delimitador usado pelo CSV. Exemplo: , |
csvFormat |
(Opcional) O formato CSV de acordo com o formato Apache Commons CSV. Padrão: Default . |
jsonSchemaPath |
(Opcional) O caminho para o esquema JSON. Padrão: null . |
largeNumFiles |
(Opcional) Defina como "verdadeiro" se o número de arquivos estiver na casa de milhares. Padrão: false . |
javascriptTextTransformGcsPath |
(Opcional)
O URI do Cloud Storage do arquivo .js que define a função definida
pelo usuário (UDF, na sigla em inglês) do JavaScript que você quer usar. Por exemplo, gs://my-bucket/my-udfs/my_file.js .
|
javascriptTextTransformFunctionName |
(Opcional)
O nome da função definida pelo usuário (UDF) do JavaScript que você quer usar.
Por exemplo, se o código de função do JavaScript for
myTransform(inJson) { /*...do stuff...*/ } , o nome da função será
myTransform . Para amostras de UDFs do JavaScript, consulte os
exemplos de UDF.
|
batchSize |
(Opcional) Tamanho do lote em número de documentos. Padrão: 1000 . |
batchSizeBytes |
(Opcional) Tamanho do lote em número de bytes. Padrão: 5242880 (5 mb). |
maxRetryAttempts |
(Opcional) Máximo de tentativas de repetição. Precisa ser > 0. Padrão: sem novas tentativas. |
maxRetryDuration |
(Opcional) A duração máxima da nova tentativa em milissegundos precisa ser maior que 0. Padrão: sem novas tentativas. |
csvFileEncoding |
(Opcional) Codificação do arquivo CSV. |
propertyAsIndex |
(Opcional) Uma propriedade no documento que está sendo indexado com o valor que especificará os metadados de _index a serem incluídos com o documento na solicitação em massa (tem precedência sobre uma UDF _index ). Padrão: none. |
propertyAsId |
(Opcional) Uma propriedade no documento que está sendo indexado com o valor que especificará os metadados de _id a serem incluídos com o documento na solicitação em massa (tem precedência sobre uma UDF _id ). Padrão: none. |
javaScriptIndexFnGcsPath |
(Opcional) O caminho do Cloud Storage para a origem UDF em JavaScript de uma função que especificará os metadados de _index a serem incluídos com o documento na solicitação em massa. Padrão: none. |
javaScriptIndexFnName |
(Opcional) Nome da função UDF em JavaScript para a função que especificará os metadados de _index a serem incluídos com o documento na solicitação em massa. Padrão: none. |
javaScriptIdFnGcsPath |
(Opcional) O caminho do Cloud Storage para a origem UDF em JavaScript de uma função que especificará os metadados de _id a serem incluídos com o documento na solicitação em massa. Padrão: none. |
javaScriptIdFnName |
(Opcional) Nome da função UDF em JavaScript para a função que especificará os metadados de _id a serem incluídos com o documento na solicitação em massa. Padrão: none. |
javaScriptTypeFnGcsPath |
(Opcional) O caminho do Cloud Storage para a origem UDF em JavaScript de uma função que especificará os metadados de _type a serem incluídos com o documento na solicitação em massa. Padrão: none. |
javaScriptTypeFnName |
(Opcional) Nome da função UDF em JavaScript para a função que especificará os metadados de _type a serem incluídos com o documento na solicitação em massa. Padrão: none. |
javaScriptIsDeleteFnGcsPath |
(Opcional) O caminho do Cloud Storage para a origem UDF em JavaScript de uma função que determina se o documento deve ser excluído em vez de inserido ou atualizado. A função precisa retornar o valor de string "true" ou "false" . Padrão: none. |
javaScriptIsDeleteFnName |
(Opcional) Nome da função UDF em JavaScript de uma função que vai determinar se o documento deve ser excluído em vez de inserido ou atualizado. A função precisa retornar o valor de string "true" ou "false" . Padrão: none. |
usePartialUpdate |
(Opcional) Indica se as atualizações parciais vão ser usadas (atualizar em vez de criar ou indexar, permitindo documentos parciais) com solicitações Elasticsearch. Padrão: false . |
bulkInsertMethod |
(Opcional) Indica se é necessário usar INDEX (índice, permite ajustes) ou CREATE (criar, erros em _id duplicados) com solicitações em massa do Elasticsearch. Padrão: CREATE . |
Funções definidas pelo usuário
Esse modelo é compatível com funções definidas pelo usuário (UDFs) em vários pontos do pipeline, descritas abaixo. Para mais informações, consulte Criar funções definidas pelo usuário para modelos do Dataflow.
Função de transformação de texto
Transforma os dados CSV em um documento do Elasticsearch.
Parâmetros do modelo:
javascriptTextTransformGcsPath
: o URI do Cloud Storage do arquivo JavaScript.javascriptTextTransformFunctionName
: o nome da função JavaScript.
Especificação da função:
- Entrada: uma única linha de um arquivo CSV de entrada.
- Saída: um documento JSON em formato de string para inserir no Elasticsearch.
Função de índice
Retorna o índice ao qual o documento pertence.
Parâmetros do modelo:
javaScriptIndexFnGcsPath
: o URI do Cloud Storage do arquivo JavaScript.javaScriptIndexFnName
: o nome da função JavaScript.
Especificação da função:
- Entrada: o documento do Elasticsearch, serializado como uma string JSON.
- Saída: o valor do campo de metadados
_index
do documento.
Função ID do documento
Retorna o ID do documento.
Parâmetros do modelo:
javaScriptIdFnGcsPath
: o URI do Cloud Storage do arquivo JavaScript.javaScriptIdFnName
: o nome da função JavaScript.
Especificação da função:
- Entrada: o documento do Elasticsearch, serializado como uma string JSON.
- Saída: o valor do campo de metadados
_id
do documento.
Função de exclusão de documentos
Especifica se um documento deve ser excluído. Para usar essa função, defina o modo de inserção em massa como INDEX
e forneça uma função de ID do documento.
Parâmetros do modelo:
javaScriptIsDeleteFnGcsPath
: o URI do Cloud Storage do arquivo JavaScript.javaScriptIsDeleteFnName
: o nome da função JavaScript.
Especificação da função:
- Entrada: o documento do Elasticsearch, serializado como uma string JSON.
- Saída: retorna a string
"true"
para excluir o documento ou"false"
para manter o documento.
Função do tipo de mapeamento
Retorna o tipo de mapeamento do documento.
Parâmetros do modelo:
javaScriptTypeFnGcsPath
: o URI do Cloud Storage do arquivo JavaScript.javaScriptTypeFnName
: o nome da função JavaScript.
Especificação da função:
- Entrada: o documento do Elasticsearch, serializado como uma string JSON.
- Saída: o valor do campo de metadados
_type
do documento.
Executar o modelo
Console
- Acesse a página Criar job usando um modelo do Dataflow. Acesse Criar job usando um modelo
- No campo Nome do job, insira um nome exclusivo.
- Opcional: em Endpoint regional, selecione um valor no menu suspenso. A região padrão é
us-central1
.Para ver uma lista de regiões em que é possível executar um job do Dataflow, consulte Locais do Dataflow.
- No menu suspenso Modelo do Dataflow, selecione the Cloud Storage to Elasticsearch template.
- Nos campos de parâmetro fornecidos, insira os valores de parâmetro.
- Cliquem em Executar job.
gcloud
No shell ou no terminal, execute o modelo:
gcloud dataflow flex-template run JOB_NAME \ --project=PROJECT_ID\ --region=REGION_NAME \ --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/GCS_to_Elasticsearch \ --parameters \ inputFileSpec=INPUT_FILE_SPEC,\ connectionUrl=CONNECTION_URL,\ apiKey=APIKEY,\ index=INDEX,\ deadletterTable=DEADLETTER_TABLE,\
Substitua:
PROJECT_ID
: o ID do projeto do Google Cloud em que você quer executar o job do DataflowJOB_NAME
: um nome de job de sua escolhaVERSION
: a versão do modelo que você quer usarUse estes valores:
latest
para usar a versão mais recente do modelo, disponível na pasta mãe não datada no bucket: gs://dataflow-templates-REGION_NAME/latest/- o nome da versão, como
2023-09-12-00_RC00
, para usar uma versão específica do modelo, que pode ser aninhada na respectiva pasta mãe datada no bucket: gs://dataflow-templates-REGION_NAME/
REGION_NAME
: a região em que você quer implantar o job do Dataflow, por exemplo,us-central1
.INPUT_FILE_SPEC
: o padrão de arquivo do Cloud Storage.CONNECTION_URL
: seu URL do ElasticsearchAPIKEY
: sua chave de API codificada em base64 para autenticação.INDEX
: seu índice do Elasticsearch.DEADLETTER_TABLE
: sua tabela do BigQuery.
API
Para executar o modelo usando a API REST, envie uma solicitação HTTP POST. Para mais informações sobre a
API e os respectivos escopos de autorização, consulte
projects.templates.launch
.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch { "launch_parameter": { "jobName": "JOB_NAME", "parameters": { "inputFileSpec": "INPUT_FILE_SPEC", "connectionUrl": "CONNECTION_URL", "apiKey": "APIKEY", "index": "INDEX", "deadletterTable": "DEADLETTER_TABLE" }, "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/GCS_to_Elasticsearch", } }
Substitua:
PROJECT_ID
: o ID do projeto do Google Cloud em que você quer executar o job do DataflowJOB_NAME
: um nome de job de sua escolhaVERSION
: a versão do modelo que você quer usarUse estes valores:
latest
para usar a versão mais recente do modelo, disponível na pasta mãe não datada no bucket: gs://dataflow-templates-REGION_NAME/latest/- o nome da versão, como
2023-09-12-00_RC00
, para usar uma versão específica do modelo, que pode ser aninhada na respectiva pasta mãe datada no bucket: gs://dataflow-templates-REGION_NAME/
LOCATION
: a região em que você quer implantar o job do Dataflow, por exemplo,us-central1
.INPUT_FILE_SPEC
: o padrão de arquivo do Cloud Storage.CONNECTION_URL
: seu URL do ElasticsearchAPIKEY
: sua chave de API codificada em base64 para autenticação.INDEX
: seu índice do Elasticsearch.DEADLETTER_TABLE
: sua tabela do BigQuery.
A seguir
- Saiba mais sobre os modelos do Dataflow.
- Confira a lista de modelos fornecidos pelo Google.