GcsSource

Local do Cloud Storage para o conteúdo de entrada.

Representação JSON
{
  "inputUris": [
    string
  ],
  "dataSchema": string
}
Campos
inputUris[]

string

Obrigatório. URIs do Cloud Storage para arquivos de entrada. Cada URI pode ter até 2.000 caracteres. Os URIs podem corresponder ao caminho completo do objeto (por exemplo, gs://bucket/directory/object.json) ou a um padrão que corresponda a um ou mais arquivos, como gs://bucket/directory/*.json.

Uma solicitação pode conter no máximo 100 arquivos (ou 100.000 arquivos se dataSchema for content). Cada arquivo pode ter até 2 GB (ou 100 MB se dataSchema for content).

dataSchema

string

O esquema a ser usado ao analisar os dados da origem.

Valores aceitos para importações de documentos:

  • document (padrão): um Document JSON por linha. Cada documento precisa ter um Document.id válido.
  • content: dados não estruturados (por exemplo, PDF, HTML). Cada arquivo correspondente a inputUris se torna um documento, com o ID definido como os primeiros 128 bits de SHA256(URI) codificados como uma string hexadecimal.
  • custom: um JSON de dados personalizados por linha em formato arbitrário que está de acordo com o Schema definido do repositório de dados. Só pode ser usado pela vertical GENERIC do repositório de dados.
  • csv: um arquivo CSV com cabeçalho de acordo com o Schema definido do repositório de dados. Cada entrada após o cabeçalho é importada como um documento. Só pode ser usado pela categoria GENERIC do repositório de dados.

Valores aceitos para importações de eventos do usuário:

  • user_event (padrão): um UserEvent JSON por linha.