Glossário da Vertex AI

  • conjunto de anotações
    • Um conjunto de anotações contém os rótulos associados aos arquivos de origem enviados em um conjunto de dados. Um conjunto de anotações é associado a um tipo de dados e um objetivo (por exemplo, vídeo/classificação).
  • Endpoints de API
    • Endpoints de API é um aspecto de configuração de serviço que especifica os endereços de rede, também conhecidos como endpoints de serviço. (por exemplo, aiplatform.googleapis.com).
  • Vizinho mais próximo aproximado (ANN, na sigla em inglês)
    • O serviço do vizinho mais próximo aproximado (ANN, na sigla em inglês) é uma solução de alta escala e baixa latência para encontrar vetores semelhantes (ou, mais especificamente, "embeddings") para um corpus grande.
  • artifact
    • Um artefato é uma entidade distinta ou parte dos dados produzidos e consumidos por um fluxo de trabalho de machine learning. Exemplos de artefatos incluem conjuntos de dados, modelos, arquivos de entrada e registros de treinamento.
  • Artifact Registry
    • O Artifact Registry é um serviço universal de gerenciamento de artefatos. É o serviço recomendado para gerenciar contêineres e outros artefatos no Google Cloud. Para saber mais, consulte Artifact Registry.
  • previsão em lote
    • A previsão em lote usa um grupo de solicitações de previsão e gera os resultados em um arquivo. Para mais informações, consulte Como receber previsões em lote.
  • caixa delimitadora
    • Uma caixa delimitadora para um objeto no frame de vídeo pode ser especificada de duas maneiras: (i) usando dois vértices que consistem em um conjunto de coordenadas x,y se eles forem pontos diagonalmente opostos do retângulo. Por exemplo: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) usar todos os quatro vértices. Para mais informações, consulte Preparar dados do vídeo.
  • métricas de classificação
    • As métricas de classificação suportadas no SDK da Vertex AI para Python são a matriz de confusão e a curva ROC.
  • context
    • Um contexto é usado para agrupar artefatos e execuções em uma única categoria, que pode ser consultada e digitada. Os contextos podem ser usados para representar conjuntos de metadados. Um exemplo de contexto seria uma execução de um pipeline de machine learning.
  • Chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês)
    • Chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês) são integrações que permitem aos clientes criptografar dados em serviços atuais do Google usando uma chave que eles gerenciam no Cloud KMS (também conhecido como Storky). No Cloud KMS, a chave de criptografia de dados protege os dados.
  • conjunto de dados
    • Um conjunto de dados é amplamente definido como uma coleção de registros de dados estruturados ou não estruturados. Para mais informações, consulte Criar um conjunto de dados
  • embedding
    • Embedding é um tipo de vetor usado para representar dados de uma forma que captura o significado semântico deles. Geralmente, os embeddings são criados com técnicas de machine learning e costumam ser usados no processamento de linguagem natural (PLN) e em outros aplicativos de machine learning.
  • event
    • Um evento descreve a relação entre artefatos e execuções. Cada artefato pode ser produzido por uma execução e consumido por outras execuções. Os eventos ajudam você a determinar a procedência dos artefatos nos fluxos de trabalho de ML encadeando artefatos e execuções.
  • execução
    • Uma execução é um registro de uma etapa de fluxo de trabalho de machine learning individual, geralmente anotado com os parâmetros de ambiente de execução. Exemplos de execuções incluem ingestão, validação e treinamento de modelos, avaliação e implantação de modelos.
  • experimento
    • Um experimento é um contexto que pode conter um conjunto de n execuções de experimentos e de pipelines onde um usuário pode investigar, em grupo, diferentes configurações, como artefatos de entrada ou hiperparâmetros.
  • Execução de experimento
    • Um experimento pode conter métricas, parâmetros, execuções, artefatos e recursos Vertex definidos pelo usuário (por exemplo, PipelineJob).
  • Análise exploratória de dados
    • Em estatística, a análise exploratória de dados (EDA, na sigla em inglês) é uma abordagem de análise de conjuntos de dados que resume as principais características, muitas vezes com métodos visuais. Um modelo estatístico pode ou não ser usado, mas a EDA serve principalmente para saber o que os dados podem informar além da modelagem formal ou da tarefa de teste de hipóteses.
  • recurso
    • Em machine learning (ML), um atributo é uma característica ou atributo de uma instância ou entidade usada como entrada para treinar um modelo de ML ou fazer previsões.
  • Engenharia de atributos
    • A engenharia de atributos é o processo de transformar dados brutos de machine learning (ML) em atributos que podem ser usados para treinar modelos de ML ou fazer previsões.
  • Valor do atributo
    • Um valor de recurso corresponde ao valor real e mensurável de um recurso (atributo) de uma instância ou entidade. Uma coleção de valores de elementos da entidade única representa o registro do elemento correspondente à entidade.
  • disponibilização de recursos
    • A exibição de atributos é o processo de exportação ou busca de valores de atributos para treinamento ou inferência. Na Vertex AI, há dois tipos de exibição de atributos: exibição on-line e exibição off-line. A disponibilização on-line recupera os valores de atributos mais recentes de um subconjunto da fonte de dados de atributos para previsões on-line. A disponibilização off-line ou em lote exporta grandes volumes de dados de atributos para processamento off-line, como treinamento de modelo de ML.
  • carimbo de data/hora do recurso
    • Um carimbo de data/hora do recurso indica quando foi gerado o conjunto de valores de atributo em um registro específico de uma entidade.
  • registro de recursos
    • Um registro de elemento é uma agregação de todos os valores de elementos que descrevem os atributos de uma entidade única em um momento específico.
  • Registro do atributo
    • Um registro de atributos é uma interface central para gravar fontes de dados de atributos que você quer disponibilizar para previsões on-line.
  • grupo de recursos
    • Um grupo de recursos é um recurso de registro de atributos que corresponde a uma tabela ou visualização de origem do BigQuery que contém dados de recursos. Ela pode conter elementos e ser considerada um agrupamento lógico de colunas de atributos na fonte de dados.
  • Visualização do recurso
    • Uma visualização de recursos é uma coleção lógica de recursos materializados de uma fonte de dados do BigQuery para uma instância de loja on-line. Uma visualização de recurso armazena e atualiza periodicamente os dados de recursos do cliente, que são atualizados periodicamente na origem do BigQuery. Ela é associada diretamente ao armazenamento de dados ou por associações com os recursos de registro do recurso.
  • SDK de componentes do pipeline do Google Cloud
    • O SDK de componentes do pipeline do Google Cloud (GCPC, na sigla em inglês) fornece um conjunto de componentes pré-criados do Kubeflow Pipelines com qualidade de produção, desempenho e facilidade de uso. É possível usar os componentes de pipeline do Google Cloud para definir e executar pipelines de ML no Vertex AI Pipelines e outros back-ends de execução de pipeline de ML em conformidade com o Kubeflow Pipelines. Veja mais informações em :
  • histogram
    • Uma exibição gráfica da variação em um conjunto de dados usando barras. Um histograma visualiza padrões que são difíceis de detectar em uma tabela simples de números.
  • index
    • Índice: um conjunto de vetores implantados juntos para a pesquisa por similaridade. Os vetores podem ser adicionados a um índice ou removidos dele. As consultas de pesquisa de similaridade são emitidas para um índice específico e pesquisam os vetores nesse índice.
  • informações empíricas
    • Termo que se refere à verificação da precisão do aprendizado de máquina em relação ao mundo real, como um conjunto de dados de informações empíricas.
  • Metadados de machine learning
    • O ML Metadata (MLMD, na sigla em inglês) é uma biblioteca para registrar e recuperar metadados associados a fluxos de trabalho de desenvolvedores de ML e cientistas de dados. O MLMD é uma parte integral do TensorFlow Extended (TFX), mas foi projetado para ser usado de maneira independente. Como parte da plataforma mais ampla do TFX, a maioria dos usuários só interage com o MLMD ao examinar os resultados dos componentes do pipeline, por exemplo, em notebooks ou no TensorBoard.
  • Conjunto de dados gerenciado
    • Um objeto de conjunto de dados criado e hospedado pela Vertex AI.
  • metadata resources
    • O Vertex ML Metadata expõe um modelo de dados semelhante a um gráfico para representar metadados produzidos e consumidos de fluxos de trabalho de ML. Os conceitos principais são Artefatos, Execuções, Eventos e Contextos.
  • MetadataSchema
    • Um MetadataSchema descreve o esquema para tipos específicos de artefatos, execuções ou contextos. MetadataSchemas são usados para validar os pares de chave-valor durante a criação dos recursos de metadados correspondentes. A validação de esquema é realizada apenas em campos correspondentes entre o recurso e o MetadataSchema. Os esquemas de tipo são representados com objetos de esquema da OpenAPI, que precisam ser descritos com o YAML.
  • MetadataStore
    • Um MetadataStore é o contêiner de nível superior para recursos de metadados. O MetadataStore é regionalizado e associado a um projeto específico do Google Cloud. Normalmente, uma organização usa um MetadataStore compartilhado para recursos de metadados em cada projeto.
  • Pipelines de ML
    • Os pipelines de ML são fluxos de trabalho de ML portáteis e escalonáveis baseados em contêineres.
  • model
    • Qualquer modelo pré-treinado ou não.
  • nome do recurso do modelo
    • O nome do recurso para um model da seguinte forma: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Encontre o ID do modelo no console do Cloud, na página "Registro do modelo".
  • Armazenamento off-line
    • O armazenamento off-line é uma instalação de armazenamento que armazena dados de atributos recentes e históricos, o que normalmente é usado para treinar modelos de ML. Um armazenamento off-line também contém os valores de atributos mais recentes, que podem ser exibidos para previsões on-line.
  • Repositório on-line
    • No gerenciamento de atributos, um armazenamento on-line é uma instalação de armazenamento dos valores de atributos mais recentes a serem exibidos para previsões on-line.
  • parâmetros
    • Os parâmetros são valores de entrada com chave que configuram uma execução, regulam o comportamento dela e afetam os resultados. Exemplos incluem taxa de aprendizado, taxa de desistência e número de etapas de treinamento.
  • pipeline
    • Os pipelines de ML são fluxos de trabalho de ML portáteis e escalonáveis baseados em contêineres.
  • componente do pipeline
    • Um conjunto de código completo que executa uma etapa no fluxo de trabalho de um pipeline, como pré-processamento e transformação de dados e treinamento de um modelo.
  • pipeline job
    • Um recurso na API Vertex AI correspondente a Vertex Pipeline Jobs. Os usuários criam um PipelineJob quando querem executar um pipeline de ML na Vertex AI.
  • execução de pipeline
    • Um ou mais PipelineJobs do Vertex podem ser associados a um experimento em que cada PipelineJob é representado como uma única execução. Nesse contexto, os parâmetros da execução são inferidos pelos parâmetros do PipelineJob. As métricas são inferidas dos artefatos do system.Metric produzidos por esse PipelineJob. Os artefatos da execução são inferidos dos artefatos produzidos pelo PipelineJob.
  • modelo de pipeline
    • Uma definição de fluxo de trabalho de ML que um ou vários usuários podem reutilizar para criar várias execuções de pipeline.
  • recall
    • Recall: a porcentagem de verdadeiros vizinhos mais próximos retornados pelo índice. Por exemplo, se uma consulta de vizinho mais próxima de 20 vizinhos mais próximos retornou 19 dos vizinhos mais próximos, o recall será de 19/20x100 = 95%.
  • Restringe
    • A funcionalidade para "restringir" pesquisas a um subconjunto do índice usando regras booleanas. A restrição também é chamada de "filtro". Com a Pesquisa de vetor, você pode usar a filtragem numérica e a filtragem de atributos de texto.
  • conta de serviço
    • No Google Cloud, uma conta de serviço é um tipo especial de conta usada por um aplicativo ou uma instância de máquina virtual (VM), não uma pessoa. Os aplicativos usam contas de serviço para fazer chamadas de API autorizadas.
  • Métricas de resumo
    • As métricas de resumo são um valor único para cada chave de métrica de uma execução de experimento. Por exemplo, a precisão de um experimento é a precisão calculada com base em um conjunto de dados de teste no final do treinamento, que pode ser capturado como uma única métrica de resumo de valor.
  • TensorBoard
    • O TensorBoard é um pacote de aplicativos da Web para visualizar e entender modelos e execuções do TensorFlow. Para mais informações, consulte TensorBoard.
  • Nome do recurso do TensorBoard
    • Um nome de recurso do TensorBoard é usado para identificar totalmente uma instância do TensorBoard da Vertex AI. O formato é o seguinte: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.
  • Instância do TensorBoard
    • Uma instância do TensorBoard é um recurso regionalizado que armazena Experimentos do TensorBoard da Vertex AI associados a um projeto. É possível criar várias instâncias do TensorBoard em um projeto, por exemplo, quando você quer várias instâncias ativadas para CMEK. Esse recurso é igual ao recurso TensorBoard na API.
  • TensorFlow Extended (TFX)
    • O TensorFlow Extended (tfx), uma plataforma completa para a implantação de pipelines de produção de machine learning com base na plataforma TensorFlow.
  • ajuste de tempo
    • O ajuste de horário é relativo ao início de um vídeo.
  • segmento de tempo
    • Um segmento de tempo é identificado por ajustes de horário de início e término.
  • métricas de série temporal
    • As métricas de série temporal são valores de métrica longitudinais em que cada valor representa uma etapa na parte da rotina de treinamento de uma execução. As métricas de séries temporais são armazenadas no TensorBoard da Vertex AI. O Vertex AI Experiments armazena uma referência ao recurso Vertex TensorBoard.
  • token
    • Um token em um modelo de linguagem é a unidade atômica que o modelo usa para treinar e fazer previsões, ou seja, palavras, morfemas e caracteres. Em domínios fora dos modelos de linguagem, os tokens podem representar outros tipos de unidades atômicas. Por exemplo, em visão computacional, um token pode ser um subconjunto de uma imagem.
  • artefatos não gerenciados
    • Um artefato que existe fora do contexto da Vertex AI.
  • vetor
    • Um vetor é uma lista de valores flutuantes com magnitude e direção. Ele pode ser usado para representar qualquer tipo de dados, como números, pontos no espaço ou direções.
  • Experimentos da Vertex AI
    • O Vertex AI Experiments permite que os usuários acompanhem (i) etapas de uma execução do experimento, por exemplo, pré-processamento, treinamento, (ii) entradas, por exemplo, algoritmos, parâmetros, conjuntos de dados, (iii) saídas dessas etapas, por exemplo, modelos checkpoints, métricas.
  • Experimento do TensorBoard da Vertex AI
    • Os dados associados a um Experimento podem ser visualizados no aplicativo da Web TensorBoard (escalares, histogramas, distribuições etc.). Os escalares de séries temporais podem ser visualizados no console do Google Cloud. Para mais detalhes, consulte Comparar e analisar execuções.
  • Tipo de dados do vértice
    • Os tipos de dados da Vertex AI são "imagem", "texto", "tabular" e "vídeo".
  • trecho de vídeo
    • Um trecho de vídeo é identificado pelo deslocamento de início e término de um vídeo.
  • nuvem privada virtual (VPC)
    • A nuvem privada virtual é um pool configurável de recursos de computação compartilhados sob demanda, alocado em um ambiente de nuvem pública e que oferece um nível de isolamento entre diferentes organizações que usam esses recursos.