Informações gerais sobre pipelines de ML

Este documento apresenta uma visão geral dos serviços que podem ser usados para criar um pipeline de ML e gerenciar o fluxo de trabalho de MLOps do BigQuery ML.

Um pipeline de ML é uma representação de um fluxo de trabalho de MLOps composto de uma série de tarefas de pipeline. Cada tarefa do pipeline executa uma etapa específica no fluxo de trabalho de MLOps para treinar e implantar um modelo. Separar cada etapa em uma tarefa padronizada e reutilizável permite automatizar e monitorar processos repetíveis na prática de ML.

É possível usar qualquer um dos seguintes serviços para criar pipelines de ML do BigQuery ML:

  • Use o Vertex AI Pipelines para criar pipelines de ML portáteis e extensíveis.
  • Usar consultas do GoogleSQL para criar pipelines de ML menos complexos com base em SQL.
  • Use o Dataform para criar pipelines de ML mais complexos baseados em SQL ou pipelines de ML em que você precisa usar o controle de versão.

Vertex AI Pipelines

No Vertex AI Pipelines, um pipeline de ML é estruturado como um gráfico acíclico dirigido (DAG) de tarefas de pipeline conteinerizadas interconectadas por dependências de entrada e saída. Cada tarefa do pipeline é uma instanciação de um componente do pipeline com entradas específicas. Ao definir o pipeline de ML, você conecta várias tarefas do pipeline para formar um DAG encaminhando as saídas de uma tarefa do pipeline para as entradas da próxima tarefa do pipeline no fluxo de trabalho de ML. Você também pode usar as entradas originais para o pipeline de ML como as entradas de uma determinada tarefa de pipeline.

Use os Componentes do BigQuery ML do SDK dos componentes de pipeline do Google Cloud para compor pipelines de ML no Vertex AI Pipelines. Para começar a usar componentes do BigQuery ML, consulte os seguintes notebooks:

Consultas do GoogleSQL

É possível usar a linguagem procedural do GoogleSQL para executar várias instruções em uma consulta de várias instruções. É possível usar uma consulta de várias instruções para:

  • Executar várias instruções em uma sequência, com estado compartilhado.
  • Automatizar tarefas de gerenciamento, como criar ou descartar tabelas.
  • Implementar uma lógica complexa usando construções de programação, como IF e WHILE.

Depois de criar uma consulta de várias instruções, é possível salvar e programar a consulta para automatizar o treinamento, a inferência e o monitoramento do modelo.

Se o pipeline de ML incluir o uso da função ML.GENERATE_TEXT, consulte Gerenciar erros de cota chamando ML.GENERATE_TEXT de maneira iterativa para mais informações sobre como usar o SQL para iterar chamadas para a função. Chamar a função de maneira iterativa permite resolver erros que podem ser repetidos devido ao excesso de cotas e limites.

Dataform

Você pode usar o Dataform para desenvolver, testar, controlar a versão e programar fluxos de trabalho SQL complexos para transformação de dados no BigQuery. É possível usar o Dataform para tarefas como a transformação de dados no processo de extração, carregamento e transformação (ELT) para integração de dados. Depois que os dados brutos são extraídos dos sistemas de origem e carregados no BigQuery, o Dataform ajuda você a transformá-los em um conjunto de tabelas bem definido, testado e documentado.

Se o pipeline de ML incluir o uso da função ML.GENERATE_TEXT, adapte a biblioteca de exemplo structured_table_ml.js para iterar as chamadas para a função. Chamar a função de maneira iterativa permite resolver erros que podem ser repetidos devido ao excesso de cotas e limites aplicáveis à função.