Vista geral dos pipelines de ML

Este documento apresenta uma vista geral dos serviços que pode usar para criar um pipeline de ML para gerir o seu fluxo de trabalho de MLOps do BigQuery ML.

Um pipeline de ML é uma representação de um fluxo de trabalho de MLOps composto por uma série de tarefas de pipeline. Cada tarefa do pipeline executa um passo específico no fluxo de trabalho de MLOps para preparar e implementar um modelo. A separação de cada passo numa tarefa padronizada e reutilizável permite-lhe automatizar e monitorizar processos repetíveis na sua prática de ML.

Pode usar qualquer um dos seguintes serviços para criar pipelines de ML do BigQuery ML:

  • Use os pipelines do Vertex AI para criar pipelines de ML portáteis e extensíveis.
  • Use consultas GoogleSQL para criar pipelines de ML baseados em SQL menos complexos.
  • Use o Dataform para criar pipelines de ML baseados em SQL mais complexos ou pipelines de ML onde precisa de usar o controlo de versões.

Vertex AI Pipelines

Nos pipelines da Vertex AI, um pipeline de ML está estruturado como um gráfico acíclico orientado (DAG) de tarefas de pipeline em contentores interligadas através de dependências de entrada/saída. Cada tarefa de pipeline é uma instanciação de um componente de pipeline com entradas específicas. Quando define o seu pipeline de ML, associa várias tarefas do pipeline para formar um DAG encaminhando as saídas de uma tarefa do pipeline para as entradas da tarefa do pipeline seguinte no fluxo de trabalho de ML. Também pode usar as entradas originais para o pipeline de ML como entradas para uma determinada tarefa do pipeline.

Use os componentes do BigQuery ML do SDK de componentes de pipelines do Google Cloud para compor pipelines de ML nos Vertex AI Pipelines. Para começar a usar os componentes do BigQuery ML, consulte os seguintes blocos de notas:

Consultas do GoogleSQL

Pode usar a linguagem processual GoogleSQL para executar várias declarações numa consulta com várias declarações. Pode usar uma consulta com várias declarações para:

  • Executar várias declarações numa sequência, com estado partilhado.
  • Automatizar tarefas de gestão, como criar ou eliminar tabelas.
  • Implementar lógica complexa através de construções de programação, como IF e WHILE.

Depois de criar uma consulta com várias declarações, pode guardar e agendar a consulta para automatizar a preparação, a inferência e a monitorização de modelos.

Se o seu pipeline de ML incluir a utilização da função ML.GENERATE_TEXT, consulte o artigo Resolva erros de quota chamando ML.GENERATE_TEXT iterativamente para ver mais informações sobre como usar SQL para iterar chamadas à função. Chamar a função iterativamente permite-lhe resolver quaisquer erros repetíveis que ocorram devido à ultrapassagem das quotas e dos limites.

Dataform

Pode usar o Dataform para desenvolver, testar, controlar versões e agendar fluxos de trabalho SQL complexos para a transformação de dados no BigQuery. Pode usar o Dataform para tarefas como a transformação de dados no processo de extração, carregamento e transformação (ELT) para a integração de dados. Depois de os dados não processados serem extraídos dos sistemas de origem e carregados no BigQuery, o Dataform ajuda a transformá-los num conjunto de tabelas de dados bem definido, testado e documentado.

Se o seu pipeline de ML incluir a utilização da função ML.GENERATE_TEXT, pode adaptar a structured_table_ml.jsbiblioteca de exemplos para iterar as chamadas à função. A chamada da função de forma iterativa permite-lhe resolver quaisquer erros repetíveis que ocorram devido à ultrapassagem das quotas e dos limites que se aplicam à função.