Introdução à IA e à AA no BigQuery

O BigQuery ML permite-lhe criar e executar modelos de aprendizagem automática (AA) através de consultas GoogleSQL ou da Google Cloud consola. Os modelos do BigQuery ML são armazenados em conjuntos de dados do BigQuery, semelhantes a tabelas e vistas. O BigQuery ML também lhe permite aceder aos modelos da Vertex AI e às APIs Cloud AI para realizar tarefas de inteligência artificial (IA), como a geração de texto ou a tradução automática. O Gemini para Google Cloud também oferece assistência com tecnologia de IA para tarefas do BigQuery. Para ver uma lista de funcionalidades com tecnologia de IA no BigQuery, consulte a vista geral do Gemini no BigQuery.

Normalmente, a execução de aprendizagem automática ou IA em grandes conjuntos de dados requer uma programação extensa e conhecimentos de frameworks de aprendizagem automática. Estes requisitos restringem o desenvolvimento de soluções a um conjunto muito pequeno de pessoas em cada empresa e excluem os analistas de dados que compreendem os dados, mas têm conhecimentos limitados de ML e experiência em programação. No entanto, com o BigQuery ML, os profissionais de SQL podem usar ferramentas e competências de SQL existentes para criar e avaliar modelos, bem como para gerar resultados a partir de MDIs e APIs Google Cloud AI.

Pode trabalhar com as capacidades do BigQuery ML através do seguinte:

Vantagens do BigQuery ML

O BigQuery ML oferece várias vantagens em relação a outras abordagens de utilização de ML ou IA com um armazém de dados baseado na nuvem:

  • O BigQuery ML democratiza a utilização da aprendizagem automática e da IA, permitindo que os analistas de dados, os principais utilizadores do armazém de dados, criem e executem modelos através de ferramentas de Business Intelligence e folhas de cálculo existentes. A análise preditiva pode orientar a tomada de decisões empresariais em toda a organização.
  • Não precisa de programar uma solução de ML ou IA com Python ou Java. Pode formar modelos e aceder a recursos de IA através de SQL, uma linguagem familiar para os analistas de dados.
  • O BigQuery ML aumenta a velocidade de desenvolvimento e inovação de modelos, eliminando a necessidade de mover dados do armazém de dados. Em alternativa, o BigQuery ML traz o ML para os dados, o que oferece as seguintes vantagens:

    • Complexidade reduzida porque são necessárias menos ferramentas.
    • Velocidade de produção aumentada, uma vez que não é necessário mover nem formatar grandes quantidades de dados para frameworks de ML baseados em Python para preparar um modelo no BigQuery.

    Para mais informações, veja o vídeo Como acelerar a programação de aprendizagem automática com o BigQuery ML.

Ao usar as predefinições nas declarações CREATE MODEL e nas funções de inferência, pode criar e usar modelos do BigQuery ML, mesmo sem muitos conhecimentos de AA. No entanto, ter conhecimentos básicos sobre o ciclo de vida do desenvolvimento de ML, como a engenharia de funcionalidades e a preparação de modelos, ajuda a otimizar os dados e o modelo para oferecer melhores resultados. Recomendamos que use os seguintes recursos para desenvolver familiaridade com as técnicas e os processos de ML:

IA generativa e modelos pré-preparados

Pode usar as capacidades do BigQuery ML para realizar uma série de tarefas de IA generativa.

Modelos suportados

Um modelo no BigQuery ML representa o que um sistema de ML aprendeu com os dados de preparação. As secções seguintes descrevem os tipos de modelos suportados pelo BigQuery ML. Para mais informações sobre como criar atribuições de reservas para os diferentes tipos de modelos, consulte o artigo Atribua slots a cargas de trabalho do BigQuery ML.

Modelos preparados internamente

Os seguintes modelos estão incorporados no BigQuery ML:

  • A análise de contribuição destina-se a determinar o efeito de uma ou mais dimensões no valor de uma determinada métrica. Por exemplo, ver o efeito da localização da loja e da data de vendas na receita da loja. Para mais informações, consulte a vista geral da análise da contribuição.
  • A regressão linear destina-se a prever o valor de uma métrica numérica para novos dados através de um modelo preparado com base em dados remotos semelhantes. As etiquetas são de valor real, o que significa que não podem ser infinito positivo, infinito negativo nem NaN (Not a Number).
  • A regressão logística destina-se à classificação de dois ou mais valores possíveis, como se uma entrada é low-value, medium-value ou high-value. As etiquetas podem ter até 50 valores únicos.
  • A agrupamento K-means destina-se à segmentação de dados. Por exemplo, este modelo identifica segmentos de clientes. O K-means é uma técnica de aprendizagem não supervisionada, pelo que a preparação do modelo não requer etiquetas nem dados divididos para preparação ou avaliação.
  • A fatorização de matrizes destina-se à criação de sistemas de recomendações de produtos. Pode criar recomendações de produtos com base no histórico de comportamento, nas transações e nas classificações de produtos dos clientes e, em seguida, usar essas recomendações para experiências de clientes personalizadas.
  • A análise de componentes principais (PCA) é o processo de calcular os componentes principais e usá-los para realizar uma alteração da base nos dados. É usado frequentemente para a redução da dimensionalidade, projetando cada ponto de dados apenas nos primeiros componentes principais para obter dados de menor dimensão, preservando o máximo possível da variação dos dados.
  • Os intervalos temporais destinam-se a fazer previsões de intervalos temporais e deteção de anomalias. Os modelos de séries cronológicas ARIMA_PLUS e ARIMA_PLUS_XREG oferecem várias opções de otimização e processam automaticamente anomalias, sazonalidade e feriados.

    Se não quiser gerir o seu próprio modelo de previsão de séries cronológicas, pode usar a função AI.FORECAST com o modelo de séries cronológicas TimesFM integrado do BigQuery ML (pré-visualização) para fazer previsões.

Pode fazer um teste preliminar nas declarações dos modelos preparados internamente para obter uma estimativa da quantidade de dados que vão processar se os executar.CREATE MODEL

Modelos preparados externamente

Os seguintes modelos são externos ao BigQuery ML e são preparados no Vertex AI:

  • A rede neural profunda (DNN) destina-se à criação de redes neurais profundas baseadas no TensorFlow para modelos de classificação e regressão.
  • O modelo Wide & Deep é útil para problemas de regressão e classificação genéricos de grande escala com entradas esparsas (características categóricas com um grande número de valores de características possíveis), como sistemas de recomendação, pesquisa e problemas de classificação.
  • O autoencoder destina-se à criação de modelos baseados no TensorFlow com o apoio de representações de dados esparsos. Pode usar os modelos no BigQuery ML para tarefas como a deteção de anomalias não supervisionada e a redução da dimensionalidade não linear.
  • Árvores melhoradas destina-se à criação de modelos de classificação e regressão baseados no XGBoost.
  • A floresta aleatória destina-se à construção de várias árvores de decisão do método de aprendizagem para classificação, regressão e outras tarefas no momento da preparação.
  • O AutoML é um serviço de ML supervisionado que cria e implementa modelos de classificação e regressão em dados tabulares a alta velocidade e escala.

Não pode executar um teste de execução nas declarações CREATE MODEL para modelos preparados externamente para obter uma estimativa da quantidade de dados que vão processar se os executar.

Modelos de comandos

Pode criar modelos remotos no BigQuery que usam modelos implementados no Vertex AI. Faz referência ao modelo implementado especificando o ponto final HTTPS do modelo remoto na declaração CREATE MODEL.

As declarações CREATE MODEL para modelos remotos não processam bytes e não incorrem em cobranças do BigQuery.

Modelos importados

O BigQuery ML permite-lhe importar modelos personalizados preparados fora do BigQuery e, em seguida, fazer previsões no BigQuery. Pode importar os seguintes modelos para o BigQuery a partir do Cloud Storage:

  • O Open Neural Network Exchange (ONNX) é um formato padrão aberto para representar modelos de ML. Com o ONNX, pode disponibilizar no BigQuery ML modelos preparados com frameworks de AA populares, como o PyTorch e o scikit-learn.
  • O TensorFlow é uma biblioteca de software de código aberto gratuita para aprendizagem automática e inteligência artificial. Pode usar o TensorFlow numa variedade de tarefas, mas tem um foco particular na preparação e na inferência de redes neurais profundas. Pode carregar modelos do TensorFlow previamente preparados para o BigQuery como modelos do BigQuery ML e, em seguida, fazer previsões no BigQuery ML.
  • O TensorFlow Lite é uma versão leve do TensorFlow para implementação em dispositivos móveis, microcontroladores e outros dispositivos periféricos. O TensorFlow otimiza os modelos do TensorFlow existentes para um tamanho de modelo reduzido e uma inferência mais rápida.
  • XGBoost é uma biblioteca de reforço de gradação distribuída otimizada concebida para ser altamente eficiente, flexível e portátil. Implementa algoritmos de aprendizagem automática na estrutura de aumento do gradiente.

As declarações CREATE MODEL para modelos importados não processam bytes e não incorrem em custos do BigQuery.

No BigQuery ML, pode usar um modelo com dados de vários conjuntos de dados do BigQuery para preparação e previsão.

Guia de seleção de modelos

Esta árvore de decisão mapeia os modelos de ML para as ações que quer realizar. Transfira a árvore de decisões de seleção de modelos.

BigQuery ML e Vertex AI

O BigQuery ML integra-se com o Vertex AI, que é a plataforma integral para IA e ML no Google Cloud. Pode registar os seus modelos do BigQuery ML no Model Registry para implementar estes modelos em pontos finais para a previsão online. Para mais informações, consulte o seguinte:

BigQuery ML e Colab Enterprise

Agora, pode usar blocos de notas do Colab Enterprise para realizar fluxos de trabalho de ML no BigQuery. Os notebooks permitem-lhe usar SQL, Python e outras bibliotecas e linguagens populares para realizar as suas tarefas de ML. Para mais informações, consulte o artigo Crie blocos de notas.

Regiões suportadas

O BigQuery ML é suportado nas mesmas regiões que o BigQuery. Para mais informações, consulte o artigo Localizações do BigQuery ML.

Preços

São-lhe cobrados os recursos de computação que usa para preparar modelos e executar consultas em relação aos modelos. O tipo de modelo que cria afeta o local onde o modelo é preparado e o preço que se aplica a essa operação. As consultas em modelos são sempre executadas no BigQuery e usam os preços de computação do BigQuery. Uma vez que os modelos remotos fazem chamadas aos modelos do Vertex AI, as consultas aos modelos remotos também incorrem em cobranças do Vertex AI.

É-lhe cobrado o armazenamento usado pelos modelos preparados, através dos preços de armazenamento do BigQuery.

Para mais informações, consulte os preços do BigQuery ML.

Quotas

Além dos limites específicos do BigQuery ML, as consultas que usam funções e CREATE MODELdeclarações do BigQuery ML estão sujeitas às quotas e aos limites dos trabalhos de consulta do BigQuery.

Limitações

O que se segue?