Introdução à IA e à AA no BigQuery
O BigQuery ML permite-lhe criar e executar modelos de aprendizagem automática (AA) através de consultas GoogleSQL ou da Google Cloud consola. Os modelos do BigQuery ML são armazenados em conjuntos de dados do BigQuery, semelhantes a tabelas e vistas. O BigQuery ML também lhe permite aceder aos modelos da Vertex AI e às APIs Cloud AI para realizar tarefas de inteligência artificial (IA), como a geração de texto ou a tradução automática. O Gemini para Google Cloud também oferece assistência com tecnologia de IA para tarefas do BigQuery. Para ver uma lista de funcionalidades com tecnologia de IA no BigQuery, consulte a vista geral do Gemini no BigQuery.
Normalmente, a execução de aprendizagem automática ou IA em grandes conjuntos de dados requer uma programação extensa e conhecimentos de frameworks de aprendizagem automática. Estes requisitos restringem o desenvolvimento de soluções a um conjunto muito pequeno de pessoas em cada empresa e excluem os analistas de dados que compreendem os dados, mas têm conhecimentos limitados de ML e experiência em programação. No entanto, com o BigQuery ML, os profissionais de SQL podem usar ferramentas e competências de SQL existentes para criar e avaliar modelos, bem como para gerar resultados a partir de MDIs e APIs Google Cloud AI.
Pode trabalhar com as capacidades do BigQuery ML através do seguinte:
- A Google Cloud interface do utilizador da consola, para trabalhar com modelos através de uma IU. (Pré-visualizar)
- O Google Cloud editor de consultas da consola, para trabalhar com modelos através de consultas SQL.
- A ferramenta de linhas de comando bq
- A API REST do BigQuery
- Blocos de notas do Colab Enterprise integrados no BigQuery
- Ferramentas externas, como um bloco de notas do Jupyter ou uma plataforma de inteligência empresarial
Vantagens do BigQuery ML
O BigQuery ML oferece várias vantagens em relação a outras abordagens de utilização de ML ou IA com um armazém de dados baseado na nuvem:
- O BigQuery ML democratiza a utilização da aprendizagem automática e da IA, permitindo que os analistas de dados, os principais utilizadores do armazém de dados, criem e executem modelos através de ferramentas de Business Intelligence e folhas de cálculo existentes. A análise preditiva pode orientar a tomada de decisões empresariais em toda a organização.
- Não precisa de programar uma solução de ML ou IA com Python ou Java. Pode formar modelos e aceder a recursos de IA através de SQL, uma linguagem familiar para os analistas de dados.
O BigQuery ML aumenta a velocidade de desenvolvimento e inovação de modelos, eliminando a necessidade de mover dados do armazém de dados. Em alternativa, o BigQuery ML traz o ML para os dados, o que oferece as seguintes vantagens:
- Complexidade reduzida porque são necessárias menos ferramentas.
- Velocidade de produção aumentada, uma vez que não é necessário mover nem formatar grandes quantidades de dados para frameworks de ML baseados em Python para preparar um modelo no BigQuery.
Para mais informações, veja o vídeo Como acelerar a programação de aprendizagem automática com o BigQuery ML.
Conhecimentos recomendados
Ao usar as predefinições nas declarações CREATE MODEL
e nas funções de inferência, pode criar e usar modelos do BigQuery ML, mesmo sem muitos conhecimentos de AA. No entanto, ter conhecimentos básicos sobre o ciclo de vida do desenvolvimento de ML, como a engenharia de funcionalidades e a preparação de modelos, ajuda a otimizar os dados e o modelo para oferecer melhores resultados. Recomendamos que use os seguintes recursos para desenvolver
familiaridade com as técnicas e os processos de ML:
- Machine Learning Crash Course
- Introdução à aprendizagem automática
- Limpeza de dados
- Engenharia de funcionalidades
- Aprendizagem automática intermédia
IA generativa e modelos pré-preparados
Pode usar as capacidades do BigQuery ML para realizar uma série de tarefas de IA generativa.
Use modelos remotos, que são modelos do BigQuery ML sobre modelos do Vertex AI para realizar as seguintes tarefas:
- Geração de texto através da utilização de texto do Vertex AI ou de modelos multimodais.
- Incorporação de texto ou multimodal através de modelos de incorporação do Vertex AI.
Use as funções do BigQuery ML para realizar as seguintes tarefas:
- Gerar valores de um tipo específico usando funções em modelos alojados no Vertex AI.
- Previsão através da utilização de uma função no modelo de série cronológica TimesFM integrado do BigQuery ML.
Use modelos remotos através das APIs de IA na nuvem para realizar as seguintes tarefas:
- Processamento de linguagem natural através da API Cloud Natural Language.
- Tradução automática através da API Cloud Translation.
- Processamento de documentos através da API Document AI.
- Transcrição de áudio através da API Speech-to-Text.
- Visão computacional
Modelos suportados
Um modelo no BigQuery ML representa o que um sistema de ML aprendeu com os dados de preparação. As secções seguintes descrevem os tipos de modelos suportados pelo BigQuery ML. Para mais informações sobre como criar atribuições de reservas para os diferentes tipos de modelos, consulte o artigo Atribua slots a cargas de trabalho do BigQuery ML.
Modelos preparados internamente
Os seguintes modelos estão incorporados no BigQuery ML:
- A análise de contribuição destina-se a determinar o efeito de uma ou mais dimensões no valor de uma determinada métrica. Por exemplo, ver o efeito da localização da loja e da data de vendas na receita da loja. Para mais informações, consulte a vista geral da análise da contribuição.
- A regressão linear destina-se a prever o valor de uma métrica numérica para novos dados através de um modelo preparado com base em dados remotos semelhantes. As etiquetas são de valor real, o que significa que não podem ser infinito positivo, infinito negativo nem NaN (Not a Number).
- A regressão logística
destina-se à classificação de dois ou mais valores possíveis, como se uma entrada é
low-value
,medium-value
ouhigh-value
. As etiquetas podem ter até 50 valores únicos. - A agrupamento K-means destina-se à segmentação de dados. Por exemplo, este modelo identifica segmentos de clientes. O K-means é uma técnica de aprendizagem não supervisionada, pelo que a preparação do modelo não requer etiquetas nem dados divididos para preparação ou avaliação.
- A fatorização de matrizes destina-se à criação de sistemas de recomendações de produtos. Pode criar recomendações de produtos com base no histórico de comportamento, nas transações e nas classificações de produtos dos clientes e, em seguida, usar essas recomendações para experiências de clientes personalizadas.
- A análise de componentes principais (PCA) é o processo de calcular os componentes principais e usá-los para realizar uma alteração da base nos dados. É usado frequentemente para a redução da dimensionalidade, projetando cada ponto de dados apenas nos primeiros componentes principais para obter dados de menor dimensão, preservando o máximo possível da variação dos dados.
Os intervalos temporais destinam-se a fazer previsões de intervalos temporais e deteção de anomalias. Os modelos de séries cronológicas
ARIMA_PLUS
eARIMA_PLUS_XREG
oferecem várias opções de otimização e processam automaticamente anomalias, sazonalidade e feriados.Se não quiser gerir o seu próprio modelo de previsão de séries cronológicas, pode usar a função
AI.FORECAST
com o modelo de séries cronológicas TimesFM integrado do BigQuery ML (pré-visualização) para fazer previsões.
Pode fazer um teste preliminar nas declarações dos modelos preparados internamente para obter uma estimativa da quantidade de dados que vão processar se os executar.CREATE MODEL
Modelos preparados externamente
Os seguintes modelos são externos ao BigQuery ML e são preparados no Vertex AI:
- A rede neural profunda (DNN) destina-se à criação de redes neurais profundas baseadas no TensorFlow para modelos de classificação e regressão.
- O modelo Wide & Deep é útil para problemas de regressão e classificação genéricos de grande escala com entradas esparsas (características categóricas com um grande número de valores de características possíveis), como sistemas de recomendação, pesquisa e problemas de classificação.
- O autoencoder destina-se à criação de modelos baseados no TensorFlow com o apoio de representações de dados esparsos. Pode usar os modelos no BigQuery ML para tarefas como a deteção de anomalias não supervisionada e a redução da dimensionalidade não linear.
- Árvores melhoradas destina-se à criação de modelos de classificação e regressão baseados no XGBoost.
- A floresta aleatória destina-se à construção de várias árvores de decisão do método de aprendizagem para classificação, regressão e outras tarefas no momento da preparação.
- O AutoML é um serviço de ML supervisionado que cria e implementa modelos de classificação e regressão em dados tabulares a alta velocidade e escala.
Não pode executar um teste de execução nas declarações CREATE MODEL
para modelos preparados externamente para obter uma estimativa da quantidade de dados que vão processar se os executar.
Modelos de comandos
Pode criar
modelos remotos
no BigQuery que usam modelos implementados no Vertex AI.
Faz referência ao modelo implementado especificando o ponto final HTTPS do modelo remoto na declaração CREATE MODEL
.
As declarações CREATE MODEL
para modelos remotos não processam bytes e não incorrem em cobranças do BigQuery.
Modelos importados
O BigQuery ML permite-lhe importar modelos personalizados preparados fora do BigQuery e, em seguida, fazer previsões no BigQuery. Pode importar os seguintes modelos para o BigQuery a partir do Cloud Storage:
- O Open Neural Network Exchange (ONNX) é um formato padrão aberto para representar modelos de ML. Com o ONNX, pode disponibilizar no BigQuery ML modelos preparados com frameworks de AA populares, como o PyTorch e o scikit-learn.
- O TensorFlow é uma biblioteca de software de código aberto gratuita para aprendizagem automática e inteligência artificial. Pode usar o TensorFlow numa variedade de tarefas, mas tem um foco particular na preparação e na inferência de redes neurais profundas. Pode carregar modelos do TensorFlow previamente preparados para o BigQuery como modelos do BigQuery ML e, em seguida, fazer previsões no BigQuery ML.
- O TensorFlow Lite é uma versão leve do TensorFlow para implementação em dispositivos móveis, microcontroladores e outros dispositivos periféricos. O TensorFlow otimiza os modelos do TensorFlow existentes para um tamanho de modelo reduzido e uma inferência mais rápida.
- XGBoost é uma biblioteca de reforço de gradação distribuída otimizada concebida para ser altamente eficiente, flexível e portátil. Implementa algoritmos de aprendizagem automática na estrutura de aumento do gradiente.
As declarações CREATE MODEL
para modelos importados não processam bytes e não incorrem em custos do BigQuery.
No BigQuery ML, pode usar um modelo com dados de vários conjuntos de dados do BigQuery para preparação e previsão.
Guia de seleção de modelos
Transfira a árvore de decisões de seleção de modelos.
BigQuery ML e Vertex AI
O BigQuery ML integra-se com o Vertex AI, que é a plataforma integral para IA e ML no Google Cloud. Pode registar os seus modelos do BigQuery ML no Model Registry para implementar estes modelos em pontos finais para a previsão online. Para mais informações, consulte o seguinte:
- Para saber como usar os seus modelos do BigQuery ML com o Vertex AI, consulte o artigo Gerir modelos do BigQuery ML com o Vertex AI.
- Se não conhece o Vertex AI e quer saber mais sobre a forma como se integra com o BigQuery ML, consulte o artigo Vertex AI para utilizadores do BigQuery.
- Veja o vídeo Como simplificar os modelos de IA com o Vertex AI e o BigQuery ML.
BigQuery ML e Colab Enterprise
Agora, pode usar blocos de notas do Colab Enterprise para realizar fluxos de trabalho de ML no BigQuery. Os notebooks permitem-lhe usar SQL, Python e outras bibliotecas e linguagens populares para realizar as suas tarefas de ML. Para mais informações, consulte o artigo Crie blocos de notas.
Regiões suportadas
O BigQuery ML é suportado nas mesmas regiões que o BigQuery. Para mais informações, consulte o artigo Localizações do BigQuery ML.
Preços
São-lhe cobrados os recursos de computação que usa para preparar modelos e executar consultas em relação aos modelos. O tipo de modelo que cria afeta o local onde o modelo é preparado e o preço que se aplica a essa operação. As consultas em modelos são sempre executadas no BigQuery e usam os preços de computação do BigQuery. Uma vez que os modelos remotos fazem chamadas aos modelos do Vertex AI, as consultas aos modelos remotos também incorrem em cobranças do Vertex AI.
É-lhe cobrado o armazenamento usado pelos modelos preparados, através dos preços de armazenamento do BigQuery.
Para mais informações, consulte os preços do BigQuery ML.
Quotas
Além dos limites específicos do BigQuery ML, as consultas que usam funções e CREATE MODEL
declarações do BigQuery ML estão sujeitas às quotas e aos limites dos trabalhos de consulta do BigQuery.
Limitações
- O BigQuery ML não está disponível na edição Standard.
O que se segue?
- Para começar a usar o BigQuery ML, consulte o artigo Crie modelos de aprendizagem automática no BigQuery ML.
- Para saber mais acerca da aprendizagem automática e do BigQuery ML, consulte os seguintes recursos:
- Aplicar a aprendizagem automática aos seus dados com o Google Cloud curso na Coursera
- Programa de formação em estatísticas inteligentes e gestão de dados
- Machine Learning Crash Course
- Glossário de aprendizagem automática
- Para saber mais sobre o MLOps com o registo de modelos, consulte o artigo Gerir modelos do BigQuery ML no Vertex AI.
Para mais informações sobre as funções e as declarações SQL suportadas para diferentes tipos de modelos, consulte os seguintes documentos:
- Percursos dos utilizadores completos para modelos de IA generativa
- Percursos do utilizador completos para modelos de previsão de séries cronológicas
- Percursos do utilizador completos para modelos de ML
- Percursos do utilizador completos para modelos importados
- Percurso do utilizador da análise das contribuições