O que é o BigQuery ML?

Com o BigQuery ML, é possível criar e executar modelos de machine learning no BigQuery usando consultas SQL padrão. Com o BigQuery ML, o aprendizado de máquina permite que os profissionais de SQL criem modelos usando ferramentas e habilidades SQL existentes. Também agiliza o processo de desenvolvimento, já que elimina a necessidade de movimentação de dados.

A funcionalidade do BigQuery ML está disponível quando se usa:

  • O Console do Google Cloud.
  • Ferramenta de linha de comando bq
  • a API REST do BigQuery;
  • uma ferramenta externa, como um notebook Jupyter ou uma plataforma de inteligência empresarial.

O machine learning em grandes conjuntos de dados requer programação detalhada e conhecimento de bibliotecas de ML. Esses pré-requisitos restringem o desenvolvimento de soluções a um grupo muito pequeno de pessoas dentro da empresa. Além disso, excluem desse grupo seleto os analistas de dados que, mesmo tendo capacidade de compreender os dados, têm conhecimento limitado de machine learning e de programação.

O BigQuery ML permite que os analistas de dados usem o machine learning por meio das próprias habilidades e das ferramentas SQL existentes. Os analistas podem usar o BigQuery ML para criar e avaliar modelos de ML no BigQuery. Eles não precisam exportar pequenas quantidades de dados para planilhas ou outros aplicativos nem esperar por recursos limitados criados por equipes de cientistas de dados.

Modelos compatíveis com o BigQuery ML

Um modelo no BigQuery ML representa o que um sistema de ML aprendeu com os dados de treinamento.

O BigQuery ML é compatível com os seguintes tipos de modelos:

  • Regressão linear para previsão. Por exemplo, as vendas de um item em determinado dia. Os rótulos têm valor real, não podem ser +/-, infinito ou NaN.
  • Regressão logística binária para classificação. Por exemplo, determinar se um cliente fará uma compra. Os rótulos têm apenas dois valores possíveis.
  • Regressão logística multiclasse para classificação. Esses modelos podem ser usados para prever diversos valores possíveis. Por exemplo, se uma entrada tem um valor "baixo", "médio" ou "alto". Os rótulos podem ter até 50 valores exclusivos. No BigQuery ML, o treinamento de regressão logística multiclasse usa um classificador multinomial (em inglês) com uma função de perda de entropia cruzada (em inglês).
  • Clustering k-means para segmentação de dados. Por exemplo, identificar segmentos de clientes. K-means é uma técnica de aprendizado não supervisionada, portanto, o treinamento do modelo não requer rótulos ou dados de divisão para treinamento ou avaliação.
  • Fatoração de matrizes para criar sistemas de recomendação de produtos. É possível criar recomendações de produtos com base no histórico de comportamento do cliente, transações e classificações do produto e usá-las para experiências personalizadas do cliente.
  • Série temporal para realizar previsões de série temporal. É possível usar esse recurso para criar milhões de modelos de série temporal e usá-los para previsão. O modelo lida automaticamente com anomalias, sazonalidade e feriados.
  • Árvore otimizada para criar modelos de classificação e regressão baseados em XGBoost.
  • Rede neural profunda (DNN) para criar redes neurais profundas baseadas no TensorFlow para modelos de classificação e regressão.
  • Tabelas do AutoML para criar os melhores modelos sem engenharia de atributos ou seleção de modelos. O recurso Tabelas do AutoML pesquisa em várias arquiteturas de modelo para decidir o melhor modelo.
  • Importação de modelo do TensorFlow. Esse recurso permite criar modelos do BigQuery ML a partir de modelos do TensorFlow pré-treinados e realizar predições no BigQuery ML.
  • Autoencoder para criar modelos do BigQuery ML baseados no Tensorflow com suporte para representações de dados esparsas. Os modelos podem ser usados no BigQuery ML para tarefas como detecção de anomalias não supervisionada e redução de dimensionalidade não linear.

No BigQuery ML, é possível usar um modelo com dados de vários conjuntos de dados do BigQuery para treinamento e predição.

Vantagens do BigQuery ML

Comparado a outras abordagens que utilizam o machine learning com armazenamento de dados na nuvem, o BigQuery ML apresenta as seguintes vantagens:

  • O BigQuery ML facilita o acesso ao machine learning ao capacitar os analistas de dados, que são os principais usuários do armazenamento de dados, a criar e executar modelos com o uso de ferramentas e planilhas de inteligência empresarial já existentes. A análise preditiva pode orientar a tomada de decisões de negócios em toda a organização.
  • Não é necessário programar uma solução de machine learning com as linguagens Python ou Java. Os modelos são treinados e acessados no BigQuery usando SQL — uma linguagem que os analistas de dados conhecem.
  • O BigQuery ML acelera o processo de desenvolvimento e inovação do modelo, eliminando a necessidade de exportar dados do local de armazenamento de dados. Em vez disso, o BigQuery ML traz o machine learning para os dados. A necessidade de exportar e reformatar dados tem as seguintes desvantagens:

    • aumenta a complexidade porque são necessárias várias ferramentas;
    • reduz a velocidade porque a movimentação e a formatação de grandes quantidades de dados para estruturas de machine learning baseadas em Python leva mais tempo do que o treinamento de modelo no BigQuery;
    • exige muitas etapas no processo de exportação de dados a partir do local de armazenamento, reduzindo a possibilidade de testar os dados;
    • pode ser impedido por restrições legais, como as diretrizes HIPAA, nos EUA.

Regiões compatíveis

O BigQuery ML é compatível com as mesmas regiões que o BigQuery. Consulte a página de locais para ver uma lista completa de regiões e multirregiões compatíveis.

Preço

Os modelos do BigQuery ML são armazenados em conjuntos de dados da ferramenta, como tabelas e visualizações. Consulte Preços do BigQuery ML para mais informações sobre esse assunto.

Consulte Preços de armazenamento para mais informações sobre esse assunto. Para informações sobre preços de consulta do BigQuery ML, veja Preços de consulta.

Cotas

Além dos limites específicos do BigQuery ML, as consultas que usam as funções do BigQuery ML e as instruções CREATE MODEL estão sujeitas às cotas e aos limites dos jobs de consulta do BigQuery.

Para mais informações sobre todas as cotas e limites do BigQuery ML, veja Cotas e limites.

A seguir