Introdução ao BigQuery ML

Visão geral

Com o BigQuery ML, é possível criar e executar modelos de machine learning no BigQuery usando consultas SQL padrão. Ele torna o machine learning mais acessível ao permitir que especialistas em SQL criem modelos usando suas próprias ferramentas e habilidades. Também agiliza o processo de desenvolvimento, já que elimina a necessidade de movimentação de dados.

A funcionalidade do BigQuery ML está disponível quando se usa:

  • a IU da Web do BigQuery;
  • ferramenta de linha de comando bq;
  • a API REST do BigQuery;
  • uma ferramenta externa, como um notebook Jupyter ou uma plataforma de inteligência empresarial.

O machine learning em grandes conjuntos de dados requer programação detalhada e conhecimento de bibliotecas de ML. Esses pré-requisitos restringem o desenvolvimento de soluções a um grupo muito pequeno de pessoas dentro da empresa. Além disso, excluem desse grupo seleto os analistas de dados que, mesmo tendo capacidade de compreender os dados, têm conhecimento limitado de machine learning e de programação.

O BigQuery ML permite que os analistas de dados usem o machine learning por meio das próprias habilidades e das ferramentas SQL existentes. Os analistas podem usar o BigQuery ML para criar e avaliar modelos de ML no BigQuery. Eles não precisam mais exportar quantidades reduzidas de dados para planilhas ou outros aplicativos, nem esperar por recursos limitados criados por equipes de cientistas de dados.

Modelos compatíveis com o BigQuery ML

Um modelo no BigQuery ML representa o que um sistema de ML aprendeu com os dados de treinamento.

Os modelos abaixo são compatíveis com o BigQuery ML:

  • Regressão linear para previsão. Por exemplo, as vendas de um item em determinado dia. Os rótulos têm valor real, não podem ser +/-, infinito ou NaN.
  • Regressão logística binária para classificação. Por exemplo, determinar se um cliente fará uma compra. Os rótulos têm apenas dois valores possíveis.
  • Regressão logística multiclasse para classificação. Esses modelos podem ser usados para prever diversos valores possíveis. Por exemplo, se uma entrada tem um valor "baixo", "médio" ou "alto". Os rótulos podem ter até 50 valores exclusivos. No BigQuery ML, o treinamento de regressão logística multiclasse usa um classificador multinomial (em inglês) com uma função de perda de entropia cruzada.
  • Clustering k-means para segmentação de dados; por exemplo, identificar segmentos de clientes. K-means é uma técnica de aprendizado não supervisionada, portanto, o treinamento do modelo não requer rótulos ou dados de divisão para treinamento ou avaliação.
  • Importação de modelo do TensorFlow. Esse recurso permite criar modelos do BigQuery ML a partir de modelos do TensorFlow pré-treinados e realizar previsões no BigQuery ML. Para mais informações, consulte a instrução CREATE MODEL para importar modelos do TensorFlow.

No BigQuery ML, um modelo pode ser usado com dados de vários conjuntos de dados do BigQuery para treinamento e predição.

Vantagens do BigQuery ML

Comparado a outras abordagens que utilizam o machine learning com armazenamento de dados na nuvem, o BigQuery ML apresenta as seguintes vantagens:

  • O BigQuery ML facilita o acesso ao machine learning ao capacitar os analistas de dados, que são os principais usuários do armazenamento de dados, a criar e executar modelos com o uso de ferramentas e planilhas de inteligência empresarial já existentes. Isso torna possível que a tomada de decisões nas empresas passe a ser feita a partir de análises preditivas que envolvem toda a organização.
  • Não é necessário programar uma solução de machine learning com as linguagens Python ou Java. Os modelos são treinados e acessados no BigQuery usando SQL — uma linguagem que os analistas de dados conhecem.
  • O BigQuery ML acelera o processo de desenvolvimento e inovação do modelo, eliminando a necessidade de exportar dados do local de armazenamento de dados. Em vez disso, o BigQuery ML traz o machine learning para os dados. Exportar e reformatar os dados:

    • aumenta a complexidade do processo porque exige o uso de muitas ferramentas;
    • reduz a velocidade porque a movimentação e a formatação de grandes quantidades de dados para estruturas de machine learning baseadas em Python leva mais tempo do que o treinamento de modelo no BigQuery;
    • exige muitas etapas no processo de exportação de dados a partir do local de armazenamento, reduzindo a possibilidade de testar os dados;
    • pode ser impedido por restrições legais (como as diretrizes HIPAA, nos EUA).

Regiões compatíveis

Assim como o BigQuery, o BigQuery ML é um recurso multirregional. O BigQuery ML é compatível com as mesmas regiões que o BigQuery.

A localidade dos dados é especificada quando você cria um conjunto de dados para armazenar modelos do BigQuery ML e dados de treinamento. O BigQuery ML processa e organiza os dados no mesmo local do conjunto de dados de destino.

Cotas

Além dos limites específicos do BigQuery ML, as consultas que usam as funções do BigQuery ML e as instruções CREATE MODEL estão sujeitas às cotas e aos limites dos jobs de consulta do BigQuery.

Para mais informações sobre todas as cotas e limites do BigQuery ML, consulte Cotas e limites.

Preços

Os modelos do BigQuery ML são armazenados em conjuntos de dados da ferramenta, como tabelas e visualizações. Quando você cria e usa modelos no BigQuery ML, suas cobranças são determinadas pelo volume de dados utilizado para treinar um modelo e pelas consultas realizadas em relação aos dados.

Para mais sobre as cobranças do BigQuery ML, consulte Preços do BigQuery ML. Para mais informações sobre os preços de armazenamento do BigQuery, consulte Preços de armazenamento. Para mais informações sobre os preços de consulta do BigQuery, consulte Preços de consulta.

Recursos

Para saber mais sobre machine learning e o BigQuery ML, consulte:

A seguir

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…