Introdução ao BigQuery ML

Visão geral

Com o BigQuery ML, é possível criar e executar modelos de machine learning no BigQuery usando consultas SQL padrão. Ele torna o machine learning mais acessível ao permitir que especialistas em SQL criem modelos usando suas próprias ferramentas e habilidades. Também agiliza o processo de desenvolvimento, já que elimina a necessidade de movimentação de dados.

A funcionalidade do BigQuery ML está disponível quando se usa:

  • a interface web do BigQuery;
  • a ferramenta de linha de comando bq;
  • a API REST do BigQuery;
  • uma ferramenta externa, como um notebook Jupyter ou uma plataforma de inteligência empresarial.

O machine learning em grandes conjuntos de dados requer programação detalhada e conhecimento de bibliotecas de ML. Esses pré-requisitos restringem o desenvolvimento de soluções a um grupo muito pequeno de pessoas dentro da empresa. Além disso, excluem desse grupo seleto os analistas de dados que, mesmo tendo capacidade de compreender os dados, têm conhecimento limitado de machine learning e de programação.

O BigQuery ML permite que os analistas de dados usem o machine learning por meio das próprias habilidades e das ferramentas SQL existentes. Os analistas podem usar o BigQuery ML para criar e avaliar modelos de ML no BigQuery. Eles não precisam mais exportar quantidades reduzidas de dados para planilhas ou outros aplicativos, nem esperar por recursos limitados criados por equipes de cientistas de dados.

Modelos compatíveis com o BigQuery ML

Um modelo no BigQuery ML representa o que um sistema de ML aprendeu com os dados de treinamento.

Os modelos abaixo são compatíveis com o BigQuery ML:

  • Regressão linear para previsão. Por exemplo, as vendas de um item em determinado dia. Os rótulos têm valor real, não podem ser +/-, infinito ou NaN.
  • Regressão logística binária para classificação. Por exemplo, determinar se um cliente fará uma compra. Os rótulos têm apenas dois valores possíveis.
  • Regressão logística multiclasse para classificação. Esses modelos podem ser usados para prever diversos valores possíveis, como, por exemplo, se uma entrada tem "valor baixo", "valor médio" ou "valor alto". Os rótulos podem ter até 50 valores exclusivos. No BigQuery ML, o treinamento de regressão logística multiclasse usa um classificador multinomial (em inglês) com uma função de perda de entropia cruzada.
  • Cluster k-means para segmentação de dados (Beta). Por exemplo, identificar segmentos de clientes. K-means é uma técnica de aprendizado não supervisionada, logo, o treinamento do modelo não requer rótulos ou dados divididos para treinamento ou avaliação.

No BigQuery ML, é possível usar um modelo com dados de vários conjuntos de dados do BigQuery para treinamento e predição.

Vantagens do BigQuery ML

Comparado a outras abordagens que utilizam o machine learning com armazenamento de dados na nuvem, o BigQuery ML apresenta as seguintes vantagens:

  • O BigQuery ML facilita o acesso ao machine learning ao capacitar os analistas de dados, que são os principais usuários do armazenamento de dados, a criar e executar modelos com o uso de ferramentas e planilhas de inteligência empresarial já existentes. Isso torna possível que a tomada de decisões nas empresas passe a ser feita a partir de análises preditivas que envolvem toda a organização.
  • Não é necessário programar uma solução de machine learning com as linguagens Python ou Java. Os modelos são treinados e acessados no BigQuery usando SQL — uma linguagem que os analistas de dados conhecem.
  • O BigQuery ML acelera o processo de desenvolvimento e inovação do modelo, eliminando a necessidade de exportar dados do local de armazenamento de dados. Em vez disso, o BigQuery ML traz o machine learning para os dados. Exportar e reformatar os dados:

    • aumenta a complexidade do processo porque exige o uso de muitas ferramentas;
    • reduz a velocidade porque a movimentação e a formatação de grandes quantidades de dados para estruturas de machine learning baseadas em Python leva mais tempo do que o treinamento de modelo no BigQuery;
    • exige muitas etapas no processo de exportação de dados a partir do local de armazenamento, reduzindo a possibilidade de testar os dados;
    • pode ser impedido por restrições legais (como as diretrizes HIPAA, nos EUA).

Regiões compatíveis

Assim como o BigQuery, o BigQuery ML é um recurso multirregional. O BigQuery ML é compatível com as mesmas regiões que o BigQuery.

A localidade dos dados é especificada quando você cria um conjunto de dados para armazenar modelos do BigQuery ML e dados de treinamento. O BigQuery ML processa e organiza os dados no mesmo local do conjunto de dados de destino.

Cotas

Além dos limites específicos do BigQuery ML, as consultas que usam as funções do BigQuery ML e as instruções CREATE MODEL estão sujeitas às cotas e aos limites dos jobs de consulta do BigQuery.

Para mais informações sobre todas as cotas e limites do BigQuery ML, veja Cotas e limites.

Preços

Os modelos do BigQuery ML são armazenados em conjuntos de dados da ferramenta, como tabelas e visualizações. Quando você cria e usa modelos no BigQuery ML, suas cobranças são determinadas pelo volume de dados utilizado para treinar um modelo e pelas consultas realizadas em relação aos dados.

Para saber mais sobre as cobranças do BigQuery ML, veja Preços do BigQuery ML. Para informações sobre preços de armazenamento do BigQuery, consulte Preços de armazenamento. Acesse Preços de consulta para ler sobre preços de consultas do BigQuery ML.

Recursos

Para saber mais sobre machine learning e o BigQuery ML, consulte:

A seguir

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do BigQuery ML