Pré-processamento manual de atributos

É possível usar a cláusula TRANSFORM da instrução CREATE MODEL junto com as funções de pré-processamento manual para definir o pré-processamento de dados personalizado. Também é possível usar essas funções de pré-processamento manual fora da cláusula TRANSFORM.

Se você quiser dissociar o pré-processamento de dados do treinamento de modelo, crie um modelo somente de transformação que só realize transformações de dados usando a cláusula TRANSFORM.

É possível usar a função ML.TRANSFORM para aumentar a transparência do pré-processamento de atributos. Essa função permite retornar os dados pré-processados da cláusula TRANSFORM de um modelo para que você possa ver os dados reais de treinamento que entram no treinamento de modelo, bem como os dados de previsão reais que a disponibilização do modelo usa.

Para informações sobre suporte a pré-processamento de atributos no BigQuery ML, consulte Visão geral do pré-processamento de atributos.

Para informações sobre as instruções e funções SQL compatíveis com cada tipo de modelo, consulte Jornada do usuário completa de cada modelo.

Tipos de funções de pré-processamento

Há vários tipos de funções de pré-processamento manual:

  • As funções escalares operam em uma única linha (por exemplo, ML.BUCKETIZE).
  • As funções com valor de tabela operam em todas as linhas e geram uma tabela. Exemplo, ML.FEATURES_AT_TIME.
  • As funções analíticas operam em todas as linhas e geram o resultado de cada linha com base nas estatísticas coletadas em todas as linhas. Exemplo, ML.QUANTILE_BUCKETIZE.

    Sempre use uma cláusula OVER() vazia com funções analíticas de ML.

    Quando você usa funções analíticas de ML dentro da cláusula TRANSFORM durante o treinamento, as mesmas estatísticas são aplicadas automaticamente à entrada na previsão.

As seções a seguir descrevem as funções de pré-processamento disponíveis.

Funções gerais

Use a seguinte função em strings ou expressões numéricas para fazer a limpeza de dados:

Funções numéricas

Use as seguintes funções em expressões numéricas para regularizar os dados:

Funções categóricas

Use as seguintes funções para categorizar dados:

Funções de texto

Use as seguintes funções em expressões de string de texto:

Funções de imagem

Use as seguintes funções nos dados de imagem:

Limitações conhecidas