Pré-processamento manual de atributos
É possível usar a cláusula TRANSFORM
da instrução CREATE MODEL
junto com as funções de pré-processamento manual para definir o pré-processamento de dados personalizado. Também é possível usar essas funções de pré-processamento manual fora da cláusula TRANSFORM
.
Se você quiser dissociar o pré-processamento de dados do treinamento de modelo, crie um
modelo somente de transformação
que só realize transformações de dados usando a cláusula TRANSFORM
.
É possível usar a
função ML.TRANSFORM
para aumentar a transparência do pré-processamento de atributos. Essa função permite retornar os dados pré-processados da cláusula TRANSFORM
de um modelo para que você possa ver os dados reais de treinamento que entram no treinamento de modelo, bem como os dados de previsão reais que a disponibilização do modelo usa.
Para informações sobre suporte a pré-processamento de atributos no BigQuery ML, consulte Visão geral do pré-processamento de atributos.
Para informações sobre as instruções e funções SQL compatíveis com cada tipo de modelo, consulte Jornada do usuário completa de cada modelo.
Tipos de funções de pré-processamento
Há vários tipos de funções de pré-processamento manual:
- As funções escalares operam em uma única linha (por exemplo,
ML.BUCKETIZE
). - As funções com valor de tabela operam em todas as linhas e geram uma tabela. Exemplo,
ML.FEATURES_AT_TIME
. As funções analíticas operam em todas as linhas e geram o resultado de cada linha com base nas estatísticas coletadas em todas as linhas. Exemplo,
ML.QUANTILE_BUCKETIZE
.Sempre use uma cláusula
OVER()
vazia com funções analíticas de ML.Quando você usa funções analíticas de ML dentro da cláusula
TRANSFORM
durante o treinamento, as mesmas estatísticas são aplicadas automaticamente à entrada na previsão.
As seções a seguir descrevem as funções de pré-processamento disponíveis.
Funções gerais
Use a seguinte função em strings ou expressões numéricas para fazer a limpeza de dados:
Funções numéricas
Use as seguintes funções em expressões numéricas para regularizar os dados:
ML.BUCKETIZE
ML.MAX_ABS_SCALER
ML.MIN_MAX_SCALER
ML.NORMALIZER
ML.POLYNOMIAL_EXPAND
ML.QUANTILE_BUCKETIZE
ML.ROBUST_SCALER
ML.STANDARD_SCALER
Funções categóricas
Use as seguintes funções para categorizar dados:
Funções de texto
Use as seguintes funções em expressões de string de texto:
Funções de imagem
Use as seguintes funções nos dados de imagem:
Limitações conhecidas
- O BigQuery ML é compatível com o pré-processamento automático e o manual na exportação de modelos. Consulte os
tipos de dados compatíveis
e funções
para exportar modelos treinados com a
cláusula
TRANSFORM
do BigQuery ML.