Função ML.ROBUST_SCALER

Neste documento, descrevemos a função ML.ROBUST_SCALER, que permite dimensionar uma expressão numérica usando estatísticas robustas para outliers. A função executa o escalonamento removendo a mediana e escalonando os dados de acordo com o intervalo do quantil.

Quando usados na cláusula TRANSFORM, o intervalo médio e de quantil calculado durante o treinamento são usados automaticamente na previsão.

Sintaxe

ML.ROBUST_SCALER(numerical_expression [, quantile_range] [, with_median] [, with_quantile_range]) OVER()

Argumentos

ML.ROBUST_SCALER usa os seguintes argumentos:

  • numerical_expression: a expressão numérica a ser escalonada.
  • quantile_range: uma matriz de dois elementos INT64 que especifica o intervalo de quantis. O primeiro elemento fornece o limite inferior do intervalo. Deve ser maior do que 0. O segundo elemento fornece o limite superior do intervalo. Ele precisa ser maior que o primeiro elemento, mas menor que 100. O valor padrão é [25, 75].
  • with_median: um valor BOOL que especifica se os dados estão centralizados. Se for TRUE, a função centralizará os dados removendo a mediana antes do escalonamento. O valor padrão é TRUE.
  • with_quantile_range: um valor BOOL que especifica se os dados são escalonados para o intervalo de quantis. Se for TRUE, os dados serão escalonados. O valor padrão é TRUE.

Saída

ML.ROBUST_SCALER retorna um valor FLOAT64 que representa a expressão numérica dimensionada.

Exemplo

O exemplo a seguir centraliza um conjunto de expressões numéricas e o dimensiona para o intervalo [25, 75]:

SELECT f, ML.ROBUST_SCALER(f) OVER () AS output
FROM
  UNNEST([NULL, -3, 1, 2, 3, 4, 5]) AS f
ORDER BY f;

A saída será assim:

+------+---------------------+
|  f   |       output        |
+------+---------------------+
| NULL |                NULL |
|   -3 | -1.6666666666666667 |
|    1 | -0.3333333333333333 |
|    2 |                 0.0 |
|    3 |  0.3333333333333333 |
|    4 |  0.6666666666666666 |
|    5 |                 1.0 |
+------+---------------------+

A seguir