Benutzerdefinierte Aggregatfunktionen

Wenn Sie Unterstützung während der Vorschau benötigen, senden Sie eine E-Mail an bigquery-sql-preview-support@google.com.

In diesem Dokument wird beschrieben, wie Sie benutzerdefinierte Aggregationsfunktionen (UDAFs) in BigQuery erstellen, aufrufen und löschen.

Mit einem UDAF können Sie mithilfe eines Ausdrucks, der Code enthält, eine Aggregatfunktion erstellen. Ein UDAF akzeptiert Eingabespalten, führt eine Berechnung für jeweils eine Gruppe von Zeilen durch und gibt dann das Ergebnis dieser Berechnung als einzelnen Wert zurück.

SQL-UDAF erstellen

In diesem Abschnitt werden die verschiedenen Möglichkeiten zum Erstellen einer nichtflüchtigen oder temporären SQL-UDAF in BigQuery beschrieben.

Nichtflüchtige SQL-UDAF erstellen

Sie können eine persistente SQL-UDAF erstellen, d. h., Sie können die UDAF für mehrere Abfragen wiederverwenden. Nichtflüchtige UDAFs können sicher aufgerufen werden, wenn sie von Inhabern gemeinsam genutzt werden. UDAFs können keine Daten mutieren, nicht mit externen Systemen kommunizieren oder Logs an Google Cloud Beobachtbarkeit oder ähnliche Anwendungen senden.

Verwenden Sie zum Erstellen eines nichtflüchtigen UDAF die Anweisung CREATE AGGREGATE FUNCTION ohne das Schlüsselwort TEMP oder TEMPORARY. Das Dataset muss in den Funktionspfad aufgenommen werden.

Die folgende Abfrage erstellt beispielsweise eine persistente UDAF mit dem Namen ScaledAverage:

CREATE AGGREGATE FUNCTION myproject.mydataset.ScaledAverage(
  dividend FLOAT64,
  divisor FLOAT64)
RETURNS FLOAT64
AS (
  AVG(dividend / divisor)
);

Temporäre SQL-UDAF erstellen

Sie können eine temporäre SQL-UDAF erstellen, d. h. die UDAF ist nur im Bereich einer einzelnen Abfrage, eines Skripts, einer Sitzung oder einer Prozedur vorhanden.

Verwenden Sie zum Erstellen einer temporären UDAF die CREATE AGGREGATE FUNCTION-Anweisung mit dem Schlüsselwort TEMP oder TEMPORARY.

Mit der folgenden Abfrage wird beispielsweise eine temporäre UDAF mit dem Namen ScaledAverage erstellt:

CREATE TEMP AGGREGATE FUNCTION ScaledAverage(
  dividend FLOAT64,
  divisor FLOAT64)
RETURNS FLOAT64
AS (
  AVG(dividend / divisor)
);

Aggregierte und nicht zusammengefasste Parameter verwenden

Sie können eine SQL-UDAF erstellen, die sowohl zusammengefasste als auch nicht-aggregierte Parameter enthält.

UDAFs aggregieren normalerweise Funktionsparameter über alle Zeilen in einer Gruppe. Sie können einen Funktionsparameter jedoch mit dem Keyword NOT AGGREGATE als nicht aggregiert angeben.

Ein Funktionsparameter ohne Aggregatfunktion ist ein skalarer Funktionsparameter mit einem konstanten Wert für alle Zeilen in einer Gruppe. Ein gültiger Parameter ohne Aggregatfunktion muss ein Literal sein. Innerhalb der UDAF-Definition können Aggregatfunktionsparameter nur als Funktionsargumente zum Aggregieren von Funktionsaufrufen verwendet werden. Verweise auf nicht aggregierte Funktionsparameter können an beliebiger Stelle in der UDAF-Definition angezeigt werden.

Die folgende Funktion enthält beispielsweise einen Aggregatparameter namens dividend und einen nicht Aggregationsparameter namens divisor:

-- Create the function.
CREATE TEMP AGGREGATE FUNCTION ScaledSum(
  dividend FLOAT64,
  divisor FLOAT64 NOT AGGREGATE)
RETURNS FLOAT64
AS (
  SUM(dividend) / divisor
);

Standardprojekt im Funktionsrumpf verwenden

Im Textteil einer SQL-UDAF muss jeder Verweis auf BigQuery-Entitäten wie Tabellen oder Ansichten die Projekt-ID enthalten, es sei denn, die Entität befindet sich in demselben Projekt, in dem die UDAF ausgeführt wird.

Betrachten Sie beispielsweise die folgende Anweisung:

CREATE AGGREGATE FUNCTION project1.dataset_a.ScaledAverage(
  dividend FLOAT64,
  divisor FLOAT64)
RETURNS FLOAT64
AS (
  ( SELECT AVG(dividend / divisor) FROM dataset_a.my_table )
);

Wenn Sie die obige Anweisung im project1-Projekt ausführen, ist sie erfolgreich, da my_table in project1 vorhanden ist. Wenn Sie die obige Anweisung jedoch in einem anderen Projekt ausführen, schlägt sie fehl. Fügen Sie die Projekt-ID in die Tabellenreferenz ein, um den Fehler zu beheben:

CREATE AGGREGATE FUNCTION project1.dataset_a.ScaledAverage(
  dividend FLOAT64,
  divisor FLOAT64)
RETURNS FLOAT64
AS (
  ( SELECT AVG(dividend / divisor) FROM project1.dataset_a.my_table )
);

Sie können auch auf eine Entität in einem anderen Projekt oder Dataset verweisen, in dem Sie die Funktion erstellen:

CREATE AGGREGATE FUNCTION project1.dataset_a.ScaledAverage(
  dividend FLOAT64,
  divisor FLOAT64)
RETURNS FLOAT64
AS (
  ( SELECT AVG(dividend / divisor) FROM project2.dataset_c.my_table )
);

JavaScript-UDAF erstellen

In diesem Abschnitt werden die verschiedenen Möglichkeiten beschrieben, mit denen Sie eine JavaScript-UDAF in BigQuery erstellen können. Beim Erstellen einer JavaScript-UDAF sind einige Regeln zu beachten:

  • Der Text der JavaScript-UDAF muss ein Stringliteral in Anführungszeichen sein, das den JavaScript-Code darstellt. Weitere Informationen zu den verschiedenen Arten von Stringliteralen in Anführungszeichen, die Sie verwenden können, finden Sie unter Formate für Literale in Anführungszeichen.

  • Nur bestimmte Typcodierungen sind zulässig. Weitere Informationen finden Sie unter Zulässige SQL-Typcodierung in einer JavaScript-UDAF.

  • Der JavaScript-Funktionsrumpf muss vier JavaScript-Funktionen enthalten, mit denen die Ergebnisse für die JavaScript-UDAF initialisiert, aggregiert, zusammengeführt und finalisiert werden können (initialState, aggregate, merge, und finalize). Weitere Informationen finden Sie hier: Zulässige SQL-Typcodierung in einer JavaScript-UDAF.

  • Jeder Wert, der von der Funktion initialState zurückgegeben wird oder im Argument state nach dem Aufruf der Funktion aggregate oder merge verbleibt, muss serialisierbar sein. Wenn Sie mit nicht serialisierbaren Aggregationsdaten wie Funktionen oder Symbolfeldern arbeiten möchten, müssen Sie die enthaltenen Funktionen serialize und deserialize verwenden. Weitere Informationen finden Sie unter Daten in einer JavaScript-UDAF serialisieren und deserialisieren.

Nichtflüchtige JavaScript-UDAF erstellen

Sie können eine persistente JavaScript-UDAF erstellen, d. h., Sie können die UDAF für mehrere Abfragen wiederverwenden. Nichtflüchtige UDAFs können sicher aufgerufen werden, wenn sie von Inhabern gemeinsam genutzt werden. UDAFs können keine Daten mutieren, nicht mit externen Systemen kommunizieren oder Logs an Google Cloud Beobachtbarkeit oder ähnliche Anwendungen senden.

Verwenden Sie zum Erstellen eines nichtflüchtigen UDAF die Anweisung CREATE AGGREGATE FUNCTION ohne das Schlüsselwort TEMP oder TEMPORARY. Das Dataset muss in den Funktionspfad aufgenommen werden.

Mit der folgenden Abfrage wird eine nichtflüchtige JavaScript-UDAF mit dem Namen SumPositive erstellt:

CREATE OR REPLACE AGGREGATE FUNCTION my_project.my_dataset.SumPositive(x FLOAT64)
RETURNS FLOAT64
LANGUAGE js
AS r'''

  export function initialState() {
    return {sum: 0}
  }
  export function aggregate(state, x) {
    if (x > 0) {
      state.sum += x;
    }
  }
  export function merge(state, partialState) {
    state.sum += partialState.sum;
  }
  export function finalize(state) {
    return state.sum;
  }

''';

-- Call the JavaScript UDAF.
WITH numbers AS (
  SELECT * FROM UNNEST([1.0, -1.0, 3.0, -3.0, 5.0, -5.0]) AS x)
SELECT my_project.my_dataset.SumPositive(x) AS sum FROM numbers;

/*-----*
 | sum |
 +-----+
 | 9.0 |
 *-----*/

Temporäre JavaScript-UDAF erstellen

Sie können eine temporäre JavaScript-UDAF erstellen, d. h. die UDAF ist nur im Bereich einer einzelnen Abfrage, eines Skripts, einer Sitzung oder einer Prozedur vorhanden.

Verwenden Sie zum Erstellen einer temporären UDAF die CREATE AGGREGATE FUNCTION-Anweisung mit dem Schlüsselwort TEMP oder TEMPORARY.

Mit der folgenden Abfrage wird eine temporäre JavaScript-UDAF mit dem Namen SumPositive erstellt:

CREATE TEMP AGGREGATE FUNCTION SumPositive(x FLOAT64)
RETURNS FLOAT64
LANGUAGE js
AS r'''

  export function initialState() {
    return {sum: 0}
  }
  export function aggregate(state, x) {
    if (x > 0) {
      state.sum += x;
    }
  }
  export function merge(state, partialState) {
    state.sum += partialState.sum;
  }
  export function finalize(state) {
    return state.sum;
  }

''';

-- Call the JavaScript UDAF.
WITH numbers AS (
  SELECT * FROM UNNEST([1.0, -1.0, 3.0, -3.0, 5.0, -5.0]) AS x)
SELECT SumPositive(x) AS sum FROM numbers;

/*-----*
 | sum |
 +-----+
 | 9.0 |
 *-----*/

Nicht-aggregierte Parameter in eine JavaScript-UDAF einfügen

Sie können eine JavaScript-UDAF erstellen, die sowohl zusammengefasste als auch nicht-aggregierte Parameter enthält.

UDAFs aggregieren normalerweise Funktionsparameter über alle Zeilen in einer Gruppe. Sie können einen Funktionsparameter jedoch mit dem Keyword NOT AGGREGATE als nicht aggregiert angeben.

Ein Funktionsparameter ohne Aggregatfunktion ist ein skalarer Funktionsparameter mit einem konstanten Wert für alle Zeilen in einer Gruppe. Ein gültiger Parameter ohne Aggregatfunktion muss ein Literal sein. Innerhalb der UDAF-Definition können Aggregatfunktionsparameter nur als Funktionsargumente zum Aggregieren von Funktionsaufrufen verwendet werden. Verweise auf nicht aggregierte Funktionsparameter können an beliebiger Stelle in der UDAF-Definition angezeigt werden.

Im folgenden Beispiel enthält die JavaScript-UDAF einen Aggregatparameter namens s und einen nicht Aggregationsparameter namens delimiter:

CREATE TEMP AGGREGATE FUNCTION JsStringAgg(
  s STRING,
  delimiter STRING NOT AGGREGATE)
RETURNS STRING
LANGUAGE js
AS r'''

  export function initialState() {
    return {strings: []}
  }
  export function aggregate(state, s) {
    state.strings.push(s);
  }
  export function merge(state, partialState) {
    state.strings = state.strings.concat(partialState.strings);
  }
  export function finalize(state, delimiter) {
    return state.strings.join(delimiter);
  }

''';

-- Call the JavaScript UDAF.
WITH strings AS (
  SELECT * FROM UNNEST(["aaa", "bbb", "ccc", "ddd"]) AS values)
SELECT JsStringAgg(values, '.') AS result FROM strings;

/*-----------------*
 | result          |
 +-----------------+
 | aaa.bbb.ccc.ddd |
 *-----------------*/

Daten in einer JavaScript-UDAF serialisieren und deserialisieren

BigQuery muss jedes Objekt serialisieren, das von der Funktion initialState zurückgegeben wird oder im Argument state nach dem Aufruf der Funktion aggregate oder merge verbleiben. BigQuery unterstützt die Serialisierung eines Objekts, wenn alle Felder eines der folgenden Felder sind:

  • Ein einfacher JavaScript-Wert, z. B. 2, "abc", null, undefined.
  • Ein JavaScript-Objekt, für das BigQuery die Serialisierung aller Feldwerte unterstützt.
  • Ein JavaScript-Array, für das BigQuery die Serialisierung aller Elemente unterstützt.

Die folgenden Rückgabewerte sind serialisierbar:

export function initialState() {
  return {a: "", b: 3, c: null, d: {x: 23} }
}
export function initialState() {
  return {value: 2.3};
}

Die folgenden Rückgabewerte sind nicht serialisierbar:

export function initialState() {
  return {
    value: function() {return 6;}
  }
}
export function initialState() {
  return 2.3;
}

Wenn Sie mit nicht serialisierbaren Aggregationsstatus arbeiten möchten, muss die JavaScript-UDAF die Funktionen serialize und deserialize enthalten. Die Funktion serialize konvertiert den Aggregationsstatus in ein serialisierbares Objekt. Die Funktion deserialize konvertiert das serialisierbare Objekt wieder in einen Aggregationsstatus.

Im folgenden Beispiel berechnet eine externe Bibliothek Summen über eine Schnittstelle:

export class SumAggregator {
 constructor() {
   this.sum = 0;
 }
 update(value) {
   this.sum += value;
 }
 getSum() {
   return this.sum;
 }
}

Die folgende Abfrage wird nicht ausgeführt, da das Klassenobjekt SumAggregator nicht BigQuery-serialisierbar ist, da innerhalb der Klasse Funktionen vorhanden sind.

CREATE TEMP AGGREGATE FUNCTION F(x FLOAT64)
RETURNS FLOAT64
LANGUAGE js
AS r'''

  class SumAggregator {
   constructor() {
     this.sum = 0;
   }

   update(value) {
     this.sum += value;
   }

   getSum() {
     return this.sum;
   }
  }

  export function initialState() {
   return new SumAggregator();
  }

  export function aggregate(agg, value) {
   agg.update(value);
  }

  export function merge(agg1, agg2) {
   agg1.update(agg2.getSum());
  }

  export function finalize(agg) {
   return agg.getSum();
  }

''';

--Error: getSum is not a function
SELECT F(x) AS results FROM UNNEST([1,2,3,4]) AS x;

Wenn Sie der vorherigen Abfrage die Funktionen serialize und deserialize hinzufügen, wird die Abfrage ausgeführt, da das Klassenobjekt SumAggregator in ein BigQuery-serialisierbares Objekt konvertiert und dann wieder zurück in ein SumAggregator-Klassenobjekt konvertiert wird.

CREATE TEMP AGGREGATE FUNCTION F(x FLOAT64)
RETURNS FLOAT64
LANGUAGE js
AS r'''

  class SumAggregator {
   constructor() {
     this.sum = 0;
   }

   update(value) {
     this.sum += value;
   }

   getSum() {
     return this.sum;
   }
  }

  export function initialState() {
   return new SumAggregator();
  }

  export function aggregate(agg, value) {
   agg.update(value);
  }

  export function merge(agg1, agg2) {
   agg1.update(agg2.getSum());
  }

  export function finalize(agg) {
   return agg.getSum();
  }

  export function serialize(agg) {
   return {sum: agg.getSum()};
  }

  export function deserialize(serialized) {
   var agg = new SumAggregator();
   agg.update(serialized.sum);
   return agg;
  }

''';

SELECT F(x) AS results FROM UNNEST([1,2,3,4]) AS x;

/*-----------------*
 | results         |
 +-----------------+
 | 10.0            |
 *-----------------*/

Weitere Informationen zu den Serialisierungsfunktionen finden Sie unter Optionale JavaScript-Serialisierungsfunktionen.

Globale Variablen und benutzerdefinierte Funktionen in eine JavaScript-UDAF einfügen

Der JavaScript-Funktionsrumpf kann benutzerdefinierten JavaScript-Code wie globale JavaScript-Variablen und benutzerdefinierte Funktionen enthalten.

Globale Variablen werden ausgeführt, wenn der JavaScript-Code in BigQuery geladen wird und bevor die Funktion initialState ausgeführt wird. Globale Variablen können nützlich sein, wenn Sie einmalige Initialisierungen vornehmen müssen, die sich nicht für jede Aggregationsgruppe wiederholen sollen, wie dies bei der initialState, aggregate, merge undfinalize Funktionen der Fall wäre.

Verwenden Sie keine globalen Variablen zum Speichern des Aggregationsstatus. Beschränken Sie stattdessen den Aggregationsstatus auf Objekte, die an exportierte Funktionen übergeben werden. Verwenden Sie globale Variablen nur zum Speichern teurer Vorgänge, die nicht für einen bestimmten Aggregationsvorgang spezifisch sind.

In der folgenden Abfrage berechnet die SumOfPrimes-Funktion eine Summe, es werden jedoch nur die Primitivenzahlen in die Berechnung einbezogen. Im JavaScript-Funktionsrumpf gibt es zwei globale Variablen, primes und maxTested, die zuerst initialisiert werden. Darüber hinaus gibt es eine benutzerdefinierte Funktion namens isPrime, die prüft, ob eine Zahl eine Primitive ist.

CREATE TEMP AGGREGATE FUNCTION SumOfPrimes(x INT64)
RETURNS INT64
LANGUAGE js
AS r'''

  var primes = new Set([2]);
  var maxTested = 2;

  function isPrime(n) {
    if (primes.has(n)) {
      return true;
    }
    if (n <= maxTested) {
      return false;
    }
    for (var k = 2; k < n; ++k) {
      if (!isPrime(k)) {
        continue;
      }
      if ((n % k) == 0) {
        maxTested = n;
        return false;
      }
    }
    maxTested = n;
    primes.add(n);
    return true;
  }

  export function initialState() {
    return {sum: 0};
  }

  export function aggregate(state, x) {
    x = Number(x);
    if (isPrime(x)) {
      state.sum += x;
    }
  }

  export function merge(state, partialState) {
    state.sum += partialState.sum;
  }

  export function finalize(state) {
    return state.sum;
  }

''';

-- Call the JavaScript UDAF.
WITH numbers AS (
  SELECT * FROM UNNEST([10, 11, 13, 17, 19, 20]) AS x)
SELECT SumOfPrimes(x) AS sum FROM numbers;

/*-----*
 | sum |
 +-----+
 | 60  |
 *-----*/

JavaScript-Bibliotheken einschließen

Sie können Ihre JavaScript-UDAFs mit der Option library in der OPTIONS-Klausel erweitern. Mit dieser Option können Sie externe Codebibliotheken für die JavaScript-UDAF angeben und diese Bibliotheken dann mit der Deklaration import importieren.

Im folgenden Beispiel ist Code in bar.js für jeden Code im Funktionsrumpf der JavaScript-UDAF verfügbar:

CREATE TEMP AGGREGATE FUNCTION JsAggFn(x FLOAT64)
RETURNS FLOAT64
LANGUAGE js
OPTIONS (library = ['gs://foo/bar.js'])
AS r'''

  import doInterestingStuff from 'bar.js';

  export function initialState() {
    return ...
  }
  export function aggregate(state, x) {
    var result = doInterestingStuff(x);
    ...
  }
  export function merge(state, partial_state) {
    ...
  }
  export function finalize(state) {
    return ...;
  }

''';

Erforderliche JavaScript-Struktur

Im Gegensatz zu einer JavaScript-UDAF, bei der der Funktionsrumpf aus dem freien Format besteht, das für jede Zeile ausgeführt wird, ist der Funktionsrumpf für eine JavaScript-UDAF ein JavaScript-Modul, das einige integrierte exportierte Funktionen enthält, welche in verschiedenen Phasen des Aggregationsprozesses aufgerufen wird. Einige dieser integrierten Funktionen sind erforderlich, andere sind optional. Sie können auch Ihre JavaScript-Funktionen hinzufügen.

Erforderliche JavaScript-Aggregationsfunktionen

Sie können Ihre JavaScript-Funktionen einschließen, der JavaScript-Funktionsrumpf muss jedoch die folgenden exportierbaren JavaScript-Funktionen enthalten:

  • initialState([nonAggregateParam]): Gibt ein JavaScript-Objekt zurück, das einen Aggregationsstatus darstellt, in dem noch keine Zeilen zusammengefasst wurden.

  • aggregate(state, aggregateParam[, ...][, nonAggregateParam]): aggregiert eine Datenzeile und aktualisiert den Status, um das Ergebnis der Aggregation zu speichern. Gibt keinen Wert zurück.

  • merge(state, partialState, [nonAggregateParam]): Führt den Aggregationsstatus partialState mit dem Aggregationsstatus state zusammen. Diese Funktion wird verwendet, wenn die Engine verschiedene Datenbereiche parallel aggregiert und die Ergebnisse kombinieren muss. Gibt keinen Wert zurück.

  • finalize(finalState, [nonAggregateParam]): gibt das Endergebnis der Aggregatfunktion bei einem endgültigen Aggregationsstatus finalState zurück.

Weitere Informationen zu den erforderlichen Funktionen finden Sie unter Erforderliche Funktionen in einer JavaScript-UDAF.

Optionale JavaScript-Serialisierungsfunktionen

Wenn Sie mit nicht serialisierbaren Aggregationsstatus arbeiten möchten, muss die JavaScript-UDAF die Funktionen serialize und deserialize bereitstellen. Die Funktion serialize konvertiert den Aggregationsstatus in ein BigQuery-serialisierbares Objekt. Die Funktion deserialize konvertiert das BigQuery-serialisierbare Objekt wieder in einen Aggregationsstatus.

  • serialize(state): Gibt ein serialisierbares Objekt zurück, das die Informationen im Aggregationsstatus enthält, das über die Funktion deserialize deserialisiert wird.

  • deserialize(serializedState): deserialisiert serializedState (zuvor serialisiert von der serialize-Funktion) in einen Aggregationsstatus, der an die Funktionen serialize, aggregate, merge oder finalize übergeben werden kann.

Weitere Informationen zu den integrierten JavaScript-Serialisierungsfunktionen finden Sie unter Serialisierungsfunktionen für eine JavaScript-UDAF.

Informationen zum Serialisieren und Deserialisieren von Daten mit einer JavaScript-UDAF finden Sie unter Daten in einer JavaScript-UDAF serialisieren und deserialisieren.

Zulässige SQL-Typcodierung in einer JavaScript-UDAF

In JavaScript-UDAFs stellen die folgenden unterstützten GoogleSQL-Datentypen JavaScript-Datentypen so dar:

GoogleSQL
-Datentyp
JavaScript
-Datentyp
Notes
ARRAY Array Ein Array von Arrays wird nicht unterstützt. Verwenden Sie die Datentypen Array<Object<Array>> (JavaScript) und ARRAY<STRUCT<ARRAY>> (GoogleSQL), um diese Einschränkung zu umgehen.
BIGNUMERIC Number oder String Gleich wie bei NUMERIC
BOOL Boolean
BYTES Uint8Array
DATE Date
FLOAT64 Number
INT64 BigInt
JSON Verschiedene Typen Der GoogleSQL-Datentyp JSON kann in einen JavaScript-Datentyp Object, Array oder einen anderen von GoogleSQL unterstützten JavaScript-Datentyp konvertiert werden.
NUMERIC Number oder String Wenn ein NUMERIC-Wert genau als IEEE 754-Gleitkommawert (Bereich [-253, 253]) dargestellt werden kann und keinen Bruchteil hat, wird er als ein Number-Datentyp codiert, andernfalls als String-Datentyp.
STRING String
STRUCT Object Jedes STRUCT-Feld ist ein benanntes Attribut im Datentyp Object. Ein unbenanntes Feld STRUCT wird nicht unterstützt.
TIMESTAMP Date Date enthält ein Mikrosekundenfeld mit einem Mikrosekundenanteil von TIMESTAMP.

UDAF aufrufen

In diesem Abschnitt werden die verschiedenen Möglichkeiten beschrieben, wie Sie eine persistente oder temporäre UDAF aufrufen können, nachdem Sie sie in BigQuery erstellt haben.

Persistente UDAF aufrufen

Sie können eine persistente UDAF auf die gleiche Weise wie eine integrierte Aggregatfunktion aufrufen. Weitere Informationen finden Sie unter Aufrufe von Aggregatfunktionen. Das Dataset muss in den Funktionspfad aufgenommen werden.

Im folgenden Beispiel ruft die Abfrage eine persistente UDAF mit dem Namen WeightedAverage auf:

SELECT my_project.my_dataset.WeightedAverage(item, weight, 2) AS weighted_average
FROM (
  SELECT 1 AS item, 2.45 AS weight UNION ALL
  SELECT 3 AS item, 0.11 AS weight UNION ALL
  SELECT 5 AS item, 7.02 AS weight
);

Es wird eine Tabelle mit den folgenden Ergebnissen erstellt:

/*------------------*
 | weighted_average |
 +------------------+
 | 4.5              |
 *------------------*/

Temporäre UDAF aufrufen

Sie können eine temporäre UDAF auf dieselbe Weise wie eine integrierte Aggregatfunktion aufrufen. Weitere Informationen finden Sie unter Aufrufe von Aggregatfunktionen.

Die temporäre Funktion muss in einer Abfrage mit mehreren Anweisungen oder in einer Prozedur enthalten sein, die den UDAF-Funktionsaufruf enthält.

Im folgenden Beispiel ruft die Abfrage eine temporäre UDAF mit dem Namen WeightedAverage auf:

CREATE TEMP AGGREGATE FUNCTION WeightedAverage(...)

-- Temporary UDAF function call
SELECT WeightedAverage(item, weight, 2) AS weighted_average
FROM (
  SELECT 1 AS item, 2.45 AS weight UNION ALL
  SELECT 3 AS item, 0.11 AS weight UNION ALL
  SELECT 5 AS item, 7.02 AS weight
);

Es wird eine Tabelle mit den folgenden Ergebnissen erstellt:

/*------------------*
 | weighted_average |
 +------------------+
 | 4.5              |
 *------------------*/

Zeilen mit NULL-Werten ignorieren oder einschließen

Wenn eine JavaScript-UDAF mit dem Argument IGNORE NULLS aufgerufen wird, überspringt BigQuery automatisch Zeilen, für die ein aggregiertes Argument als NULL ausgewertet wird. Solche Zeilen werden vollständig von der Aggregation ausgeschlossen und nicht an die JavaScript-Funktion aggregate übergeben. Wenn das Argument RESPECT NULLS angegeben ist, ist die NULL-Filterung deaktiviert und jede Zeile wird unabhängig von den NULL-Werten an die JavaScript-UDAF übergeben.

Wenn weder das Argument IGNORE NULLS noch das Argument RESPECT NULLS angegeben ist, ist das Standardargument IGNORE NULLS.

Das folgende Beispiel veranschaulicht das Standardverhalten NULL, IGNORE NULLS und RESPECT NULLS:

CREATE TEMP AGGREGATE FUNCTION SumPositive(x FLOAT64)
RETURNS FLOAT64
LANGUAGE js
AS r'''

  export function initialState() {
    return {sum: 0}
  }
  export function aggregate(state, x) {
    if (x == null) {
      // Use 1000 instead of 0 as placeholder for null so
      // that NULL values passed are visible in the result.
      state.sum += 1000;
      return;
    }
    if (x > 0) {
      state.sum += x;
    }
  }
  export function merge(state, partialState) {
    state.sum += partialState.sum;
  }
  export function finalize(state) {
    return state.sum;
  }

''';

-- Call the JavaScript UDAF.
WITH numbers AS (
  SELECT * FROM UNNEST([1.0, 2.0, NULL]) AS x)
SELECT
  SumPositive(x) AS sum,
  SumPositive(x IGNORE NULLS) AS sum_ignore_nulls,
  SumPositive(x RESPECT NULLS) AS sum_respect_nulls
FROM numbers;

/*-----+------------------+-------------------*
 | sum | sum_ignore_nulls | sum_respect_nulls |
 +-----+------------------+-------------------+
 | 3.0 | 3.0              | 1003.0            |
 *-----+------------------+-------------------*/

UDAF löschen

In diesem Abschnitt werden die verschiedenen Möglichkeiten beschrieben, wie Sie eine persistente oder temporäre UDAF löschen können, nachdem Sie sie in BigQuery erstellt haben.

Persistente UDAF löschen

Verwenden Sie zum Löschen einer UDAF die DROP FUNCTION-Anweisung. Das Dataset muss in den Funktionspfad aufgenommen werden.

Im folgenden Beispiel löscht die Abfrage eine nichtflüchtige UDAF mit dem Namen WeightedAverage:

DROP FUNCTION IF EXISTS my_project.my_dataset.WeightedAverage;

Temporäre UDAF löschen

Verwenden Sie die Anweisung DROP FUNCTION, um die temporäre UDAF zu löschen.

Im folgenden Beispiel löscht die Abfrage eine temporäre UDAF mit dem Namen WeightedAverage:

DROP FUNCTION IF EXISTS WeightedAverage;

Eine temporäre UDAF läuft ab, sobald die Abfrage abgeschlossen ist, und die UDAF muss nur gelöscht werden, wenn Sie sie frühzeitig aus einer Abfrage mit mehreren Anweisungen oderVerfahren entfernt haben.

UDAFs auflisten

UDAFs sind eine Art von Routine. Informationen zum Auflisten aller Abläufe in einem Dataset finden Sie unter Routinen auflisten.

Tipps für bessere Leistung

Wenn Sie die Leistung Ihrer Abfragen verbessern möchten, sollten Sie Folgendes in Betracht ziehen:

  • Eingabe vorfiltern Die Datenverarbeitung in JavaScript ist teurer als in SQL. Daher ist es am besten, die Eingabe so weit wie möglich in SQL zu filtern.

    Die folgende Abfrage ist weniger effizient, da sie die Eingabe mithilfe von x > 0 im UDAF-Aufruf filtert:

    SELECT JsFunc(x) FROM t;
    

    Die folgende Abfrage ist effizienter, da sie die Eingabe mithilfe von WHERE x > 0 vorab filtert, bevor der UDAF aufgerufen wird:

    SELECT JsFunc(x) FROM t WHERE x > 0;
    
  • Verwenden Sie nach Möglichkeit integrierte Aggregatfunktionen anstelle von JavaScript. Die erneute Implementierung einer integrierten Aggregatfunktion in JavaScript ist langsamer als das Aufrufen einer integrierten Aggregatfunktion, die dieselbe Aufgabe ausführt.

    Die folgende Abfrage ist weniger effizient, da sie eine UDAF implementiert:

    SELECT SumSquare(x) FROM t;
    

    Die folgende Abfrage ist effizienter, weil sie eine integrierte Funktion implementiert, die dieselben Ergebnisse wie die vorherige Abfrage liefert:

    SELECT SUM(x*x) FROM t;
    
  • JavaScript-UDAFs eignen sich für komplexere Aggregationsvorgänge, die nicht über integrierte Funktionen ausgedrückt werden können.

  • Speicher effizient nutzen Die JavaScript-Verarbeitungsumgebung verfügt nur über wenig Speicher für jede Abfrage. JavaScript-UDAF-Abfragen, die zu viel lokalen Status ansammeln, können aufgrund von Speicherausschöpfung fehlschlagen. Achten Sie besonders auf die Minimierung der Größe von Aggregationsstatusobjekten und vermeiden Sie Aggregationsstatus, die eine große Anzahl von Zeilen ansammeln.

    Die folgende Abfrage ist nicht effizient, weil die aggregate-Funktion eine unbegrenzte Speichermenge verwendet, wenn die Anzahl der verarbeiteten Zeilen groß wird.

    export function initialState() {
      return {rows: []};
    }
    export function aggregate(state, x) {
      state.rows.push(x);
    }
    ...
    
  • Verwenden Sie nach Möglichkeit partitionierte Tabellen. JavaScript-UDAFs werden in der Regel effizienter bei der Abfrage einer partitionierten Tabelle als einer nicht partitionierten Tabelle ausgeführt, da eine partitionierte Tabelle Daten in vielen kleineren Dateien speichert als eine nicht partitionierte Tabelle und somit eine höhere Parallelisierung ermöglicht.

Beschränkungen

  • Für UDAFs gelten die gleichen Einschränkungen wie für UDFs. Weitere Informationen finden Sie unter UDF-Einschränkungen.

  • Nur Literale, Abfrageparameter und Skriptvariablen können als nicht zusammengefasste Argumente für eine UDAF übergeben werden.

  • Die Verwendung der ORDER BY-Klausel in einem JavaScript-UDAF-Funktionsaufruf wird nicht unterstützt.

    SELECT MyUdaf(x ORDER BY y) FROM t; -- Error: ORDER BY is unsupported.
    

Preise

UDAFs werden nach dem BigQuery-Standardpreismodell abgerechnet.

Kontingente und Limits

Für UDAFs gelten dieselben Kontingente und Limits wie für UDFs. Weitere Informationen zu UDF-Kontingenten finden Sie unter Kontingente und Limits.