Cette page a été traduite par l'API Cloud Translation.

Exporter des données sous forme de colonnes Protobuf

Ce document explique comment exporter des données BigQuery sous forme de colonnes Protocol Buffers (Protobuf) en utilisants des UDF (fonctions définies par l'utilisateur) BigQuery.

Quand utiliser les colonnes Protobuf ?

BigQuery propose un certain nombre de fonctions intégrées pour formater les données sélectionnées. Une option consiste à fusionner plusieurs valeurs de colonne en une seule valeur Protobuf, ce qui présente les avantages suivants :

Sûreté du typage d'objet.
Amélioration de la compression, du temps de transfert des données et des coûts par rapport à JSON.
Flexibilité, car la plupart des langages de programmation disposent de bibliothèques permettant de gérer le format Protobuf.
Coûts réduits lors de la lecture de plusieurs colonnes pour créer un seul objet.

Bien que d'autres types de colonnes puissent également assurer la sûreté du typage, les colonnes Protobuf fournissent un objet entièrement typé, ce qui peut réduire la quantité de travail à effectuer sur la couche d'application ou dans une autre partie du pipeline.

Toutefois, l'exportation de données BigQuery sous forme de colonnes Protobuf est limitée :

Les colonnes Protobuf ne sont pas bien indexées ni filtrées. La recherche par contenu dans des colonnes Protobuf peut s'avérer moins efficace.
Le tri des données au format Protobuf peut s'avérer difficile.

Si ces limites s'appliquent au workflow d'exportation, vous pouvez envisager d'autres méthodes d'exportation de données BigQuery :

Utilisez des requêtes programmées avec des instructions EXPORT DATA pour trier les données BigQuery exportées par date ou heure, et pour planifier des exportations de manière récurrente. BigQuery permet d'exporter des données aux formats Avro, CSV, JSON et Parquet.
Utilisez Dataflow pour exporter des données BigQuery aux formats de fichier Avro ou CSV.

Rôles requis

Pour obtenir les autorisations nécessaires pour exporter des données BigQuery en tant que colonnes Protobuf, demandez à votre administrateur de vous accorder les rôles IAM suivants sur votre projet :

Créer une fonction définie par l'utilisateur : Éditeur de données BigQuery (roles/bigquery.dataEditor)
Pour exporter des données depuis une table BigQuery : Lecteur de données BigQuery (roles/bigquery.dataViewer)
Lire et importer des fichiers dans Cloud Storage : Créateur d'objets de l'espace de stockage (roles/storage.objectCreator)

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Créer une UDF (fonction définie par l'utilisateur)

Créez une UDF qui convertit un type de données BigQuery STRUCT en colonne Protobuf :

Dans une ligne de commande, clonez le dépôt bigquery-utils.git :

git clone https://github.com/GoogleCloudPlatform/bigquery-utils.git

Accédez au dossier d'exportation Protobuf :
```
cd bigquery-utils/tools/protobuf_export
```
Utilisez la commande cp ou l'explorateur de fichiers de votre système d'exploitation pour copier votre fichier proto dans le dossier enfant ./protos.

Un fichier proto exemple nommé dummy.proto se trouve déjà dans le dossier ./protos.
Installez les packages nécessaires à partir du dépôt GitHub :
```
npm install
```

Regroupez le package à l'aide de webpack :

npx webpack --config webpack.config.js --stats-error-details

Recherchez le fichier pbwrapper.js dans le dossier enfant ./dist, puis importez-le dans un bucket Cloud Storage.
Accédez à la page BigQuery.

Accéder à BigQuery
À l'aide de l'éditeur de requêtes, créez une UDF nommée toMyProtoMessage qui crée une colonne Protobuf à partir des colonnes de table BigQuery existantes :
```
CREATE FUNCTION
  DATASET_ID.toMyProtoMessage(input STRUCT<INPUT_FIELDS>)
  RETURNS BYTES
    LANGUAGE js OPTIONS ( library=["gs://BUCKET_NAME/pbwrapper.js"]
) AS r"""
let message = pbwrapper.setup("PROTO_PACKAGE.PROTO_MESSAGE")
return pbwrapper.parse(message, input)
  """;
```
Remplacez les éléments suivants :
- DATASET_ID : ID de l'ensemble de données devant contenir la fonction définie par l'utilisateur.
- INPUT_FIELDS : champs utilisés dans le type de message proto pour le fichier proto, au format field_name_1 field_type_1 [, field_name_2 field_type_2, ...].
  
  Vous devez traduire tous les champs de type de message qui utilisent des traits de soulignement en camel case. Par exemple, si le type de message ressemble à ce qui suit, la valeur des champs d'entrée doit être itemId int64, itemDescription string :
```
message ThisMessage {
  int64 item_id = 1;
  string item_description = 2;
}
```
- BUCKET_NAME : nom du bucket Cloud Storage contenant le fichier pbwrapper.js.
- PROTO_PACKAGE : package du fichier proto.
- PROTO_MESSAGE : type de message du fichier proto.
Par exemple, si vous utilisez le fichier dummy.proto fourni, l'instruction CREATE FUNCTION se présente comme suit :
```
CREATE OR REPLACE FUNCTION
  mydataset.toMyProtoMessage(input STRUCT<dummyField STRING>)
  RETURNS BYTES
    LANGUAGE js OPTIONS ( library=["gs://mybucket/pbwrapper.js"]
) AS r"""
let message = pbwrapper.setup("dummypackage.DummyMessage")
return pbwrapper.parse(message, input)
  """;
```

Formater les colonnes sous forme de valeurs Protobuf

Exécutez la fonction définie par l'utilisateur toMyProtoMessage pour mettre en forme les colonnes de table BigQuery en tant que valeurs Protobuf :

  SELECT
    UDF_DATASET_ID.toMyProtoMessage(STRUCT(INPUT_COLUMNS)) AS protoResult
  FROM
    `PROJECT_ID.DATASET_ID.TABLE_NAME`
  LIMIT
    100;

Remplacez les éléments suivants :

UDF_DATASET_ID : ID de l'ensemble de données contenant la fonction définie par l'utilisateur.
INPUT_COLUMNS : noms des colonnes à mettre en forme en tant que valeur Protobuf, au format column_name_1 [, column_name_2, ...]. Les colonnes peuvent être de n'importe quel type de valeur scalaire ou non scalaire compatible, y compris ARRAY et STRUCT. Les colonnes d'entrée doivent correspondre au type et au nombre de champs du type de message proto.
PROJECT_ID : ID du projet contenant la table. Vous pouvez ignorer l'identification du projet si l'ensemble de données se trouve dans votre projet actuel.
DATASET_ID : ID de l'ensemble de données contenant la table.
TABLE_NAME : nom de la table contenant les colonnes à mettre en forme.

Par exemple, si vous utilisez une UDF toMyProtoMessage basée sur dummy.proto, l'instruction SELECT suivante fonctionne :

SELECT
  mydataset.toMyProtoMessage(STRUCT(word)) AS protoResult
FROM
  `bigquery-public-data.samples.shakespeare`
LIMIT 100;

Utiliser des valeurs Protobuf

Vos données BigQuery étant exportées au format Protobuf, vous pouvez maintenant utiliser vos données en tant que structure ou objet entièrement typé.

Les exemples de code suivants fournissent plusieurs exemples de traitement ou d'utilisation des données exportées :

Go

// package Main queries Google BigQuery.
package main

import (
	"context"
	"fmt"
	"io"
	"log"
	"os"

	"cloud.google.com/go/bigquery"
	"google.golang.org/api/iterator"
	"google.golang.org/Protobuf/proto"

	pb "path/to/proto/file_proto"
)

const (
	projectID = "your-project-id"
)

// Row contains returned row data from bigquery.
type Row struct {
	RowKey string `bigquery:"RowKey"`
	Proto  []byte `bigquery:"ProtoResult"`
}

func main() {
	ctx := context.Background()

	client, err := bigquery.NewClient(ctx, projectID)
	if err != nil {
		log.Fatalf("bigquery.NewClient: %v", err)
	}
	defer client.Close()

	rows, err := query(ctx, client)
	if err != nil {
		log.Fatal(err)
	}
	if err := printResults(os.Stdout, rows); err != nil {
		log.Fatal(err)
	}
}

// query returns a row iterator suitable for reading query results.
func query(ctx context.Context, client *bigquery.Client) (*bigquery.RowIterator, error) {

	query := client.Query(
		`SELECT 
  concat(word, ":", corpus) as RowKey, 
  <dataset-id>.toMyProtoMessage(
    STRUCT(
      word, 
      CAST(word_count AS BIGNUMERIC)
    )
  ) AS ProtoResult 
FROM 
  ` + "` bigquery - public - data.samples.shakespeare `" + ` 
LIMIT 
  100;
`)
	return query.Read(ctx)
}

// printResults prints results from a query.
func printResults(w io.Writer, iter *bigquery.RowIterator) error {
	for {
		var row Row
		err := iter.Next(&row)
		if err == iterator.Done {
			return nil
		}
		if err != nil {
			return fmt.Errorf("error iterating through results: %w", err)
		}
		message := &pb.TestMessage{}
		if err = proto.Unmarshal(row.Proto, message); err != nil {
			return err
		}
		fmt.Fprintf(w, "rowKey: %s, message: %v\n", row.RowKey, message)
	}
}

Java

package proto;

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.FieldValueList;
import com.google.cloud.bigquery.Job;
import com.google.cloud.bigquery.JobId;
import com.google.cloud.bigquery.JobInfo;
import com.google.cloud.bigquery.QueryJobConfiguration;
import com.google.cloud.bigquery.TableResult;
import path.to.proto.TestMessage;
import java.util.UUID;

/** Queries Google BigQuery */
public final class Main {
  public static void main(String[] args) throws Exception {
    String projectId = "your-project-id";
    BigQuery bigquery = BigQueryOptions.newBuilder().setProjectId(projectId).build().getService();

    QueryJobConfiguration queryConfig =
        QueryJobConfiguration.newBuilder(
                " SELECT "
                    + "concat(word , \":\",corpus) as RowKey,"
                    + "<dataset-id>.toMyProtoMessage(STRUCT(word, "
                    + "CAST(word_count AS BIGNUMERIC))) AS ProtoResult "
                    + "FROM "
                    + "`bigquery-public-data.samples.shakespeare` "
                    + "ORDER BY word_count DESC "
                    + "LIMIT 20")
            .setUseLegacySql(false)
            .build();

    // Create a job ID so that we can safely retry.
    JobId jobId = JobId.of(UUID.randomUUID().toString());
    Job queryJob = bigquery.create(JobInfo.newBuilder(queryConfig).setJobId(jobId).build());

    // Wait for the query to complete.
    queryJob = queryJob.waitFor();

    // Check for errors
    if (queryJob == null) {
      throw new RuntimeException("Job no longer exists");
    } else if (queryJob.getStatus().getError() != null) {
      // You can also look at queryJob.getStatus().getExecutionErrors() for all
      // errors, not just the latest one.
      throw new RuntimeException(queryJob.getStatus().getError().toString());
    }

    // Get the results.
    TableResult result = queryJob.getQueryResults();

    // Print all pages of the results.
    for (FieldValueList row : result.iterateAll()) {
      String key = row.get("RowKey").getStringValue();
      byte[] message = row.get("ProtoResult").getBytesValue();
      TestMessage testMessage = TestMessage.parseFrom(message);
      System.out.printf("rowKey: %s, message: %s\n", key, testMessage);
    }
  }
}

Python

"""Queries Google BigQuery."""

from google.cloud import bigquery
from path.to.proto import awesome_pb2


def main():
  project_id = "your-project-id"
  client = bigquery.Client(project=project_id)
  query_job = client.query(query="""
               SELECT
			concat(word , ":",corpus) as RowKey,
			<dataset-id>.toMyProtoMessage(
			    STRUCT(
			      word, 
			      CAST(word_count AS BIGNUMERIC)
			    )
			  ) AS ProtoResult 
		FROM
				  `bigquery-public-data.samples.shakespeare`
		ORDER BY word_count DESC
		LIMIT 20
    """)
  rows = query_job.result()
  for row in rows:
    message = awesome_pb2.TestMessage()
    message.ParseFromString(row.get("ProtoResult"))
    print(
        "rowKey: {}, message: {}".format(row.get("RowKey"), message)
    )