Cette page a été traduite par l'API Cloud Translation.

Présentation du chargement des données

Ce document explique comment charger des données dans BigQuery. Les deux approches courantes d'intégration des données sont l'extraction, le chargement et la transformation (ELT) ou l'extraction, la transformation et le chargement (ETL).

Pour obtenir une présentation des approches ELT et ETL, consultez la section Introduction au chargement, à la transformation et à l'exportation de données.

Méthodes de chargement ou d'accès aux données externes

Sur la page BigQuery, dans la boîte de dialogue Ajouter des données, vous pouvez afficher toutes les méthodes disponibles pour charger des données dans BigQuery ou y accéder. Choisissez l'une des options suivantes en fonction de votre cas d'utilisation et de vos sources de données:

Méthode de chargement	Description
Chargement par lot	Cette méthode convient au chargement par lot de grands volumes de données provenant de diverses sources. Pour le chargement par lot ou incrémentiel de données à partir de Cloud Storage et d'autres sources de données compatibles, nous vous recommandons d'utiliser le service de transfert de données BigQuery. Avec le service de transfert de données BigQuery, vous pouvez planifier des tâches de chargement pour automatiser les pipelines de chargement de données dans BigQuery. Vous pouvez planifier des transferts de données ponctuels ou par lot à intervalles réguliers (par exemple, quotidiens ou mensuels). Pour vous assurer que vos données BigQuery sont toujours à jour, vous pouvez surveiller et consigner vos transferts. Pour obtenir la liste des sources de données compatibles avec le service de transfert de données BigQuery, consultez la section Sources de données compatibles.
Charge de streaming	Cette méthode permet de charger des données en temps quasi réel à partir de systèmes de messagerie. Pour diffuser des données dans BigQuery, vous pouvez utiliser un abonnement BigQuery dans Pub/Sub. Pub/Sub peut gérer un débit élevé de chargement de données dans BigQuery. Il prend en charge le streaming de données en temps réel, en chargeant les données au fur et à mesure de leur génération. Pour en savoir plus, consultez la section Abonnements BigQuery.
Capture de données modifiées (CDC)	Cette méthode permet de répliquer des données à partir de bases de données vers BigQuery en quasi-temps réel. Datastream peut diffuser des données à partir de bases de données vers des données BigQuery avec une réplication quasi en temps réel. Datastream exploite les fonctionnalités CDC pour suivre et répliquer les modifications au niveau des lignes de vos sources de données. Pour obtenir la liste des sources de données compatibles avec Datastream, consultez la section Sources.
Fédération avec des sources de données externes	Cette méthode permet d'accéder à des données externes sans les charger dans BigQuery. BigQuery permet d'accéder à certaines sources de données externes via Cloud Storage et les requêtes fédérées. L'avantage de cette méthode est que vous n'avez pas besoin de charger les données avant de les transformer pour une utilisation ultérieure. Vous pouvez effectuer la transformation en exécutant des instructions `SELECT` sur les données externes.

Vous pouvez également utiliser les méthodes programmatiques suivantes pour charger les données:

Méthode de chargement Description

Chargement par lot Vous pouvez charger des données à partir de Cloud Storage ou d'un fichier local en créant une tâche de chargement.

Si vos données sources changent rarement ou si vous n'avez pas besoin de résultats mis à jour en continu, les tâches de chargement peuvent être un moyen moins coûteux et moins gourmand en ressources de charger vos données dans BigQuery.

Les données chargées peuvent être au format Avro, CSV, JSON, ORC ou Parquet. Pour créer la tâche de chargement, vous pouvez également utiliser l'instruction SQL LOAD DATA.

Les systèmes Open Source populaires, tels que Spark et divers partenaires ETL, permettent également de charger des données par lot dans BigQuery.

Charge de streaming Si vous devez prendre en charge des sources de données en streaming personnalisées ou prétraiter des données avant de les diffuser avec un débit élevé dans BigQuery, utilisez Dataflow.

Pour en savoir plus sur le chargement de Dataflow vers BigQuery, consultez la page Écrire des données depuis Dataflow vers BigQuery.

Vous pouvez également utiliser directement l'API BigQuery Storage Write.

Méthode de chargement	Description
Chargement par lot	Vous pouvez charger des données à partir de Cloud Storage ou d'un fichier local en créant une tâche de chargement. Si vos données sources changent rarement ou si vous n'avez pas besoin de résultats mis à jour en continu, les tâches de chargement peuvent être un moyen moins coûteux et moins gourmand en ressources de charger vos données dans BigQuery. Les données chargées peuvent être au format Avro, CSV, JSON, ORC ou Parquet. Pour créer la tâche de chargement, vous pouvez également utiliser l'instruction SQL `LOAD DATA`. Les systèmes Open Source populaires, tels que Spark et divers partenaires ETL, permettent également de charger des données par lot dans BigQuery.
Charge de streaming	Si vous devez prendre en charge des sources de données en streaming personnalisées ou prétraiter des données avant de les diffuser avec un débit élevé dans BigQuery, utilisez Dataflow. Pour en savoir plus sur le chargement de Dataflow vers BigQuery, consultez la page Écrire des données depuis Dataflow vers BigQuery. Vous pouvez également utiliser directement l'API BigQuery Storage Write.

Cloud Data Fusion peut vous aider à faciliter votre processus ETL. BigQuery est également compatible avec des partenaires tiers qui transforment et chargent des données dans BigQuery.

BigQuery vous permet de créer des connexions externes pour interroger des données stockées en dehors de BigQuery dans des services tels que Cloud Storage ou Spanner, ou dans des sources tierces telles qu'Amazon Web Services (AWS) ou Microsoft Azure. Google Cloud Ces connexions externes utilisent l'API BigQuery Connection. Pour en savoir plus, consultez la section Présentation des connexions.

Autres façons d'acquérir des données

Vous pouvez exécuter des requêtes sur des données sans les charger vous-même dans BigQuery. Les sections suivantes décrivent certaines alternatives.

La liste suivante décrit certaines des alternatives:

Exécuter des requêtes sur des données publiques

Les ensembles de données publics sont des ensembles de données stockés dans BigQuery et partagés avec le public. Pour plus d'informations, consultez Ensembles de données publics BigQuery.

Exécuter des requêtes sur des données partagées

Pour exécuter des requêtes sur un ensemble de données BigQuery qu'un utilisateur a partagé avec vous, consultez la page Introduction au partage BigQuery (anciennement Analytics Hub). Sharing est une plate-forme d'échange de données qui permet le partage de données.

Exécuter des requêtes avec des données de journaux

Vous pouvez exécuter des requêtes sur les journaux sans créer de tâches de chargement supplémentaires:

Cloud Logging vous permet d'acheminer les journaux vers une destination BigQuery.
Log Analytics vous permet d'exécuter des requêtes qui analysent vos données de journal.

Étape suivante

Découvrez comment préparer des données avec Gemini dans BigQuery.
En savoir plus sur la transformation de données avec Dataform
Découvrez comment surveiller les tâches de chargement dans l'explorateur de tâches administratives et les métriques BigQuery.