Présentation du chargement des données
Ce document explique comment charger des données dans BigQuery. Les deux approches courantes d'intégration des données sont l'extraction, le chargement et la transformation (ELT) ou l'extraction, la transformation et le chargement (ETL).
Pour obtenir une présentation des approches ELT et ETL, consultez la section Introduction au chargement, à la transformation et à l'exportation de données.
Méthodes de chargement ou d'accès aux données externes
Vous pouvez utiliser les méthodes suivantes pour charger des données dans BigQuery ou y accéder depuis BigQuery. Choisissez l'une des options suivantes en fonction de votre cas d'utilisation et de vos sources de données:
Méthode de chargement | Description |
---|---|
Chargement par lot | Cette méthode convient au chargement par lot de grands volumes de données à partir de diverses sources. Pour le chargement par lot ou incrémentiel de données à partir de Cloud Storage et d'autres sources de données compatibles, nous vous recommandons d'utiliser le Service de transfert de données BigQuery. Avec le service de transfert de données BigQuery, vous pouvez planifier des tâches de chargement pour automatiser les workflows de chargement de données dans BigQuery. Vous pouvez planifier des transferts de données ponctuels ou par lot à intervalles réguliers (par exemple, quotidiens ou mensuels). Pour vous assurer que vos données BigQuery sont toujours à jour, vous pouvez surveiller et consigner vos transferts. Pour obtenir la liste des sources de données compatibles avec le service de transfert de données BigQuery, consultez la section Sources de données compatibles. |
Charge de streaming | Cette méthode permet de charger des données en temps quasi réel à partir de systèmes de messagerie. Pour diffuser des données dans BigQuery, vous pouvez utiliser un abonnement BigQuery dans Pub/Sub. Pub/Sub peut gérer un débit élevé de chargement de données dans BigQuery. Il prend en charge le streaming de données en temps réel, en chargeant les données au fur et à mesure de leur génération. Pour en savoir plus, consultez la section Abonnements BigQuery. |
Capture de données modifiées (CDC) | Cette méthode permet de répliquer des données à partir de bases de données vers BigQuery en quasi-temps réel. Datastream peut diffuser des données à partir de bases de données vers des données BigQuery avec une réplication quasi en temps réel. Datastream exploite les fonctionnalités de CDC pour suivre et répliquer les modifications au niveau des lignes à partir de vos sources de données. Pour obtenir la liste des sources de données compatibles avec Datastream, consultez la section Sources. |
Fédération avec des sources de données externes | Cette méthode permet d'accéder à des données externes sans les charger dans BigQuery. BigQuery permet d'accéder à certaines sources de données externes via Cloud Storage et les requêtes fédérées. L'avantage de cette méthode est que vous n'avez pas besoin de charger les données avant de les transformer pour une utilisation ultérieure. Vous pouvez effectuer la transformation en exécutant des instructions SELECT sur les données externes. |
Vous pouvez également utiliser les méthodes programmatiques suivantes pour charger les données:
Méthode de chargement | Description |
---|---|
Chargement par lot | Vous pouvez charger des données à partir de Cloud Storage ou d'un fichier local en créant une tâche de chargement. Si vos données sources changent rarement ou si vous n'avez pas besoin de résultats mis à jour en continu, les tâches de chargement peuvent être un moyen moins coûteux et moins gourmand en ressources de charger vos données dans BigQuery. Les données chargées peuvent être au format Avro, CSV, JSON, ORC ou Parquet. Pour créer la tâche de chargement, vous pouvez également utiliser l'instruction SQL LOAD DATA .Les systèmes Open Source populaires, tels que Spark et divers partenaires ETL, permettent également de charger des données par lot dans BigQuery. |
Charge de streaming | Si vous devez prendre en charge des sources de données de streaming personnalisées ou prétraiter des données avant de les diffuser avec un débit élevé dans BigQuery, utilisez Dataflow ou BigQuery Engine pour Apache Flink. Pour en savoir plus sur le chargement de Dataflow vers BigQuery, consultez la page Écrire des données depuis Dataflow vers BigQuery. Vous pouvez également utiliser directement l'API BigQuery Storage Write. |
Cloud Data Fusion peut vous aider à faciliter votre processus ETL. BigQuery est également compatible avec des partenaires tiers qui transforment et chargent des données dans BigQuery.
Autres façons d'acquérir des données
Vous pouvez exécuter des requêtes sur des données sans les charger vous-même dans BigQuery. Les sections suivantes décrivent certaines alternatives.
La liste suivante décrit certaines des alternatives:
Exécuter des requêtes sur des données publiques
Les ensembles de données publics sont des ensembles de données stockés dans BigQuery et partagés avec le public. Pour plus d'informations, consultez Ensembles de données publics BigQuery.
Exécuter des requêtes sur des données partagées
Pour exécuter des requêtes sur un ensemble de données BigQuery qu'un utilisateur a partagé avec vous, consultez la section Présentation d'Analytics Hub. Analytics Hub est une plate-forme d'échange de données qui permet de partager des données.
Exécuter des requêtes avec des données de journaux
Vous pouvez exécuter des requêtes sur les journaux sans créer de tâches de chargement supplémentaires:
Cloud Logging vous permet d'acheminer les journaux vers une destination BigQuery.
Log Analytics vous permet d'exécuter des requêtes qui analysent vos données de journal.
Étape suivante
- Découvrez comment préparer des données avec Gemini dans BigQuery.
- En savoir plus sur la transformation de données avec Dataform
- Découvrez comment surveiller les tâches de chargement dans l'explorateur de tâches administratives et les métriques BigQuery.