Présentation des analyses BigQuery
Ce document décrit comment BigQuery traite les requêtes et présente plusieurs fonctionnalités utiles pour comprendre et analyser vos données.
BigQuery est optimisé pour exécuter des requêtes analytiques sur de grands ensembles de données, y compris des téraoctets de données en quelques secondes et des pétaoctets en quelques minutes. Comprendre ses capacités et la manière dont il traite les requêtes peut vous aider à optimiser vos investissements dans l'analyse de données.
Pour découvrir les fonctionnalités d'analyse de données de BigQuery directement dans la console Google Cloud, cliquez sur Visite guidée.
Workflows analytiques
BigQuery accepte plusieurs workflows d'analyse de données:
Analyses ad hoc. BigQuery utilise GoogleSQL, le dialecte SQL de BigQuery, pour prendre en charge les analyses ad hoc. Vous pouvez exécuter des requêtes dans la console Google Cloud ou via des outils tiers qui s'intègrent à BigQuery.
Analyse géospatiale. BigQuery utilise des types de données géographiques et des fonctions de géographie GoogleSQL pour vous permettre d'analyser et de visualiser des données géospatiales. Pour en savoir plus sur ces types de données et fonctions, consultez la page Présentation des analyses géospatiales.
Rechercher : Vous pouvez indexer vos données pour effectuer des recherches flexibles et optimisées sur du texte non structuré ou des données JSON semi-structurées.
Machine learning. BigQuery ML utilise des requêtes GoogleSQL pour vous permettre de créer et d'exécuter des modèles de machine learning (ML) dans BigQuery.
Informatique décisionnelle. BigQuery BI Engine est un service d'analyse en mémoire rapide qui vous permet de créer des tableaux de bord et des rapports interactifs riches sans compromettre les performances, l'évolutivité, la sécurité ou la fraîcheur des données.
Assistance IA Vous pouvez utiliser Gemini dans BigQuery pour préparer et explorer vos données, générer des requêtes SQL et du code Python, et visualiser vos résultats.
Exploration des données
BigQuery peut vous aider à comprendre vos données avant de commencer à écrire des requêtes SQL. Utilisez les fonctionnalités suivantes si vous ne connaissez pas vos données, si vous ne savez pas quelles questions poser ou si vous avez besoin d'aide pour écrire du code SQL:
Explorateur de tables Explorez visuellement la plage et la fréquence des valeurs de votre tableau, et créez des requêtes interactives.
Insights sur les données Générez des questions en langage naturel sur vos données, ainsi que les requêtes SQL pour y répondre.
Analyse du profil de données Consultez les caractéristiques statistiques de vos données, y compris les valeurs moyenne, unique, maximale et minimale.
Canevas de données. Interrogez vos données en langage naturel, visualisez les résultats à l'aide de graphiques et posez des questions complémentaires.
Requêtes
Le principal moyen d'analyser les données dans BigQuery consiste à exécuter une requête SQL. Le dialecte GoogleSQL est compatible avec SQL:2011 et inclut des extensions compatibles avec l'analyse géospatiale et le ML.
Sources de données
BigQuery vous permet d'interroger les types de sources de données suivants:
Données stockées dans BigQuery Vous pouvez charger des données dans BigQuery, modifier des données existantes à l'aide d'instructions de langage de manipulation de données (LMD) ou écrire les résultats des requêtes dans une table. Vous pouvez interroger les données historiques à partir d'un moment donné dans la fenêtre de fonctionnalité temporelle.
Vous pouvez interroger des données stockées dans des emplacements régionaux ou multirégionaux, mais vous ne pouvez pas exécuter de requête sur plusieurs emplacements même si l'un est un emplacement comprenant une seule région et l'autre est l'emplacement multirégional contenant cet emplacement régional. Pour en savoir plus, consultez la section Emplacements, réservations et tâches.
Données externes. Vous pouvez interroger diverses sources de données externes, telles que Cloud Storage, ou des services de base de données tels que Spanner ou Cloud SQL. Pour en savoir plus sur la configuration de connexions à des sources externes, consultez la page Présentation des sources de données externes.
Données multicloud. Vous pouvez interroger des données stockées dans d'autres clouds publics, tels qu'AWS ou Azure. Pour en savoir plus sur la configuration de connexions à Amazon Simple Storage Service (Amazon S3) ou Azure Blob Storage, consultez la section Présentation de BigQuery Omni.
Ensembles de données publics. Vous pouvez analyser n'importe quel ensemble de données disponible sur la place de marché des ensembles de données publics.
Analytics Hub Vous pouvez publier et vous abonner à des ensembles de données BigQuery et à des sujets Pub/Sub pour partager des données au-delà des limites de l'organisation. Pour en savoir plus, consultez la section Présentation d'Analytics Hub.
Types de requêtes
Vous pouvez interroger des données BigQuery à l'aide de l'un des types de job de requête suivants :
Tâches de requête interactives Par défaut, BigQuery exécute des tâches de requête interactives (à la demande) dès que possible.
Tâches de requête par lot Avec ces tâches, BigQuery met en file d'attente chaque requête par lot en votre nom, puis lance la requête lorsque des ressources inactives sont disponibles, généralement en quelques minutes.
Jobs de requête continue (preview). Avec ces jobs, la requête s'exécute en continu, ce qui vous permet d'analyser les données entrantes dans BigQuery en temps réel, puis d'écrire les résultats dans une table BigQuery ou de les exporter vers Bigtable ou Pub/Sub. Grâce à cette fonctionnalité, vous pouvez effectuer des tâches urgentes, telles que la création et l'action immédiate sur les insights, l'application d'inférences de machine learning (ML) en temps réel et la création de pipelines de données basés sur des événements.
Vous pouvez exécuter des jobs de requête à l'aide des méthodes suivantes :
- Rédigez et exécutez une requête dans la console Google Cloud.
- Exécutez la commande
bq query
dans l'outil de ligne de commande bq. - Appelez de manière automatisée la méthode
jobs.query
oujobs.insert
dans l'API REST BigQuery. - Utilisez les bibliothèques clientes BigQuery.
Requêtes enregistrées et partagées
BigQuery vous permet d'enregistrer des requêtes et de les partager avec d'autres utilisateurs.
Lorsque vous enregistrez une requête, celle-ci peut être privée (visible par vous uniquement), partagée au niveau du projet (visible par des comptes principaux spécifiques) ou publique (visible par tout le monde). Pour en savoir plus, consultez la page Utiliser des requêtes enregistrées.
Comment BigQuery traite les requêtes
Plusieurs processus se produisent lorsque BigQuery exécute une requête:
Arborescence d'exécution. Lorsque vous exécutez une requête, BigQuery génère une arborescence d'exécution qui divise cette requête en phases. Ces phases contiennent des étapes pouvant s'exécuter en parallèle.
Niveau de brassage. Les étapes communiquent entre elles à l'aide d'un niveau de brassage distribué et rapide qui stocke les données intermédiaires générées par les nœuds de calcul d'une étape. Dans la mesure du possible, le niveau de brassage exploite des technologies telles qu'un réseau de pétaoctets et une mémoire RAM pour transférer rapidement les données vers les nœuds de calcul.
Plan de requête. Lorsque BigQuery dispose de toutes les informations nécessaires pour exécuter une requête, il génère un plan de requête. Vous pouvez afficher le plan de requête dans la console Google Cloud et l'utiliser pour dépanner ou optimiser les performances des requêtes.
Graphique d'exécution des requêtes. Vous pouvez examiner les informations du plan de requête sous forme de graphique pour n'importe quelle requête, qu'elle soit en cours d'exécution ou terminée, et consulter des insights sur les performances pour vous aider à optimiser vos requêtes.
Surveillance des requêtes et planification dynamique Outre les nœuds de calcul qui effectuent le travail du plan de requête, d'autres nœuds de calcul surveillent et dirigent la progression globale du travail dans le système. À mesure que la requête avance, BigQuery peut ajuster de manière dynamique le plan de requête pour s'adapter aux résultats des différentes étapes.
Résultats de la requête. Lorsqu'une requête est terminée, BigQuery écrit les résultats dans l'espace de stockage persistant et les renvoie à l'utilisateur. Cette conception permet à BigQuery de diffuser les résultats mis en cache lors de la prochaine exécution de cette requête.
Simultanéité des requêtes et performances
Les performances des requêtes exécutées de manière répétée sur les mêmes données peuvent varier en raison de la nature partagée de l'environnement BigQuery, de l'utilisation des résultats de requête mis en cache ou parce que BigQuery ajuste dynamiquement le plan de requête pendant l'exécution de la requête. Pour un système typiquement chargé dans lequel de nombreuses requêtes s'exécutent simultanément, BigQuery utilise plusieurs processus pour atténuer les écarts de performances des requêtes:
BigQuery exécute de nombreuses requêtes en parallèle et peut mettre des requêtes en file d'attente pour les exécuter lorsque des ressources sont disponibles.
À mesure que les requêtes démarrent et se terminent, BigQuery redistribue les ressources de manière équitable entre les nouvelles requêtes et celles en cours d'exécution. Ce processus garantit que les performances des requêtes ne dépendent pas de l'ordre dans lequel elles sont envoyées, mais du nombre de requêtes exécutées à un moment donné.
Optimisation des requêtes
Lorsque vous exécutez une requête, vous pouvez afficher le plan de requête dans la console Google Cloud. Vous pouvez également demander des détails d'exécution à l'aide des vues INFORMATION_SCHEMA.JOBS*
ou de la méthode de l'API REST jobs.get
.
Le plan de requête fournit des détails sur les phases et les étapes de la requête. Ces informations peuvent vous aider à identifier les moyens d'améliorer les performances des requêtes. Par exemple, si vous remarquez une étape qui écrit beaucoup plus de résultats que d'autres, vous devrez peut-être filtrer plus tôt la requête.
Pour en savoir plus sur le plan de requête et l'optimisation des requêtes, consultez les ressources suivantes:
- Pour en savoir plus sur le plan de requête et consulter des exemples d'amélioration des performances des requêtes, consultez la page Plan et chronologie de requête.
- Pour en savoir plus sur l'optimisation des requêtes en général, consultez la page Présentation de l'optimisation des performances des requêtes.
Surveillance des requêtes
La surveillance et la journalisation sont essentielles pour exécuter des applications fiables dans le cloud. Les charges de travail BigQuery ne font pas exception, en particulier si vos charges de travail ont un volume élevé ou qu'elles sont critiques. BigQuery fournit plusieurs métriques, journaux et vues de métadonnées pour vous aider à surveiller votre utilisation de BigQuery.
Pour en savoir plus, consultez les ressources suivantes :
- Pour en savoir plus sur les options de surveillance de BigQuery, consultez la page Présentation de la surveillance BigQuery.
- Pour en savoir plus sur les journaux d'audit et découvrir comment analyser le comportement des requêtes, consultez la page Journaux d'audit BigQuery.
Tarifs des requêtes
BigQuery propose deux modèles de tarification pour les analyses :
- Tarifs à la demande. Vous payez pour les données analysées par vos requêtes. Vous disposez d'une capacité de traitement de requêtes fixe pour chaque projet et vos coûts dépendent du nombre d'octets traités.
- Tarification basée sur la capacité : vous achetez une capacité dédiée au traitement de requêtes.
Pour en savoir plus sur les deux modèles de tarification et sur la réservation de tarifs basés sur la capacité, consultez la page Présentation des réservations.
Maîtriser les coûts des requêtes et les quotas
BigQuery applique des quotas au niveau du projet lors de l'exécution des requêtes. Pour plus d'informations sur les quotas de requêtes, consultez la page Quotas et limites.
Pour maîtriser les coûts des requêtes, BigQuery propose plusieurs options telles que les quotas personnalisés et les alertes de facturation. Pour en savoir plus, consultez la page sur la création de contrôles de coût personnalisés.
Fonctionnalités d'analyse de données
BigQuery est compatible avec les analyses descriptives et prédictives. Il vous aide à explorer vos données à l'aide d'outils optimisés par l'IA, de SQL, de machine learning, de notebooks et d'autres intégrations tierces.
BigQuery Studio
BigQuery Studio vous permet de découvrir, d'analyser et d'exécuter des inférences sur les données dans BigQuery à l'aide des fonctionnalités suivantes :
- Un éditeur SQL robuste qui fournit la saisie semi-automatique et la génération de code, la validation des requêtes et l'estimation des octets traités.
- Des notebooks Python intégrés créés à l'aide de Colab Enterprise. Les notebooks proposent des environnements d'exécution de développement Python en un clic et une compatibilité intégrée avec les DataFrames BigQuery.
- Un éditeur PySpark qui vous permet de créer des procédures Python stockées pour Apache Spark.
- Une gestion des éléments et historique des versions des éléments de code, tels que les notebooks et les requêtes enregistrées, basés sur Dataform.
- Développement de code assisté dans l'éditeur SQL et dans les notebooks, basé sur l'IA générative de Gemini (preview).
- Les fonctionnalités de Dataplex pour la découverte de données, le profilage de données et les analyses de la qualité des données.
- La possibilité d'afficher l'historique des tâches par utilisateur ou par projet.
- La possibilité d'analyser les résultats de requête enregistrés en vous connectant à d'autres outils tels que Looker et Google Sheets, et d'exporter des résultats de requête enregistrés pour les utiliser dans d'autres applications.
BigQuery ML
BigQuery ML vous permet d'utiliser SQL dans BigQuery pour effectuer du machine learning (ML) et des analyses prédictives. Pour en savoir plus, consultez la section Présentation de BigQuery ML.
Intégration des outils d'analyse
En plus d'exécuter des requêtes dans BigQuery, vous pouvez analyser vos données avec divers outils d'analyse et d'informatique décisionnelle qui s'intègrent à BigQuery, dont voici quelques exemples :
Looker. Looker est une plate-forme d'entreprise pour l'informatique décisionnelle, les applications de données et les analyses intégrées. La plate-forme Looker fonctionne avec de nombreux datastores, y compris BigQuery. Pour en savoir plus sur la connexion de Looker à BigQuery, consultez la page Utiliser Looker.
Looker Studio. Après avoir exécuté une requête, vous pouvez lancer Looker Studio directement à partir de BigQuery dans la console Google Cloud. Ensuite, dans Looker Studio, vous pouvez créer des visualisations et explorer les données renvoyées par la requête. Pour en savoir plus sur Looker Studio, consultez la page Présentation de Looker Studio.
Feuilles connectées. Vous pouvez également lancer des feuilles connectées directement depuis BigQuery dans la console. Les feuilles connectées exécutent des requêtes BigQuery en votre nom, à votre demande ou selon un calendrier défini. Les résultats de ces requêtes sont enregistrés dans votre feuille de calcul afin d'être analysés et partagés. Pour en savoir plus sur les feuilles connectées, consultez la page Utiliser des feuilles connectées.
Tableau Vous pouvez vous connecter à un ensemble de données à partir de Tableau. Utilisez BigQuery pour alimenter vos graphiques, tableaux de bord et autres visualisations de données.
Intégration d'outils tiers
Plusieurs outils d'analyse tiers fonctionnent avec BigQuery. Par exemple, vous pouvez connecter Tableau à des données BigQuery et utiliser ses outils de visualisation pour examiner et partager vos analyses. Pour plus d'informations sur les critères à prendre en compte lors de l'utilisation d'outils tiers, consultez la section Intégration d'outils tiers.
Des pilotes ODBC et JDBC sont disponibles et peuvent être utilisés pour intégrer votre application à BigQuery. Le rôle de ces pilotes est d'aider les utilisateurs à allier la puissance de BigQuery aux outils et infrastructures existants. Pour en savoir plus sur la version la plus récente et les problèmes connus, consultez la page Pilotes ODBC et JDBC pour BigQuery.
Les bibliothèques pandas telles que pandas-gbq
vous permettent d'interagir avec les données BigQuery dans les notebooks Jupyter. Pour en savoir plus sur cette bibliothèque et la comparer à la bibliothèque cliente Python de BigQuery, consultez la page Comparaison avec pandas-gbq
.
Vous pouvez également utiliser BigQuery avec d'autres notebooks et outils d'analyse. Pour en savoir plus, consultez la section Outils d'analyse programmatiques.
Pour obtenir la liste complète des analyses BigQuery et des partenaires technologiques de l'ensemble du secteur, consultez la liste des partenaires sur la page du produit BigQuery.
Étape suivante
- Pour obtenir plus d'informations sur les instructions SQL compatibles, consultez la page Présentation de SQL dans BigQuery.
- Pour en savoir plus sur la syntaxe GoogleSQL permettant d'interroger des données dans BigQuery, consultez la page Syntaxe des requêtes en GoogleSQL.
- Découvrez comment exécuter une requête dans BigQuery.
- Découvrez comment optimiser les performances des requêtes.
- Découvrez comment faire vos premiers pas avec les notebooks.
- Découvrez comment planifier une requête récurrente.