Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Présentation de BigQuery Omni

Avec BigQuery Omni, vous pouvez exécuter des analyses BigQuery sur les données stockées dans Amazon Simple Storage Service (Amazon S3) ou Azure Blob Storage à l'aide de tables BigLake.

De nombreuses organisations stockent des données dans plusieurs clouds publics. Ces données finissent souvent par être cloisonnées, car il est difficile d'obtenir des insights sur toutes les données. Vous souhaitez pouvoir analyser des données avec un outil de données multicloud qui est économique et rapide, et ne génère pas de surcharge supplémentaire liée à la gouvernance décentralisée des données. En utilisant BigQuery Omni, nous atténuons ces frictions grâce à une interface unifiée.

Pour exécuter des analyses BigQuery sur vos données externes, vous devez d'abord vous connecter à Amazon S3 ou Blob Storage. Si vous souhaitez interroger des données externes, vous devez créer une table BigLake faisant référence aux données Amazon S3 ou Blob Storage.

Vous pouvez également de combiner des données entre différents clouds à l'aide d'un transfert inter-cloud. BigQuery Omni offre une solution d'analyse multicloud qui permet d'analyser des données là où elles se trouvent et qui offre la flexibilité nécessaire pour répliquer des données si nécessaire. Pour en savoir plus, consultez la page Charger des données avec un transfert inter-cloud.

Architecture

L'architecture de BigQuery sépare le calcul du stockage, ce qui permet à BigQuery d'effectuer un scaling horizontal si nécessaire pour gérer des charges de travail très volumineuses. BigQuery Omni étend cette architecture en exécutant le moteur de requêtes BigQuery dans d'autres clouds. De ce fait, vous n'avez pas besoin de déplacer physiquement les données dans l'espace de stockage BigQuery. Le traitement des données se déroule là où ces données sont déjà stockées.

Architecture de BigQuery Omni

Les résultats de la requête peuvent être renvoyés à Google Cloud via une connexion sécurisée, par exemple pour s'afficher dans Google Cloud Console. Vous pouvez également écrire les résultats directement dans l'espace de stockage Amazon S3 ou Blob Storage. Dans ce cas, les résultats de la requête ne sont pas déplacés entre plusieurs clouds.

BigQuery Omni utilise les rôles AWS IAM standards ou les principes Azure Active Directory pour accéder aux données de votre abonnement. Vous déléguez l'accès en lecture ou en écriture à BigQuery Omni, et vous pouvez révoquer cet accès à tout moment.

Flux de données lors de l'interrogation de données

L'image suivante illustre le transfert des données entre Google Cloud et AWS ou Azure pour les requêtes suivantes:

  • Instruction SELECT
  • Instruction CREATE EXTERNAL TABLE
Déplacement de données entre Google Cloud et AWS ou Azure pour les requêtes
Figure 1:Transfert de données entre Google Cloud et AWS ou Azure pour les requêtes.
  1. Le plan de contrôle BigQuery reçoit des tâches de requête via la console Google Cloud, l'outil de ligne de commande bq, une méthode d'API ou une bibliothèque cliente.
  2. Le plan de contrôle BigQuery envoie des tâches de requête à traiter dans le plan de données BigQuery (sur AWS ou Azure).
  3. Le plan de données BigQuery reçoit une requête du plan de contrôle via une connexion VPN.
  4. Le plan de données BigQuery lit les données de table à partir de votre bucket Amazon S3 ou de votre objet Blob Storage.
  5. Le plan de données BigQuery exécute la tâche de requête sur les données de table. Le traitement des données de la table s'effectue dans la région AWS ou Azure spécifiée.
  6. Le résultat de la requête est transmis du plan de données au plan de contrôle via la connexion VPN.
  7. Le plan de contrôle BigQuery reçoit les résultats de la tâche de requête à afficher en réponse à la tâche de requête. Ces données sont stockées pendant 24 heures au maximum.
  8. Le résultat de la requête vous est renvoyé.

Pour en savoir plus, consultez Interroger les données Amazon S3 et Données Blob Storage.

Flux de données lors de l'exportation de données

L'image suivante explique comment les données sont déplacées entre Google Cloud et AWS ou Azure lors d'une instruction EXPORT DATA.

Déplacement de données entre Google Cloud et AWS ou Azure pour les requêtes d'exportation.
Figure 2:Transfert de données entre Google Cloud et AWS ou Azure pour les requêtes d'exportation.
  1. Le plan de contrôle BigQuery reçoit des tâches de requête d'exportation de la part de la console Google Cloud, de l'outil de ligne de commande bq, d'une méthode API ou d'une bibliothèque cliente. La requête contient le chemin de destination du résultat de la requête dans votre bucket Amazon S3 ou dans Blob Storage.
  2. Le plan de contrôle BigQuery envoie des tâches de requête d'exportation pour traitement au plan de données BigQuery (sur AWS ou Azure).
  3. Le plan de données BigQuery reçoit la requête d'exportation du plan de contrôle via la connexion VPN.
  4. Le plan de données BigQuery lit les données de table à partir de votre bucket Amazon S3 ou de votre objet Blob Storage.
  5. Le plan de données BigQuery exécute la tâche de requête sur les données de table. Le traitement des données de la table s'effectue dans la région AWS ou Azure sélectionnée.
  6. BigQuery écrit le résultat de la requête dans le chemin de destination spécifié dans votre bucket Amazon S3 ou votre objet Blob Storage.

Pour en savoir plus, consultez Exporter des résultats de requête vers Amazon S3 et Blob Storage.

Avantages

Performances Vous pouvez obtenir des insights plus rapidement, car les données ne sont pas copiées entre les différents clouds, et les requêtes s'exécutent dans la même région que celle où sont stockées vos données.

Coût Vous réduisez les coûts de sortie réseau, car les données ne sont pas transférées. Aucuns frais supplémentaires ne sont facturés pour votre compte AWS ou Azure lié à l'analyse BigQuery Omni, car les requêtes s'exécutent sur des clusters gérés par Google. Vous n'êtes facturé que pour l'exécution des requêtes, selon le modèle de tarification BigQuery.

Sécurité et gouvernance des données. Vous devez gérer les données dans votre propre abonnement AWS ou Azure. Vous n'avez pas besoin de transférer ni de copier les données brutes depuis votre cloud public. Tous les calculs sont effectués dans le service mutualisé BigQuery qui s'exécute dans la même région que vos données.

Architecture sans serveur Comme le reste de BigQuery, BigQuery Omni est une offre sans serveur. Google déploie et gère les clusters qui exécutent BigQuery Omni. Vous n'avez pas besoin de provisionner de ressources ni de gérer de clusters.

Gestion simplifiée BigQuery Omni fournit une interface de gestion unifiée via Google Cloud. BigQuery Omni peut utiliser votre compte Google Cloud et vos projets BigQuery existants. Vous pouvez écrire une requête GoogleSQL dans la console Google Cloud pour interroger des données dans AWS ou Azure, et voir les résultats affichés dans la console Google Cloud.

Transfert de cloud à cloud Vous pouvez charger des données dans des tables BigQuery standards à partir de buckets S3 et de Blob Storage. Pour en savoir plus, consultez Transférer des données Amazon S3 et Données Blob Storage vers BigQuery.

Limites

En plus des limitations pour les tables BigLake, les limitations suivantes s'appliquent à BigQuery Omni, qui inclut des tables BigLake basées sur des données Amazon S3 et Blob Storage :

  • Les vues INFORMATION_SCHEMA, OBJECT_PRIVILEGES, STREAMING_TIMELINE_BY_*, et TABLE_SNAPSHOTS ne sont pas disponibles pour les tables BigLake basées sur Amazon S3 et Blob Storage.
  • Les vues matérialisées ne sont pas acceptées.
  • Les fonctions JavaScript définies par l'utilisateur ne sont pas acceptées.
  • Les instructions SQL suivantes ne sont pas acceptées :

  • Les limites suivantes s'appliquent à l'interrogation et à la lecture des tables temporaires de destination (preview) :

    • Il n'est pas possible d'interroger des tables temporaires de destination à l'aide de l'instruction SELECT.
    • Il n'est pas possible d'utiliser l'API BigQuery Storage Read pour lire les données des tables temporaires de destination.
    • Lorsque vous utilisez le pilote ODBC, les lectures à haut débit (option EnableHTAPI) ne sont pas acceptées.
  • Les requêtes programmées ne sont disponibles que via la méthode API ou CLI. L'option de table de destination est désactivée pour les requêtes. Seules les requêtes EXPORT DATA sont autorisées.

  • L'API BigQuery Storage n'est pas disponible dans les régions BigQuery Omni.

Tarifs

Pour en savoir plus sur les tarifs et les offres à durée limitée dans BigQuery Omni, consultez la page Tarifs de BigQuery Omni.

Quotas et limites

Le quota de la taille totale des résultats de requête pour un projet est de 1 To par jour (preview). La limite maximale pour la taille des résultats d'une requête est de 20 Gio d'octets logiques (preview). Si le résultat de votre requête dépasse 20 Gio, envisagez d'exporter les résultats vers Amazon S3 ou Blob Storage.

Pour plus d'informations sur les quotas et les limites, consultez la section Quotas et limites.

Emplacements

BigQuery Omni traite les requêtes dans le même emplacement que l'ensemble de données contenant les tables que vous interrogez. Après avoir créé l'ensemble de données, la zone ne peut plus être modifiée. Vos données résident dans votre propre compte AWS ou Azure.
Description de la région Nom de la région
AWS
AWS Est des États-Unis (Virginie du Nord) aws-us-east-1
Azure
Azure – Est des États-Unis 2 azure-eastus2

Étapes suivantes