Introduzione alla condivisione di BigQuery

BigQuery sharing (precedentemente Analytics Hub) è una piattaforma di scambio di dati che consente di condividere dati e approfondimenti su larga scala oltre i confini dell'organizzazione con un solido framework di sicurezza e privacy. La condivisione ti consente di scoprire e accedere a una raccolta di dati selezionati da vari fornitori di dati. Questa libreria di dati include anche set di dati forniti da Google.

Ad esempio, puoi utilizzare la condivisione per integrare le tue iniziative di analisi e ML con set di dati di terze parti e di Google.

I ruoli IAM (Identity and Access Management) di Analytics Hub consentono di eseguire le seguenti attività di condivisione:

  • In qualità di publisher di Analytics Hub, puoi condividere i dati con la tua rete di partner o all'interno della tua organizzazione in tempo reale. Le schede ti consentono di condividere i dati senza replicarli e possono essere monetizzate su Google Cloud Marketplace o tramite i tuoi canali. Puoi creare un catalogo di origini dati pronte per l'analisi con autorizzazioni granulari che ti consentono di fornire dati ai segmenti di pubblico giusti. Puoi anche gestire gli abbonamenti e visualizzare le metriche di utilizzo per le tue schede.

  • In qualità di abbonato di Analytics Hub, puoi scoprire i dati che stai cercando, combinare i dati condivisi con quelli esistenti e utilizzare le funzionalità integrate di BigQuery. Quando ti abboni a una scheda, nel tuo progetto viene creato un set di dati collegato o una sottoscrizione Pub/Sub collegata. Puoi gestire i tuoi abbonamenti utilizzando la risorsa Abbonamento, che memorizza le informazioni pertinenti sull'abbonato e rappresenta il collegamento tra editore e abbonato.

  • In qualità di visualizzatore di Analytics Hub, puoi sfogliare le risorse condivise a cui hai accesso in Condivisione e inviare una richiesta all'editore per accedere ai dati condivisi. Puoi scoprire le schede commerciali integrate in Cloud Marketplace sia su Condivisione sia su Cloud Marketplace.

  • In qualità di amministratore di Analytics Hub, puoi creare scambi di dati che consentono la condivisione dei dati e poi concedere le autorizzazioni a publisher e sottoscrittori di dati per accedere a questi scambi di dati.

Per ulteriori informazioni, consulta Configurare i ruoli di Analytics Hub.

Architettura

La condivisione si basa su un modello di pubblicazione e iscrizione delle risorse di datiGoogle Cloud , che consente la condivisione e l'accesso senza copia. La condivisione supporta le seguenti risorse Google Cloud :

  • Set di dati di BigQuery
  • Argomenti Pub/Sub

Workflow del publisher

Il seguente diagramma descrive come un editore condivide le risorse:

Il flusso di lavoro del publisher di Analytics Hub, che include risorse condivise, scambi di dati e schede.

Le sezioni seguenti descrivono le funzionalità di questo flusso di lavoro.

Risorse condivise

Le risorse condivise sono l'unità di condivisione di un publisher nella condivisione BigQuery.

Set di dati condivisi

Un set di dati condiviso è un set di dati BigQuery che costituisce l'unità di condivisione dei dati in BigQuery Sharing. La separazione di calcolo e archiviazione nell'architettura BigQuery consente agli editori di dati di condividere i set di dati con tutti gli abbonati che vogliono, senza dover creare più copie dei dati. In qualità di editore, crei o utilizzi un set di dati BigQuery esistente nel tuo progetto con i seguenti oggetti supportati che vuoi distribuire ai tuoi abbonati:

I set di dati condivisi supportano la sicurezza a livello di colonna e la sicurezza a livello di riga.

Tieni presente le seguenti limitazioni relative a Controlli di servizio VPC e alla condivisione:

  • Non è consigliabile pubblicare dati condivisi in progetti all'interno dei perimetri dei controlli di servizio VPC. Se i set di dati condivisi in un progetto si trovano all'interno di un perimetro di Controlli di servizio VPC, sono necessarie regole di ingresso e uscita appropriate sia per il progetto di scambio (schede ospitate) sia per tutti i progetti dell'abbonato per abbonarsi correttamente alle schede del publisher.

  • Non è consigliabile che gli amministratori di Exchange inseriscano il proprio progetto Exchange in un perimetro dei Controlli di servizio VPC, in quanto potrebbe interrompere i flussi di lavoro di pubblicazione, richiedendo regole di ingresso e uscita per il progetto publisher e tutti i progetti degli abbonati per abbonarsi correttamente ai loro elenchi.

Argomenti condivisi (anteprima)

Un argomento condiviso è un argomento Pub/Sub che costituisce l'unità di condivisione dei dati in streaming in BigQuery. In qualità di editore, crei o utilizzi un argomento Pub/Sub esistente nel tuo progetto e lo distribuisci ai tuoi abbonati.

Scambi di dati

Un exchange di dati è un contenitore che consente la condivisione self-service dei dati. Contiene schede che fanno riferimento a risorse condivise. Publisher e amministratori possono concedere l'accesso agli abbonati a livello di scambio e di scheda. Questo metodo consente di evitare di concedere l'accesso in modo esplicito alle risorse condivise sottostanti. Un abbonato può sfogliare gli scambi di dati, scoprire i dati a cui può accedere e abbonarsi alle risorse condivise. Quando crei uno scambio di dati, puoi assegnargli un indirizzo email di contatto principale. L'email del contatto principale offre agli utenti un modo per contattare il proprietario di uno scambio di dati in caso di domande o dubbi in merito. Uno scambio di dati può essere dei seguenti tipi:

  • Scambio di dati privati. Per impostazione predefinita, un Data Exchange è privato e solo gli utenti o i gruppi che hanno accesso a questo exchange possono visualizzare o iscriversi alle sue schede.
  • Scambio di dati pubblici. Per impostazione predefinita, un Data Exchange è privato e solo gli utenti o i gruppi che hanno accesso a questo exchange possono visualizzare o iscriversi alle sue schede. Tuttavia, puoi scegliere di rendere pubblico uno scambio di dati. Le schede negli scambi di dati pubblici possono essere scoperte e sottoscritte da utentiGoogle Cloud (allAuthenticatedUsers). Per ulteriori informazioni sugli scambi di dati pubblici, consulta Rendere pubblico uno scambio di dati.

Il ruolo Amministratore Analytics Hub ti consente di creare più scambi di dati e gestire altri utenti che eseguono attività di condivisione.

Schede

Una scheda è un riferimento a una risorsa condivisa che un publisher elenca in uno scambio di dati. In qualità di publisher, puoi creare una scheda e specificare la descrizione della risorsa, query di esempio da eseguire o dati dei messaggi di esempio, link a qualsiasi documentazione pertinente e qualsiasi informazione aggiuntiva che possa aiutare gli abbonati a utilizzare la risorsa condivisa. Quando crei una scheda, puoi assegnare un'email di contatto principale, un nome e un contatto del fornitore e un nome e un contatto dell'editore. L'email del contatto principale consente agli utenti di contattare il proprietario di una scheda per porre domande o esprimere dubbi sullo scambio di dati. Il nome e i dati di contatto del fornitore sono le informazioni dell'agenzia che ha fornito originariamente i dati per la scheda. Queste informazioni sono facoltative. Il nome e il contatto del publisher sono quelli dell'agenzia che ha pubblicato i dati da utilizzare nella condivisione di BigQuery. Queste informazioni sono facoltative. Per saperne di più, consulta Gestire le schede.

Un elenco può essere di due tipi in base al criterio Identity and Access Management (IAM) impostato per l'elenco e al tipo di scambio di dati che lo contiene:

  • Scheda pubblica. Viene condiviso con tutti gli utentiGoogle Cloud (allAuthenticatedUsers). Le schede in un exchange di dati pubblici sono schede pubbliche. Queste schede possono essere riferimenti a una risorsa pubblica gratuita o a una risorsa commerciale. Se la scheda è di una risorsa commerciale, gli abbonati possono richiedere l'accesso alla scheda direttamente dal fornitore di dati oppure possono sfogliare e acquistare schede commerciali integrate in Google Cloud Marketplace.
  • Scheda privata. Viene condiviso direttamente con singoli utenti o gruppi. Ad esempio, una scheda privata può fare riferimento a un set di dati delle metriche di marketing che condividi con altri team interni della tua organizzazione.

Flusso di lavoro per gli iscritti

Il seguente diagramma descrive l'interazione degli abbonati con le risorse condivise:

Il flusso di lavoro dell'abbonato alla condivisione, che include risorse condivise, scambi di dati, schede e risorse collegate.

Le sezioni seguenti descrivono le funzionalità del flusso di lavoro degli abbonati.

Risorse collegate

Le risorse collegate vengono create quando ti abboni a una scheda di condivisione, collegando un abbonato alla risorsa condivisa sottostante.

Set di dati collegati

Un set di dati collegato è un set di dati BigQuery di sola lettura che funge da puntatore o riferimento a un set di dati condiviso. La sottoscrizione a una scheda crea un set di dati collegato nel tuo progetto e non una copia del set di dati, pertanto gli abbonati possono leggere i dati, ma non possono aggiungere o aggiornare gli oggetti al suo interno. Quando esegui query su oggetti come tabelle e viste tramite un set di dati collegato, vengono restituiti i dati del set di dati condiviso. Per saperne di più sui set di dati collegati, vedi Visualizzare e abbonarsi alle schede.

I set di dati collegati sono autorizzati ad accedere a tabelle e viste di un set di dati condiviso. Gli abbonati con set di dati collegati accedono a tabelle e viste di un set di dati condiviso senza alcuna autorizzazione Identity and Access Management aggiuntiva.

I set di dati collegati supportano i seguenti oggetti:

Sottoscrizioni Pub/Sub collegate (anteprima)

La sottoscrizione a una scheda con un argomento condiviso crea una sottoscrizione Pub/Sub collegata nel progetto del sottoscrittore. Non vengono create copie dell'argomento o dei dati dei messaggi condivisi. I sottoscrittori della sottoscrizione Pub/Sub collegata possono accedere ai messaggi pubblicati nell'argomento condiviso. Gli abbonati accedono ai dati dei messaggi di un argomento condiviso senza alcuna autorizzazione Identity and Access Management aggiuntiva. Gli editori possono gestire gli abbonamenti direttamente in Pub/Sub o tramite la gestione degli abbonamenti condivisi. Per ulteriori informazioni sulle sottoscrizioni Pub/Sub collegate, consulta Condivisione di stream con Pub/Sub.

Opzioni di traffico in uscita dai dati (solo set di dati condivisi BigQuery)

Le opzioni per il traffico in uscita dai dati consentono agli editori di limitare l'esportazione da parte degli abbonati dei dati dai set di dati BigQuery collegati.

I publisher possono attivare la limitazione dell'uscita dei dati in una scheda, nei risultati di una query o in entrambi. Quando l'uscita dei dati è limitata, vengono applicate le seguenti limitazioni:

  • Le API di copia, clonazione, esportazione e snapshot sono disattivate.

  • Le opzioni di copia, clonazione, esportazione e snapshot nella console Google Cloud sono disattivate.

  • Il collegamento del set di dati con limitazioni all'esploratore di tabelle è disattivato.

  • BigQuery Data Transfer Service è disattivato nel set di dati con limitazioni.

  • Le istruzioni CREATE TABLE AS SELECT e la scrittura in una tabella di destinazione sono disattivate.

  • CREATE VIEW AS SELECT dichiarazioni e la scrittura in una visualizzazione di destinazione sono disattivate.

Quando crei una scheda, puoi impostare le opzioni di traffico in uscita dai dati appropriate.

Limitazioni

La condivisione presenta le seguenti limitazioni:

  • Un set di dati condiviso può avere un massimo di 1000 set di dati collegati.

  • Un argomento condiviso può avere un massimo di 10.000 sottoscrizioni Pub/Sub. Questo limite include le sottoscrizioni Pub/Sub collegate e le sottoscrizioni Pub/Sub create al di fuori della condivisione (ad esempio, direttamente da Pub/Sub).

  • Un set di dati con risorse non supportate non può essere selezionato come set di dati condiviso quando crei una scheda. Per ulteriori informazioni sugli oggetti BigQuery supportati dalla condivisione, consulta Dataset condivisi in questo documento.

  • Non puoi impostare ruoli IAM o norme IAM su singole tabelle all'interno di un set di dati collegato. Applica i filtri a livello di set di dati collegato.

  • Non puoi collegare tag IAM alle tabelle all'interno di un set di dati collegato. Applica queste impostazioni a livello del set di dati collegato.

  • I set di dati collegati creati prima del 25 luglio 2023 non vengono compilati automaticamente dalla risorsa di abbonamento. Solo gli abbonamenti creati dopo il 25 luglio 2023 funzionano con i metodi API.

  • Se sei un publisher, si applicano le seguenti limitazioni di interoperabilità di BigQuery:

    • Gli abbonati devono disporre di autorizzazioni esplicite per leggere il set di dati di origine per poter eseguire query sulle viste all'interno dei set di dati collegati. Per concedere l'accesso alle visualizzazioni, come best practice i publisher dovrebbero creare viste autorizzate. Le viste autorizzate possono concedere agli abbonati l'accesso ai dati della vista senza concedere loro l'accesso ai dati di origine sottostanti.

    • Il piano di query mostra la query della vista condivisa e la query della routine, inclusi gli ID progetto e altri set di dati coinvolti nelle viste autorizzate. Non includere mai elementi come chiavi di crittografia che consideri sensibili nella visualizzazione condivisa o nella query di routine.

    • I set di dati condivisi vengono indicizzati in Data Catalog (ritirato) e Dataplex Universal Catalog. Gli aggiornamenti a un set di dati condiviso, ad esempio l'aggiunta di tabelle o viste, vengono resi disponibili per gli abbonati senza alcun ritardo. Tuttavia, in alcuni scenari, ad esempio quando in un set di dati condiviso sono presenti più di cento iscritti o tabelle, l'indicizzazione degli aggiornamenti in questi servizi potrebbe richiedere fino a 18 ore. A causa del ritardo nell'indicizzazione, gli abbonati non possono cercare immediatamente queste risorse aggiornate nella console Google Cloud .

    • Gli argomenti condivisi vengono indicizzati in Data Catalog (ritirato) e Dataplex Universal Catalog, ma non puoi filtrare in modo specifico in base al tipo di risorsa.

    • Se hai configurato criteri di sicurezza a livello di riga o di mascheramento dei dati nelle tabelle elencate, gli abbonati devono essere clienti Enterprise o Enterprise Plus per eseguire il job di query sul set di dati collegato. Per informazioni sulle versioni, vedi Introduzione alle versioni di BigQuery.

  • Se sei un abbonato, si applicano le seguenti limitazioni di interoperabilità di BigQuery:

    • Le viste materializzate che fanno riferimento a tabelle nel set di dati collegato non sono supportate.

    • L'acquisizione di snapshot delle tabelle del set di dati collegato non è supportata.

    • Le query con set di dati collegati e istruzioni JOIN di dimensioni superiori a 1 TB (spazio di archiviazione fisico) potrebbero non riuscire. Per risolvere il problema, puoi contattare l'assistenza.

    • Non puoi utilizzare i qualificatori di regione con le viste INFORMATION_SCHEMA per visualizzare i metadati del set di dati collegato.

    • Quando esegui query per routine in un set di dati collegato, puoi eseguire query solo per i tipi di routine funzioni definite dall'utente (sia SQL che UDF JavaScript) e funzioni di tabella. L'esecuzione di query per un tipo di routine non supportato genera il messaggio di errore: Querying routine type type is not yet supported on linked dataset dataset.

  • Per le metriche di utilizzo si applicano le seguenti limitazioni:

    • Non puoi ottenere le metriche sull'utilizzo per le schede a cui è stato effettuato l'abbonamento prima del 20 luglio 2023.

    • Le metriche di utilizzo della tabella esterna per i campi num_rows_processed e total_bytes_processed potrebbero contenere dati imprecisi.

    • Le metriche di utilizzo per il consumo sono supportate solo per l'utilizzo tramite job BigQuery. Il consumo utilizzando le seguenti risorse non è supportato:

    • Le metriche di utilizzo per le visualizzazioni vengono compilate solo per le query successive al 22 aprile 2024.

    • Le metriche di utilizzo non vengono acquisite per le sottoscrizioni Pub/Sub collegate in BigQuery (puoi continuare a visualizzare l'utilizzo direttamente in Pub/Sub).

  • Quando ti abboni ai dati di Salesforce Data Cloud, si applicano le seguenti limitazioni:

    • I dati di Data Cloud vengono condivisi come visualizzazioni. In qualità di abbonato, non puoi accedere alle tabelle sottostanti a cui fanno riferimento le viste.

Aree geografiche supportate

La condivisione di BigQuery è supportata nelle seguenti regioni e multiregioni.

Regioni

La tabella seguente elenca le regioni delle Americhe in cui è disponibile la condivisione.
Descrizione della regione Nome regione Dettagli
Columbus, Ohio us-east5
Dallas us-south1 icona foglia Bassi livelli di CO2
Iowa us-central1 icona foglia Bassi livelli di CO2
Las Vegas us-west4
Los Angeles us-west2
Messico northamerica-south1
Montréal northamerica-northeast1 icona foglia Bassi livelli di CO2
Virginia del Nord us-east4
Oklahama us-central2
Oregon us-west1 icona foglia Bassi livelli di CO2
Salt Lake City us-west3
San Paolo southamerica-east1 icona foglia Bassi livelli di CO2
Santiago southamerica-west1
Carolina del Sud us-east1
Toronto northamerica-northeast2
La seguente tabella elenca le regioni dell'Asia Pacifico in cui è disponibile la condivisione.
Descrizione della regione Nome regione Dettagli
Delhi asia-south2
Hong Kong asia-east2
Giacarta asia-southeast2
Melbourne australia-southeast2
Mumbai asia-south1
Osaka asia-northeast2
Seul asia-northeast3
Singapore asia-southeast1
Sydney australia-southeast1
Taiwan asia-east1
Tokyo asia-northeast1
La seguente tabella elenca le regioni d'Europa in cui è disponibile la condivisione.
Descrizione della regione Nome regione Dettagli
Belgio europe-west1 icona foglia Bassi livelli di CO2
Berlino europe-west10 icona foglia Bassi livelli di CO2
Finlandia europe-north1 icona foglia Bassi livelli di CO2
Francoforte europe-west3
Londra europe-west2 icona foglia Bassi livelli di CO2
Madrid europe-southwest1 icona foglia Bassi livelli di CO2
Milano europe-west8
Paesi Bassi europe-west4 icona foglia Bassi livelli di CO2
Parigi europe-west9 icona foglia Bassi livelli di CO2
Torino europe-west12
Varsavia europe-central2
Zurigo europe-west6 icona foglia Bassi livelli di CO2
La seguente tabella elenca le regioni del Medio Oriente in cui è disponibile la condivisione.
Descrizione della regione Nome regione Dettagli
Dammam me-central2
Doha me-central1
Tel Aviv me-west1
La seguente tabella elenca le regioni dell'Africa in cui è disponibile la condivisione.
Descrizione della regione Nome regione Dettagli
Johannesburg africa-south1

Più regioni

La tabella seguente elenca le multiregioni in cui è disponibile la condivisione.
Descrizione multiregionale Nome della regione
Data center all'interno degli stati membri dell'Unione Europea1 EU
Data center negli Stati Uniti US

1 I dati che si trovano nella multiregione EU non sono archiviati nei data center europe-west2 (Londra) o europe-west6 (Zurigo).

Regioni omnicanale

La tabella seguente elenca gli Omni in cui è disponibile la condivisione.
Descrizione della regione Omni Nome della regione omnicanale
AWS
AWS - Stati Uniti orientali (Virginia del Nord) aws-us-east-1
AWS - US West (Oregon) aws-us-west-2
AWS - Asia Pacifico (Seul) aws-ap-northeast-2
AWS - Asia Pacifico (Sydney) aws-ap-southeast-2
AWS - Europe (Ireland) aws-eu-west-1
AWS - Europa (Francoforte) aws-eu-central-1
Azure
Azure - Stati Uniti orientali 2 azure-eastus2

Caso d'uso di esempio

Questa sezione mostra un esempio di come puoi utilizzare la condivisione in BigQuery.

Supponiamo che tu sia un rivenditore e che la tua organizzazione disponga di dati di previsione della domanda in tempo reale in un progetto Google Cloud denominato Previsione. Vuoi condividere questi dati di previsione della domanda con centinaia di fornitori nel tuo sistema di supply chain. Ecco come puoi condividere i tuoi dati con i fornitori tramite la condivisione di BigQuery:

Amministratori

In qualità di proprietario del progetto Previsioni, devi prima abilitare l'API e poi assegnare il ruolo Amministratore Analytics Hub a un utente che amministra lo scambio di dati nel progetto. Gli utenti con il ruolo Amministratore di Analytics Hub sono chiamati amministratori di Analytics Hub.

Questo amministratore può eseguire le seguenti attività:

  • Crea, aggiorna, elimina e condividi lo scambio di dati nel progetto Previsione della tua organizzazione.

  • Gestisci altri amministratori con il ruolo di amministratore di Analytics Hub.

  • Gestisci i publisher concedendo il ruolo di publisher di Analytics Hub ai dipendenti della tua organizzazione. Se vuoi che alcuni dipendenti possano solo aggiornare, eliminare e condividere le schede, ma non crearle, puoi concedere loro il ruolo Amministratore schede di Analytics Hub.

  • Gestisci gli abbonati concedendo il ruolo Abbonato di Analytics Hub a un gruppo Google composto da tutti i fornitori. Se vuoi che alcuni fornitori abbiano solo accesso in visualizzazione agli scambi e alle schede disponibili, puoi concedere loro il ruolo Visualizzatore di Analytics Hub. Questi fornitori non possono abbonarsi alle schede.

Per saperne di più, consulta Gestire gli scambi di dati.

Publisher

I publisher creano i seguenti elenchi per i propri set di dati nel progetto Previsione o in un altro progetto:

  • Elenco A: Demand Forecast Dataset 1
  • Scheda B: Demand Forecast Dataset 2
  • Scheda C: set di dati 3 di previsione della domanda

In qualità di fornitore di dati, puoi monitorare le metriche di utilizzo per il set di dati condiviso. Le metriche di utilizzo includono i seguenti dettagli:

  • Job eseguiti sul set di dati condiviso.
  • I dettagli sul consumo del tuo set di dati condiviso in base ai progetti e all'organizzazione degli abbonati.
  • Il numero di righe e byte elaborati dal job.

Per saperne di più, consulta Gestire le schede.

Iscritti

Gli abbonati possono sfogliare gli elenchi a cui hanno accesso negli scambi di dati. Possono anche iscriversi a questi elenchi e aggiungere questi set di dati ai loro progetti creando un set di dati collegato. I fornitori possono quindi eseguire query su questi set di dati collegati e recuperare i risultati in tempo reale.

Per ulteriori informazioni, vedi Visualizzare e abbonarsi alle schede.

Prezzi

Non sono previsti costi aggiuntivi per la gestione degli scambi o delle schede di dati.

Per i set di dati BigQuery, gli editor pagano l'archiviazione dei dati, mentre gli abbonati pagano le query eseguite sui dati condivisi in base al modello di determinazione dei prezzi on-demand o basato sulla capacità. Per informazioni sui prezzi, consulta la pagina Prezzi di BigQuery.

Per Pub/Sub, gli editori di argomenti vengono addebitati per il numero totale di byte scritti (throughput di pubblicazione) nell'argomento condiviso e per l'uscita di rete (se applicabile). Agli abbonati viene addebitato il numero totale di byte letti (throughput di abbonamento) dall'abbonamento collegato e il traffico in uscita dalla rete (se applicabile). Per ulteriori dettagli, consulta la pagina Prezzi di Pub/Sub.

Quote

Per informazioni sulle quote di condivisione di BigQuery, consulta Quote e limiti.

Conformità

La condivisione, in quanto parte di BigQuery, è conforme ai seguenti programmi di conformità:

Controlli di servizio VPC

Puoi impostare le regole in entrata e in uscita necessarie per consentire a publisher e abbonati di accedere ai dati dei progetti con perimetri Controlli di servizio VPC. Per maggiori informazioni, consulta Condivisione delle regole dei Controlli di servizio VPC.

Passaggi successivi