Elaborare i dati con Cloud Data Fusion

Cloud Data Fusion fornisce un plug-in Dataplex Source per leggere i dati delle entità (tabelle) Dataplex che risiedono negli asset Cloud Storage o BigQuery. Il plug-in Dataplex Source consente di trattare i dati negli asset Cloud Storage come tabelle e filtrarli con query SQL.

Prima di iniziare

  • Crea un'istanza Cloud Data Fusion, se non ne hai già una. Questo plug-in è disponibile nelle istanze che funzionano in Cloud Data Fusion 6.6 o versioni successive.

  • I dati di origine devono già far parte di una zona e di un asset Dataplex (un bucket Cloud Storage o un set di dati BigQuery).

  • Per utilizzare le tabelle di Cloud Storage, devi configurare un metastore per il tuo lake.

  • Affinché i dati possano essere letti dalle entità Cloud Storage, Dataproc Metastore deve essere collegato al lake.

  • I dati CSV nelle entità Cloud Storage non sono supportati.

  • Nel progetto Dataplex, abilita l'accesso privato Google sulla sottorete, che in genere è impostato su default, oppure imposta internal_ip_only su false.

Limitazioni

  • Per gli asset Cloud Storage: questo plug-in non supporta la lettura da file CSV. Supporta la lettura da formati JSON, Avro, Parquet e ORC.

  • Per gli asset Cloud Storage: Data di inizio della partizione e Data di fine della partizione non sono applicabili.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per gestire i ruoli, chiedi all'amministratore di concederti i seguenti ruoli IAM sull'agente di servizio Dataproc e sull'agente di servizio Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Aggiungi il plug-in alla pipeline

  1. Nella console Google Cloud, vai alla pagina Istanze di Cloud Data Fusion.

    Vai a Istanze

    Questa pagina ti consente di gestire le istanze.

  2. Fai clic su Visualizza istanza per aprire l'istanza nell'UI di Cloud Data Fusion.

  3. Vai alla pagina Studio, espandi il menu Origine e fai clic su Dataplex.

Configura il plug-in

Dopo aver aggiunto questo plug-in alla pipeline nella pagina Studio, fai clic sull'origine Dataplex per configurarne le proprietà.

Per ulteriori informazioni sulle configurazioni, consulta la documentazione di riferimento relativa all'origine Dataplex.

(Facoltativo) Inizia con una pipeline di esempio

Sono disponibili pipeline di esempio, tra cui una pipeline di origine SAP a destinazione Dataplex e una pipeline di origine Dataplex a destinazione BigQuery.

Per utilizzare una pipeline di esempio, apri l'istanza nell'interfaccia utente di Cloud Data Fusion, fai clic su Hub > Pipeline e seleziona una delle pipeline Dataplex. Si apre una finestra di dialogo per aiutarti a creare la pipeline.

Passaggi successivi