Elabora i dati con Cloud Data Fusion

Cloud Data Fusion fornisce un plug-in di origine Dataplex per leggere i dati da entità (tabelle) Dataplex che risiedono su asset Cloud Storage o BigQuery. Il plug-in Origine Dataplex consente di trattare i dati negli asset di Cloud Storage come tabelle e filtrare i dati con semplici query SQL.

Prima di iniziare

  • Crea un'istanza di Cloud Data Fusion, se non ne hai una. Questo plug-in è disponibile nelle istanze eseguite in Cloud Data Fusion 6.6 o versioni successive.

  • I dati di origine devono già far parte di una zona Dataplex e di un asset (un bucket Cloud Storage o un set di dati BigQuery).

  • Per utilizzare le tabelle da Cloud Storage, devi configurare un metastore per il tuo lake.

  • Affinché i dati vengano letti da entità Cloud Storage, è necessario collegare Dataproc Metastore al lake.

  • I dati CSV nelle entità Cloud Storage non sono supportati.

  • Nel progetto Dataplex, abilita l'accesso privato Google sulla subnet, che di solito è impostata su default, oppure imposta internal_ip_only su false.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per gestire i ruoli, chiedi all'amministratore di concederti i seguenti ruoli IAM sull'account di servizio Dataproc e sull'account di servizio gestito da Google (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com):

Per maggiori informazioni sulla concessione dei ruoli, vedi Gestire l'accesso.

Potresti anche ottenere le autorizzazioni richieste tramite ruoli personalizzati o altri ruoli predefiniti.

Limitazioni

  • Per gli asset di Cloud Storage: questo plug-in non supporta la lettura dai file CSV. Supporta la lettura da formati JSON, Avro, Parquet e ORC.

  • Per gli asset di Cloud Storage: Data di inizio partizione e Data di fine partizione non sono applicabili.

Aggiungi il plug-in alla tua pipeline

  1. Nella console Google Cloud, vai alla pagina Istanze Cloud Data Fusion.

    Vai alle istanze

    Questa pagina ti consente di gestire le tue istanze.

  2. Fai clic su Visualizza istanza per aprire l'istanza nell'interfaccia utente di Cloud Data Fusion.

  3. Vai alla pagina Studio, espandi il menu Origine e fai clic su Dataplex.

Configura il plug-in

Dopo aver aggiunto questo plug-in alla pipeline nella pagina Studio, fai clic sull'origine Dataplex per configurarne le proprietà.

Per ulteriori informazioni sulle configurazioni, consulta il riferimento Origine Dataplex.

(Facoltativo) Inizia a utilizzare una pipeline di esempio

Sono disponibili pipeline di esempio, tra cui una pipeline di origine da SAP a sink di Dataplex e una pipeline di sink da origine di Dataplex a BigQuery.

Per utilizzare una pipeline di esempio, apri l'istanza nell'interfaccia utente di Cloud Data Fusion, fai clic su Hub > Pipelines e seleziona una delle pipeline Dataplex. Si apre una finestra di dialogo per aiutarti a creare la pipeline.

Passaggi successivi