Importare dati con Cloud Data Fusion

Cloud Data Fusion fornisce un plug-in sink Dataplex Universal Catalog per l'importazione dei dati in uno qualsiasi degli asset supportati da Dataplex Universal Catalog.

Prima di iniziare

  • Se non hai un'istanza Cloud Data Fusion, creane una. Questo plug-in è disponibile nelle istanze che vengono eseguite in Cloud Data Fusion versione 6.6 o successiva. Per saperne di più, vedi Crea un'istanza pubblica Cloud Data Fusion.
  • Il set di dati BigQuery o il bucket Cloud Storage in cui vengono importati i dati deve far parte di un lake Dataplex Universal Catalog.
  • Affinché i dati vengano letti dalle entità Cloud Storage, Dataproc Metastore deve essere collegato al lake.
  • I dati CSV nelle entità Cloud Storage non sono supportati.
  • Nel progetto Dataplex Universal Catalog, abilita l'accesso privato Google sulla subnet, che in genere è impostata su default, oppure imposta internal_ip_only su false.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per gestire i ruoli, chiedi all'amministratore di concederti i seguenti ruoli IAM per il service agent Dataproc e il service agent Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Aggiungi il plug-in alla pipeline

  1. Nella console Google Cloud , vai alla pagina Istanze di Cloud Data Fusion.

    Vai a Istanze

    Questa pagina ti consente di gestire le tue istanze.

  2. Per aprire l'istanza, fai clic su Visualizza istanza.

  3. Vai alla pagina Studio, espandi il menu Sink e fai clic su Dataplex.

Configurare il plug-in

Dopo aver aggiunto questo plug-in alla pipeline nella pagina Studio, fai clic sul sink Dataplex Universal Catalog per configurare e salvare le relative proprietà.

Per ulteriori informazioni sulle configurazioni, consulta il riferimento Sink Dataplex.

(Facoltativo) Inizia a utilizzare una pipeline di esempio

Sono disponibili pipeline di esempio, tra cui una pipeline di origine SAP a una pipeline sink di Dataplex Universal Catalog e una pipeline di origine Dataplex Universal Catalog a una pipeline sink di BigQuery.

Per utilizzare una pipeline di esempio, apri l'istanza nella UI di Cloud Data Fusion, fai clic su Hub > Pipeline e seleziona una delle pipeline di Dataplex Universal Catalog. Si apre una finestra di dialogo che ti aiuta a creare la pipeline.

Esegui la pipeline

  1. Dopo aver eseguito il deployment della pipeline, aprila nella pagina Studio di Cloud Data Fusion.

  2. Fai clic su Configura > Risorse.

  3. (Facoltativo) Modifica la CPU dell'executor e la memoria in base alle dimensioni complessive dei dati e al numero di trasformazioni utilizzate nella pipeline.

  4. Fai clic su Salva.

  5. Per avviare la pipeline di dati, fai clic su Esegui.

Passaggi successivi