Importare dati con Cloud Data Fusion

Cloud Data Fusion fornisce un plug-in del sink Dataplex per importare dati in uno qualsiasi degli asset supportati da Dataplex.

Prima di iniziare

  • Crea un Cloud Data Fusion, se non ne hai una. Questo plug-in è disponibile nelle istanze che eseguono Cloud Data Fusion 6.6 o versioni successive.
  • Il set di dati BigQuery o il bucket Cloud Storage in cui i dati vengono importati deve far parte di un lake Dataplex.
  • Affinché i dati possano essere letti da entità Cloud Storage, Dataproc Metastore deve essere collegato al lake.
  • I dati CSV nelle entità Cloud Storage non sono supportati.
  • Nel progetto Dataplex, attiva l'accesso privato Google sulla subnet, che in genere è impostato su default, oppure imposta internal_ip_only su false.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per gestire i ruoli, chiedi all'amministratore di concederti i seguenti ruoli IAM sull'agente di servizio Dataproc e sull'agente di servizio Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Aggiungi il plug-in alla pipeline

  1. Nella console Google Cloud, vai alla pagina Istanze Cloud Data Fusion.

    Vai a Istanze

    Questa pagina ti consente di gestire le istanze.

  2. Fai clic su Visualizza istanza per aprire l'istanza in Cloud Data Fusion nell'interfaccia utente.

  3. Vai alla pagina Studio, espandi il menu Sink e fai clic su Dataplex.

Configura il plug-in

Dopo aver aggiunto il plug-in alla pipeline nella pagina Studio, fai clic sull'icona Sink Dataplex per configurarne e salvarne le proprietà.

Per ulteriori informazioni sulle configurazioni, consulta Riferimento per i sink Dataplex.

(Facoltativo) Inizia con una pipeline di esempio

Sono disponibili pipeline di esempio, tra cui una pipeline di origine SAP a destinazione Dataplex e una pipeline di origine Dataplex a destinazione BigQuery.

Per utilizzare una pipeline di esempio, apri l'istanza nell'interfaccia utente di Cloud Data Fusion, fai clic su Hub > Pipeline e seleziona una delle pipeline Dataplex. Si apre una finestra di dialogo per aiutarti a creare la pipeline.

Esegui la pipeline.

  1. Dopo aver eseguito il deployment della pipeline, aprila in Cloud Data Fusion Studio.

  2. Fai clic su Configura > Risorse.

  3. (Facoltativo) Modificare la CPU dell'esecutore e la memoria in base alla configurazione complessiva la dimensione dei dati e il numero di trasformazioni utilizzate nella pipeline.

  4. Fai clic su Salva.

  5. Per avviare la pipeline di dati, fai clic su Esegui.

Passaggi successivi