Cloud Data Fusion fornisce un plug-in origine Dataplex leggere i dati dalle entità (tabelle) Dataplex che risiedono su degli asset Cloud Storage o BigQuery. L'origine Dataplex consente di trattare i dati negli asset Cloud Storage come tabelle e filtri. i dati con semplici query SQL.
Prima di iniziare
Crea un'istanza Cloud Data Fusion, se non ne hai uno. Questo plug-in è disponibile nelle istanze eseguite in Cloud Data Fusion 6.6 o versioni successive.
I dati di origine devono già far parte di un Dataplex zone e una risorsa (un bucket Cloud Storage o un set di dati BigQuery).
Per usare le tabelle da Cloud Storage, devi configurare un metastore per il tuo lake.
Affinché i dati vengano letti dalle entità Cloud Storage, Dataproc Metastore deve essere collegato al lake.
I dati CSV nelle entità Cloud Storage non sono supportati.
Nel progetto Dataplex, abilita l'accesso privato Google nella subnet, che in genere è impostata su
default
, oppure impostainternal_ip_only
sufalse
.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per gestire i ruoli, chiedi all'amministratore di concederti i seguenti ruoli IAM sull'agente di servizio Dataproc e sull'agente di servizio Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Sviluppatore Dataplex (
roles/dataplex.developer
) -
Lettore dati Dataplex (
roles/dataplex.dataReader
) -
Utente metadati Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente di servizio Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Lettore metadati Dataplex (
roles/dataplex.metadataReader
)
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite la ruoli o altri ruoli predefiniti ruoli.
Limitazioni
Per gli asset Cloud Storage: questo plug-in non supporta la lettura da file CSV. Supporta la lettura dai formati JSON, Avro, Parquet e ORC.
Per gli asset Cloud Storage: Data di inizio della partizione e Partizione Data di fine non sono applicabili.
Aggiungi il plug-in alla pipeline
Nella console Google Cloud, vai alla pagina Istanze di Cloud Data Fusion.
Questa pagina ti consente di gestire le istanze.
Fai clic su Visualizza istanza per aprire l'istanza in Cloud Data Fusion nell'interfaccia utente.
Vai alla pagina Studio, espandi il menu Origine e fai clic su Dataplex.
Configura il plug-in
Dopo aver aggiunto il plug-in alla pipeline nella pagina Studio, fai clic su l'origine Dataplex per configurarne le proprietà.
Per ulteriori informazioni sulle configurazioni, consulta Riferimento per l'origine Dataplex.
(Facoltativo) Inizia con una pipeline di esempio
Sono disponibili pipeline di esempio, tra cui un'origine SAP Pipeline del sink Dataplex e un'origine Dataplex per Pipeline sink BigQuery.
Per utilizzare una pipeline di esempio, apri l'istanza nella UI di Cloud Data Fusion, fai clic su Hub > Pipeline e seleziona una delle delle pipeline Dataplex. Si apre una finestra di dialogo per aiutarti a creare una pipeline o un blocco note personalizzato.
Passaggi successivi
- Importare dati con Cloud Data Fusion usando il plug-in del sink di Dataplex.