Questa pagina è stata tradotta dall'API Cloud Translation.

Origine batch Cloud Storage

Questa pagina fornisce indicazioni sulla configurazione del plug-in dell'origine batch Cloud Storage in Cloud Data Fusion.

Il plug-in dell'origine in batch Cloud Storage ti consente di leggere i dati dai bucket Cloud Storage e importarli in Cloud Data Fusion per ulteriori elaborazioni e trasformazioni. Ti consente di caricare dati da più formati di file, tra cui:

Strutturato: CSV, Avro, Parquet, ORC
Semistrutturati: JSON, XML
Altro: testo, binario

Prima di iniziare

In genere Cloud Data Fusion ha due account di servizio:

Account di servizio in fase di progettazione: Cloud Data Fusion API Service Agent
Service account di esecuzione: Account di servizio Compute Engine

Prima di utilizzare il plug-in dell'origine batch Cloud Storage, concedi il seguente ruolo o le seguenti autorizzazioni a ogni account di servizio.

Cloud Data Fusion API Service Agent

Questo account di servizio dispone già di tutte le autorizzazioni richieste e non è necessario aggiungere autorizzazioni aggiuntive.

Account di servizio Compute Engine

Nel tuo Google Cloud progetto, concedi i seguenti ruoli o le seguenti autorizzazioni IAM all'account di servizio Compute Engine:

Storage Legacy Bucket Reader (roles/storage.legacyBucketReader). Questo ruolo predefinito contiene l'autorizzazione storage.buckets.get richiesta.
Visualizzatore oggetti Storage (roles/storage.legacyBucketReader). Questo ruolo predefinito contiene le seguenti autorizzazioni richieste:
- storage.objects.get
- storage.objects.list

Configura il plug-in

Vai all'interfaccia web di Cloud Data Fusion e fai clic su Studio.
Verifica che sia selezionata l'opzione Pipeline di dati - Batch (non In tempo reale).
Nel menu Origine, fai clic su GCS. Il nodo Cloud Storage viene visualizzato nella pipeline.
Per configurare l'origine, vai al nodo Cloud Storage e fai clic su Properties (Proprietà).
Inserisci le seguenti proprietà. Per un elenco completo, consulta Proprietà.
1. Inserisci un'etichetta per il nodo Cloud Storage, ad esempio Cloud Storage tables.
2. Inserisci i dettagli della connessione. Puoi configurare una nuova connessione una tantum o una connessione esistente riutilizzabile.
  Nuova connessione
  Per aggiungere una connessione una tantum a Cloud Storage:
  1. Mantieni disattivata l'opzione Usa connessione.
  2. Nel campo Project ID (ID progetto), lascia il valore su rilevamento automatico.
  3. Nel campo Tipo di account di servizio, lascia il valore Percorso file e Percorso file account di servizio come rilevamento automatico.
    
    Nota: se il plug-in non è in esecuzione su un cluster Dataproc, inserisci i valori per Tipo di account di servizio e Percorso del file dell'account di servizio. Per ulteriori informazioni, consulta Proprietà.
  Connessione riutilizzabile
  Per riutilizzare una connessione esistente:
  1. Attiva l'opzione Usa connessione.
  2. Fai clic su Browse connections (Sfoglia connessioni).
  3. Fai clic sul nome della connessione, ad esempio Predefinito Cloud Storage.
    
    Nota: per ulteriori informazioni su come aggiungere, importare e modificare le connessioni visualizzate quando le sfogli, consulta Gestire le connessioni.
  4. (Facoltativo) Se non esiste una connessione e vuoi crearne una nuova riutilizzabile, fai clic su Aggiungi connessione e segui i passaggi descritti nella scheda Nuova connessione di questa pagina.
3. Nel campo Reference name (Nome di riferimento), inserisci un nome da utilizzare per la linea di successione, ad esempio data-fusion-gcs-campaign.
4. Nel campo Percorso, inserisci il percorso da cui leggere, ad esempio gs://BUCKET_PATH.
5. Nel campo Formato, seleziona uno dei seguenti formati file per i dati da leggere:
  - avro
  - blob (il formato blob richiede uno schema contenente un campo chiamato corpo di tipo byte)
  - csv
  - Delimitato
  - json
  - parquet
  - text (il formato di testo richiede uno schema contenente un campo chiamato corpo di tipo stringa)
  - tsv
  - Il nome di qualsiasi plug-in di formato di cui hai eseguito il deployment nel tuo ambiente
  Nota: se utilizzi una macro in questo campo, devi utilizzare uno dei formati predefiniti. Le macro non supportano i formati aggiunti dai plug-in.
6. (Facoltativo) Per testare la connettività, fai clic su Ottieni schema.
7. (Facoltativo) Nel campo Dimensione del campione, inserisci il numero massimo di righe da controllare per il tipo di dati selezionato, ad esempio 1000.
8. (Facoltativo) Nel campo Sostituisci, inserisci i nomi delle colonne e i rispettivi tipi di dati da ignorare.
9. (Facoltativo) Inserisci le proprietà avanzate, ad esempio una dimensione minima della suddivisione o un filtro percorso con espressioni regolari (vedi Proprietà).
10. (Facoltativo) Nel campo Nome del bucket temporaneo, inserisci un nome per il bucket Cloud Storage.
(Facoltativo) Fai clic su Convalida e correggi gli eventuali errori rilevati.
Fai clic su Chiudi. Le proprietà vengono salvate e puoi continuare a creare la tua pipeline di dati in Cloud Data Fusion Studio.

Proprietà

Proprietà	Macro attivata	Proprietà obbligatoria	Descrizione
Etichetta	No	Sì	Il nome del nodo nella pipeline di dati.
Utilizzare la connessione	No	No	Cerca una connessione riutilizzabile all'origine. Per saperne di più su come aggiungere, importare e modificare le connessioni visualizzate quando navighi tra le connessioni, consulta Gestire le connessioni.
Connessione	Sì	Sì	Se l'opzione Utilizza connessione è attiva, in questo campo viene visualizzato il nome della connessione riutilizzabile selezionata.
ID progetto	Sì	No	Utilizzato solo quando l'opzione Usa connessione è disattivata. Un identificatore univoco globale per il progetto. Il valore predefinito è `auto-detect`.
Tipo di account di servizio	Sì	No	Seleziona una delle seguenti opzioni: Percorso del file: il percorso in cui si trova l'account di servizio. JSON: contenuti JSON dell'account di servizio.
Percorso del file dell'account di servizio	Sì	No	Viene utilizzato solo quando il valore del tipo di account di servizio è Percorso del file. Il percorso nel file system locale della chiave dell'account di servizio utilizzata per l'autorizzazione. Se i job vengono eseguiti su cluster Dataproc, imposta il valore su rilevamento automatico. Se i job vengono eseguiti su altri tipi di cluster, il file deve essere presente su ogni nodo del cluster. Il valore predefinito è `auto-detect`.
JSON dell'account di servizio	Sì	No	Viene utilizzato solo quando il valore del tipo di account di servizio è JSON. I contenuti del file JSON dell'account di servizio.
Nome di riferimento	No	Sì	Nome che identifica in modo univoco questa origine per altri servizi, ad esempio la cronologia e l'annotazione dei metadati.
Percorso	Sì	Sì	Percorso dei file da leggere. Se viene specificata una directory, termina il percorso con una barra rovesciata (`/`). Ad esempio, `gs://bucket/path/to/directory/`. Per trovare una corrispondenza con un pattern di nome file, puoi utilizzare un asterisco (`*`) come carattere jolly. Se non vengono ritrovati o trovati file corrispondenti, la pipeline non va a buon fine.
Formato	No	Sì	Formato dei dati da leggere. Il formato deve essere uno dei seguenti: avro blob (il formato blob richiede uno schema che contenga un campo denominato body di tipo bytes) csv Delimitato json parquet text (il formato di testo richiede uno schema che contenga un campo denominato body di tipo stringa) tsv Il nome di qualsiasi plug-in di formato di cui hai eseguito il deployment nel tuo ambiente Se il formato è una macro, è possibile utilizzare solo i formati precompilati
Dimensione del campione	Sì	No	Il numero massimo di righe esaminate per il rilevamento automatico del tipo di dati. Il valore predefinito è 1000.
Sostituisci	Sì	No	Un elenco di colonne con i dati corrispondenti da cui viene ignorato il rilevamento automatico del tipo di dati.
Delimitatore	Sì	No	Delineatore da utilizzare quando il formato è delimitato. Questa proprietà viene ignorata per gli altri formati.
Attivare i valori tra virgolette	Sì	No	Indica se trattare i contenuti tra virgolette come un valore. Questa proprietà viene impiegata solo per i formati csv, tsv o delimitato. Ad esempio, se questa proprietà è impostata su true, il seguente comando restituisce due campi: `1, "a, b, c"`. Il primo campo ha come valore `1`. Il secondo ha `a, b, c`. I caratteri delle virgolette vengono tagliati. Il delimitatore di nuova riga non può essere racchiuso tra virgolette. Il plug-in presuppone che le virgolette siano racchiuse correttamente, ad esempio `"a, b, c"`. La mancata chiusura di una virgola tra virgolette (`"a,b,c,`) causa un errore. Il valore predefinito è False.
Utilizza la prima riga per l'intestazione	Sì	No	Indica se utilizzare la prima riga di ogni file come intestazione della colonna. I formati supportati sono text, csv, tsv e delimited. Il valore predefinito è False.
Dimensioni minime della suddivisione	Sì	No	Dimensioni minime, in byte, per ogni partizione di input. Partizioni più piccole aumentano il livello di parallelismo, ma richiedono più risorse e overhead. Se il valore Formato è `blob`, non puoi suddividere i dati.
Dimensioni massime della suddivisione	Sì	No	Dimensione massima, in byte, per ogni partizione di input. Partizioni più piccole aumentano il livello di parallelismo, ma richiedono più risorse e overhead. Se il valore Formato è `blob`, non puoi suddividere i dati. Il valore predefinito è 128 MB.
Filtro percorso regex	Sì	No	Espressione regolare a cui devono corrispondere i percorsi file per essere inclusi nell'input. Viene confrontato il percorso completo, non solo il nome file. Se non viene fornito alcun file, non viene applicato alcun filtro. Per ulteriori informazioni sulla sintassi delle espressioni regolari, consulta Pattern.
Campo Percorso	Sì	No	Campo di output per inserire il percorso del file da cui è stato letto il record. Se non specificato, il percorso non viene incluso nei record di output. Se specificato, il campo deve esistere nello schema di output come stringa.
Solo nome file del percorso	Sì	No	Se è impostata una proprietà Campo percorso, utilizza solo il nome file e non l'URI del percorso. Il valore predefinito è False.
Leggere i file in modo ricorsivo	Sì	No	Indica se i file devono essere letti in modo ricorsivo dal percorso. Il valore predefinito è False.
Consenti input vuoto	Sì	No	Indica se consentire un percorso di input che non contiene dati. Se impostato su False, il plug-in genera un errore quando non sono presenti dati da leggere. Se impostato su True, non viene generato alcun errore e non viene letto nessun record. Il valore predefinito è False.
File di dati criptato	Sì	No	Indica se i file sono criptati. Per ulteriori informazioni, consulta Crittografia dei file di dati. Il valore predefinito è False.
Suffisso del file di metadati della crittografia	Sì	No	Il suffisso del nome file per il file dei metadati della crittografia. Il valore predefinito è metadata.
Proprietà del file system	Sì	No	Proprietà aggiuntive da utilizzare con InputFormat durante la lettura dei dati.
Codifica file	Sì	No	La codifica dei caratteri per i file da leggere. Il valore predefinito è UTF-8.
Schema di output	Sì	No	Se è impostata una proprietà Campo percorso, deve essere presente nello schema come stringa.

Crittografia dei file di dati

Questa sezione descrive la proprietà Crittografia file di dati. Se lo imposti su true, i file vengono decriptati utilizzando l'AEAD in streaming fornito dalla libreria Tink. Ogni file di dati deve essere accompagnato da un file di metadati contenente le informazioni sulla crittografia. Ad esempio, un file di dati criptato in gs://BUCKET/PATH_TO_DIRECTORY/file1.csv.enc deve avere un file di metadati in gs://BUCKET/ PATH_TO_DIRECTORY/file1.csv.enc.metadata. Il file di metadati contiene un oggetto JSON con le seguenti proprietà:

Proprietà	Descrizione
`kms`	L'URI di Cloud Key Management Service utilizzato per criptare la chiave di crittografia dei dati.
`aad`	Gli Altri dati autenticati codificati in Base64 utilizzati nella crittografia.
`key set`	Un oggetto JSON che rappresenta le informazioni serializzate del set di chiavi della libreria Tink.

Esempio

    /* Counting example */
    {

      "kms": "gcp-kms://projects/my-key-project/locations/us-west1/keyRings/my-key-ring/cryptoKeys/mykey",

      "aad": "73iT4SUJBM24umXecCCf3A==",

      "keyset": {

          "keysetInfo": {

              "primaryKeyId": 602257784,

              "keyInfo": [{

                  "typeUrl": "type.googleapis.com/google.crypto.tink.AesGcmHkdfStreamingKey",

                  "outputPrefixType": "RAW",

                  "keyId": 602257784,

                  "status": "ENABLED"

              }]

          },

          "encryptedKeyset": "CiQAz5HH+nUA0Zuqnz4LCnBEVTHS72s/zwjpcnAMIPGpW6kxLggSrAEAcJKHmXeg8kfJ3GD4GuFeWDZzgGn3tfolk6Yf5d7rxKxDEChIMWJWGhWlDHbBW5B9HqWfKx2nQWSC+zjM8FLefVtPYrdJ8n6Eg8ksAnSyXmhN5LoIj6az3XBugtXvCCotQHrBuyoDY+j5ZH9J4tm/bzrLEjCdWAc+oAlhsUAV77jZhowJr6EBiyVuRVfcwLwiscWkQ9J7jjHc7ih9HKfnqAZmQ6iWP36OMrEn"

      }

    }

Note di rilascio

6 settembre 2023

Passaggi successivi

Scopri di più sui plug-in in Cloud Data Fusion.