Passaggio 1: definisci i carichi di lavoro
Questa pagina illustra la procedura iniziale per configurare la base di dati, il nucleo di Cortex Framework. Basata sullo spazio di archiviazione BigQuery, la base di dati organizza i dati in entrata provenienti da varie origini. Questi dati organizzati sono più facili da analizzare e utilizzare per lo sviluppo dell'IA.
Configurare l'integrazione dei dati
Per iniziare, definisci alcuni parametri chiave che fungeranno da modello per organizzare e utilizzare i dati in modo efficiente in Cortex Framework. Tieni presente che questi parametri possono variare a seconda del carico di lavoro specifico, del flusso di dati scelto e del meccanismo di integrazione. Il seguente diagramma fornisce una panoramica dell'integrazione dei dati all'interno della base di dati di Cortex Framework:
Definisci i seguenti parametri prima del deployment per un utilizzo efficiente ed efficace dei dati in Cortex Framework.
Progetti
- Progetto di origine:il progetto in cui si trovano i dati non elaborati. È necessario almeno un Google Cloud progetto per archiviare i dati ed eseguire la procedura di implementazione.
- Progetto di destinazione (facoltativo): progetto in cui Cortex Framework Data Foundation immagazzina i modelli di dati elaborati. Può essere lo stesso del progetto di origine o un altro, a seconda delle tue esigenze.
Se vuoi avere insiemi distinti di progetti e set di dati per ogni carico di lavoro (ad esempio, un insieme di progetti di origine e di destinazione per SAP e un altro insieme di progetti di destinazione e di origine per Salesforce), esegui implementazioni separate per ogni carico di lavoro. Per ulteriori informazioni, consulta Utilizzare progetti diversi per separare l'accesso nella sezione Passaggi facoltativi.
Modello dati
- Esegui il deployment dei modelli:scegli se devi eseguire il deployment dei modelli per tutti i workload o solo per un insieme di modelli (ad es. SAP, Salesforce e Meta). Per maggiori informazioni, consulta le origini dati e i carichi di lavoro disponibili.
Set di dati di BigQuery
- Set di dati di origine (non elaborato): il set di dati BigQuery in cui vengono replicati i dati di origine o in cui vengono creati i dati di test. Il consiglio è di avere set di dati separati, uno per ogni origine dati. Ad esempio, un set di dati non elaborato per SAP e un set di dati non elaborato per Google Ads. Questo set di dati appartiene al progetto di origine.
- Set di dati CDC:set di dati BigQuery in cui vengono caricati i record più recenti disponibili dei dati elaborati da CDC. Alcuni carichi di lavoro consentono la mappatura dei nomi dei campi. È consigliabile avere un set di dati CDC distinto per ogni origine. Ad esempio, un set di dati CDC per SAP e un set di dati CDC per Salesforce. Questo set di dati appartiene al progetto di origine.
- Set di dati di generazione di report di destinazione:il set di dati BigQuery in cui vengono implementati i modelli di dati predefiniti di Data Foundation. Ti consigliamo di avere un set di dati dei report separato per ogni origine. Ad esempio, uno per i report di SAP e uno per i report di Salesforce. Se non esiste, questo set di dati viene creato automaticamente durante il deployment. Questo set di dati appartiene al progetto Target.
- Set di dati K9 di pre-elaborazione: set di dati BigQuery in cui è possibile eseguire il deployment di componenti DAG riutilizzabili e di più carichi di lavoro, come le dimensioni
time
. I carichi di lavoro dipendono da questo set di dati, a meno che non vengano modificati. Se non esiste, questo set di dati viene creato automaticamente durante il deployment. Questo set di dati appartiene al progetto di origine. - Set di dati K9 di post-elaborazione: set di dati BigQuery in cui possono essere implementati report su più carichi di lavoro e DAG di origini esterne aggiuntive (ad esempio l'importazione di Google Trends). Se non esiste, questo set di dati viene creato automaticamente durante il deployment. Questo set di dati appartiene al progetto Target.
(Facoltativo) Genera dati di esempio
Cortex Framework può generare dati e tabelle di esempio se non hai accesso ai tuoi dati o a strumenti di replica per configurarli o anche se vuoi solo vedere come funziona Cortex Framework. Tuttavia, devi comunque creare e identificare i set di dati CDC e non elaborati in anticipo.
Crea set di dati BigQuery per i dati non elaborati e il CDC per ogni origine dati, con le seguenti istruzioni.
Console
Apri la pagina BigQuery nella console Google Cloud.
Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.
Espandi l'opzione
Azioni e fai clic su Crea set di dati:Nella pagina Crea set di dati:
- In ID set di dati, inserisci un nome univoco per il set di dati.
Per Tipo di località, scegli una posizione geografica per il set di dati. Una volta creato un set di dati, la posizione non può essere modificata.
(Facoltativo) Per ulteriori dettagli sulla personalizzazione del set di dati, consulta Creare set di dati: console.
Fai clic su Crea set di dati.
bq
Crea un nuovo set di dati per i dati non elaborati copiando il seguente comando:
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
Sostituisci quanto segue:
LOCATION
con la località del set di dati.SOURCE_PROJECT
con l'ID del progetto di origine.DATASET_RAW
con il nome del set di dati per i dati non elaborati. Ad esempio,CORTEX_SFDC_RAW
.
Crea un nuovo set di dati per i dati CDC copiando il seguente comando:
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
Sostituisci quanto segue:
LOCATION
con la località del set di dati.SOURCE_PROJECT
con l'ID del progetto di origine.DATASET_CDC
con il nome del set di dati per i dati CDC. Ad esempio,CORTEX_SFDC_CDC
.
Verifica che i set di dati siano stati creati con il seguente comando:
bq ls
(Facoltativo) Per ulteriori informazioni sulla creazione di set di dati, consulta Creare set di dati.
Passaggi successivi
Dopo aver completato questo passaggio, vai ai seguenti passaggi di deployment:
- Definire i carichi di lavoro (questa pagina).
- Clona il repository.
- Determina il meccanismo di integrazione.
- Configura i componenti.
- Configura il deployment.
- Esegui il deployment.