Paso 1: Establece las cargas de trabajo
En esta página, se te guía a través del paso inicial para configurar tu base de datos, el núcleo de Cortex Framework. La base de datos, que se compila en el almacenamiento de BigQuery, organiza tus datos entrantes desde varias fuentes. Estos datos organizados facilitan el análisis y el uso para el desarrollo de la IA.
Configura la integración de datos
Para comenzar, define algunos parámetros clave que actúen como un modelo para organizar y usar tus datos de manera eficiente en Cortex Framework. Recuerda que estos parámetros pueden variar según la carga de trabajo específica, el flujo de datos que elijas y el mecanismo de integración. En el siguiente diagrama, se proporciona una descripción general de la integración de datos en la base de datos de Cortex Framework:
Define los siguientes parámetros antes de la implementación para lograr un uso eficiente y eficaz de los datos en Cortex Framework.
Proyectos
- Proyecto de origen: Es el proyecto en el que se encuentran tus datos sin procesar. Necesitas al menos un proyecto de Google Cloud para almacenar datos y ejecutar el proceso de implementación.
- Proyecto de destino (opcional): Es el proyecto en el que Cortex Framework Data Foundation almacena sus modelos de datos procesados. Puede ser el mismo que el proyecto de origen o uno diferente según tus necesidades.
Si deseas tener conjuntos de proyectos y conjuntos de datos independientes para cada carga de trabajo (por ejemplo, un conjunto de proyectos de origen y destino para SAP y un conjunto diferente de proyectos de origen y destino para Salesforce), ejecuta implementaciones independientes para cada carga de trabajo. Para obtener más información, consulta Cómo usar diferentes proyectos para segregar el acceso en la sección de pasos opcionales.
Modelo de datos
- Implementa modelos: Elige si necesitas implementar modelos para todas las cargas de trabajo o solo para un conjunto de modelos (por ejemplo, SAP, Salesforce y Meta). Para obtener más información, consulta las fuentes de datos y cargas de trabajo disponibles.
Conjuntos de datos de BigQuery
- Conjunto de datos de origen (sin procesar): Es el conjunto de datos de BigQuery en el que se replican los datos de origen o se crean los datos de prueba. La recomendación es tener conjuntos de datos separados, uno para cada fuente de datos. Por ejemplo, un conjunto de datos sin procesar para SAP y otro para Google Ads. Este conjunto de datos pertenece al proyecto de origen.
- Conjunto de datos de CDC: Es el conjunto de datos de BigQuery en el que los datos procesados por la CDC llegan a los registros más recientes disponibles. Algunas cargas de trabajo permiten el mapeo de nombres de campos. La recomendación es tener un conjunto de datos de CDC independiente para cada fuente. Por ejemplo, un conjunto de datos de CDC para SAP y uno para Salesforce. Este conjunto de datos pertenece al proyecto de origen.
- Conjunto de datos de informes de destino: Es el conjunto de datos de BigQuery en el que se implementan los modelos de datos predefinidos de Data Foundation. Te recomendamos que tengas un conjunto de datos de informes independiente para cada fuente. Por ejemplo, un conjunto de datos de informes para SAP y otro para Salesforce. Si no existe, este conjunto de datos se crea automáticamente durante la implementación. Este conjunto de datos pertenece al proyecto Target.
- Conjunto de datos de K9 de procesamiento previo: Es un conjunto de datos de BigQuery en el que se pueden implementar componentes de DAG reutilizables y multitarea, como las dimensiones
time
. Las cargas de trabajo dependen de este conjunto de datos, a menos que se modifiquen. Si no existe, este conjunto de datos se crea automáticamente durante la implementación. Este conjunto de datos pertenece al proyecto de origen. - Conjunto de datos de K9 de procesamiento posterior: Es un conjunto de datos de BigQuery en el que se pueden implementar informes de cargas de trabajo múltiples y DAG de fuentes externas adicionales (por ejemplo, transferencia de Google Trends). Este conjunto de datos se crea automáticamente durante la implementación si no existe. Este conjunto de datos pertenece al proyecto Target.
Opcional: Genera datos de muestra
Cortex Framework puede generar datos y tablas de muestra por ti si no tienes acceso a tus propios datos, herramientas de replicación para configurar datos o incluso si solo quieres ver cómo funciona Cortex Framework. Sin embargo, aún debes crear e identificar los conjuntos de datos sin procesar y de CDC con anticipación.
Sigue estas instrucciones para crear conjuntos de datos de BigQuery para los datos sin procesar y la CDC por fuente de datos.
Console
Abre la página BigQuery en la consola de Google Cloud.
En el panel Explorador, selecciona el proyecto en el que deseas crear el conjunto de datos.
Expande la opción
Acciones y haz clic en Crear conjunto de datos:En la página Crear conjunto de datos:
- En ID de conjunto de datos, ingresa un nombre único para el conjunto de datos.
En Tipo de ubicación, elige una ubicación geográfica para el conjunto de datos (opcional). Después de crear un conjunto de datos, la ubicación no se puede cambiar.
Opcional. Para obtener más detalles sobre la personalización de tu conjunto de datos, consulta Cómo crear conjuntos de datos: Consola.
Haz clic en Crear conjunto de datos.
bq
Para crear un conjunto de datos nuevo para los datos sin procesar, copia el siguiente comando:
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
Reemplaza lo siguiente:
LOCATION
con la ubicación del conjunto de datos.SOURCE_PROJECT
por el ID de tu proyecto de origen.DATASET_RAW
por el nombre de tu conjunto de datos para los datos sin procesar. Por ejemplo,CORTEX_SFDC_RAW
Para crear un conjunto de datos nuevo para los datos del CDC, copia el siguiente comando:
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
Reemplaza lo siguiente:
LOCATION
con la ubicación del conjunto de datos.SOURCE_PROJECT
por el ID de tu proyecto de origen.DATASET_CDC
por el nombre de tu conjunto de datos para los datos del CDC. Por ejemplo,CORTEX_SFDC_CDC
Confirma que los conjuntos de datos se hayan creado con el siguiente comando:
bq ls
Opcional. Para obtener más información sobre la creación de conjuntos de datos, consulta Crea conjuntos de datos.
Próximos pasos
Después de completar este paso, continúa con los siguientes pasos de implementación:
- Establece cargas de trabajo (esta página).
- Clona el repositorio.
- Determina el mecanismo de integración.
- Configura los componentes.
- Configura la implementación.
- Ejecuta la implementación.