Con la CLI de Dataform de código abierto, puedes inicializar, compilar, probar y ejecutar Dataform Core de forma local, fuera de Google Cloud.
La CLI de Dataform admite las credenciales predeterminadas de la aplicación (ADC). Con ADC, puedes hacer que las credenciales estén disponibles para tu aplicación en una variedad de entornos, como el desarrollo o producción local, sin necesidad de modificar el código de la aplicación. Para usar ADC, primero debes proporcionar tus credenciales a ADC.
Antes de comenzar
Antes de instalar la CLI de Dataform, instala NPM.
Instala la CLI de Dataform
Para instalar la CLI de Dataform, ejecuta el siguiente comando:
npm i -g @dataform/cli@^3.0.0-beta
Inicializa un proyecto de Dataform
Para inicializar un proyecto de Dataform nuevo, ejecuta el siguiente comando dentro del directorio de tu proyecto:
dataform init . PROJECT_NAME DEFAULT_LOCATION
Reemplaza lo siguiente:
- PROJECT_NAME: nombre del proyecto.
- DEFAULT_LOCATION: Es la región en la que deseas que Dataform escriba los datos de BigQuery. Para obtener más información sobre las regiones de BigQuery, consulta Ubicaciones de BigQuery.
Actualiza Dataform Core
Para actualizar el framework principal de Dataform, actualiza
dataformCoreVersion
en el archivoworkflow_settings.yaml
y, luego, vuelve a ejecutar la instalación de NPM:npm i
Actualiza la CLI de Dataform
Para actualizar la herramienta de CLI de Dataform, ejecuta el siguiente comando:
npm i -g @dataform/cli@^3.0.0-beta.2
Crea un archivo de credenciales
Dataform requiere un archivo de credenciales para conectarse a servicios remotos y crear el archivo .df-credentials.json
en tu disco.
Para crear el archivo de credenciales, sigue estos pasos:
Ejecuta el siguiente comando:
dataform init-creds
Sigue el asistente de
init-creds
que te guía por la creación del archivo de credenciales.
Crea un proyecto
Un proyecto de Dataform vacío en Dataform Core 3.0.0-beta.0
o versiones posteriores tiene la siguiente estructura:
project-dir
├── definitions
├── includes
└── workflow_settings.yaml
Para crear un proyecto de Dataform y, luego, implementar recursos en BigQuery, ejecuta el siguiente comando:
dataform init PROJECT_NAME --default-database YOUR_GOOGLE_CLOUD_PROJECT_ID --default-location DEFAULT_LOCATION
Reemplaza lo siguiente:
- PROJECT_NAME: nombre del proyecto.
- YOUR_GOOGLE_CLOUD_PROJECT_ID: Es el ID de tu proyecto de Google Cloud .
- DEFAULT_LOCATION: Es la región en la que deseas que Dataform escriba los datos de BigQuery. Para obtener más información sobre las regiones de BigQuery, consulta Ubicaciones de BigQuery.
Clona un proyecto
Para clonar un proyecto de Dataform existente desde un repositorio de Git externo, sigue las instrucciones de tu proveedor de Git.
Una vez que se clone el repositorio, ejecuta el siguiente comando dentro del directorio del repositorio clonado:
dataform install
Cómo definir una tabla
Almacena las definiciones en la carpeta definitions/
.
Para definir una tabla, ejecuta el siguiente comando:
echo "config { type: 'TABLE_TYPE' } SELECT_STATEMENT" > definitions/FILE.sqlx
Reemplaza lo siguiente:
- TABLE_TYPE: Es el tipo de tabla:
table
,incremental
oview
. - SELECT_STATEMENT: Una instrucción
SELECT
que define la tabla. - FILE: Es el nombre del archivo de definición de tablas.
- TABLE_TYPE: Es el tipo de tabla:
En el siguiente muestra de código, se define una vista en el archivo example
SQLX.
echo "config { type: 'view' } SELECT 1 AS test" > definitions/example.sqlx
Cómo definir una aserción manual
Almacena las definiciones en la carpeta definitions/
.
Para definir una aserción manual, ejecuta el siguiente comando:
echo "config { type: 'assertion' } SELECT_STATEMENT" > definitions/FILE.sqlx
Reemplaza lo siguiente:
- SELECT_STATEMENT: Es una instrucción
SELECT
que define la aserción. - FILE: Es el nombre del archivo de definición de la operación de SQL personalizada.
- SELECT_STATEMENT: Es una instrucción
Define una operación personalizada de SQL
Almacena las definiciones en la carpeta definitions/
.
Para definir una operación de SQL personalizada, ejecuta el siguiente comando:
echo "config { type: 'operations' } SQL_QUERY" > definitions/FILE.sqlx
Reemplaza lo siguiente:
- SQL_QUERY: Es tu operación de SQL personalizada.
- FILE: Es el nombre del archivo de definición de la operación de SQL personalizada.
Cómo ver el resultado de la compilación
Dataform compila tu código en tiempo real.
Para ver el resultado del proceso de compilación en la terminal, ejecuta el siguiente comando:
dataform compile
Para ver el resultado del proceso de compilación como un objeto JSON, ejecuta el siguiente comando:
dataform compile --json
Para ver el resultado de la compilación con variables de compilación personalizadas, ejecuta el siguiente comando:
dataform compile --vars=SAMPLE_VAR=SAMPLE_VALUE,foo=bar
Reemplaza lo siguiente:
- SAMPLE_VAR: Tu variable de compilación personalizada.
- SAMPLE_VALUE: Es el valor de tu variable de compilación personalizada.
Ejecutar código
Para ejecutar tu código, Dataform accede a BigQuery para determinar su estado actual y adaptar el código SQL resultante en consecuencia.
Para ejecutar el código de tu proyecto de Dataform, ejecuta el siguiente comando:
dataform run
Para ejecutar el código de tu proyecto de Dataform en BigQuery con variables de compilación personalizadas, ejecuta el siguiente comando:
dataform run --vars=SAMPLE_VAR=SAMPLE_VALUE,sampleVar2=sampleValue2
Reemplaza lo siguiente:
- SAMPLE_VAR: Tu variable de compilación personalizada.
- SAMPLE_VALUE: Es el valor de tu variable de compilación personalizada.
Para ejecutar el código de tu proyecto de Dataform en BigQuery y volver a compilar todas las tablas desde cero, ejecuta el siguiente comando:
dataform run --full-refresh
Sin --full-refresh
, Dataform actualiza las tablas incrementales sin volver a compilarlas desde cero.
Para realizar una ejecución de prueba de tu código en BigQuery, ejecuta el siguiente comando:
dataform run --dry-run
Obtener ayuda
Para enumerar todos los comandos y las opciones disponibles, ejecuta el siguiente comando:
dataform help
Para ver la descripción de un comando específico, ejecuta el siguiente comando:
dataform help COMMAND
Reemplaza COMMAND por el comando sobre el que deseas obtener información.
¿Qué sigue?
- Para obtener más información sobre la CLI de Dataform, consulta la referencia de la CLI de Dataform.
- Para obtener más información sobre Dataform, consulta la Descripción general de Dataform.