Guía de inicio rápido

Esta guía de inicio rápido te muestra cómo hacer lo siguiente:

  1. Crea una instancia de Cloud Data Fusion.
  2. Implementa una canalización de muestra que se proporciona con tu instancia de Cloud Data Fusion. La canalización hace lo siguiente:
    1. Lee un archivo JSON que contiene los datos de bestseller de NYT de Cloud Storage.
    2. Ejecuta transformaciones en el archivo para analizar y limpiar los datos.
    3. Carga en BigQuery los libros mejor calificados que se agregaron durante la última semana y que cuestan menos de $25.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Habilita la API Cloud Data Fusion.

    Habilita la API

  4. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  5. Habilita la API Cloud Data Fusion.

    Habilita la API

Crea una instancia de Cloud Data Fusion.

Crea una instancia de Cloud Data Fusion.

Cuando usas Cloud Data Fusion, usas Cloud Console y la IU de Cloud Data Fusion, que está separada.

  • En Cloud Console, puedes crear un proyecto de Cloud Console, crear y borrar instancias de Cloud Data Fusion y ver los detalles de las instancias de Cloud Data Fusion.

  • En la IU web de Cloud Data Fusion, puedes usar las distintas páginas, como Pipeline Studio o Wrangler, para usar la funcionalidad de Cloud Data Fusion.

Para navegar a la IU de Cloud Data Fusion, sigue estos pasos:

  1. En Cloud Console, abre la página Instancias.

    Abrir la página de instancias

  2. En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia.
  3. En la IU web de Cloud Data Fusion, usa el panel de navegación izquierdo para navegar a la página que necesites.

Implementa una canalización de muestra

Las canalizaciones de muestra están disponibles a través del Centro de noticias de Cloud Data Fusion, que te permite compartir canalizaciones, complementos y soluciones reutilizables de Cloud Data Fusion.

  1. En la IU web de Cloud Data Fusion, haz clic en Centro de noticias.
  2. En el panel izquierdo, haz clic en Canalizaciones.
  3. Haz clic en la canalización de la Guía de inicio rápido de Cloud Data Fusion.
  4. Haga clic en Crear.
  5. En el panel de configuración de inicio rápido de Cloud Data Fusion, haz clic en Finalizar.
  6. Haz clic en Personalizar canalización. Una representación visual de tu canalización aparece en Pipeline Studio, que es una interfaz gráfica para desarrollar canalizaciones de integración de datos. Los complementos de canalización disponibles se muestran a la izquierda y tu canalización se muestra en el área de lienzo principal. Para explorar tu canalización, mantén el puntero sobre cada nodo de la canalización y haz clic en el botón Propiedades que aparecerá. El menú de propiedades para cada nodo te permite ver los objetos y las operaciones asociadas con el nodo.
  7. En la parte superior derecha del menú, haz clic en Implementar. Esto envía la canalización a Cloud Data Fusion. Ejecutarás la canalización en la siguiente sección de esta guía de inicio rápido.
Implementa la canalización.

Visualiza tu canalización

La canalización implementada aparecerá en la vista de detalles de la canalización, donde puedes hacer lo siguiente:

  • Ver la estructura y la configuración de la canalización.
  • Ejecuta la canalización de forma manual o configura una programación o un activador.
  • Ver un resumen de las ejecuciones históricas de la canalización, incluidos los registros, las métricas y los tiempos de ejecución.
Copia la cuenta de servicio.

Ejecuta tu canalización

En la vista de detalles de la canalización, haz clic en Ejecutar para ejecutar su canalización.

Observa los resultados.

Después de unos minutos, la canalización finaliza. El estado de la canalización cambia a Finalizada y se muestra la cantidad de registros que procesa cada nodo.

Se completó la ejecución de la canalización.
  1. Ir a la IU de BigQuery
  2. En el conjunto de datos DataFusionQuickstart de tu proyecto, haz clic en la tabla top_rated_inexpensive y, luego, ejecuta una consulta simple, como SELECT * FROM `my-project.GCPQuickStart.top_rated_inexpensive` LIMIT 10 (reemplaza “my-project” por tu project-id) para ver una muestra de los resultados.
Ver resultados

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

  1. Borra el conjunto de datos de BigQuery que tu canalización escribió en esta guía de inicio rápido.
  2. Borra la instancia de Cloud Data Fusion.

  3. Borra el proyecto (opcional).

    1. En Cloud Console, ve a la página Administrar recursos.

      Ir a Administrar recursos

    2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
    3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?