Guía de inicio rápido para Java y Eclipse

En esta página, se describe cómo crear un proyecto de Cloud Dataflow y ejecutar una canalización de ejemplo desde Eclipse.

El complemento de Cloud Tools for Eclipse funciona solo con las versiones de distribución 2.0.0 a 2.5.0 del SDK de Cloud Dataflow. El complemento de Eclipse de Cloud Dataflow no funciona con la distribución del SDK de Apache Beam.

Consulta las notas de la versión del complemento de Cloud Tools for Eclipse para ver anuncios sobre características nuevas o actualizadas, corrección de errores, problemas conocidos y funcionalidades obsoletas.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. Selecciona o crea un proyecto de GCP.

    Ir a la página Administrar recursos

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. Habilita las Cloud Dataflow, Compute Engine, Stackdriver Logging, Google Cloud Storage, Google Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore y Cloud Resource Manager API necesarias.

    Habilita las API

  5. Realiza la instalación y la inicialización del SDK de Cloud.
  6. Asegúrate de tener instalada la versión 4.7 o superior de IDE de Eclipse.
  7. Asegúrate de tener instalada la versión 1.8 o superior de Java Development Kit (JDK).
  8. Asegúrate de tener instalada la última versión del complemento de Cloud Dataflow.
    1. Si todavía no lo hiciste, sigue la guía de inicio rápido de Cloud Dataflow para instalar el complemento.
    2. También puedes seleccionar Ayuda > Buscar actualizaciones para actualizar tu complemento a la última versión.

Crea un proyecto de Cloud Dataflow en Eclipse

Para crear un proyecto nuevo, utiliza el asistente de New Project (Proyecto nuevo) y genera una aplicación de plantilla, que puedas utilizar como inicio de tu propia aplicación.

Si no tienes una aplicación, puedes ejecutar la aplicación de muestra WordCount para completar el resto de los procedimientos.

  1. Selecciona Archivo -> Nuevo -> Proyecto (File > New> Project).
  2. En el directorio de Google Cloud Platform, selecciona Proyecto de Java de Cloud Dataflow (Cloud Dataflow Java Project).
  3. Un asistente para seleccionar el tipo de proyecto que creas. Existen directorios para General, Eclipse Modeling Framework, EJB, Java y Java EE. También hay un directorio de Google Cloud Platform expandido, que muestra opciones a fin de crear un proyecto de Java para el entorno flexible de App Engine, un proyecto de Java para el entorno estándar de App Engine y un proyecto Java de Cloud Dataflow.
  4. Ingresa el ID del grupo en Group ID.
  5. Ingresa el ID del artefacto en Artifact ID.
  6. Selecciona la plantilla del proyecto en Project Template. Para el ejemplo WordCount, selecciona Example pipelines (Canalizaciones de ejemplo).
  7. Selecciona la versión del proyecto en Project Dataflow Version. Para el ejemplo WordCount, selecciona 2.5.0.
  8. Ingresa el nombre del paquete en Package. Para el ejemplo WordCount, ingresa com.google.cloud.dataflow.examples.
  9. Un asistente para crear un proyecto nuevo de Dataflow. Proporciona campos para ingresar el ID del grupo, el ID del artefacto, la plantilla del proyecto, la versión de Dataflow, el nombre del paquete, la ubicación del lugar de trabajo y la plantilla del nombre. Contiene botones para retroceder, avanzar, cancelar la operación y finalizar.
  10. Haz clic en Siguiente (Next).

Configura las opciones de ejecución

Ahora, aparecerá el mensaje Set Default Cloud Dataflow Run Options (Configurar las opciones de ejecución predeterminadas de Cloud Dataflow).

  1. Selecciona la cuenta asociada con tu proyecto de Google Cloud Platform o agrega una cuenta nueva. Para agregar una cuenta nueva, realiza los siguientes pasos:
    1. Selecciona Agregar una cuenta nueva… (Add a new account) en el menú desplegable Cuenta (Account).
    2. Se abrirá una nueva ventana del navegador para completar el proceso de acceso.
  2. Ingresa el ID del proyecto en Cloud Platform Project ID.
  3. Selecciona una ubicación para etapa de prueba en Cloud Storage Staging Location o crea una ubicación nueva. Para crear una ubicación nueva de etapa de pruebas, realiza los siguientes pasos:
    1. Ingresa un nombre único en Ubicación de etapa de pruebas de Cloud Storage (Cloud Storage Staging Location). El nombre de la ubicación debe contener el nombre del depósito y una carpeta. Los objetos se crearán dentro de la carpeta especificada en tu depósito de Cloud Storage. No incluyas información sensible en el nombre del depósito, porque el espacio de nombres del depósito es global y tiene visibilidad pública.
    2. Haz clic en Crear depósito (Create Bucket).
    3. Un diálogo para ingresar la cuenta de GCP, el ID de Cloud Platform y la ubicación de etapa de pruebas de Cloud Storage. El botón Crear te permite crear una nueva ubicación de etapa de pruebas. Los botones sirven para retroceder, avanzar a la siguiente ventana, cancelar la operación o finalizarla.
  4. Haz clic en Explorar (Browse) para navegar a la clave de tu cuenta de servicio.
  5. Haz clic en Finalizar (Finish).

Ejecutar la canalización de ejemplo WordCount en el servicio de Cloud Dataflow

Luego de crear tu proyecto de Cloud Dataflow, puedes crear las canalizaciones que ejecutarás en el servicio de Cloud Dataflow. Como ejemplo, puedes ejecutar la canalización de ejemplo WordCount.

  1. Selecciona Ejecutar -> Ejecutar configuración (Run-> Run Configurations).
  2. En el menú de la izquierda, selecciona Dataflow Pipeline (Canalización de Dataflow).
  3. Haz clic en New Launch Configuration (Nueva configuración de inicio).
  4. Un diálogo para seleccionar la configuración de ejecución de la canalización de Dataflow. Entre las opciones se incluyen Apache Tomcat, el servidor local de App Engine, la canalización de Dataflow, la aplicación y las herramientas de datos de Eclipse. Cuando el puntero del mouse se coloca sobre el botón New Launch Configuration (Nueva configuración de inicio), se muestra la información sobre la herramienta de la nueva configuración de inicio para ese botón.
  5. Haz clic en la pestaña Main (Principal).
  6. Haz clic en Browse (Explorar) para seleccionar tu proyecto de Cloud Dataflow.
  7. Haz clic en Search… (Buscar…) y selecciona WordCount como Main Type (Tipo principal).
  8. Haz clic en la pestaña Pipeline Arguments (Argumentos de la canalización).
  9. Selecciona el ejecutador DataflowRunner.
  10. Haz clic en la pestaña Arguments (Argumentos).
  11. En el campo Program arguments (Argumentos del programa), configura la salida de la ubicación de etapa de pruebas de Cloud Storage. La ubicación de la etapa de pruebas debe ser una carpeta. No puedes organizar trabajos de canalización de la etapa de pruebas desde el directorio raíz de un depósito.
  12. Un diálogo con la pestaña Argumentos (Arguments) seleccionada. En el campo Argumentos del programa (Program arguments), la opción de salida se configura en la ubicación de etapa de pruebas que admite escritura.
  13. Haz clic en Ejecutar (Run).
  14. Cuando el trabajo finaliza, verás, entre otros resultados, la siguiente línea en la consola de Eclipse:
    Submitted job: <job_id>

Realiza una limpieza

Sigue estos pasos para evitar que se generen cargos en tu cuenta de GCP por los recursos que usaste en esta guía de inicio rápido:

  1. Abre el navegador de Cloud Storage en Google Cloud Platform Console.
  2. Selecciona la casilla de verificación que se encuentra junto al depósito que creaste.
  3. Haz clic en BORRAR.
  4. Haz clic en Borrar para confirmar que quieres borrar de forma permanente el depósito y su contenido.

Pasos siguientes

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Si necesitas ayuda, visita nuestra página de asistencia.