Se usó la API de Cloud Translation para traducir esta página.
Switch to English

Configura Cloud Dataflow en Eclipse

En esta página, se describe cómo crear un proyecto de Dataflow y ejecutar una canalización de ejemplo desde Eclipse.

El complemento de Eclipse de Dataflow solo funciona con las versiones de distribución del SDKde Dataflow 2.0.0 a 2.5.0. El complemento de Eclipse de Dataflow no funciona con la distribución SDK de Apache Beam.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyecto

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

  4. Habilita las API de Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, JSON de Cloud Storage, BigQuery, Cloud Pub/Sub, Cloud Datastore y Cloud Resource Manager.

    Habilita las API

  5. Instala e inicializa el SDK de Cloud.
  6. Asegúrate de tener instalada la versión 4.7 o superior de IDE de Eclipse.
  7. Asegúrate de tener instalada la versión 1.8 o superior de Java Development Kit (JDK).
  8. Asegúrate de tener instalada la última versión del complemento de Cloud Tools for Eclipse.
    1. Si aún no lo hiciste, sigue la Guía de inicio rápido de Cloud Tools for Eclipse para instalar el complemento.
    2. También puedes seleccionar Ayuda > Buscar actualizaciones para actualizar tu complemento a la última versión.

Crea un proyecto de Dataflow en Eclipse

A fin de crear un proyecto, usa el asistente New Project (Proyecto nuevo) para crear una aplicación de plantilla que puedes usar como inicio para tu propia aplicación.

Si no tienes una aplicación, puedes ejecutar la app de ejemplo WordCount para completar el resto de los procedimientos.

  1. Selecciona File -> New -> Project (Archivo > Nuevo > Proyecto).
  2. En el directorio de Google Cloud Platform, selecciona Proyecto de Java de Cloud Dataflow (Cloud Dataflow Java Project).
  3. Un asistente para seleccionar el tipo de proyecto que creas. Existen directorios para General, Eclipse Modeling Framework, EJB, Java y Java EE. También hay un directorio de Google Cloud que se expande y muestra las opciones para crear un proyecto flexible de Java en App Engine, Proyecto de Java para el entorno estándar de App Engine y un proyecto de Java de Dataflow.
  4. Ingresa el ID del grupo en Group ID
  5. Ingresa el ID del artefacto en Artifact ID.
  6. Selecciona la plantilla del proyecto en Project Template. Para el ejemplo WordCount, selecciona Example pipelines (Canalizaciones de ejemplo).
  7. Selecciona la versión del proyecto en Project Dataflow Version. Para el ejemplo WordCount, selecciona 2.5.0.
  8. Ingresa el nombre del paquete en Package. Para el ejemplo WordCount, ingresa com.google.cloud.dataflow.examples.
  9. Un asistente para crear un proyecto de Dataflow. Proporciona campos para ingresar el ID de grupo, el ID de artefacto, la plantilla de proyecto, la versión de Cloud Dataflow, el nombre del paquete, la ubicación del lugar de trabajo y plantilla del nombre. Contiene botones para retroceder, avanzar, cancelar la operación y finalizar.
  10. Haga clic en Next.

Configura las opciones de ejecución

Ahora, deberías ver el cuadro de diálogo Set Default Cloud Tools for Eclipse Run Options (Establecer las opciones predeterminadas de ejecución de Cloud Tools for Eclipse).

  1. Selecciona la cuenta asociada a tu proyecto de Google Cloud o agrega una cuenta nueva. Para agregar una cuenta nueva, realiza los siguientes pasos:
    1. Selecciona Agregar una cuenta nueva… (Add a new account) en el menú desplegable Cuenta (Account).
    2. Se abrirá una nueva ventana del navegador para completar el proceso de acceso.
  2. Ingresa tu ID del proyecto de Google Cloud Platform.
  3. Selecciona una Cloud Storage staging location (Ubicación de etapa de pruebas de Cloud Storage) o crea una. Para crear una ubicación de etapa de pruebas, haz lo siguiente:
    1. Ingresa un nombre único en Ubicación de etapa de pruebas de Cloud Storage (Cloud Storage Staging Location). El nombre de la ubicación debe contener el nombre del bucket y una carpeta. Los objetos se crearán dentro de la carpeta especificada en tu bucket de Cloud Storage. No incluyas información sensible en el nombre del bucket, porque el espacio de nombres del bucket es global y tiene visibilidad pública.
    2. Haga clic en Crear bucket .
    3. Un cuadro de diálogo para ingresar a la cuenta de Google Cloud, el ID de Google Cloud Platform y la ubicación de etapa de pruebas de Cloud Storage. Un botón Crear te permite crear una ubicación de etapa de pruebas. Los botones sirven para retroceder, avanzar a la siguiente ventana, cancelar la operación o finalizarla.
  4. Haz clic en Explorar (Browse) para navegar a la clave de tu cuenta de servicio.
  5. Haz clic en Finalizar.

Ejecuta la canalización de ejemplo de WordCount en el servicio de Dataflow

Después de crear tu proyecto Cloud Tools para Eclipse, puedes crear canalizaciones que se ejecuten en el servicio Dataflow. Como ejemplo, puedes ejecutar la canalización de ejemplo WordCount.

  1. Selecciona Run -> Run Configurations (Ejecutar -> Ejecutar configuración).
  2. En el menú de la izquierda, selecciona Dataflow Pipeline (Canalización de Dataflow).
  3. Haz clic en New Launch Configuration (Nueva configuración de inicio).
  4. Un diálogo para seleccionar la configuración de ejecución de la canalización de Dataflow. Entre las opciones se incluyen Apache Tomcat, el servidor local de App Engine, la canalización de Dataflow, la aplicación y las herramientas de datos de Eclipse. Cuando el puntero del mouse se coloca sobre el botón New Launch Configuration (Nueva configuración de inicio), se muestra la información sobre la herramienta de la nueva configuración de inicio para ese botón.
  5. Haz clic en la pestaña Main (Principal).
  6. Haz clic en Browse (Explorar) para seleccionar tu proyecto de Dataflow.
  7. Haz clic en Search… (Buscar…) y selecciona WordCount como Main Type (Tipo principal).
  8. Haz clic en la pestaña Pipeline Arguments (Argumentos de la canalización).
  9. Selecciona el ejecutador DataflowRunner.
  10. Haz clic en la pestaña Arguments (Argumentos).
  11. En el campo Program arguments (Argumentos del programa), configura la salida de la ubicación de etapa de pruebas de Cloud Storage. La ubicación de la etapa de pruebas debe ser una carpeta. No puedes organizar trabajos de canalización de la etapa de pruebas desde el directorio raíz de un depósito.
  12. Un diálogo con la pestaña Argumentos (Arguments) seleccionada. En el campo Argumentos del programa (Program arguments), la opción de salida se configura en la ubicación de etapa de pruebas que admite escritura.
  13. Haga clic en Run.
  14. Cuando el trabajo finaliza, verás, entre otros resultados, la siguiente línea en la consola de Eclipse:
    Submitted job: <job_id>

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. Abre el navegador de Cloud Storage en Google Cloud Console.
  2. Selecciona la casilla de verificación que se encuentra junto al bucket que creaste.
  3. Haz clic en BORRAR.
  4. Haz clic en Borrar para confirmar que quieres borrar de forma permanente el depósito y su contenido.

Pasos siguientes