Guía de inicio rápido del uso de Python

En esta página, se muestra cómo configurar tu entorno de desarrollo de Python, obtener el SDK de Apache Beam para Python y ejecutar una canalización de ejemplo con Google Cloud Platform Console.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. Selecciona o crea un proyecto de GCP.

    Ir a la página Administrar recursos

  3. Asegúrate de tener habilitada la facturación para tu proyecto.

    Aprende a habilitar la facturación

  4. Habilita las Cloud Dataflow, Compute Engine, Stackdriver Logging, Google Cloud Storage, Google Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore y Cloud Resource Manager API necesarias.

    Habilita las API

  5. Configura la autenticación:
    1. En GCP Console, ve a la página Crear clave de la cuenta de servicio.

      Ir a la página Crear clave de la cuenta de servicio
    2. Desde la lista desplegable de la Cuenta de servicio, selecciona Nueva cuenta de servicio.
    3. En el campo Nombre de cuenta de servicio, ingresa un nombre.
    4. En la lista desplegable Función, selecciona Proyecto > Propietario.

      Nota: El campo Función autoriza tu cuenta de servicio para acceder a los recursos. Puedes ver y cambiar este campo luego con GCP Console. Si desarrollas una aplicación de producción, especifica permisos más detallados que Proyecto > Propietario. Para obtener más información, consulta Cómo otorgar funciones a las cuentas de servicio.
    5. Haz clic en Crear. Se descargará un archivo JSON a tu computadora que contiene tus descargas de claves.
  6. Configura la variable de entorno GOOGLE_APPLICATION_CREDENTIALS con la ruta de acceso al archivo JSON que contiene la clave de tu cuenta de servicio. Esta variable solo se aplica a tu sesión actual de shell. Por lo tanto, si abres una sesión nueva, deberás volver a configurar la variable.

  7. Crea un depósito de Cloud Storage:
    1. En GCP Console, dirígete al navegador de Cloud Storage.

      Ir al navegador de Cloud Storage

    2. Haz clic en Crear depósito.
    3. En el diálogo Crear depósito especifica los siguientes atributos:
      • Nombre: Un nombre único para el depósito. No incluyas información sensible en el nombre del depósito, ya que su espacio de nombres es global y tiene visibilidad pública.
      • Clase de almacenamiento:Multirregional
      • Una ubicación en la que se almacenarán los datos del depósito.
    4. Haz clic en Crear.

Configura tu entorno

  1. El SDK de Apache Beam para Python requiere la versión 2.7.x de Python. Ejecuta el siguiente comando para comprobar que tienes la versión 2.7.x:
    python --version
  2. Instala pip, el administrador de paquetes de Python. Ejecuta el siguiente código para comprobar que tienes la versión 7.0.0 o más reciente:
    pip --version
    Si no tienes pip versión 7.0.0 o más reciente, ejecuta el siguiente comando para instalarlo. Este comando puede requerir privilegios de administrador.
    pip install -U pip

    Si no tienes un símbolo del sistema disponible, puedes usar Google Cloud Shell. Tiene el administrador de paquetes de Python ya instalado, por lo que puedes omitir este paso de configuración.

  3. No se requiere Cython, pero si está instalado, debes tener la versión 0.26.1 o más reciente. Ejecuta pip show cython para comprobar tu versión de Cython.
  4. Se recomienda instalar un entorno virtual de Python para los experimentos iniciales. Si no tienes la versión 13.1.0 de virtualenv o una más reciente, ejecuta el siguiente comando para instalarla. Este comando puede requerir privilegios de administrador.
    pip install --upgrade virtualenv
    1. Un entorno virtual es un árbol de directorio que contiene su propia distribución de Python. Para crear un entorno virtual, crea un directorio y ejecuta el siguiente comando:
      virtualenv /path/to/directory
    2. Se debe activar un entorno virtual para cada shell que lo utilice. Cuando se activa, se establecen algunas variables de entorno que apuntan a los directorios del entorno virtual. Para activar un entorno virtual en Bash, ejecuta el siguiente comando:
      . /path/to/directory/bin/activate
      Este comando origina la secuencia de comandos bin/activate en el directorio del entorno virtual que creaste.

      Para obtener instrucciones acerca de cómo usar otras shells, consulta la documentación de virtualenv.

Cómo obtener el SDK de Apache Beam

Instala el SDK de Apache Beam más reciente para Python desde PyPI:

pip install apache-beam[gcp]
Puedes obtener más información sobre el uso de Python en Google Cloud Platform en la página Cómo configurar un entorno de desarrollo de Python.

Cómo ejecutar WordCount localmente

Ejecuta WordCount localmente con el siguiente comando desde tu directorio word-count-beam:

python -m apache_beam.examples.wordcount --output OUTPUT_FILE

Cómo ejecutar WordCount en el servicio de Cloud᠎ Dataflow

Ejecuta WordCount en el servicio de Cloud Dataflow:
python -m apache_beam.examples.wordcount --input gs://dataflow-samples/shakespeare/kinglear.txt \
                                         --output gs://<your-gcs-bucket>/counts \
                                         --runner DataflowRunner \
                                         --project your-gcp-project-id \
                                         --temp_location gs://<your-gcs-bucket>/tmp/
  

Cómo ver los resultados

  1. Abre la IU web de Cloud Dataflow.
    Ir a la IU web de Cloud Dataflow

    Verás el trabajo de wordcount (conteo de palabras) con estado Running (En ejecución) primero y, luego, Succeeded (Correcto):

    Trabajos de Cloud Dataflow
  2. Abre el navegador de Cloud Storage en Google Cloud Platform Console.
    Ir al navegador de Cloud Storage

    En el depósito, deberías ver los directorios results y staging:

    Depósito de Cloud Storage

    En el directorio results, deberías ver los archivos de salida que creó tu trabajo:

    Archivos de salida

Limpiar

Para evitar que se apliquen cargos a tu cuenta de GCP por los recursos que se utilizan en esta guía de inicio rápido, sigue estos pasos:

  1. En la GCP Console, dirígete al navegador de Cloud Storage.

    Ir al navegador de Cloud Storage

  2. Haz clic en la casilla de verificación junto al depósito que deseas borrar.
  3. Haz clic en el botón Borrar en la parte superior del depósito.

¿Qué sigue?

Apache Beam™ es una marca registrada de Apache Software Foundation o sus filiales en Estados Unidos o en otros países.
¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.