Neste documento, usa os seguintes componentes faturáveis do Google Cloud:
- Dataproc
- Compute Engine
- Cloud Composer
Para gerar uma estimativa de custos com base na sua utilização projetada,
use a calculadora de preços.
Antes de começar
Configure o seu projeto
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc, Compute Engine, and Cloud Composer APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Install the Google Cloud CLI.
-
Se estiver a usar um fornecedor de identidade (IdP) externo, tem primeiro de iniciar sessão na CLI gcloud com a sua identidade federada.
-
Para inicializar a CLI gcloud, execute o seguinte comando:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc, Compute Engine, and Cloud Composer APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Install the Google Cloud CLI.
-
Se estiver a usar um fornecedor de identidade (IdP) externo, tem primeiro de iniciar sessão na CLI gcloud com a sua identidade federada.
-
Para inicializar a CLI gcloud, execute o seguinte comando:
gcloud init
- Crie o modelo de fluxo de trabalho
sparkpi
.gcloud dataproc workflow-templates create sparkpi \ --region=us-central1
- Adicione a tarefa Spark ao modelo de fluxo de trabalho
sparkpi
. O indicador "compute"step-id
identifica a tarefa SparkPi.gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000
- Use um cluster gerido,
de nó único
para executar o fluxo de trabalho. O Dataproc cria o cluster,
executa o fluxo de trabalho no mesmo e, em seguida, elimina o cluster quando o fluxo de trabalho estiver concluído.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1
- Confirme a criação do modelo de fluxo de trabalho.
Consola
Clique no nome do
sparkpi
na página Fluxos de trabalho do Dataproc na Google Cloud consola para abrir a página Detalhes do modelo de fluxo de trabalho. Clique no nome do modelo do fluxo de trabalho para confirmar os atributos do modelosparkpi
.comando gcloud
Execute o seguinte comando:
gcloud dataproc workflow-templates describe sparkpi --region=us-central1
- Crie ou use um ambiente do Cloud Composer existente.
- Defina variáveis de ambiente.
IU do Airflow
- Na barra de ferramentas, clique em Admin > Variáveis.
- Clique em Criar.
- Introduza as seguintes informações:
- Tecla:
project_id
- Val: PROJECT_ID – o seu Google Cloud ID do projeto
- Tecla:
- Clique em Guardar.
comando gcloud
Introduza os seguintes comandos:
ENVIRONMENT
é o nome do ambiente do Cloud ComposerLOCATION
é a região onde o ambiente do Cloud Composer está localizadoPROJECT_ID
é o ID do projeto que contém o ambiente do Cloud Composer
gcloud composer environments run ENVIRONMENT --location LOCATION variables set -- project_id PROJECT_ID
- Na barra de ferramentas, clique em Admin > Variáveis.
- Copie o seguinte código DAG localmente para um ficheiro com o título "composer-dataproc-dag.py",
que usa o
DataprocInstantiateWorkflowTemplateOperator.
Airflow 2
Fluxo de ar 1
- Carregue o seu
DAG para a pasta do ambiente no Cloud Storage. Depois de o carregamento ser concluído com êxito, clique no link Pasta DAGs na página do ambiente do Cloud Composer.
- Abra a interface Web do Airflow.
- Na página DAGs, clique no nome do DAG (por exemplo,
dataproc_workflow_dag
). - Na página de detalhes dos DAGs, clique em Vista de gráfico.
- Verifique o estado:
- Falha: a tarefa tem uma caixa vermelha à volta.
Também pode manter o ponteiro sobre a tarefa e procurar Estado: falhou.
- Êxito: a tarefa tem uma caixa verde à volta.
Também pode passar o ponteiro sobre a tarefa e verificar se o Estado: Concluído.
- Falha: a tarefa tem uma caixa vermelha à volta.
Também pode manter o ponteiro sobre a tarefa e procurar Estado: falhou.
- Consulte o artigo Vista geral dos modelos de fluxo de trabalho do Dataproc.
- Consulte soluções de agendamento de fluxos de trabalho.
Crie um modelo de fluxo de trabalho do Dataproc
Copie e execute os seguintes comandos numa janela de terminal local ou no Cloud Shell para criar e definir um modelo de fluxo de trabalho.
Crie e carregue um DAG para o Cloud Storage
Veja o estado de uma tarefa
IU do Airflow
Consola
Clique no separador Fluxos de trabalho para ver o estado do fluxo de trabalho.

comando gcloud
gcloud dataproc operations list \ --region=us-central1 \ --filter="labels.goog-dataproc-workflow-template-id=sparkpi"
Limpar
Para evitar incorrer em custos na sua conta Google Cloud , pode eliminar os recursos usados neste tutorial: