Visão geral do Dataproc
Acessar clusters
-
Interfaces da Web do cluster
Interfaces da Web disponíveis para os componentes de código aberto do Dataproc e como se conectar a eles.
-
Gateway do componente
Use o gateway do componente para se conectar a componentes do cluster.
-
Federação de identidade da força de trabalho
Permita o acesso da força de trabalho ao Gateway de Componentes do Dataproc.
-
Configuração de rede
Configure a rede do cluster.
-
Conectar-se usando SSH a um cluster
Usar SSH para se conectar a um nó de cluster.
Componentes
-
Visão geral
Visão geral dos componentes do cluster.
-
Componente opcional Anaconda
Instale o componente Anaconda no cluster.
-
Componente opcional Docker
Instale o componente Docker no cluster.
-
Componente opcional Flink
Instale o componente Flink no cluster.
-
Componente opcional do HBase Beta
Instale o componente HBase no cluster.
-
Componente opcional Hive WebHCat
Instale o componente Hive WebHCat no cluster.
-
Componente opcional Hudi
Instale o componente Hudi no cluster.
-
Componente opcional Jupyter
Instale o componente Jupyter no cluster.
-
Componente opcional Presto
Instale o componente Presto no cluster.
-
Componente opcional Ranger
Instale o componente Ranger no cluster.
-
Como usar o Ranger com Kerberos
Use o componente Ranger com o Kerberos no cluster.
-
Fazer backup e restaurar um esquema Ranger
Siga as etapas para fazer backup e restaurar um esquema do Ranger.
-
Componente opcional Solr
Instale o componente Solr no cluster.
-
Componente opcional Trino
Instale o componente Trino no seu cluster.
-
Componente opcional Zeppelin
Instale o componente Zeppelin no cluster.
-
Componente opcional Zookeeper
Instale o componente Zookeeper no cluster.
Opções de computação
-
Tipos de máquina compatíveis
O Dataproc permite especificar tipos de máquinas personalizados para cargas de trabalho especiais.
-
Clusters de GPU
Use unidades de processamento gráfico (GPUs) com os clusters do Dataproc.
-
Unidades de estado sólido locais
Anexar SSDs locais a clusters do Dataproc.
-
Plataforma mínima de CPU
Especifique uma plataforma mínima de CPU para o cluster do Dataproc.
-
Discos permanentes de inicialização com unidade de estado sólido (PD-SSD)
Crie clusters com discos de inicialização SSD permanentes.
-
Workers secundários: VMs preemptivas e não preemptivas
Entenda e use workers secundários preemptivos e não preemptivos no cluster do Dataproc.
Como configurar e executar jobs
-
Vida útil de um job
Entenda a limitação de jobs do Dataproc.
-
Resolver problemas de atrasos em jobs
Entender e evitar causas comuns de atrasos no job.
-
Servidor de histórico persistente
Saiba mais sobre o servidor de histórico permanente do Dataproc.
-
Jobs reinicializáveis
Crie jobs que são reinicializados em caso de falha. Ideal para jobs de streaming e de longa duração.
-
Executar um job do Spark no Dataproc no GKE
Crie um cluster virtual do Dataproc no GKE e execute um job do Spark nele.
-
Personalizar o ambiente de execução do job do Spark com o Docker no YARN
Usar uma imagem Docker para personalizar o ambiente do job do Spark.
-
Executar jobs do Spark com DataprocFileOutputCommitter
Execute jobs do Spark com a versão configurável e aprimorada do Dataproc do
FileOutputCommitter
de código aberto.
Configurar clusters
-
Como fazer o escalonamento automático de clusters
Aprenda a usar o escalonamento automático para redimensionar automaticamente os clusters a fim de atender às demandas das cargas de trabalho dos usuários.
-
Colocação em zona automática
Deixe o Dataproc selecionar uma zona para o cluster.
-
Armazenamento em cache do cluster
Use o armazenamento em cache do cluster para melhorar o desempenho.
-
Metadados de cluster
Saiba mais sobre os metadados de cluster do Dataproc e como definir seus próprios metadados personalizados.
-
Propriedades do cluster
Usar propriedades de configuração para componentes de código aberto do Dataproc.
-
Rotação do cluster
Alternar clusters que fazem parte de um pool de clusters.
-
Modo de flexibilidade aprimorado
Mantenha os jobs em execução alterando o local em que os dados intermediários são salvos.
-
VMs flexíveis
Especifique os tipos de VM que podem ser usados no cluster se as VMs solicitadas não estiverem disponíveis.
-
Modo de alta disponibilidade
Aumente a resiliência de HDFS e YARN à falta de disponibilidade do serviço.
-
Ações de inicialização
Especifique as ações a serem executadas em todos ou em alguns nós de cluster durante a configuração.
-
Configuração de rede
Configure a rede do cluster.
-
Como escalonar clusters
Aumente ou diminua o número de nós de trabalho em um cluster mesmo durante a execução dos jobs.
-
Exclusão programada
Exclua o cluster após um período especificado ou em um horário especificado.
-
Configuração de segurança
Ative os recursos de segurança do cluster.
-
Computação confidencial
Crie um cluster com VMs confidenciais.
-
Chaves de criptografia gerenciadas pelo cliente (CMEK)
Gerencie chaves criptografadas para cluster do Dataproc e dados de job.
-
Plug-in Ranger do Cloud Storage
usar o plug-in Ranger para Cloud Storage com o Dataproc).
-
Contas de serviço do Dataproc
Entender as contas de serviço do Dataproc.
-
Clusters de nó único
Crie clusters sandbox leves com apenas um node.
-
Clusters de nó de locatário individual
Criar clusters em nós de locatário individual.
-
buckets de preparo e temporários
Saiba mais sobre a preparação do Dataproc e os buckets temporários.
Conectores
-
Conector do BigQuery
Use o BigQuery para Apache Hadoop nos clusters do Dataproc.
-
Exemplos de código do conector do BigQuery
Confira os exemplos de código do BigQuery.
-
Bigtable com o Dataproc
Use a API compatível com Apache HBase do Bigtable com os clusters do Dataproc.
-
Conector do Cloud Storage
Usar o conector do Cloud Storage.
-
Conector do Hive para BigQuery
Saiba mais sobre o conector Hive para BigQuery.
-
Pub/Sub Lite com Dataproc
Use o Pub/Sub Lite com o Dataproc.
Armazenamento de dados
Identity and Access Management (IAM)
-
Permissões do Dataproc e papéis do IAM
Configure os papéis do IAM para permitir que usuários e grupos acessem os recursos do Dataproc do projeto.
-
Papéis e funções do Dataproc
Entenda os principais do Dataproc e os papéis necessários para criar, gerenciar e executar tarefas em um cluster.
-
IAM granular do Dataproc
Configure permissões granulares específicas do cluster.
-
Autenticação de cluster pessoal do Dataproc
Configurar a autenticação do cluster pessoal.
-
Multilocação baseada em conta de serviço do Dataproc
Configurar clusters multilocatários.
-
Gerenciar recursos do Dataproc usando restrições personalizadas
Configure restrições personalizadas para gerenciar os recursos do Dataproc.
Endpoints regionais do Dataproc
Controle de versões
-
Visão geral
As versões do software usadas nos clusters do Dataproc e como selecioná-las.
-
Versões de lançamento 2.1.x
Versão de imagem do Dataproc 2.1.
-
Versões de lançamento 2.0.x
Versão de imagem do Dataproc 2.0.
-
Versões de lançamento 1.5.x
Versão de imagem do Dataproc 1.5.
-
Versões de lançamento 1.4.x
Versão de imagem do Dataproc 1.4.
-
Listas de versões de imagens do cluster do Dataproc
Listas das versões atualmente compatíveis com os clusters do Dataproc.
Modelos de fluxo de trabalho
-
Visão geral
Conheça os modelos de fluxo de trabalho.
-
Como monitorar e depurar fluxos de trabalho
Como monitorar e depurar fluxos de trabalho.
-
Parametrização
Aprenda a parametrizar os modelos do fluxo de trabalho.
-
Usar arquivos YAML
Aprenda a usar arquivos YAML no fluxo de trabalho.
-
Usar seletores de cluster
Aprenda a usar seletores de cluster no fluxo de trabalho.
-
Usar fluxos de trabalho inline
Saiba como criar e executar fluxos de trabalho in-line.
-
Usar fluxos de trabalho
Aprenda a configurar e executar fluxos de trabalho.
-
Soluções de programação de fluxo de trabalho
Execute fluxos de trabalho com o Cloud Scheduler, Cloud Functions e Cloud Composer.