Geral
O que é o Dataproc?
O Dataproc é um serviço rápido, fácil de usar, de baixo custo e totalmente gerido que lhe permite executar o ecossistema Apache Spark e Apache Hadoop na Google Cloud Platform. O Dataproc aprovisiona clusters grandes ou pequenos rapidamente, suporta muitos tipos de tarefas populares e está integrado com outros serviços da Google Cloud Platform, como o Cloud Storage e o Cloud Logging, o que ajuda a reduzir o CCT.
Em que medida o Dataproc é diferente dos clusters Hadoop tradicionais?
O Dataproc é um serviço Spark/Hadoop gerido destinado a tornar o Spark e o Hadoop fáceis, rápidos e potentes. Numa implementação tradicional do Hadoop, mesmo que seja baseada na nuvem, tem de instalar, configurar, administrar e orquestrar o trabalho no cluster. Por outro lado, o Dataproc processa a criação, a gestão, a monitorização e a orquestração de tarefas de clusters por si.
Como posso usar o Dataproc?
Existem várias formas de usar um cluster do Dataproc, consoante as suas necessidades e capacidades. Pode usar a interface baseada no navegador Google Cloud console para interagir com o Dataproc. Em alternativa, uma vez que o Dataproc está integrado com a CLI do Google Cloud, pode usar a CLI do Google Cloud. Para aceder programaticamente aos clusters, use a API REST do Dataproc. Também pode estabelecer ligações SSH a nós principais ou de trabalho no seu cluster.
Como funciona o Dataproc?
O Dataproc é uma framework gerida que é executada na Google Cloud Platform e associa várias ferramentas populares para o processamento de dados, incluindo o Apache Hadoop, Spark, Hive e Pig. O Dataproc tem um conjunto de mecanismos de controlo e integração que coordenam o ciclo de vida, a gestão e a coordenação dos clusters. O Dataproc está integrado com o gestor de aplicações YARN para facilitar a gestão e a utilização dos seus clusters.
Que tipo de tarefas posso executar?
O Dataproc oferece suporte imediato e ponto a ponto para muitos dos tipos de tarefas mais populares, incluindo tarefas Spark, Spark SQL, PySpark, MapReduce, Hive e Pig.
Que gestor de clusters usa o Dataproc com o Spark?
O Dataproc executa o Spark no YARN.
Com que frequência são atualizados os componentes no Dataproc?
O Dataproc é atualizado quando ocorrem lançamentos importantes nos componentes subjacentes (Hadoop, Spark, Hive e Pig). Cada lançamento principal do Dataproc suporta versões específicas de cada componente (consulte Versões do Dataproc suportadas).
O Dataproc está integrado com outros produtos da Google Cloud Platform?
Sim, o Dataproc tem integrações nativas e automáticas com o Compute Engine, o Cloud Storage, o Bigtable, o BigQuery, o Logging e o Cloud Monitoring. Além disso, o Dataproc está integrado em ferramentas que interagem com a Cloud Platform, incluindo a CLI gcloud e o Google Cloud console.
Posso executar um cluster persistente?
Depois de iniciados, os clusters do Dataproc continuam a ser executados até serem encerrados. Pode executar um cluster do Dataproc durante o tempo que precisar.
Gestão de clusters
Posso executar mais do que um cluster de cada vez?
Sim, pode executar mais do que um cluster do Dataproc por projeto em simultâneo. Por predefinição, todos os projetos estão sujeitos às quotas de recursos do Google Cloud. Pode verificar facilmente a utilização da quota e pedir um aumento da sua quota. Para mais informações, consulte o artigo Quotas de recursos do Dataproc.
Como posso criar ou destruir um cluster?
Pode criar e destruir clusters de várias formas. As secções do Dataproc facilitam a gestão de clusters a partir do seu navegador. Google Cloud console Também é possível gerir clusters através da linha de comandos com a CLI gcloud. Para exemplos de utilização mais complexos ou avançados, pode usar a API REST do Cloud Dataproc para gerir clusters de forma programática.
Posso aplicar definições personalizadas quando crio um cluster?
O Dataproc suporta ações de inicialização que são executadas quando um cluster é criado. Estas ações de inicialização podem ser scripts ou executáveis que o Dataproc executa quando aprovisiona o cluster para personalizar as definições, instalar aplicações ou fazer outras modificações ao cluster.
Como posso dimensionar um cluster de acordo com as minhas necessidades?
As decisões sobre o dimensionamento dos clusters são influenciadas por vários fatores, incluindo o tipo de trabalho a realizar, as restrições de custos, os requisitos de velocidade e a sua quota de recursos. Uma vez que o Dataproc pode ser implementado em vários tipos de máquinas, tem a flexibilidade de escolher os recursos de que precisa, quando precisa deles.
Posso redimensionar o meu cluster?
Sim, pode redimensionar facilmente o cluster, mesmo durante o processamento de tarefas. Pode redimensionar o cluster através da Google Cloud console ou da linha de comandos. A alteração do tamanho pode aumentar ou diminuir o número de trabalhadores num cluster. Os trabalhadores adicionados a um cluster têm o mesmo tipo e tamanho que os trabalhadores existentes. A alteração do tamanho dos clusters é aceitável e suportada, exceto em casos especiais, como reduzir o número de trabalhadores para um ou reduzir a capacidade do HDFS abaixo da quantidade necessária para a conclusão do trabalho.
Gestão de serviços e fluxos de trabalho
Como posso enviar trabalhos no meu cluster?
Existem várias formas de enviar tarefas num cluster do Dataproc. A forma mais fácil é usar a página Enviar uma tarefa do Google Cloud console ou o comando gcloud dataproc jobs submit da CLI gcloud. Para o envio de tarefas programático, consulte a referência da API Dataproc.
Posso executar mais do que uma tarefa de cada vez?
Sim, pode executar mais de uma tarefa em simultâneo num cluster do Dataproc. O Cloud Dataproc usa um gestor de recursos (YARN) e configurações específicas da aplicação, como o escalamento com o Spark, para otimizar a utilização de recursos num cluster. O desempenho das tarefas é dimensionado com o tamanho do cluster e o número de tarefas ativas.
Posso cancelar tarefas no meu cluster?
Claro. As tarefas podem ser canceladas através da Google Cloud console interface Web ou da linha de comandos. O Dataproc usa o cancelamento da aplicação YARN para parar as tarefas mediante pedido.
Posso automatizar tarefas no meu cluster?
Os trabalhos podem ser automatizados para serem executados em clusters através de vários mecanismos. Pode usar a CLI gcloud, a CLI Google Cloud ou as APIs REST do Dataproc para automatizar a gestão e o fluxo de trabalho de clusters e tarefas.
Programação
Que linguagens de desenvolvimento são suportadas?
Pode usar linguagens suportadas pelo ecossistema Spark/Hadoop, incluindo Java, Scala, Python e R.
O Dataproc tem uma API?
Sim, o Dataproc tem um conjunto de APIs RESTful que lhe permitem interagir programaticamente com clusters e tarefas.
Posso fazer SSH para um cluster?
Sim, pode usar SSH em todas as máquinas (nó principal ou de trabalho) num cluster. Pode usar o SSH a partir de um navegador ou da linha de comandos.
Posso aceder às IU Web do Spark/Hadoop?
Sim, as IUs do Hadoop e Spark (IUs do Spark, Hadoop e YARN) são acessíveis num cluster. Em vez de abrir portas para as IUs, recomendamos que use um túnel SSH, que encaminha o tráfego de forma segura a partir de clusters através da ligação SSH.
Posso instalar ou gerir software no meu cluster?
Sim, tal como num cluster ou servidor Hadoop, pode instalar e gerir software num cluster do Dataproc.
Qual é o fator de replicação predefinido?
Devido a considerações de desempenho, bem como à elevada fiabilidade do armazenamento associado a clusters do Dataproc, o fator de replicação predefinido é 2.
Que sistema operativo (SO) é usado para o Dataproc?
O Dataproc baseia-se no Debian e no Ubuntu. As imagens mais recentes baseiam-se no Debian 10 Buster e no Ubuntu 18.04 LTS.
Onde posso saber mais sobre o streaming do Hadoop?
Pode rever a documentação do projeto Apache.
Como instalo o comando gcloud dataproc?
Quando instala a CLI gcloud, a ferramenta de linhas de comando padrão gcloud
é instalada, incluindo os comandos gcloud dataproc
.
Acesso e disponibilidade dos dados
Como posso introduzir e retirar dados de um cluster?
O Dataproc usa o sistema de ficheiros distribuído do Hadoop (HDFS) para armazenamento. Além disso, o Dataproc instala automaticamente o conetor do Google Cloud Storage compatível com HDFS, o que permite a utilização do Cloud Storage em paralelo com o HDFS. Os dados podem ser movidos para dentro e para fora de um cluster através da transferência/carregamento para o HDFS ou o Cloud Storage.
Posso usar o Cloud Storage com o Dataproc?
Sim, os clusters do Dataproc instalam automaticamente o conetor do Cloud Storage. Existem várias vantagens em escolher o Cloud Storage em vez do HDFS tradicional, incluindo a persistência, a fiabilidade e o desempenho dos dados.
Posso receber apoio técnico do conetor do Cloud Storage?
Sim, quando usado com o Dataproc, o conector do Cloud Storage é suportado ao mesmo nível que o Dataproc (consulte a secção Receber apoio técnico). Todos os utilizadores do conetor
podem usar a etiqueta google-cloud-dataproc
no
Stack Overflow
para perguntas e respostas sobre o conetor.
Qual é o tamanho ideal do ficheiro para conjuntos de dados no HDFS e no Cloud Storage?
Para melhorar o desempenho, armazene os dados em tamanhos de ficheiros maiores, por exemplo, tamanhos de ficheiros no intervalo de 256 MB a 512 MB.
Quão fiável é o Dataproc?
Uma vez que o Dataproc é criado com base em tecnologias da Google Cloud Platform fiáveis e comprovadas, incluindo o Compute Engine, o Cloud Storage e o Monitoring, foi concebido para oferecer elevada disponibilidade e fiabilidade. Como um produto geralmente disponível, pode rever o ANS do Dataproc.
O que acontece aos meus dados quando um cluster é encerrado?
Todos os dados no Cloud Storage persistem depois de o cluster ser encerrado. Este é um dos motivos para escolher o Cloud Storage em vez do HDFS, uma vez que os dados do HDFS são removidos quando um cluster é encerrado (a menos que sejam transferidos para uma localização persistente antes do encerramento).
Registo, monitorização e depuração
Que tipo de registo e monitorização estão disponíveis?
Por predefinição, os clusters do Dataproc estão integrados com a monitorização e o registo. A monitorização e o registo facilitam a obtenção de informações detalhadas sobre o estado, o desempenho e o estado dos seus clusters do Dataproc. Os registos do sistema e da aplicação (YARN, Spark, etc.) são encaminhados para o Logging.
Como posso ver os registos do Dataproc?
Pode ver os registos do Dataproc de várias formas. Pode visitar o Logging para ver registos de clusters agregados num navegador de Internet. Além disso, pode usar a linha de comandos (SSH) para ver manualmente os registos ou monitorizar as saídas das aplicações. Por último, os detalhes também estão disponíveis através das IUs Web da aplicação Hadoop, como a interface Web do YARN.
Como é possível monitorizar os clusters?
Os clusters podem ser facilmente monitorizados através da secção Monitoring ou Cloud Dataproc do Google Cloud console. Também pode monitorizar os seus clusters através do acesso à linha de comandos (SSH) ou das interfaces Web das aplicações (Spark, YARN, etc.).
Segurança e acesso
Como é que os meus dados são protegidos?
A Google Cloud Platform usa um modelo de segurança avançado, que também se aplica ao Cloud Dataproc. O Dataproc fornece mecanismos de autenticação, autorização e encriptação, como SSL, para proteger os dados. Os dados podem ser encriptados pelo utilizador em trânsito para e a partir de um cluster, aquando da criação do cluster ou do envio de tarefas.
Como posso controlar o acesso ao meu cluster do Dataproc?
A Google Cloud Platform oferece mecanismos de autenticação que podem ser usados com o Dataproc. O acesso a clusters e tarefas do Dataproc pode ser concedido aos utilizadores ao nível do projeto.
Faturação
Como é faturado o Dataproc?
O Dataproc é faturado por segundo e baseia-se no tamanho de um cluster e no período de tempo em que o cluster está operacional. Ao calcular o componente de cluster da taxa, o Dataproc cobra uma taxa fixa com base no número de CPUs virtuais (vCPUs) num cluster. Esta taxa fixa é igual, independentemente do tipo de máquina ou do tamanho dos recursos do Compute Engine usados.
São-me cobrados outros recursos do Google Cloud?
Sim, a execução de um cluster do Dataproc incorre em custos para outros recursos do Google Cloud usados no cluster, como o Compute Engine e o Cloud Storage. Cada item é indicado separadamente na fatura, para saber exatamente como os custos são calculados e atribuídos.
Existe um período mínimo ou máximo para a faturação?
As cobranças do Google Cloud são calculadas por segundo e não por hora. Atualmente, o Compute Engine tem um incremento de faturação mínimo de 1 minuto. Por conseguinte, o Dataproc também tem um incremento de faturação mínimo de 1 minuto.
Disponibilidade
Quem pode criar um cluster do Dataproc?
O Dataproc está disponível de forma geral, o que significa que todos os clientes da Google Cloud Platform podem usá-lo.
Em que regiões está disponível o Dataproc?
O Dataproc está disponível em todas as regiões e zonas da plataforma Google Cloud.