Apache Spark no Google Cloud

A nova maneira de usar o Spark com mais facilidade, inteligência e rapidez.

Execute cargas de trabalho do Apache Spark no Google Cloud com menos sobrecarga operacional, mais assistência com tecnologia de IA e melhor relação preço-performance. Foque no código, não no cluster.


Vantagens

Uma experiência melhor para o Apache Spark no Google Cloud

Mais fácil: elimine a carga operacional do Spark

Escolha entre o Google Cloud Serverless para Apache Spark, que não exige operações, ou os clusters gerenciados do Dataproc. Ambos automatizam a complexidade da infraestrutura para que você possa acelerar o ciclo de vida de desenvolvimento.

Compare as duas opções

Mais inteligente: desenvolvimento do Spark com assistência de IA

Acelere todo o seu fluxo de trabalho com o Gemini no Dataproc e no Google Cloud Serverless para Apache Spark. Receba assistência com tecnologia do Gemini para gerar e depurar código e solucionar problemas de jobs com falha. 

Saiba mais sobre o Gemini Code Assist

Mais rápido: acelere a performance do Spark

Tenha o melhor custo-benefício do setor, automaticamente. Para os jobs mais exigentes, desbloqueie um desempenho mais de 4,3 vezes mais rápido com o Lightning Engine. Isso reduz o TCO e acelera o tempo de geração de insights.

Conheça o Lightning Engine

Principais recursos

Escolha o Spark certo para sua carga de trabalho

Escolha entre o Serverless para Apache Spark para ter simplicidade de operação zero ou o Dataproc para clusters gerenciados com personalizações detalhadas.

Consulte o guia de decisões

Google Cloud Serverless para Apache Spark

Concentre-se apenas no seu código e acelere o desenvolvimento. Com camadas para processamento em lote econômico e IA/ML de alto desempenho, ele é ideal para novos pipelines do Apache Spark, análises interativas e cargas de trabalho com demanda imprevisível em que um modelo "NoOps" é preferível.

Ideal para: cientistas de dados e engenheiros de ML, consultas ad hoc, novos aplicativos e produtividade de desenvolvedores.

Conheça o Spark sem servidor

Dataproc

Tenha controle máximo sobre o ambiente do cluster. Perfeito para migrar cargas de trabalho do Apache Hadoop/Spark, executar clusters persistentes de longa duração ou usar um ecossistema de código aberto diversificado.

Ideal para: engenharia e operações empresariais, migrações no local, jobs de longa duração e personalização detalhada.

Conheça o Dataproc

Documentação

Documentação

Tutorial

Executar seu primeiro job do Spark sem servidor

Siga este guia de início rápido para conhecer a velocidade e a simplicidade do Spark sem servidor. Saiba como enviar um job em lote do PySpark usando a CLI do Google Cloud.

Tutorial

Criar um cluster gerenciado do Dataproc

Este tutorial mostra como criar um cluster do Dataproc usando o console do Google Cloud. Aprenda a configurar e provisionar um ambiente gerenciado para suas cargas de trabalho do Spark e do Hadoop.

Best Practice

Unifique suas análises: SQL e Spark em uma única cópia de dados

Não precisa mais escolher entre a potência do SQL e a flexibilidade do Spark. O BigLake permite usar os dois mecanismos nos mesmos dados governados. É uma experiência unificada que permite usar a melhor ferramenta para cada trabalho.

Best Practice

Acelere todo o seu ciclo de vida de IA e ML

Passe da preparação de dados ao treinamento e inferência de modelos com mais rapidez. Nossos níveis Premium são projetados para IA/ML, permitindo que você use ambientes de execução de ML pré-configurados com suporte a GPU integrado, como o NVIDIA RAPIDS, para eliminar configurações complexas.

Não encontrou o que procura?


Apache Spark é uma marca registrada da Apache Software Foundation.

** As consultas são derivadas do padrão TPC-DS e do padrão TPC-H e, portanto, não podem ser comparadas aos resultados publicados do padrão TPC-DS e do padrão TPC-H, porque essas execuções não atendem a todos os requisitos da especificação do padrão TPC-DS e do padrão TPC-H.

Vá além

Qual a solução que você procura? Os especialistas do Google Cloud ajudam você a encontrar a melhor solução.

Google Cloud