Cloud Dataproc

Een snellere, eenvoudigere en voordeligere manier om Apache Spark en Apache Hadoop uit te voeren

Kosteloos uitproberen

Cloudeigen Apache Hadoop en Apache Spark

Cloud Dataproc is een snelle, gebruiksvriendelijke en volledig beheerde cloudservice waarmee u Apache Spark- en Apache Hadoop-clusters eenvoudiger en voordeliger kunt uitvoeren. Bewerkingen die vroeger uren of dagen in beslag namen, duren nu nog maar seconden of minuten. Daarnaast betaalt u alleen voor de resources die u daadwerkelijk gebruikt (met facturering per seconde). Cloud Dataproc is eenvoudig te integreren met andere Google Cloud Platform-services (GCP). Zo beschikt u over een krachtig en compleet platform voor gegevensverwerking, analyse en machine learning.

Beheerde Hadoop en Spark

Snelle en schaalbare gegevensverwerking

Maak snel Cloud Dataproc-clusters en pas de grootte op elk gewenst moment aan van drie tot honderden knooppunten. U hoeft niet bang te zijn dat uw gegevenspipelines te groot worden voor uw clusters. Omdat elke clusterhandeling gemiddeld minder dan 90 seconden duurt, heeft u meer tijd om u op inzichten te richten en bent u minder tijd kwijt aan de infrastructuur.

Snelle en schaalbare gegevensverwerking

Betaalbare prijzen

In lijn met de prijsstructuur van Google Cloud Platform zijn de kosten voor Cloud Dataproc laag en is de overzichtelijke prijsstructuur gebaseerd op daadwerkelijk gebruik, gemeten per seconde. Cloud Dataproc-clusters kunnen bovendien goedkopere preëmptieve processen bevatten, waarmee u krachtige clusters krijgt tegen nog lagere totale kosten.

Betaalbare prijzen

Open source-ecosysteem

Het ecosysteem van Spark en Hadoop biedt tools, bibliotheken en documentatie die u kunt gebruiken met Cloud Dataproc. Dankzij de regelmatig geüpdatete en systeemeigen versies van Spark, Hadoop, Pig en Hive kunt u aan de slag zonder nieuwe tools of API's te hoeven leren en kunt u bestaande projecten en ETL-pipelines verplaatsen zonder deze opnieuw te ontwikkelen.

Open source-ecosysteem

Functies van Cloud Dataproc

Google Cloud Dataproc is een snelle, gemakkelijk te gebruiken en voordelige, beheerde service voor Apache Spark en Apache Hadoop.

Geautomatiseerd clusterbeheer
Dankzij de beheerde implementatie, logboeken en controle kunt u zich richten op uw gegevens, niet op uw cluster. Uw clusters blijven stabiel, schaalbaar en snel.
Schaalbare clusters
Clusters kunnen snel worden gemaakt en geschaald met diverse VM-typen, schijfgroottes, aantallen knooppunten en netwerkopties.
Geïntegreerd
De ingebouwde integratie met Cloud Storage, BigQuery, Bigtable, Stackdriver Logging en Stackdriver Monitoring biedt u een compleet en robuust gegevensplatform.
Versiebeheer
Versiebeheer van images maakt het mogelijk om tussen verschillende versies van Apache Spark, Apache Hadoop en andere tools te wisselen.
Hoge beschikbaarheid
Voer clusters met meerdere hoofdknooppunten uit en stel in dat taken opnieuw worden opgestart bij fouten. Zo zorgt u voor een hoge beschikbaarheid van uw clusters en taken.
Ontwikkelaarstools
Meerdere manieren om een cluster te beheren, waaronder een gemakkelijk te gebruiken web-UI, de Google Cloud SDK, RESTful API's en SSH-toegang.
Initialisatieacties
Voer tijdens het maken van uw cluster initialisatieacties uit om de instellingen en bibliotheken die u nodig heeft, te installeren of aan te passen.
Automatische of handmatige configuratie
Cloud Dataproc configureert automatisch hardware en software op clusters, maar biedt ook handmatig beheer.
Flexibele virtuele machines
Clusters kunnen aangepaste machinetypen en verwijderbare virtuele machines gebruiken en kunnen dus perfect worden afgestemd op uw behoeften.

Cloud Dataflow vs. Cloud Dataproc: welke moet u gebruiken?

Cloud Dataproc en Cloud Dataflow kunnen beide worden gebruikt voor het verwerken van gegevens en er is overlap in hun batch- en streamingmogelijkheden. Hoe bepaalt u welk product het best bij uw omgeving past?
Dataproc vs. Dataflow

Cloud Dataproc

Cloud Dataproc is erg geschikt voor omgevingen die afhankelijk zijn van specifieke componenten van het big data-ecosysteem van Apache:

  • check Tools/pakketten
  • check Pipelines
  • check Vaardigheden voor bestaande resources

Cloud Dataflow

Cloud Dataflow is meestal de betere optie voor greenfield-omgevingen:

  • check Minder operationele bijkomende kosten
  • check Geïntegreerde ontwikkelaanpak voor batch- en streamingpipelines
  • check Gebruikt Apache Beam
  • check Ondersteunt de overdraagbaarheid van pipelines tussen de runtime-omgevingen Cloud Dataflow, Apache Spark en Apache Flink

Aanbevolen productietaken

PRODUCTIETAKEN CLOUD DATAPROC CLOUD DATAFLOW
Stream processing (ETL) check
Batchverwerking (ETL) check check
Iteratieve verwerking en notebooks check
Machine learning met Spark ML check
Voorbewerking voor machine learning check (met Cloud ML Engine)

Prijzen van Cloud Dataproc

Voor Cloud Dataproc wordt een klein, oplopend tarief in rekening gebracht per virtuele CPU in de Compute Engine-instanties die in uw cluster worden gebruikt1.

Iowa Oregon Noordelijk Virginia South Carolina Montreal São Paulo België Londen Nederland Frankfurt Sydney Mumbai Taiwan Tokio
Machinetype Prijs
Standaardmachines
1-64 virtuele CPU's
Machines met veel geheugen
2-64 virtuele CPU's
Machines met hoog CPU
2-64 virtuele CPU's
Aangepaste machines
Gebaseerd op vCPU- en geheugengebruik
Als u in een andere valuta dan USD betaalt, gelden de prijzen die in uw valuta op Cloud Platform SKU's worden getoond.

1 Voor Cloud Dataproc wordt een klein, oplopend tarief in rekening gebracht per virtuele CPU in de Compute Engine-instanties die in uw cluster worden gebruikt wanneer uw cluster actief is. Extra resources die door Cloud Dataproc worden gebruikt - zoals een Compute Engine-netwerk, BigQuery en Cloud Bigtable - worden gefactureerd naar gebruik. Bekijk het prijsoverzicht voor uitgebreide prijsinformatie.