Cloud Dataproc

Een snellere, eenvoudigere en voordeligere manier om Apache Spark en Apache Hadoop uit te voeren

Kosteloos uitproberen

Cloudeigen Apache Hadoop en Apache Spark

Cloud Dataproc is een snelle, gebruiksvriendelijke en volledig beheerde cloudservice waarmee u Apache Spark- en Apache Hadoop-clusters eenvoudiger en voordeliger kunt uitvoeren. Bewerkingen die vroeger uren of dagen in beslag namen, duren nu nog maar seconden of minuten. Daarnaast betaalt u alleen voor de resources die u daadwerkelijk gebruikt (met facturering per seconde). Cloud Dataproc is eenvoudig te integreren met andere Google Cloud Platform-services (GCP). Zo beschikt u over een krachtig en compleet platform voor gegevensverwerking, analyse en machine learning.

Beheerde Hadoop en Spark

Snelle en schaalbare gegevensverwerking

Maak snel Cloud Dataproc-clusters en pas de grootte op elk gewenst moment aan van drie tot honderden nodes. U hoeft niet bang te zijn dat uw gegevenspipelines te groot worden voor uw clusters. Omdat elke clusterhandeling gemiddeld minder dan 90 seconden duurt, heeft u meer tijd om u op insights te richten en bent u minder tijd kwijt aan de infrastructuur.

Snelle en schaalbare gegevensverwerking

Betaalbare prijzen

In lijn met de prijsstructuur van Google Cloud Platform zijn de kosten voor Cloud Dataproc laag en is de overzichtelijke prijsstructuur gebaseerd op daadwerkelijk gebruik, gemeten per seconde. Cloud Dataproc-clusters kunnen bovendien goedkopere verwijderbare instanties bevatten, waarmee u krachtige clusters krijgt tegen nog lagere totale kosten.

Betaalbare prijzen

Opensource-ecosysteem

Het ecosysteem van Spark en Hadoop biedt tools, bibliotheken en documentatie die u kunt gebruiken met Cloud Dataproc. Dankzij de regelmatig geüpdatete en systeemeigen versies van Spark, Hadoop, Pig en Hive kunt u aan de slag zonder nieuwe tools of API's te hoeven leren en kunt u bestaande projecten en ETL-pipelines verplaatsen zonder deze opnieuw te ontwikkelen.

Opensource-ecosysteem

Kenmerken van Cloud Dataproc

Google Cloud Dataproc is een snelle, gebruiksvriendelijke en voordelige beheerde service voor Apache Spark en Apache Hadoop.

Geautomatiseerd clusterbeheer
Dankzij de beheerde implementatie, logboekregistratie en controle kunt u zich richten op uw gegevens, niet op uw cluster. Uw clusters blijven stabiel, schaalbaar en snel.
Schaalbare clusters
Clusters kunnen snel worden gemaakt en geschaald met diverse typen virtuele machines, schijfgrootten, aantallen nodes en netwerkopties.
Geïntegreerd
De ingebouwde integratie met Cloud Storage, BigQuery, Bigtable, Stackdriver Logging en Stackdriver Monitoring zorgt voor een compleet en robuust gegevensplatform.
Versiebeheer
Versiebeheer van images maakt het mogelijk om tussen verschillende versies van Apache Spark, Apache Hadoop en andere tools te wisselen.
Hoge beschikbaarheid
Voer clusters met meerdere hoofdnodes uit en stel in dat taken opnieuw worden opgestart bij fouten. Zo zorgt u voor een hoge beschikbaarheid van uw clusters en taken.
Developer Tools
Meerdere manieren om een cluster te beheren, waaronder een gebruiksvriendelijke web-UI, de Google Cloud-SDK, RESTful API's en SSH-toegang.
Initialisatieacties
Voer tijdens het maken van uw cluster initialisatieacties uit om de benodigde instellingen en bibliotheken te installeren of aan te passen.
Automatische of handmatige configuratie
Cloud Dataproc configureert automatisch hardware en software op clusters, maar biedt ook handmatig beheer.
Flexibele virtuele machines
Clusters kunnen aangepaste machinetypen en verwijderbare virtuele machines gebruiken en dus perfect worden afgestemd op uw behoeften.

Cloud Dataflow of Cloud Dataproc: wat is de beste keuze?

Cloud Dataproc en Cloud Dataflow kunnen beide worden gebruikt voor gegevensverwerking en er is overlap in hun batch- en streamingmogelijkheden. Hoe bepaalt u welk product het best bij uw omgeving past?
Dataproc vs. Dataflow

Cloud Dataproc

Cloud Dataproc is erg geschikt voor omgevingen die afhankelijk zijn van specifieke componenten van het big data-ecosysteem van Apache:

  • Tools/pakketten
  • Pipelines
  • Vaardigheden van huidig personeel

Cloud Dataflow

Cloud Dataflow is meestal de betere optie voor greenfield-omgevingen:

  • Minder operationele overheadkosten
  • Geïntegreerde ontwikkelaanpak voor batch- en streamingpipelines
  • Gebruikt Apache Beam
  • Ondersteunt de portabiliteit van pipelines tussen de runtime-omgevingen Cloud Dataflow, Apache Spark en Apache Flink

Aanbevolen productietaken

PRODUCTIETAKEN CLOUD DATAPROC CLOUD DATAFLOW
Stream processing (ETL)
Batchverwerking (ETL)
Iteratieve verwerking en notebooks
Machine learning met Spark ML
Voorbewerking voor machine learning (met Cloud ML Engine)

Prijzen van Cloud Dataproc

Voor Cloud Dataproc wordt een klein, oplopend tarief in rekening gebracht per virtuele CPU in de Compute Engine-instanties die in uw cluster worden gebruikt1.

Iowa (us-central1) Oregon (us-west1) Noord-Virginia (us-east4) South Carolina (us-east1) Montréal (northamerica-northeast1) São Paulo (southamerica-east1) België (europe-west1) Londen (europe-west2) Nederland (europe-west4) Zürich (europe-west6) Frankfurt (europe-west3) Sydney (australia-southeast1) Mumbai (asia-south1) Hongkong (asia-east2) Taiwan (asia-east1) Tokio (asia-northeast1)
Type machine Prijs
Standaardmachines
1-64 virtuele CPU's
Machines met veel geheugen
2-64 virtuele CPU's
Machines met hoog CPU
2-64 virtuele CPU's
Aangepaste machines
Gebaseerd op vCPU- en geheugengebruik
Als u in een andere valuta dan USD betaalt, gelden de prijzen die in uw valuta op Cloud Platform SKU's worden getoond.

1 Voor Cloud Dataproc wordt een klein, oplopend tarief in rekening gebracht per virtuele CPU in de Compute Engine-instanties die in uw cluster worden gebruikt wanneer uw cluster actief is. Extra resources die door Cloud Dataproc worden gebruikt, zoals een Compute Engine-netwerk, BigQuery en Cloud Bigtable, worden gefactureerd naar gebruik. Bekijk het prijsoverzicht voor uitgebreide prijsinformatie.

Feedback verzenden over...