Panoramica di Dataproc
Accesso ai cluster
-
Interfacce web del cluster
Interfacce web disponibili per i componenti open source di Dataproc e connessione a questi componenti.
-
Gateway del componente
Utilizza il gateway dei componenti per connetterti ai componenti del cluster.
-
Federazione delle identità per la forza lavoro
Consentire alla forza lavoro di accedere al gateway dei componenti Dataproc.
-
Configurazione di rete
Configura la rete del tuo cluster.
-
Connettiti a un cluster tramite SSH
Utilizza SSH per connetterti a un nodo cluster.
Componenti
-
Panoramica
Panoramica dei componenti del cluster.
-
Componente facoltativo Anaconda
Installa il componente Anaconda sul tuo cluster.
-
Componente facoltativo Docker
Installa il componente Docker sul tuo cluster.
-
Componente facoltativo Flink
Installa il componente Flink sul tuo cluster.
-
Componente facoltativo HBasebeta
Installa il componente HBase sul tuo cluster.
-
Componente facoltativo Hive WebHCat
Installa il componente Hive WebHCat sul tuo cluster.
-
Componente facoltativo Hudi
Installa il componente Hudi sul tuo cluster.
-
Componente facoltativo Jupyter
Installa il componente Jupyter sul tuo cluster.
-
Componente facoltativo Presto
Installa il componente Presto sul tuo cluster.
-
Componente facoltativo del ranger
Installa il componente Ranger sul tuo cluster.
-
Utilizzo di Ranger con Kerberos
Utilizza il componente Ranger con Kerberos sul tuo cluster.
-
Esegui il backup e ripristina uno schema Ranger
Segui i passaggi per eseguire il backup e il ripristino di uno schema Ranger.
-
Componente facoltativo Solr
Installa il componente Solr sul tuo cluster.
-
Componente facoltativo Trino
Installa il componente Trino sul tuo cluster.
-
Componente facoltativo Zeppelin
Installa il componente Zeppelin sul tuo cluster.
-
Componente facoltativo Zookeeper
Installa il componente Zookeeper sul tuo cluster.
Opzioni di calcolo
-
Tipi di macchine supportati
Dataproc consente di specificare tipi di macchine personalizzate per carichi di lavoro speciali.
-
Cluster GPU
Utilizza le GPU (Graphics Processing Unit) con i tuoi cluster Dataproc.
-
Unità a stato solido locali
Collega SSD locali ai cluster Dataproc.
-
Piattaforma CPU minima
Specifica una piattaforma CPU minima per il tuo cluster Dataproc.
-
Dischi di avvio su unità a stato solido permanenti (PD-SSD)
Creare cluster con dischi di avvio SSD permanenti.
-
Worker secondari: VM prerilasciabili e non prerilasciabili
Comprendi e utilizza i worker secondari prerilasciabili e non prerilasciabili nel tuo cluster Dataproc.
Configurazione ed esecuzione di job
-
Durata di un job
Informazioni sulla limitazione dei job di Dataproc.
-
Risolvere i ritardi nei job
Comprendi ed evita le cause comuni dei ritardi nei job.
-
Server di cronologia permanente
Scopri di più sul server di cronologia permanente di Dataproc.
-
Job riavviabili
Crea job che si riavviano in caso di errore. Ideale per job di lunga esecuzione e di flussi di dati.
-
Esecuzione di un job Spark su Dataproc su GKE
Crea un cluster virtuale Dataproc su GKE, quindi esegui un job Spark sul cluster virtuale.
-
Personalizza l'ambiente di runtime dei job Spark con Docker on YARN
Utilizzare un'immagine Docker per personalizzare l'ambiente job Spark.
-
Esecuzione di job Spark con DataprocFileOutputCommitter
Esegui job Spark con la versione avanzata e configurabile di Dataproc del file open source
FileOutputCommitter
.
Configurazione dei cluster
-
Scalabilità automatica dei cluster
Usa la scalabilità automatica per ridimensionare automaticamente i cluster e soddisfare le esigenze dei carichi di lavoro.
-
Selezione automatica della zona
Consenti a Dataproc di selezionare una zona per il tuo cluster.
-
Memorizzazione nella cache del cluster
Usa la memorizzazione nella cache del cluster per migliorare le prestazioni.
-
Metadati del cluster
Scopri di più sui metadati dei cluster di Dataproc e su come impostare metadati personalizzati.
-
Proprietà cluster
Utilizza le proprietà di configurazione per i componenti open source di Dataproc.
-
Rotazione del cluster
Ruota i cluster che fanno parte di un pool di cluster.
-
Modalità di flessibilità avanzata
Mantieni in esecuzione i job modificando la posizione in cui vengono salvati i dati intermedi.
-
VM flessibili
Specifica i tipi di VM che puoi utilizzare nel tuo cluster se le VM richieste non sono disponibili.
-
Modalità alta disponibilità
Aumenta la resilienza di HDFS e YARN alla mancata disponibilità del servizio
-
Azioni di inizializzazione
Specifica le azioni da eseguire su tutti o alcuni nodi del cluster al momento della configurazione.
-
Configurazione di rete
Configura la rete del tuo cluster.
-
Scalabilità dei cluster
Aumenta o riduci il numero di nodi worker in un cluster, anche mentre i job sono in esecuzione.
-
Eliminazione pianificata
Elimina il cluster dopo un periodo specificato o in un orario specifico.
-
Configurazione di sicurezza
Abilita le funzionalità di sicurezza del cluster.
-
Confidential Computing
Creare un cluster con Confidential VM.
-
Chiavi di crittografia gestite dal cliente (CMEK)
Gestisci le chiavi criptate per i dati dei job e del cluster Dataproc.
-
Plug-in Ranger Cloud Storage
utilizza il plug-in Ranger Cloud Storage con Dataproc).
-
Account di servizio Dataproc
Informazioni sugli account di servizio Dataproc.
-
Cluster a nodo singolo
Crea cluster sandbox leggeri con un solo nodo.
-
Cluster a nodo single-tenant
Creazione di cluster su nodi single-tenant.
-
Bucket temporanei e di gestione temporanea
Scopri di più sui bucket temporanei e di gestione temporanea di Dataproc.
Connettori
-
Connettore BigQuery
Utilizza BigQuery per Apache Hadoop sui tuoi cluster Dataproc.
-
Esempi di codice del connettore BigQuery
Visualizza gli esempi di codice BigQuery.
-
Bigtable con Dataproc
Utilizza l'API Bigtable compatibile con Apache HBase con i tuoi cluster Dataproc.
-
Connettore Cloud Storage
Utilizzare il connettore Cloud Storage.
-
Connettore BigQuery Hive
Scopri di più sul connettore BigQuery di Hive.
-
Pub/Sub Lite con Dataproc
utilizzare Pub/Sub Lite con Dataproc).
Archiviazione dei dati
Identity and Access Management (IAM)
-
Autorizzazioni Dataproc e ruoli IAM
Configura i ruoli IAM per consentire a utenti e gruppi di accedere alle risorse Dataproc del progetto.
-
Entità e ruoli Dataproc
Comprendere le entità Dataproc e i ruoli necessari per creare, gestire ed eseguire attività su un cluster.
-
IAM granulare Dataproc
Configura autorizzazioni granulari specifiche per il cluster.
-
Autenticazione cluster personale Dataproc
Configura l'autenticazione del cluster personale.
-
Multi-tenancy basato su account di servizio Dataproc
Configura i cluster multi-tenant.
-
Gestione delle risorse Dataproc utilizzando vincoli personalizzati
Configura vincoli personalizzati per gestire le risorse Dataproc.
Endpoint regionali Dataproc
Controllo delle versioni
-
Panoramica
Versioni software utilizzate sui cluster Dataproc e come selezionarle.
-
Versioni release 2.1.x
Immagine Dataproc versione 2.1.
-
Versioni release 2.0.x
Immagine Dataproc versione 2.0.
-
Versioni release 1.5.x
Immagine Dataproc versione 1.5.
-
Versioni release 1.4.x
Immagine Dataproc versione 1.4.
-
Elenchi di versioni di immagini dei cluster Dataproc
Elenchi di versioni attualmente supportate nei cluster Dataproc.
Modelli di flusso di lavoro
-
Panoramica
Scopri di più sui modelli di flusso di lavoro.
-
Monitoraggio e debug dei flussi di lavoro
Come monitorare ed eseguire il debug dei flussi di lavoro.
-
Parametrizzazione
Scopri come parametrizzare i modelli di flusso di lavoro.
-
Usa file YAML
Scopri come utilizzare i file YAML nel tuo flusso di lavoro.
-
Usa i selettori di cluster
Scopri come utilizzare i selettori di cluster nel flusso di lavoro.
-
Usa flussi di lavoro in linea
Scopri come creare ed eseguire flussi di lavoro in linea.
-
Usa flussi di lavoro
Scopri come configurare ed eseguire flussi di lavoro.
-
Soluzioni di pianificazione del flusso di lavoro
Esegui flussi di lavoro con Cloud Scheduler, Cloud Functions e Cloud Composer.