Logo AI Hypercomputer

Addestra, ottimizza e distribuisci su un supercomputer AI

AI Hypercomputer è il sistema di supercomputing integrato alla base di ogni workload AI su Google Cloud. È composto da hardware, software e modelli di consumo progettati per semplificare il deployment dell'AI, migliorare l'efficienza a livello di sistema e ottimizzare i costi.

Panoramica

Hardware ottimizzato con l'IA

Scegli tra le opzioni di computing, archiviazione e networking ottimizzate per gli obiettivi granulari a livello di workload, che si tratti di un maggiore throughput, una minore latenza, un time-to-results più rapido o un TCO più basso. Scopri di più su: Google Cloud TPU, Google Cloud GPU, oltre alle ultime novità in materia di archiviazione e networking.

Software leader, framework aperti

Ottieni di più dal tuo hardware con software leader del settore, integrato con framework, librerie e compilatori aperti per rendere più efficienti lo sviluppo, l'integrazione e la gestione dell'AI.

  • Supporto per PyTorch, JAX, Keras, vLLM, Megatron-LM, NeMo Megatron, MaxText, MaxDiffusion e molti altri.
  • L'integrazione profonda con il compilatore XLA consente l'interoperabilità tra diversi acceleratori, mentre Pathways su Cloud consente di utilizzare lo stesso runtime distribuito che alimenta l'infrastruttura interna di addestramento e inferenza su larga scala di Google.
  • Tutto questo è implementabile nell'ambiente che preferisci, che si tratti di Google Kubernetes Engine, Cluster Director o Google Compute Engine.

Modelli di consumo flessibili

Le opzioni di consumo flessibili consentono ai clienti di scegliere costi fissi con sconti per impegno di utilizzo o modelli on demand dinamici per soddisfare le loro esigenze aziendali.Dynamic Workload Scheduler e le VM Spot possono aiutarti a ottenere la capacità di cui hai bisogno senza esagerare con l'allocazione. Inoltre, gli strumenti di ottimizzazione dei costi di Google Cloud aiutano ad automatizzare l'utilizzo delle risorse per ridurre le attività manuali per i tecnici.

Come funziona

Google è un'azienda leader nel campo dell'intelligenza artificiale grazie all'invenzione di tecnologie come TensorFlow. Sapevi che puoi sfruttare la tecnologia di Google per i tuoi progetti? Scopri la storia dell'innovazione di Google nell'infrastruttura AI e come puoi sfruttarla per i tuoi carichi di lavoro.

Diagramma dell'architettura AI Hypercomputer di Google Cloud accanto alla foto della product manager Chelsie di Google Cloud

Utilizzi comuni

Esegui addestramento e preaddestramento dell'AI su larga scala

Addestramento su IA potente, scalabile ed efficiente

I workload di addestramento devono essere eseguiti come job altamente sincronizzati su migliaia di nodi in cluster strettamente accoppiati. Un singolo nodo degradato può interrompere un intero job, ritardando il time-to-market. Devi:

  • Assicurarti che il cluster sia configurato rapidamente e ottimizzato per il workload in questione
  • Prevedi gli errori e risolvili rapidamente
  • e continua a lavorare con un workload, anche quando si verificano errori

Vogliamo rendere estremamente semplice per i clienti eseguire il deployment e la scalabilità dei workload di addestramento su Google Cloud.

    Addestramento su IA potente, scalabile ed efficiente

    I workload di addestramento devono essere eseguiti come job altamente sincronizzati su migliaia di nodi in cluster strettamente accoppiati. Un singolo nodo degradato può interrompere un intero job, ritardando il time-to-market. Devi:

    • Assicurarti che il cluster sia configurato rapidamente e ottimizzato per il workload in questione
    • Prevedi gli errori e risolvili rapidamente
    • e continua a lavorare con un workload, anche quando si verificano errori

    Vogliamo rendere estremamente semplice per i clienti eseguire il deployment e la scalabilità dei workload di addestramento su Google Cloud.

      Addestramento su IA potente, scalabile ed efficiente

      Per creare un cluster AI, inizia con uno dei nostri tutorial:

      Character AI sfrutta Google Cloud per fare lo scale up

      "Abbiamo bisogno delle GPU per generare risposte ai messaggi degli utenti. Inoltre, man mano che aumentano gli utenti sulla nostra piattaforma, abbiamo bisogno di più GPU per gestirli. Quindi, su Google Cloud possiamo sperimentare per trovare la piattaforma giusta per un particolare carico di lavoro. È fantastico avere la flessibilità necessaria per scegliere le soluzioni più redditizie." Myle Ott, Ingegnere fondatore, Character.AI

      Esegui il deployment e l'orchestrazione delle applicazioni di AI

      Sfrutta software di orchestrazione dell'AI e framework aperti leader per offrire esperienze basate sull'AI

      Google Cloud fornisce immagini che contengono sistemi operativi, framework, librerie e driver comuni. AI Hypercomputer ottimizza queste immagini preconfigurate per supportare i tuoi workload di AI.

      • Framework e librerie di AI e ML: utilizza le immagini Docker Deep Learning Software Layer (DLSL) per eseguire modelli ML come NeMO e MaxText su un cluster Google Kubernetes Engine (GKE).
      • Deployment del cluster e orchestrazione dell'AI: puoi eseguire il deployment dei tuoi workload di AI su cluster GKE, cluster Slurm o istanze Compute Engine. Per ulteriori informazioni, vedi Panoramica della creazione di VM e cluster.

      Sfrutta software di orchestrazione dell'AI e framework aperti leader per offrire esperienze basate sull'AI

      Google Cloud fornisce immagini che contengono sistemi operativi, framework, librerie e driver comuni. AI Hypercomputer ottimizza queste immagini preconfigurate per supportare i tuoi workload di AI.

      • Framework e librerie di AI e ML: utilizza le immagini Docker Deep Learning Software Layer (DLSL) per eseguire modelli ML come NeMO e MaxText su un cluster Google Kubernetes Engine (GKE).
      • Deployment del cluster e orchestrazione dell'AI: puoi eseguire il deployment dei tuoi workload di AI su cluster GKE, cluster Slurm o istanze Compute Engine. Per ulteriori informazioni, vedi Panoramica della creazione di VM e cluster.

      Esplora le risorse software

      • Pathways su Cloud è un sistema progettato per consentire la creazione di sistemi di machine learning su larga scala, multi-task e attivati in modo sparso
      • Ottimizza la tua produttività ML sfruttando le nostre formule Goodput
      • Pianifica i workload GKE con la Topology Aware Scheduling
      • Prova una delle nostre ricette di benchmarking per l'esecuzione dei modelli DeepSeek, Mixtral, Llama e GPT su GPU
      • Scegli un'opzione di consumo per ottenere e utilizzare le risorse di computing in modo più efficiente

      Priceline: aiutare i viaggiatori a organizzare esperienze uniche

      "Lavorare con Google Cloud per incorporare l'AI generativa ci consente di creare un Concierge di viaggio su misura all'interno del nostro chatbot. Vogliamo che i nostri clienti vadano oltre la pianificazione di un viaggio aiutandoli a rendere unica la loro esperienza di viaggio." Martin Brodbeck, CTO, Priceline

      Logo Priceline

      Gestisci i modelli in modo economico su larga scala

      Massimizza il rapporto prezzo/prestazioni e l'affidabilità per i workload di inferenza

      L'inferenza sta diventando rapidamente più diversificata e complessa, evolvendosi in tre aree principali:

      • Innanzitutto, sta cambiando il modo in cui interagiamo con l'AI. Le conversazioni ora hanno un contesto molto più lungo e diversificato.
      • In secondo luogo, il ragionamento sofisticato e l'inferenza in più fasi stanno rendendo più comuni i modelli Mixture-of-Experts (MoE). Questo sta ridefinendo il modo in cui la memoria e il calcolo scalano dall'input iniziale all'output finale.
      • Infine, è chiaro che il vero valore non riguarda solo i token grezzi per dollaro, ma l'utilità della risposta. Il modello ha le competenze giuste? Ha risposto correttamente a una domanda aziendale cruciale? Ecco perché riteniamo che i clienti abbiano bisogno di misurazioni migliori, che si concentrino sul costo totale delle operazioni di sistema, non sul prezzo dei processori.

      Massimizza il rapporto prezzo/prestazioni e l'affidabilità per i workload di inferenza

      L'inferenza sta diventando rapidamente più diversificata e complessa, evolvendosi in tre aree principali:

      • Innanzitutto, sta cambiando il modo in cui interagiamo con l'AI. Le conversazioni ora hanno un contesto molto più lungo e diversificato.
      • In secondo luogo, il ragionamento sofisticato e l'inferenza in più fasi stanno rendendo più comuni i modelli Mixture-of-Experts (MoE). Questo sta ridefinendo il modo in cui la memoria e il calcolo scalano dall'input iniziale all'output finale.
      • Infine, è chiaro che il vero valore non riguarda solo i token grezzi per dollaro, ma l'utilità della risposta. Il modello ha le competenze giuste? Ha risposto correttamente a una domanda aziendale cruciale? Ecco perché riteniamo che i clienti abbiano bisogno di misurazioni migliori, che si concentrino sul costo totale delle operazioni di sistema, non sul prezzo dei processori.

      Esplora le risorse di inferenza AI

        Assembly AI sfrutta Google Cloud per l'efficienza dei costi

        "I nostri risultati sperimentali dimostrano che Cloud TPU v5e è l'acceleratore più conveniente su cui eseguire l'inferenza su larga scala per il nostro modello. Offre prestazioni per dollaro 2,7 volte superiori rispetto a quelle di G2 e prestazioni per dollaro 4,2 volte superiori rispetto alle istanze A2." Domenic Donato,

        VP di tecnologia, AssemblyAI


        Logo AssemblyAI
        Genera una soluzione
        Che tipo di problema stai cercando di risolvere?
        What you'll get:
        Guida passo passo
        Architettura di riferimento
        Soluzioni predefinite disponibili
        Questo servizio è stato creato con Vertex AI. Devi avere almeno 18 anni per utilizzarlo. Non inserire informazioni sensibili, riservate o personali.

        Modelli open source su Google Cloud

        Gestisci un modello con GKE su una singola GPU

        Addestra modelli comuni con GPU

        Scala la pubblicazione dei modelli su più GPU

        Gestisci un LLM utilizzando TPU multi-host su GKE con Saxml

        Addestramento su larga scala con il framework NVIDIA Nemo

        Domande frequenti

        AI Hypercomputer è il modo più semplice per iniziare a utilizzare i workload di AI su Google Cloud?

        Per la maggior parte dei clienti, una piattaforma di AI gestita come Vertex AI è il modo più semplice per iniziare a utilizzare l'AI perché include tutti gli strumenti, i modelli e i modelli. Inoltre, Vertex AI è basato su AI Hypercomputer in modo ottimizzato per te. Vertex AI è il modo più semplice per iniziare perché offre l'esperienza più semplice. Se preferisci configurare e ottimizzare ogni componente della tua infrastruttura, puoi accedere ai componenti di AI Hypercomputer come infrastruttura e assemblarli in modo da soddisfare le tue esigenze.

        Mentre i singoli servizi offrono funzionalità specifiche, AI Hypercomputer fornisce un sistema integrato in cui hardware, software e modelli di consumo sono progettati per funzionare in modo ottimale insieme. Questa integrazione offre efficienze a livello di sistema in termini di prestazioni, costi e time-to-market più difficili da ottenere mettendo insieme servizi disparati. Semplifica la complessità e fornisce un approccio olistico all'infrastruttura di AI.



        Sì, AI Hypercomputer è progettato pensando alla flessibilità. Tecnologie come Cross-Cloud Interconnect forniscono connettività a larghezza di banda elevata ai data center on-premise e ad altri cloud, facilitando le strategie di AI ibride e multi-cloud. Operiamo con standard aperti e integriamo software di terze parti popolari per consentirti di creare soluzioni che si estendono su più ambienti e di modificare i servizi a tuo piacimento.

        La sicurezza è un aspetto fondamentale di AI Hypercomputer. Sfrutta il modello di sicurezza a più livelli di Google Cloud. Le funzionalità specifiche includono microcontroller di sicurezza Titan (che garantiscono l'avvio dei sistemi da uno stato attendibile), RDMA Firewall (per la rete zero-trust tra TPU/GPU durante l'addestramento) e l'integrazione con soluzioni come Model Armor per la sicurezza dell'AI. Questi sono integrati da solide policy e principi di sicurezza dell'infrastruttura come il Secure AI Framework.

        • Se non vuoi gestire le VM, ti consigliamo di iniziare a usare Google Kubernetes Engine (GKE)
        • Se devi utilizzare più scheduler o non puoi utilizzare GKE, ti consigliamo di utilizzare Cluster Director
        • Se vuoi avere il controllo completo sulla tua infrastruttura, l'unico modo per ottenerlo è lavorare direttamente con le VM e, per questo, Google Compute Engine è la soluzione migliore.


        No. AI Hypercomputer può essere utilizzato per workload di qualsiasi dimensione. Anche i workload di dimensioni più ridotte possono sfruttare tutti i vantaggi di un sistema integrato, come l'efficienza e la semplificazione del deployment. AI Hypercomputer supporta anche i clienti man mano che le loro attività si espandono, dai piccoli proof-of-concept e dagli esperimenti ai deployment di produzione su larga scala.

        Sì, stiamo creando una libreria di formule in GitHub. Puoi anche utilizzare Cluster Toolkit per i progetti di cluster predefiniti.

        Hardware ottimizzato con l'IA

        Archiviazione

        • Addestramento: Managed Lustre è ideale per l'addestramento AI impegnativo con throughput elevato e capacità su scala PB. GCS Fuse (facoltativamente con Anywhere Cache) è adatto a esigenze di capacità maggiori con una latenza più rilassata. Entrambi si integrano con GKE e Cluster Director.
        • Inferenza: GCS Fuse con Anywhere Cache offre una soluzione semplice. Per prestazioni più elevate, prendi in considerazione Hyperdisk ML. Se si utilizza Managed Lustre per l'addestramento nella stessa zona, può essere utilizzato anche per l'inferenza.

        Networking

        • Addestramento: sfrutta tecnologie come il networking RDMA nei VPC e Cloud Interconnect e Cross-Cloud Interconnect a larghezza di banda elevata per un rapido trasferimento dei dati.
        • Inferenza: utilizza soluzioni come GKE Inference Gateway e Cloud Load Balancing avanzato per la distribuzione a bassa latenza. Model Armor può essere integrato per la sicurezza dell'AI.

        Calcolo: accedi a TPU (Trillium), GPU (Blackwell) e CPU (Axion) di Google Cloud. Ciò consente l'ottimizzazione in base alle esigenze specifiche del workload per quanto riguarda velocità effettiva, latenza o TCO.

        Software e framework aperti leader

        • Framework e librerie ML: PyTorch, JAX, TensorFlow, Keras, vLLM, JetStream, MaxText, LangChain, Hugging Face, NVIDIA (CUDA, NeMo, Triton) e molte altre opzioni open source e di terze parti.
        • Compilatori, runtime e strumenti: XLA (per prestazioni e interoperabilità), Pathways su Cloud, addestramento multislice, Cluster Toolkit (per blueprint di cluster predefiniti) e molte altre opzioni open source e di terze parti.
        • Orchestrazione: Google Kubernetes Engine (GKE), Cluster Director (per Slurm, Kubernetes non gestito, scheduler BYO) e Google Compute Engine (GCE).

        Modelli di consumo:

        • On demand: pagamento a consumo.
        • Sconti per impegno di utilizzo (CUD): risparmia in modo significativo (fino al 70%) per gli impegni a lungo termine.
        • VM spot: ideali per job batch a tolleranza di errore, offrono sconti elevati (fino al 91%).
        • Dynamic Workload Scheduler (DWS): risparmia fino al 50% per i job batch/a tolleranza di errore.
        Google Cloud