Regioni e zone TPU

Panoramica

Le principali differenze tra i tipi di TPU sono prezzo, prestazioni, capacità di memoria e disponibilità a livello di zona.

Google Cloud Platform utilizza le regioni, suddivise in zone, per definire la posizione geografica delle risorse di calcolo fisiche. Ad esempio, l'regione us-central1 indica una regione vicina al centro geografico degli Stati Uniti. Quando crei un nodo TPU, specifichi la zona in cui vuoi crearlo. Consulta il documento di Compute Engine sulle risorse globali, a livello di regione e di zona per ulteriori informazioni sulle risorse a livello di regione e zona.

Puoi creare configurazioni TPU v2, v3 o v4 nelle zone mostrate nella tabella seguente.

USA

Tipo TPU (v2) Core TPU v2 Regione/zona
v2-8 8 us-central1-b
us-central1-c
us-central1-f
v2-32 32 us-central1-a
v2-128 128 us-central1-a
v2-256 256 us-central1-a
v2-512 512 us-central1-a
Tipo di TPU (v3) Core TPU v3 Zone disponibili
v3-8 8 us-central1-a
us-central1-b
us-central1-f
Tipo TPU (v4) Chip TPU v4 Zone disponibili
Tutte le configurazioni v4 varia in base alle dimensioni della sezione us-central2-b

Europa

Tipo di TPU (v2) Core TPU v2 Regione/zona
v2-8 8 europe-west4-a
v2-32 32 europe-west4-a
v2-128 128 europe-west4-a
v2-256 256 europe-west4-a
v2-512 512 europe-west4-a
Tipo di TPU (v3) Core TPU v3 Zone disponibili
v3-8 8 europe-west4-a
v3-32 32 europe-west4-a
Versione 3-64 64 europe-west4-a
versione 3-128 128 europe-west4-a
versione 3-256 256 europe-west4-a
versione 3-512 512 europe-west4-a
v3-1024 1024 europe-west4-a
versione 3-2048 2048 europe-west4-a

Asia Pacifico

Tipo di TPU (v2) Core TPU v2 Regione/zona
v2-8 8 asia-east1-c

I tipi di TPU con un numero maggiore di chip o core sono disponibili solo in quantità limitate. È più probabile che siano disponibili tipi di TPU con un numero di chip o core inferiore.

Calcolo dei compromessi in termini di prezzo e prestazioni

Per decidere quale tipo di TPU utilizzare, puoi eseguire esperimenti utilizzando un tutorial su Cloud TPU per addestrare un modello simile alla tua applicazione.

Esegui il tutorial per il 5-10% del numero di passaggi che utilizzerai per eseguire l'addestramento completo su una TPU v2-8 o v3-8. Il risultato indica quanto tempo occorre per eseguire quel numero di passaggi per il modello su ogni tipo di TPU.

Poiché le prestazioni sui tipi di TPU scalano in modo lineare, se sai quanto tempo occorre per eseguire un'attività su un tipo di TPU v2-8 o v3-8, puoi stimare di quanto è possibile ridurre il tempo delle attività eseguendo il modello su un tipo di TPU più grande con più chip o core.

Ad esempio, se un tipo di TPU v2-8 richiede da 60 a 10.000 passaggi, un nodo v2-32 dovrebbe impiegare circa 15 minuti per eseguire la stessa attività.

Quando conosci il tempo approssimativo di addestramento del tuo modello su diversi tipi di TPU, puoi valutare il costo della VM/TPU rispetto al tempo di addestramento per aiutarti a decidere il miglior compromesso in termini di rapporto prezzo/prestazioni.

Per determinare la differenza di costo tra i diversi tipi di TPU per Cloud TPU e la VM di Compute Engine associata, consulta la pagina dei prezzi per TPU.

Specifica del tipo di TPU

Indipendentemente dal framework in uso, TensorFlow, PyTorch o JAX, devi specificare un tipo di TPU v2 o v3 con il parametro accelerator-type quando avvii una TPU. Il comando del tipo TPU dipende dall'utilizzo di VM TPU o nodi TPU. I comandi di esempio sono mostrati in Gestione delle TPU.

Passaggi successivi