Planung der TPU-Datenerhebung für Inferenz-Arbeitslasten

Trillium (v6e) enthält die Funktion „Datenerhebungsplanung“, mit der Sie eine Gruppe von TPU-Slices (einzelne oder mehrere Hosts) gruppieren können, die zum Bereitstellen von Replikas desselben Modells dienen. Diese Funktion ist sowohl für Cloud TPU- als auch für GKE-Konfigurationen verfügbar.

In diesem Dokument erfahren Sie, wie Sie die Sammlungsplanung mit der Cloud TPU API verwenden. Weitere Informationen zur Verwendung des Sammlungsplanungstools mit GKE finden Sie in der GKE-Dokumentation.

Wenn Sie eine Sammlung für Ihre Inferenzarbeitslast erstellen,Google Cloud werden Unterbrechungen der Inferenzarbeitslast eingeschränkt und optimiert. Dies ist nützlich für Inferenzarbeitslasten, bei denen eine hohe Verfügbarkeit erforderlich ist. Google Cloud sorgt für eine hohe Verfügbarkeit der Sammlung, um den eingehenden Traffic zu verwalten. Ein Teil der Chunks innerhalb einer Sammlung ist immer verfügbar, um den eingehenden Traffic zu verarbeiten.

Jedes TPU-Stück in einer Sammlung hat denselben Beschleunigertyp und dieselbe Topologie.

Die Planung der Datenerhebung gilt nur für Version 6e.

Sammlung über die Cloud TPU API erstellen

Wenn Sie eine in die Warteschlange gestellte Ressource mit der Cloud TPU API anfordern, verwenden Sie das Flag --workload-type = AVAILABILITY-OPTIMIZED, um eine Sammlung zu erstellen. Dieses Flag gibt der Cloud TPU-Infrastruktur an, dass sie für arbeitslastbasierte Verfügbarkeit verwendet werden soll.

Mit dem folgenden Befehl wird eine Sammlung mit der Cloud TPU API bereitgestellt:

gcloud alpha compute tpus queued-resources create serving-QR \
   --project=$PROJECT_ID \
   --zone=${ZONE} \
   --accelerator-type ${ACCELERATOR_TYPE} \
   --node-count ${NODE_COUNT} \
   --node-prefix "servingTPU" \
   --workload-type = AVAILABILITY-OPTIMIZED

Das Flag --node-count gibt die Anzahl der Segmente an, die in der Ressourcenwarteschlange enthalten sein sollen. Dadurch wird eine Sammlung von TPU-Slices erstellt.

Optional: Das Flag --node-prefix gibt ein Präfix für die Slab-Namen an.