Modelle verwenden

Verwenden Sie ein trainiertes benutzerdefiniertes Speech-to-Text-Modell in Ihrer Produktionsanwendung oder in Benchmarking-Workflows. Wenn Sie Ihr Modell über einen dedizierten Endpunkt bereitstellen, erhalten Sie automatisch programmatischen Zugriff über ein Erkennungsobjekt, das direkt über die Speech-to-Text V2 API oder in der Google Cloud Console verwendet werden kann.

Hinweise

Sie müssen sich für ein Google Cloud-Konto registriert, ein Projekt erstellt, ein benutzerdefiniertes Sprachmodell trainiert und über einen Endpunkt bereitgestellt haben.

Inferenz in V2 ausführen

Damit ein benutzerdefiniertes Speech-to-Text-Modell einsatzbereit ist, muss der Status des Modells im Tab Modelle Aktiv sein, und der dedizierte Endpunkt im Tab Endpunkte muss Bereitgestellt sein.

In unserem Beispiel, in dem die Google Cloud-Projekt-ID custom-models-walkthrough lautet, ist quantum-computing-lectures-custom-model-prod-endpoint der Endpunkt, der dem benutzerdefinierten Speech-to-Text-Modell quantum-computing-lectures-custom-model entspricht. Die Region, in der es verfügbar ist, ist us-east1 und die Batch-Transkriptionsanfrage lautet:

from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def quickstart_v2(
    project_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe an audio file."""
    # Instantiates a client
    client = SpeechClient(
    client_options=client_options.ClientOptions(
      api_endpoint="us-east1-speech.googleapis.com"
    )
  )

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        language_codes=["en-US"],
        model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
    )
    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

Nächste Schritte

Nutzen Sie die Ressourcen, um die Vorteile benutzerdefinierter Sprachmodelle in Ihrer Anwendung zu nutzen. Weitere Informationen finden Sie unter Benutzerdefinierte Modelle bewerten.