トレーニング済みのカスタム Speech-to-Text モデルを本番環境アプリケーションまたはベンチマーク ワークフローで使用します。専用のエンドポイントを使用してモデルをデプロイすると、すぐに認識ツール オブジェクトを介したプログラムによるアクセス権が自動的に付与されます。このオブジェクトは、Speech-to-Text V2 API または Google Cloud コンソールで直接使用できます。
始める前に
Google Cloud アカウントに登録してプロジェクトを作成し、カスタム音声モデルをトレーニングして、エンドポイントを使用してデプロイしたことを確認します。
V2 で推論を実行する
カスタム Speech-to-Text モデルを使用できるようにするには、[モデル] タブでモデルの状態が [アクティブ] になっており、[エンドポイント] タブで専用エンドポイントが [デプロイ済み] になっている必要があります。
この例では、Google Cloud プロジェクト ID が custom-models-walkthrough
の場合、カスタム Speech-to-Text モデル quantum-computing-lectures-custom-model
に対応するエンドポイントは quantum-computing-lectures-custom-model-prod-endpoint
です。使用可能なリージョンは us-east1
であり、バッチ音声文字変換リクエストは次のとおりです。
from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
def quickstart_v2(
project_id: str,
audio_file: str,
) -> cloud_speech.RecognizeResponse:
"""Transcribe an audio file."""
# Instantiates a client
client = SpeechClient(
client_options=client_options.ClientOptions(
api_endpoint="us-east1-speech.googleapis.com"
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
config=config,
content=content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response
次のステップ
リソースに従って、アプリケーションでカスタム音声モデルを活用します。カスタムモデルを評価するをご覧ください。