リリースノート

このページでは、Speech-to-Text に関する本番環境の更新内容が記載されています。このページを定期的にチェックして、新機能や更新された機能、バグ修正、既知の問題、非推奨になった機能に関するお知らせを確認してください。

Speech-to-Text リリースノートの配信に登録する 購読

2018 年 7 月 24 日

Cloud Speech-to-Text には単語レベルの信頼度があります。デベロッパーはこの機能を利用して、単語レベルでの信頼度を得られます。この機能はベータ版です。

Cloud Speech-to-Text は音声ファイル内の言語を自動で検出できます。この機能を利用するには、デベロッパーは音声文字変換リクエストで代替言語を指定する必要があります。この機能はベータ版です。

Cloud Speech-to-Text は音声ファイル内の異なる話者を判別できます。この機能はベータ版です。

Cloud Speech-to-Text は複数のチャンネルを含む音声データを文字変換できます。この機能はベータ版です。

2018 年 4 月 9 日

Cloud Speech-to-Text でデータロギング拡張モデルを使用できるようになりました。拡張音声認識モデルを利用する場合は、データロギングを有効にする必要があります。この機能はベータ版です。

Cloud Speech-to-Text で、音声文字変換の結果に句読点(カンマ、ピリオド、疑問符など)を挿入できるようになりました。この機能はベータ版です。

Cloud Speech-to-Text にリクエストを送信するときに、異なる音声認識モデルを選択できるようになりました。たとえば、動画ファイルの音声文字変換用に最適化されたモデルを使用できます。この機能はベータ版です。

また、Cloud Speech-to-Text への音声文字変換リクエストに、認識メタデータの形式で音声ソースファイルの詳細情報を追加できるようになりました。これにより、音声認識の結果を改善できます。この機能はベータ版です。

2018 年 1 月 16 日

OGG_OPUS 音声エンコードのサポートが拡張され、8,000 Hz、12,000 Hz、16,000 Hz、24,000 Hz、48,000 Hz のサンプルレートが使用可能になりました。

2017 年 8 月 10 日

時間オフセット(タイムスタンプ)が使用できるようになりました。リクエストの構成で enableWordTimeOffsets パラメータを true に設定すると、リクエストの音声で認識された各単語の開始時点と終了時点を表す時間オフセット値が返されます。詳しくは、時間オフセット(タイムスタンプ)をご覧ください。

Speech-to-Text で、新たに 30 の言語に対する認識サポートが追加されました。サポートされているすべての言語のリストは、言語のサポートをご覧ください。

非同期認識リクエストで送信できる音声の長さの上限が、80 分から 180 分に増えました。Speech-to-Text の制限については、割り当てと制限をご覧ください。非同期認識リクエストについて詳しくは、次をご覧ください。

2017 年 4 月 18 日

Speech-to-Text v1 のリリース。

Speech-to-Text の v1beta1 リリースのサポートが終了しました。v1beta1 は、サービス利用規約で規定されている期間は引き続き使用できます。v1beta1 が廃止された場合の影響を避けるために、お使いのコードに含まれる v1beta1 への参照を v1 への参照で置き換えて、有効な v1 API 名と値でコードを更新してください。

Speech-to-Text へのリクエストで language_code が必須になりました。language_code が含まれていないか、無効なリクエストはエラーを返します(プレリリース バージョンの API では、リクエストで language_code が省略されている場合は en-US が使用されていました)。

SyncRecognize の名前が Recognize に変更されました。 v1beta1/speech:syncrecognize の名前は v1/speech:recognize に変更されました。動作の変更はありません。

AsyncRecognize の名前が LongRunningRecognize に変更されました。 v1beta1/speech:asyncrecognize の名前は v1/speech:longrunningrecognize に変更されました。LongRunningRecognize メソッドですべての AudioEncoding 列挙値がサポートされるようになった点を除き、動作の変更はありません(プレリリース バージョンでは LINEAR16 音声エンコードのみがサポートされていました)。

sample_rate フィールドの名前が sample_rate_hertz に変更されました。動作の変更はありません。

EndpointerType 列挙の名前が SpeechEventType に変更されました。

次の SpeechEventType 列挙が削除されました。

  • START_OF_SPEECH
  • END_OF_SPEECH
  • END_OF_AUDIO

END_OF_UTTERANCE 列挙の名前が END_OF_SINGLE_UTTERANCE に変更されました。動作の変更はありません。

result_index フィールドが削除されました。

speech_context フィールドが、繰り返しフィールドである speech_contexts フィールドで置き換えられました。ただし、最大で 1 つの音声コンテキストを指定できます。動作の変更はありません。

レガシー アプリケーションの音声エンコーダの実装をサポートするために、SPEEX_WITH_HEADER_BYTE および OGG_OPUS コーデックが追加されました。ロッシーコードは音声文字変換の品質を低下させるため、使用は推奨されません。低ビットレートのエンコーダを使用する必要がある場合は、OGG_OPUS が推奨されます。

WAV ファイルと FLAC ファイルのエンコードとサンプルレートを指定する必要はなくなりました。省略した場合、Speech-to-Text により、ファイル ヘッダーに基づいて WAV または FLAC ファイルのエンコードとサンプルレートが自動的に決定されます。ファイル ヘッダーの値と一致しないエンコードまたはサンプルレートの値を指定すると、Speech-to-Text からエラーが返されます。この変更には下位互換性があるため、この変更によって現在有効なリクエストが無効になることはありません。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。