このページでは、Speech-to-Text を使用して複数のチャンネルを含む音声ファイルを文字変換する方法を説明します。マルチチャンネル認識は、最大 8 チャンネルの Speech-to-Text でサポートされているすべての音声エンコードで使用できます。
AutoDetectDecodingConfig
を使用している場合は、ファイルに含まれる音声チャンネルの数を指定する必要はありません。自動的に決定されます。音声チャンネル数は、ExplicitDecodingConfig
を使用する場合に指定する必要があります。
通常、音声データには録音中に存在している話者ごとに 1 つのチャンネルが含まれます。たとえば、2 人が電話で会話している音声では、回線ごとに別々に録音された 2 つのチャンネルが含まれます。
複数のチャネルを使用してリクエストを送信すると、Speech-to-Text は、音声内の異なるチャネルを識別する結果を、channel_tag
フィールドで各結果の代替をラベル付けして返します。
始める前に
- Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
-
Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。
-
Speech-to-Text API を有効にします。
-
プロジェクトに次のロールがあることを確認します。 Cloud Speech Administrator
ロールを確認する
-
Google Cloud コンソールの [IAM] ページに移動します。
[IAM] に移動 - プロジェクトを選択します。
-
[プリンシパル] 列で、自分のメールアドレスを含む行を見つけます。
自分のメールアドレスがその列にない場合、ロールは割り当てられていません。
- 自分のメールアドレスを含む行の [ロール] 列で、ロールのリストに必要なロールが含まれているかどうかを確認します。
ロールを付与する
-
Google Cloud コンソールの [IAM] ページに移動します。
[IAM] に移動 - プロジェクトを選択します。
- [ アクセスを許可] をクリックします。
- [新しいプリンシパル] フィールドに、自分のメールアドレスを入力します。
- [ロールを選択] リストでロールを選択します。
- 追加のロールを付与するには、 [別のロールを追加] をクリックして各ロールを追加します。
- [保存] をクリックします。
-
- Google Cloud CLI をインストールします。
-
gcloud CLI を初期化するには:
gcloud init
-
Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。
-
Speech-to-Text API を有効にします。
-
プロジェクトに次のロールがあることを確認します。 Cloud Speech Administrator
ロールを確認する
-
Google Cloud コンソールの [IAM] ページに移動します。
[IAM] に移動 - プロジェクトを選択します。
-
[プリンシパル] 列で、自分のメールアドレスを含む行を見つけます。
自分のメールアドレスがその列にない場合、ロールは割り当てられていません。
- 自分のメールアドレスを含む行の [ロール] 列で、ロールのリストに必要なロールが含まれているかどうかを確認します。
ロールを付与する
-
Google Cloud コンソールの [IAM] ページに移動します。
[IAM] に移動 - プロジェクトを選択します。
- [ アクセスを許可] をクリックします。
- [新しいプリンシパル] フィールドに、自分のメールアドレスを入力します。
- [ロールを選択] リストでロールを選択します。
- 追加のロールを付与するには、 [別のロールを追加] をクリックして各ロールを追加します。
- [保存] をクリックします。
-
- Google Cloud CLI をインストールします。
-
gcloud CLI を初期化するには:
gcloud init
-
Google アカウントのローカル認証情報を作成します。
gcloud auth application-default login
クライアント ライブラリは、アプリケーションのデフォルト認証情報を使用することによって、Google API で簡単に認証を行い、これらの API にリクエストを送信できます。アプリケーションのデフォルト認証情報を使用すると、ベースとなるコードを変更することなく、ローカルでのアプリケーションのテストやアプリケーションのデプロイが可能です。コードサンプルを含む詳細については、Google Cloud Auth ガイドをご覧ください。
また、クライアント ライブラリがインストールされていることを確認してください
マルチチャンネル ファイルで同期音声認識を実行する
ローカル マルチチャンネル音声ファイルに対して、同期音声認識を行う例を次に示します。
Python
クリーンアップ
このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の操作を行います。
-
作成した認証情報を取り消して、ローカル認証情報ファイルを削除します。
gcloud auth application-default revoke
-
(省略可)gcloud CLI から認証情報を取り消します。
gcloud auth revoke
コンソール
gcloud
Google Cloud プロジェクトを削除します。
gcloud projects delete PROJECT_ID
次のステップ
- 短い音声ファイルの文字変換を行う。
- ストリーミング音声を文字に変換する方法を学習する。
- 長い音声ファイルを文字に変換する方法を学習する。
- ベスト プラクティスのドキュメントで、最高のパフォーマンスと精度を実現するための方法やヒントを確認する。