このページでは、Google Cloud クライアント ライブラリを使用して、好みのプログラミング言語で Speech-to-Text に音声認識リクエスト送信する方法について説明します。
Speech-to-Text を使用すると、Google の音声認識技術をデベロッパーのアプリケーションに簡単に統合できます。音声データを Speech-to-Text API に送信し、音声ファイルの音声が文字に変換されたテキストを取得できます。サービスの詳細については、Speech-to-Text の基本をご覧ください。
始める前に
- Google アカウントにログインします。
Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。
-
Cloud Console プロジェクトを設定する
クリックして、以下を行います。
- プロジェクトを作成または選択します。
- プロジェクトに対して Cloud Speech-to-Text API を有効にします。
- サービス アカウントを作成します。
- JSON として秘密鍵をダウンロードします。
これらのリソースは、いつでも Cloud Console で表示、管理できます。
-
環境変数
GOOGLE_APPLICATION_CREDENTIALS
を、サービス アカウント キーが含まれる JSON ファイルのパスに設定します。 この変数は現在のシェル セッションにのみ適用されるため、新しいセッションを開く場合は、変数を再度設定します。 - Cloud SDK をインストールして初期化します。
クライアント ライブラリのインストール
C#
Install-Package Google.Cloud.Speech.V1 -Pre
Go
go get -u cloud.google.com/go/speech/apiv1
Java
Maven を使用している場合は、次のものを pom.xml
ファイルに追加します。BOM の詳細については、Google Cloud Platform ライブラリ BOM をご覧ください。
Gradle を使用している場合は、次のものを依存関係に追加します。
sbt を使用している場合は、次のものを依存関係に追加します。
IntelliJ または Eclipse を使用している場合は、次の IDE プラグインを使用してプロジェクトにクライアント ライブラリを追加できます。
プラグインでは、サービス アカウントのキー管理などの追加機能も提供されます。詳細は各プラグインのドキュメントをご覧ください。
Node.js
ライブラリをインストールする前に、Node.js 開発のための環境を用意しておいてください。
npm install --save @google-cloud/speech
PHP
composer require google/cloud-speech
Python
ライブラリをインストールする前に、Python 開発のための環境を用意しておいてください。
pip install --upgrade google-cloud-speech
Ruby
gem install google-cloud-speech
音声文字変換をリクエストする
では、Speech-to-Text を使用して、音声ファイルをテキストに変換してみましょう。次のコードを使用して、Speech-to-Text API に recognize
リクエストを送信します。
C#
Go
Java
Node.js
サンプルを実行する前に、Node.js 開発のための環境を用意しておいてください。
PHP
Python
サンプルを実行する前に、Python 開発用の環境を用意しておいてください。
Ruby
これで、Speech-to-Text への最初のリクエストを送信できました。
エラーが発生する場合や、Speech-to-Text から空のレスポンスが返された場合は、トラブルシューティングとエラーの回避の手順をご覧ください。
クリーンアップ
このクイックスタートで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。
- プロジェクトを必要としない場合は、Cloud Console を使用して削除します。
次のステップ
- 短い音声ファイルの文字変換を行う。
- 長い音声ファイルの音声認識を一括で行う方法を学習する。
- マイクからの入力など、ストリーミングの音声を文字に変換する方法を学習する。
- Speech-to-Text クライアント ライブラリを使用して、好みの言語で Speech-to-Text を利用する。
- サンプル アプリケーションを実行する。
- ベスト プラクティスのドキュメントで、最高のパフォーマンスと精度を実現するための方法やヒントを確認する。