Speech-to-Text は、Google の人工知能(AI)テクノロジーを活用した API です。音声データを Speech-to-Text に送信すると、文字に変換されたテキストが返されます。Speech-to-Text の詳しい仕組みについては、基本ページをご覧ください。
このサービスにアクセスするには、REST API を使用する方法と Speech-to-Text Console を使用する方法があります。REST API にリクエストを送信してレスポンスを受信するコードサンプルが用意されています。これらのサンプルの使用方法については、Speech-to-Text のクイックスタートと入門ガイドで学習できます。また、Cloud Speech-to-Text Console を使用すると、最小限のコーディングで Speech-to-Text を使用できます。
このガイドでは、REST API にリクエストの送信するために必要な手順について説明します。Speech-to-Text コンソールの使用方法については、UI コンソールのクイックスタートをご覧ください。
概要
Speech-to-Text にリクエストを送信するには、Google Cloud Console で API を有効にする必要があります。このページの手順では、以下の手順について説明します。
- プロジェクトで Speech-to-Text を有効にする。
- Speech-to-Text の課金が有効になっていることを確認する。
- プロジェクトに 1 つ以上のサービス アカウントがあることを確認する。
- サービス アカウントの認証情報キーをダウンロードする。
- 認証情報の環境変数を設定する。
- (省略可)音声データを保存する新しい Google Cloud Storage バケットを作成する。
Google Cloud プロジェクトの設定
-
既存のプロジェクトを選択するか、新しいプロジェクトを作成します。プロジェクトの作成について詳しくは、プロジェクトの作成と管理をご覧ください。
新しいプロジェクトを作成する場合、このプロジェクトに請求先アカウントを関連付けるように求められます。既存のプロジェクトを使用する場合は、そのプロジェクトで課金が有効になっていることを確認します。
プロジェクトを選択して請求先アカウントを関連付けると、Speech-to-Text API を有効にできます。ページの上部にある [プロダクトとリソースを検索] バーに「speech」と入力します。結果のリストから Cloud Speech-to-Text API を選択します。
プロジェクトに関連付けずに Speech-to-Text を試すには、[この API を試す] オプションを選択します。プロジェクトで Speech-to-Text API を有効にするには、[有効にする] をクリックします。
(省略可)データロギングを有効にします。データロギングを有効にすると、Speech-to-Text に送信された音声データの記録を Google に許可したことになります。記録したデータは、Speech-to-Text モデルを改善するために使用されます。データロギングを有効にした場合の料金は割安に設定されています。詳しくは、料金ページとデータロギングの利用規約をご覧ください。
1 つ以上のサービス アカウントを Speech-to-Text API にリンクする必要があります。Speech-to-Text API のメインページの左側にある [認証情報] メニュー項目をクリックします。このプロジェクトに関連付けられたサービス アカウントがない場合は、新しいサービス アカウントの作成の手順に沿ってアカウントを作成します。
このプロジェクトに以前に作成したサービス アカウントが関連付けられている場合は、そのアカウントがこのページに表示されます。Speech-to-Text の認証で使用するサービス アカウントに関連付けられたダウンロード済みの JSON キーにアクセスできることを確認します。サービス アカウント キーは、作成時に 1 回だけダウンロードできます。サービス アカウントにキーが存在していても、ダウンロードした
.json
ファイルが見つからない場合は、そのサービス アカウントに新しいキーを作成して、その.json
ファイルをダウンロードする必要があります。既存のサービス アカウントに新しいキーを作成する方法については、JSON キーの作成をご覧ください。サービス アカウントとその JSON キーがすでに存在する場合は、認証情報の環境変数を設定できます。
サービス アカウントを作成する
プロジェクトにサービス アカウントがない場合は、新規に作成します。Speech-to-Text を使用するには、サービス アカウントを作成する必要があります。
[サービス アカウント名] ボックスに、新しいサービス アカウントの一意の名前を入力します。入力内容に従って [サービス アカウント ID] ボックスに ID が自動的に入力されます。[サービス アカウントの説明] ボックスは省略できます。ただし、複数のサービス アカウントをプロジェクトに関連付ける場合は入力することをおすすめします。このボックスにサービス アカウントの簡単な説明を入力し、[作成して続行] をクリックします。
基本的な IAM ロールの 1 つをサービス アカウントに割り当てることをおすすめします。1 つのサービス アカウントに複数のロールを割り当てることもできます。使用可能なロールと、それぞれに許可される権限については、IAM ロールをご覧ください。[ロールを選択] プルダウン メニューをクリックし、[基本] までスクロールします。このサービス アカウントのロールは、右側の列に表示される選択肢から選択できます。[続行] をクリックします。
最後のステップで、他のエンティティ(個人、Google グループなど)にサービス アカウントへのアクセスを許可できます。追加のアクセス権を付与する必要がない場合は、情報を入力せずに [完了] をクリックします。
サービス アカウントが [サービス アカウント] ページに表示されます。サービス アカウントの権限の変更、新しいキーの追加と生成、アクセス権の付与はいつでも行うことができます。
サービス アカウントに JSON キーを作成する
新しく作成されたサービス アカウントが [サービス アカウント] ページに表示されます。このアカウントに関連付ける秘密鍵を作成します。この秘密鍵は、Speech-to-Text にリクエストを送信する際の認証プロセスで使用する必要があります。ここでキーを作成しない場合は、メインのナビゲーション メニューで [IAM と管理] -> [サービス アカウント] の順に移動すると、鍵の生成や個々のユーザー情報の変更を行うことができます。
キーを作成するには、サービス アカウントをクリックして [キー] タブを選択します。[鍵を追加] > [新しい鍵を作成] の順にクリックします。JSON 形式のキーを作成することをおすすめします。
選択した形式で新しいキーが自動的にダウンロードされます。このファイルを安全な場所に保管し、ファイルパスをメモしておきます。新しい Speech-to-Text セッションを開始したときの認証プロセスで、GOOGLE_APPLICATION_CREDENTIALS 環境変数を使用してこのファイルを指定する必要があります。これは、Speech-to-Text へのリクエストの認証で重要なステップです。サービス アカウントの名前の横に鍵の一意の ID が表示されます。
認証情報の環境変数を設定する
GOOGLE_APPLICATION_CREDENTIALS を設定するには、プロジェクトに関連付けられたサービス アカウントがあり、そのサービス アカウントの JSON キーにアクセスできる必要があります。
環境変数 GOOGLE_APPLICATION_CREDENTIALS
を設定して、アプリケーション コードに認証情報を指定します。この変数は、現在のシェル セッションにのみ適用されます。この変数を新しいシェル セッションに適用する場合は、シェル起動ファイル(~/.bashrc
ファイルや ~/.profile
ファイルなど)で変数を設定します。
Linux または macOS
export GOOGLE_APPLICATION_CREDENTIALS="KEY_PATH
"
KEY_PATH
をサービス アカウント キーが含まれる JSON ファイルのパスに置き換えます。
例:
export GOOGLE_APPLICATION_CREDENTIALS="/home/user/Downloads/service-account-file.json"
Windows
PowerShell の場合:
$env:GOOGLE_APPLICATION_CREDENTIALS="KEY_PATH
"
KEY_PATH
をサービス アカウント キーが含まれる JSON ファイルのパスに置き換えます。
例:
$env:GOOGLE_APPLICATION_CREDENTIALS="C:\Users\username\Downloads\service-account-file.json"
コマンド プロンプトの場合:
set GOOGLE_APPLICATION_CREDENTIALS=KEY_PATH
KEY_PATH
をサービス アカウント キーが含まれる JSON ファイルのパスに置き換えます。
詳細については、Google Cloud Platform の認証に関するドキュメントをご覧ください。
省略可: Cloud Storage バケットを作成する
60 秒を超える音声または 10 MB を超えるファイルの音声を文字変換するには、Speech-to-Text で文字変換を行う前に音声を Cloud Storage バケットに保存する必要があります。以下では、新しいバケットを作成する手順について説明します。
Speech-to-Text API を無効にする
Speech-to-Text API が不要になった場合は、次の手順を行います。
- Google Cloud ダッシュボードに移動し、[API] ボックスの [API の概要に移動] リンクをクリックします。
- [Cloud Speech-to-Text API] を選択します。
- Cloud Speech-to-Text API ページの上部にある [API を無効にする] ボタンをクリックします。
次のステップ
クライアント ライブラリ、gcloud、コマンドライン、または Speech-to-Text の UI を使用して、Speech-to-Text API に音声文字変換リクエストを送信する方法を学習する。