コンテンツに移動
AI & 機械学習

上位 3 つの Speech API Codelab を使用して音声 AI をアプリに組み込む

2022年5月2日
Google Cloud Japan Team

※この投稿は米国時間 2022 年 4 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。

人間とコンピュータのやりとりにおいて、音声操作のタッチポイントがますます当たり前になってきている中、Google の Speech-to-Text(STT)API は、アプリケーションへの音声の組み込みを検討しているデベロッパーにとって最適な選択肢となります。この API は、1 か月に 10 億分を超えるスピーチを処理します。これは、米国歴代の大統領の就任演説すべてを 100 万回以上文字起こしできるだけの分量です。Google のお客様は、字幕の自動生成から、セールスコールを改善するための分析情報の生成や、子供の発達を支援するロボットの機能強化まで、幅広く STT を利用しています。  

Speech-to-Text では、次のようないくつかの調整を行うことで、音声をテキストに正確に変換できます。

  • モデルのカスタマイズ - 分野特有の用語に対応できるようにカスタマイズします

  • 音声適応 - 結果とフォーマットに影響を与えるコンテキストを提供します

  • ダイアライゼーション - 話者ごとに異なるチャネルに分離するか、話者の変更を自動的に検出します

  • 冒とく的な表現のフィルタリング - 冒とく的な単語を検出して、文字起こしから除外するようにリクエストを設定します

事前にトレーニングされた API を初めて使用される方はもちろん、経験豊富な AI のベテランにとっても、Google Codelab は、事前トレーニング済みモデルの実践演習を行ってさらに慣れ親しんでいくための優れたリソースとなります。Codelab はスキルを磨くのに役立つだけでなく、GCP プロジェクトを設定し、必要に応じて 300 ドルのクレジットを取得する方法についての手順ガイドも提供しています。また、認証に加えて、 クライアント ライブラリや Cloud Shell エディタなどのツールのインストールなど、サンプルを実行するために必要な他のすべてについても詳しく説明しています。

そのため、Speech-to-Text API と Text-to-Speech API を最大限に活用できるように、以下に上位の音声 Codelab をいくつかまとめてみました。

1. 「Python で Speech-to-Text API を使用する」ラボと「C# で Speech-to-Text API を使用する」ラボ 

Speech-to-Text は簡単に使い始めることができます。以下のコード スニペットをご覧になると、文字起こしに必要なのはクライアント ライブラリ、音声ファイル、そして数行のコードだけであることがおわかりになるでしょう。

読み込んでいます...

このラボでは、複数の言語での文字起こしの方法についても解説します。Speech-to-Text は 70 以上の言語の 137 のロケールに対応しています。

オンプレミスでも問題ありません。Speech-to-Text はオンプレミスでも利用でき、インフラストラクチャ、データ所在地、コンプライアンスの要件を満たすことができます。

2. 「Python で Text-to-Speech API を使用する」ラボと「C# で Text-to-Speech API を使用する」ラボ

反対に、STT の逆の変換がインテグレーションに必要な場合は、Python と C# の両方で  Text-to-Speech(TTS)を使い始めるのに役立つラボが用意されています。TTS により、Google の画期的な合成 AI を使用してテキストを自然な音声に変換できます。

TTS では、すぐに使用できる 40 以上の言語と言語変種の 220 以上の音声に加えて、カスタム音声をトレーニングできます。音声出力をさらにカスタマイズするには、TTS リクエスト内で音声合成マークアップ言語(SSML)を使用します。一時停止の詳細や頭字語、日付、時刻、略語、検査すべきテキストのオーディオ形式を指定することで、音声応答をきめ細かくカスタマイズできます。

3. 「Google Docs API 機械学習(Speech-to-Text)を使用する」ラボ

API を使用してビジネス上の問題を解決する方法を示す興味深いサンプルをお探しの場合は、このラボをご覧ください。Google ドキュメントを使用してビジネス会議の文字起こしを行う方法をご紹介しています。

2 つの API を設定し、STT API を使用して音声ファイルを送信し、Java を使用してそれを Google ドキュメントに書き込む方法を学びます。これでもう会議の内容を忘れることはなくなりますね。

これらのラボをお試しになり、300 ドル相当の Cloud クレジットを使用して Cloud Speech API を今すぐ使ってみましょう。Google Cloud の Speech API の詳細については、こちらをご覧ください。



- シニア デベロッパー プログラム エンジニア Anu Srivastava
投稿先