コンテンツに移動
AI & 機械学習

コンテンツを世界に向けて翻訳するための新機能

2021年9月12日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 11 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。

グローバル化された世界では、デジタル化の需要がますます高まっており、お客様の状況に応じて、サービスの規模を拡大して提供する必要があることは明らかです。ウェブサイトを複数の言語に対応させる場合や、文書、ソフトウェア、トレーニング資料をリリースする場合などにおいて、翻訳は重要な役割を果たします。

人による翻訳では規模の拡大に対応できません。そのため、機械学習(ML)を活用した機械翻訳がお客様にとってさらに重要になっています。  コンテンツを複数の言語に翻訳する際にはその膨大な量と範囲のために、機械翻訳で付加価値をもたらすことは従来から大きな課題となっていました。企業は多数の言語と形式でコンテンツを取得して共有していますが、ドキュメント形式が複数あったり、光学式文字認識(OCR)と統合する必要があったり、業界固有の用語に合わせて訳文を修正する必要があったりするため、このニーズに合わせて翻訳の処理量を増やすのは難しい課題です。

Google の目標は、翻訳サービスを簡略化するとともに、さまざまな業界のお客様の独自のニーズに応じて柔軟に、かつしっかりと管理しながら対応することです。最新の機能と更新情報について詳しく説明いたします。

書式設定が重要: Document Translation は一般提供を開始しました。

多くの場合、文書のレイアウトによりどのように解釈されるかが決まります。たとえば、読者はテキストを読んで、太字、斜体、ヘッダーのマークアップ、段落、列などの書式設定に基づいて意味を判断します。以前は、文書の翻訳を自動化するには、こういったレイアウトの属性をテキストから取り除く必要がありました。つまり、文書の構造が失われてしまうか、テキストの翻訳の後にデベロッパー パイプラインにおいて再度作成する必要がありました。そのため、翻訳チームは多くの余計な作業を行う必要があり、多くの追加コードを維持管理する必要がありました。しかし、現在ではこれらの手順は必要ありません。書式設定は翻訳プロセスを通じて保持され、Translation API Advanced によって直接処理されます。

この機能を使用すれば、お客様はドキュメントの形式を維持しながら、100 以上の言語、そして DOCX、PPTX、XLSX、PDF などの形式でドキュメントを翻訳できます。

また、Document Translation でニーズに対応できない場合、音声の翻訳もサポートいたします。リアルタイム ストリーミング翻訳の場合、Media Translation API を確認し、オフライン音声文字変換翻訳の場合は、Translation API を Video Intelligence API と結合します。   

必要な場合はリアルタイム翻訳、そうでない場合は一括翻訳

Translation API Advanced のドキュメント翻訳機能の大きな差別化要因として、単一ファイルに対してリアルタイムでの同期処理を行う機能が挙げられます。

たとえば、人事関連文書などのビジネス ドキュメントを翻訳する場合、オンライン翻訳により、比較的小さなファイルの短期間での翻訳にも柔軟に対応できるようになっています。REST または gRPC を通じてモバイルやブラウザ アプリケーションと API を簡単に統合し、100 以上の言語ペアにすばやくアクセスできるため、サポートされている任意の言語でコンテンツを翻訳できます。

一方、一括翻訳を使用すると、1 回のリクエストで複数のファイルを複数の言語に翻訳できます。リクエストごとに最大 100 個のファイルを送信できます。コンテンツ サイズの合計は、最大 1 GB または 1 億個までの Unicode コードポイントのうち、先に上限に達したほうになります。

最先端の精度(SOTA)とカスタマイズの柔軟性

翻訳において最高レベルの精度を達成するために、複数のオプションをご用意しました。

  • Google の SOTA 翻訳モデルの使用: 毎年、Google は、アプリ、Cloud API、Chrome において翻訳の品質向上と検索における多言語対応を実現するために多大な投資を行っています。機械翻訳システムの自動品質評価の一般的な指標は、機械翻訳と人が作成した参照訳との間の類似度に基づく BLEU スコアです。月単位の頻度で個々のモデルを徐々に改善していますが、かなり急激に進展する場合もあります。2019 年以降の各リリースにおける平均 BLEU スコアは、100 以上の言語の平均で 5 ポイント、ローリソース言語については 7 ポイント改善しました。

  • 特定の用語とフレーズについての用語集を活用: 用語集は、Google の用語管理機能です。これにより、ソース コンテンツをインポートし、商品名や部署名などの推奨される翻訳用語を定義できます。次に、API リクエストにおいて用語集を呼び出すと、推奨される翻訳用語が適用されます。これは、単語およびフレーズの翻訳で使用できます。

  • モデルの選択により、事前トレーニング済みのモデルを選ぶ: 機械翻訳用のカスタムモデルを作成すると、複数のクライアント ライブラリや複数の API がなくても、ニーズに合わせた最適なモデルを使用できます。Translation API Advanced では、モデルの選択の機能をサポートするようになりました。トレーニング済みのモデルを選択するか、作成した任意の言語ペア用に AutoML 上に構築されたカスタム ML モデルを選択し、同じ API と同じクライアント ライブラリを使用します。

  • AutoML を使用してカスタム翻訳モデルを構築する: AutoML Translation は、ML プロダクトのスイートです。これにより、ML の専門知識やコーディングを要することなく、独自のユースケースやデータ向けに高品質のモデルを構築できます。すでに人により検証された翻訳を用いて、特定の業界向けの翻訳を改善します。

リージョン エンドポイントによりローカライズを特定地域に限定

EU 内で事業を展開しているお客様向けに、EU への地域化に特化したエンドポイントをこのほどリリースいたしました。これは構成可能なエンドポイントで、お客様は、EU マルチリージョン内においてのみ、顧客データの機械翻訳処理の保存と実行ができます。現時点では、Google のトレーニング済みの翻訳モデルと用語集のみに対応していますが、一括翻訳にもまもなく対応いたします。

Eli Lilly 社が Cloud Translation で世界に向けてコンテンツを翻訳している方法

従来、Eli Lilly 社での翻訳は複雑でした: 独自のプロセスや要望が存在するさまざまな言語と組織に対応するため、数多くの翻訳ベンダーが必要でした。さらに、翻訳には費用と時間がかかりすぎていました。

この問題を解決するために、Eli Lilly 社では、体系化された方法を採用し、ユーザーとシステムはより短い期間と少ないリソースで高品質の翻訳を安全に作成できるようになりました。

さらに詳しい内容をご確認ください。また、Eli Lilly 社の翻訳技術担当リーダー兼グローバル規制アーキテクト、Thomas Griffin 氏によるデモをご覧ください。

Video Thumbnail

クリックして再生

詳細

- Google Cloud Translation プロダクト マネージャー Sarah Weldon

投稿先