データセットには、翻訳するコンテンツ タイプの代表サンプルが、ソース言語とターゲット言語の対応する文のペアとして含まれています。このデータセットを入力として利用してモデルをトレーニングします。
データセットの主な作成手順は次のとおりです。
- データセットを作成し、ソース言語とターゲット言語を指定します。
- データセットに文のペアをインポートします。
1 つのプロジェクトに複数のデータセットを含めることができ、それぞれ別個のモデルのトレーニングに使用されます。使用可能なデータセットの一覧の取得と、不要になったデータセットの削除ができます。
データセットの作成
カスタムモデルを作成するには、まず空のデータセットを作成します。作成したデータセットには、最終的にそのモデルのトレーニング データが格納されます。データセットの作成時に、モデルのソース言語とターゲット言語を指定します。サポートされている言語とバリエーションの詳細については、カスタムモデルに対する言語サポートをご覧ください。
ウェブ UI
AutoML Translation UI を使用すると、新しいデータセットの作成とそのデータセットへの項目のインポートを同じページで行えます。
AutoML Translation UI にアクセスします。
タイトルバーの右上のプルダウン リストから、AutoML Translation を有効にしたプロジェクトを選択します。
[データセット] タブで、[データセットを作成] をクリックします。
[データセットを作成] ダイアログで、次の操作を行います。
- データセットの名前を入力します。
ソース言語とターゲット言語をプルダウン リストから選択します。[原文の言語] で言語を選択すると、[ターゲット言語] に使用可能な言語が表示されます。
[作成] をクリックします。[インポート] タブが開きます。
REST
データセット作成リクエストを送信する
POST
リクエストを project.locations.datasets/create
メソッドに送信する方法を以下に示します。この例では、Google Cloud CLI を使ってプロジェクト用に設定されたサービス アカウントのアクセス トークンを使用します。
リクエストのデータを使用する前に、次のように置き換えます。
- project-id: Google Cloud Platform プロジェクト ID
- dataset-name: 新しいデータセットの名前
- source-language-code: 翻訳元の言語(「en」などの ISO 639-1 コード)
- target-language-code: 翻訳先の言語(「es」などの ISO 639-1 コード)
HTTP メソッドと URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
リクエストの本文(JSON):
{ "displayName": "dataset-name", "translationDatasetMetadata": { "sourceLanguageCode": "source-language-code", "targetLanguageCode": "target-language-code" } }
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:48.155710Z", "createDatasetDetails": {} } }
結果を取得する
リクエストの結果を取得するには、GET
リクエストを operations
リソースに送信します。このようなリクエストを送信する方法は次のとおりです。
リクエストのデータを使用する前に、次のように置き換えます。
- operation-name: 元の API への呼び出しへのレスポンスで返されるオペレーションの名前
- project-id: Google Cloud Platform プロジェクト ID
HTTP メソッドと URL:
GET https://automl.googleapis.com/v1/operation-name
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:52.321072Z", ... }, "done": true, "response": { "@type": "resource-type", "name": "resource-name" } }
Go
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Go API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Java
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Java API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Node.js
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Node.js API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Python
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Python API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の AutoML Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の AutoML Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の AutoML Translation リファレンス ドキュメントをご覧ください。
データセットへの項目のインポート
データセットを作成したら、トレーニング用の文のペアをそこにインポートできます。トレーニング データの準備の詳細については、トレーニング データの準備方法をご覧ください。
ウェブ UI
AutoML Translation UI を使用すると、新しいデータセットの作成とデータセットへの項目のインポートを同じページで行えます(データセットの作成をご覧ください)。以下の手順では、既存のデータセットに項目をインポートします。
データセット フォルダを作成したら、データをアップロードします。モデルのトレーニングに使用する文のペアをアップロードします。
[インポート] タブでは、TSV または TMX ファイルをローカル コンピュータまたは Cloud Storage からアップロードできます。ローカルにインポートされたファイルの場合は、ファイルを選択して [参照] をクリックします。フォルダ一覧が表示されます。ファイルをアップロードするフォルダを選択します。Cloud Storage でホストされているこのディレクトリは、データ所在地を保証するために必要です。
文のペアを含む複数のファイルをアップロードする場合は、[トレーニング、検証、テストに別のファイルを使用します(上級者向け)] のチェックボックスをオンにします。データセットに 100,000 個を超える文のペアが含まれる場合は、このオプションの使用をおすすめします。検証とテストセットには最大 10,000 個の文のペアを割り当てる必要があります。割り当てられていない場合、AutoML Translation はエラーを返します。
[続行] をクリックします。
[データセット] ページに戻ります。ドキュメントのインポート中はデータセットに進行中のアニメーションが表示されます。データセットが正常にアップロードされると、プログラムの登録に使用したメールアドレスにメッセージが送信されます。
データセットを確認します。
データをインポートできたら、[データセット] タブからデータセットを選択して詳細を確認します。[センテンス] タブが有効になり、データセットの名前が表示されます。センテンスペアが一覧表示されます。各ペアには「トレーニング」、「検証」、「テスト」が割り当てられ、ペアが使用される処理段階が示されます。
REST
projects.locations.datasets.importData
メソッドを使用して、アイテムをデータセットにインポートします。
リクエストのデータを使用する前に、次のように置き換えます。
- dataset-name: データセットを作成したときに API から返されたデータセットの名前
- bucket-name: データセットを記述する入力 CSV を含む Cloud Storage バケット
- csv-file-name: データセットを記述する入力 CSV ファイルの名前
- project-id: Google Cloud Platform プロジェクト ID
HTTP メソッドと URL:
POST https://automl.googleapis.com/v1/dataset-name:importData
リクエストの本文(JSON):
{ "inputConfig": { "gcsSource": { "inputUris": "gs://bucket-name/csv-file-name" } } }
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2018-04-27T01:28:36.128120Z", "updateTime": "2018-04-27T01:28:36.128150Z", "cancellable": true } }
Go
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Go API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Java
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Java API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Node.js
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Node.js API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Python
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Python API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の AutoML Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の AutoML Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の AutoML Translation リファレンス ドキュメントをご覧ください。
データセットを作成して入力すると、モデルをトレーニングできるようになります(モデルの作成と管理をご覧ください)。
データセットの管理
データセットの一覧表示
1 つのプロジェクトには多数のデータセットを含めることができます。このセクションでは、プロジェクトで使用できるデータセットを一覧表示する方法を説明します。
ウェブ UI
AutoML Translation UI を使用して利用可能なデータセットを一覧表示するには、左側のナビゲーション メニューの上部にある [データセット] リンクをクリックします。
別のプロジェクトのデータセットを表示するには、タイトルバーの右上にあるプルダウン リストからプロジェクトを選択します。
REST
リクエストのデータを使用する前に、次のように置き換えます。
- project-id: Google Cloud Platform プロジェクト ID
HTTP メソッドと URL:
GET https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "datasets": [ { "name": "projects/project-number/locations/us-central1/datasets/dataset-id", "displayName": "dataset-display-name", "createTime": "2019-10-01T22:47:38.347689Z", "etag": "AB3BwFpPWn6klFqJ867nz98aXr_JHcfYFQBMYTf7rcO-JMi8Ez4iDSNrRW4Vv501i488", "translationDatasetMetadata": { "sourceLanguageCode": "source-language", "targetLanguageCode": "target-language" } }, ... ] }
Go
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Go API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Java
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Java API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Node.js
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Node.js API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Python
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Python API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の AutoML Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の AutoML Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の AutoML Translation リファレンス ドキュメントをご覧ください。
データセットの削除
ウェブ UI
AutoML Translation UI で、左側のナビゲーション メニューの上部にある [データセット] リンクをクリックし、使用可能なデータセットを一覧表示します。
削除する行の右端にあるその他メニューをクリックし、[削除] を選択します。
確認ダイアログ ボックスで [確認] をクリックします。
REST
- dataset-name は、データセットを作成したときにレスポンスで返されたデータセットの完全な名前に置き換えます。完全な名前の形式は
projects/{project-id}/locations/us-central1/datasets/{dataset-id}
です。
リクエストのデータを使用する前に、次のように置き換えます。
- dataset-name: 削除するデータセットの名前(
project/project-id/locations/us-central1/datasets/dataset-id
形式)。
HTTP メソッドと URL:
DELETE https://automl.googleapis.com/v1/dataset-name
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-02T16:43:03.923442Z", "updateTime": "2019-10-02T16:43:03.923442Z", "deleteDetails": {} }, "done": true, "response": { "@type": "type.googleapis.com/google.protobuf.Empty" } }
Go
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Go API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Java
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Java API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Node.js
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Node.js API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Python
AutoML Translation 用のクライアント ライブラリをインストールして使用する方法については、AutoML Translation クライアント ライブラリをご覧ください。詳細については、AutoML Translation Python API のリファレンス ドキュメントをご覧ください。
AutoML Translation で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の AutoML Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の AutoML Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の AutoML Translation リファレンス ドキュメントをご覧ください。
インポートに関する問題
データセットの作成時に、文章が長すぎる場合や、ソース言語とターゲット言語でまったく同じ文章のペアである場合、AutoML Translation で文章のペアを削除する可能性があります。
長すぎる文章のペアでは、文章を約 200 単語ずつに分割して、削除されたペアを含めるようにデータセットを再作成することをおすすめします。データの処理中に、AutoML Translation は内部プロセスを使用して入力データをトークン化します。これにより、文章のサイズが大きくなる可能性があります。このトークン化されたデータは、AutoML Translation でデータサイズの測定に使用するものです。したがって、最大長は 200 語です。
ソース言語とターゲット言語で同じである文章のペアの場合は、データセットから削除できます。こうした文章を翻訳しない場合は、用語集リソースを使用して、AutoML Translation での特定の用語の処理方法を定義するカスタム辞書を作成します。