データセットを作成して管理する
データセットには、翻訳するコンテンツ タイプの代表サンプルが、ソース言語とターゲット言語の対応するセグメントのペアとして含まれています。このデータセットを入力値として利用し、モデルをトレーニングします。
1 つのプロジェクトに複数のデータセットを含めることができます。また、それぞれを個別のモデルのトレーニングに使用できます。
データセットを作成する
モデルのトレーニング データを格納するデータセットを作成します。データセットを作成するときに、トレーニング データのソース言語とターゲット言語を指定します。サポートされている言語とバリエーションの詳細については、カスタムモデルに対する言語サポートをご覧ください。
ウェブ UI
AutoML Translation コンソールを使用すると、新しいデータセットを作成してアイテムをデータセットにインポートできます。AutoML Translation のコンソールに移動します。
ナビゲーション パネルで、[データセット] をクリックします。
[データセット] ページで、[データセットを作成] をクリックします。
[データセットを作成] ダイアログで、データセットの詳細を指定します。
- データセットの名前を入力します。
- ソース言語とターゲット言語をプルダウン リストから選択します。
- [作成] をクリックします。
REST
以下の例では、POST
リクエストを project.locations.datasets/create
メソッドに送信しています。
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: Google Cloud プロジェクト ID。
- LOCATION: データセットが配置されるリージョン(
us-central1
など) - DATASET_NAME: データセットの名前。
- SOURCE_LANG_CODE: データセットのソース言語を指定する言語コード。
- TARGET_LANG_CODE: データセットのターゲット言語を指定する言語コード。
HTTP メソッドと URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
リクエストの本文(JSON):
{ "display_name": "DATASET_NAME", "source_language_code": "SOURCE_LANG_CODE", "target_language_code": "TARGET_LANG_CODE" }
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID" }
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。
セグメントをデータセットにインポートする
データセットを作成したら、セグメントペアをデータセットにインポートできます。ソースデータの準備の詳細については、トレーニング データの準備をご覧ください。
Google Cloud コンソールでは、ファイルごとに、インポートしたセグメントペアに 1 つ以上の Key-Value ペアでタグ付けできます。タグ設定により、セグメントをソース別に見つけてフィルタすることが容易になります。たとえば、Key-Value ペアは Domain:costmetics
または Year:2020
です。
タグは、Google Cloud コンソールからセグメントをインポートするときに追加できます。API ではタグ付けはサポートされていません。また、すでにインポートしたセグメントに対してタグを変更する、または追加することもできません。
ウェブ UI
次の手順で、アイテムを既存のデータセットにインポートします。
AutoML Translation のコンソールに移動します。
ナビゲーション パネルで、[データセット] をクリックします。
データセット リストで、トレーニング データを追加するデータセットの名前をクリックします。
[インポート] タブに移動します。
モデル トレーニング用にセグメントペアをインポートするファイルを追加します。
ローカル コンピュータから Cloud Storage バケットにファイルをアップロードするか、Cloud Storage から既存のファイルを選択します。
デフォルトでは、Cloud Translation はデータをトレーニング セット、検証セット、テストセットに自動的に分割します。分割ごとに別々のファイルをアップロードする場合は、[トレーニング、検証、テストに別のファイルを使用します(上級者向け)] を選択します。検証セットとテストセットでセグメントペア数の上限 10,000 を超えないように、データセットにセグメントペアが 100,000 個を超える場合は、このオプションを使用します。
セグメントペアにタグを追加するには、[タグ(省略可)] を開きます。
ファイルのリストで
[編集] をクリックすると、指定したファイルのすべてのセグメントペアに 1 つ以上のタグを追加できます。[タグ] ペインで、[タグを追加] をクリックします。
キーと値を入力します。この Key-Value ペアでセグメントをフィルタリングできます
さらにタグを追加するには、[タグを追加] をクリックします。
タグの追加が完了したら、[続行] をクリックします。
[続行] をクリックして、セグメントペアをインポートします。
インポートが完了すると、インポートしたセグメントペアをデータセットの [文] タブで確認できます。セグメントは、分割(トレーニング、検証、テスト)と 1 つ以上のタグでフィルタします。
REST
projects.locations.datasets.importData
メソッドを使用して、アイテムをデータセットにインポートします。
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: Google Cloud プロジェクト ID。
- LOCATION: データセットが配置されるリージョン(
us-central1
など) - DATASET_ID: データを追加するデータセットの ID。
- FILE_DISPLAY_NAME: インポートするデータを含むファイルの名前。
- USAGE: これらのセグメントペア(
TRAIN
、VALIDATION
、TEST
)のデータ分割を指定します。 - FILE_PATH: Cloud Storage のソースデータ ファイルのパス。
HTTP メソッドと URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
リクエストの本文(JSON):
{ "input_config": { "input_files": [ { "display_name": "FILE_DISPLAY_NAME", "usage": "USAGE", "gcs_source": { "input_uris": "gs://FILE_PATH" } }, ... ] } }
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。
データセットを作成して入力すると、モデルをトレーニングできます。詳細については、モデルの作成と管理をご覧ください。
インポートに関する問題
データセットの作成時に、セグメントペアが長すぎたり、ソース言語とターゲット言語のセグメントが同一であったり(未翻訳)重複している(同じソース言語のテキストを含むセグメントが複数存在している)場合、AutoML Translation でセグメントペアが削除される可能性があります。
セグメントペアが長すぎる場合は、セグメントを約 200 単語に分割してからデータセットを再作成することをおすすめします。最大長は 200 語です。データの処理中に、AutoML Translation は内部プロセスを使用して入力データをトークン化します。これにより、セグメントのサイズが大きくなる可能性があります。このトークン化されたデータは、AutoML Translation でデータサイズの測定に使用するものです。
同一のセグメントペアの場合は、データセットから削除します。一部のセグメントが翻訳されないようにするには、用語集リソースを使用してカスタム辞書を作成します。
データをエクスポートする
既存のデータセットから Cloud Storage バケットにセグメントペアをエクスポートできます。
ウェブ UI
AutoML Translation のコンソールに移動します。
ナビゲーション パネルで [データセット] をクリックして、データセットのリストを表示します。
データをエクスポートするデータセットの名前をクリックします。
データセットの詳細ページで、[データをエクスポート] をクリックします。
エクスポートされた TSV ファイルが保存される Cloud Storage の宛先を選択します。
[エクスポート] をクリックします。
AutoML Translation は、データセットのセット(トレーニング、検証、テスト)に応じた名前の TSV ファイルを出力します。
REST
projects.locations.datasets.exportData
メソッドを使用して、データを TSV ファイルとして Cloud Storage にエクスポートします。
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: Google Cloud プロジェクト ID。
- LOCATION: エクスポートするデータセットが配置されているリージョン(
us-central1
など)。 - DATASET_ID: エクスポートするデータセットの ID。
- DESTINATION_DIRECTORY: 出力が送信される Cloud Storage パス。
HTTP メソッドと URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
リクエストの本文(JSON):
{ "output_config": { "gcs_destination": { "output_uri_prefix": "gs://DESTINATION_DIRECTORY" } } }
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。
データセットのリスト表示
プロジェクトで使用可能なデータセットを一覧表示します。
ウェブ UI
AutoML Translation コンソールを使用して使用可能なデータセットを一覧表示するには、ナビゲーション パネルで [データセット] をクリックします。
別のプロジェクトのデータセットを表示するには、タイトルバーの右上にあるプルダウン リストからプロジェクトを選択します。
REST
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: Google Cloud プロジェクト ID。
- LOCATION: 一覧表示するデータセットが配置されているリージョン(
us-central1
など)。
HTTP メソッドと URL:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "datasets": [ { "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID", "displayName": "DATASET_NAME", "sourceLanguageCode": "SOURCE_LANG_CODE", "targetLanguageCode": "TARGET_LANG_CODE", "exampleCount": 8720, "createTime": "2022-10-19T23:24:34.734549Z", "updateTime": "2022-10-19T23:24:35.357525Z" }, ... ] }
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。
データセットの削除
ウェブ UI
AutoML Translation コンソールのナビゲーション パネルで、[データセット] をクリックして、使用可能なデータセットを一覧表示します。
削除するデータセットで、
[その他] > [削除] を選択します。確認ダイアログ ボックスで [確認] をクリックします。
REST
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: Google Cloud プロジェクト ID。
- LOCATION: 一覧表示するデータセットが配置されているリージョン(
us-central1
など)。 - DATASET_ID: 削除するデータセットの ID。
HTTP メソッドと URL:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
リクエストを送信するには、次のいずれかのオプションを開きます。
次のような JSON レスポンスが返されます。
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata" }, "done": true }
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。