データセットの作成と管理

データセットには、翻訳するコンテンツ タイプの代表サンプルが、ソース言語とターゲット言語の対応するセグメントのペアとして含まれています。このデータセットを入力値として利用し、モデルをトレーニングします。

1 つのプロジェクトに複数のデータセットを含めることができます。また、それぞれを個別のモデルのトレーニングに使用できます。

データセットを作成する

モデルのトレーニング データを格納するデータセットを作成します。データセットを作成するときに、トレーニング データのソース言語とターゲット言語を指定します。サポートされている言語とバリエーションの詳細については、カスタムモデルに対する言語サポートをご覧ください。

ウェブ UI

AutoML Translation コンソールを使用すると、新しいデータセットを作成してデータセットにインポートできます。
  1. AutoML Translation のコンソールに移動します。

    [翻訳] ページに移動

  2. ナビゲーション パネルで、[データセット] をクリックします。

  3. [データセット] ページで、[データセットを作成] をクリックします。

  4. [データセットを作成] ダイアログで、データセットの詳細を指定します。

    • データセットの名前を入力します。
    • ソース言語とターゲット言語をプルダウン リストから選択します。
    • [作成] をクリックします。

REST

以下の例では、POST リクエストを project.locations.datasets/create メソッドに送信しています。

リクエストのデータを使用する前に、次のように置き換えます。

  • PROJECT_ID: Google Cloud プロジェクト ID。
  • LOCATION: データセットが配置されるリージョン(us-central1 など)
  • DATASET_NAME: データセットの名前。
  • SOURCE_LANG_CODE: データセットのソース言語を指定する言語コード
  • TARGET_LANG_CODE: データセットのターゲット言語を指定する言語コード

HTTP メソッドと URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

リクエストの本文(JSON):

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

リクエストを送信するには、次のいずれかのオプションを展開します。

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

その他の言語

C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。

PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。

Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。

セグメントをデータセットにインポートする

データセットを作成したら、セグメントペアをデータセットにインポートできます。ソースデータの準備の詳細については、トレーニング データの準備をご覧ください。

Google Cloud コンソールでは、ファイルごとに、インポートしたセグメントペアに 1 つ以上の Key-Value ペアでタグ付けできます。タグ設定により、セグメントをソース別に見つけてフィルタすることが容易になります。たとえば、Key-Value ペアは Domain:costmetics または Year:2020 です。

タグは、Google Cloud コンソールからセグメントをインポートするときに追加できます。API ではタグ付けはサポートされていません。また、すでにインポートしたセグメントに対してタグを変更する、または追加することもできません。

ウェブ UI

次の手順で、アイテムを既存のデータセットにインポートします。

  1. AutoML Translation のコンソールに移動します。

    [翻訳] ページに移動

  2. ナビゲーション パネルで、[データセット] をクリックします。

  3. データセット リストで、トレーニング データを追加するデータセットの名前をクリックします。

  4. [インポート] タブに移動します。

  5. モデル トレーニング用にセグメントペアをインポートするファイルを追加します。

    ローカル コンピュータから Cloud Storage バケットにファイルをアップロードするか、Cloud Storage から既存のファイルを選択します。

    デフォルトでは、Cloud Translation はデータをトレーニング セット、検証セット、テストセットに自動的に分割します。分割ごとに別々のファイルをアップロードする場合は、[トレーニング、検証、テストに別のファイルを使用します(上級者向け)] を選択します。検証セットとテストセットでセグメントペア数の上限 10,000 を超えないように、データセットにセグメントペアが 100,000 個を超える場合は、このオプションを使用します。

  6. セグメントペアにタグを追加するには、[タグ(省略可)] を開きます。

    1. ファイルのリストで [編集] をクリックすると、指定したファイルのすべてのセグメントペアに 1 つ以上のタグを追加できます。

    2. [タグ] ペインで、[タグを追加] をクリックします。

    3. キーと値を入力します。この Key-Value ペアでセグメントをフィルタリングできます

    4. さらにタグを追加するには、[タグを追加] をクリックします。

    5. タグの追加が完了したら、[続行] をクリックします。

  7. [続行] をクリックして、セグメントペアをインポートします。

    インポートが完了すると、インポートしたセグメントペアをデータセットの [] タブで確認できます。セグメントは、分割(トレーニング、検証、テスト)と 1 つ以上のタグでフィルタします。

REST

projects.locations.datasets.importData メソッドを使用して、アイテムをデータセットにインポートします。

リクエストのデータを使用する前に、次のように置き換えます。

  • PROJECT_ID: Google Cloud プロジェクト ID。
  • LOCATION: データセットが配置されるリージョン(us-central1 など)
  • DATASET_ID: データを追加するデータセットの ID。
  • FILE_DISPLAY_NAME: インポートするデータを含むファイルの名前。
  • USAGE: これらのセグメントペア(TRAINVALIDATIONTEST)のデータ分割を指定します。
  • FILE_PATH: Cloud Storage のソースデータ ファイルのパス。

HTTP メソッドと URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

リクエストの本文(JSON):

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

リクエストを送信するには、次のいずれかのオプションを展開します。

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

その他の言語

C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。

PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。

Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。

データセットを作成して入力すると、モデルをトレーニングできます。詳細については、モデルの作成と管理をご覧ください。

インポートに関する問題

データセットの作成時に、セグメントペアが長すぎたり、ソース言語とターゲット言語のセグメントが同一であったり(未翻訳)重複している(同じソース言語のテキストを含むセグメントが複数存在している)場合、AutoML Translation でセグメントペアが削除される可能性があります。

セグメントペアが長すぎる場合は、セグメントを約 200 単語に分割してからデータセットを再作成することをおすすめします。最大長は 200 語です。データの処理中に、AutoML Translation は内部プロセスを使用して入力データをトークン化します。これにより、セグメントのサイズが大きくなる可能性があります。このトークン化されたデータは、AutoML Translation でデータサイズの測定に使用するものです。

同一のセグメントペアの場合は、データセットから削除します。一部のセグメントが翻訳されないようにするには、用語集リソースを使用してカスタム辞書を作成します。

データをエクスポートする

既存のデータセットから Cloud Storage バケットにセグメントペアをエクスポートできます。

ウェブ UI

  1. AutoML Translation のコンソールに移動します。

    [翻訳] ページに移動

  2. ナビゲーション パネルで [データセット] をクリックして、データセットのリストを表示します。

  3. データをエクスポートするデータセットの名前をクリックします。

  4. データセットの詳細ページで、[データをエクスポート] をクリックします。

  5. エクスポートされた TSV ファイルが保存される Cloud Storage の宛先を選択します。

  6. [エクスポート] をクリックします。

    AutoML Translation は、データセットのセット(トレーニング、検証、テスト)に応じた名前の TSV ファイルを出力します。

REST

projects.locations.datasets.exportData メソッドを使用して、データを TSV ファイルとして Cloud Storage にエクスポートします。

リクエストのデータを使用する前に、次のように置き換えます。

  • PROJECT_ID: Google Cloud プロジェクト ID。
  • LOCATION: エクスポートするデータセットが配置されているリージョン(us-central1 など)。
  • DATASET_ID: エクスポートするデータセットの ID。
  • DESTINATION_DIRECTORY: 出力が送信される Cloud Storage パス。

HTTP メソッドと URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

リクエストの本文(JSON):

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

リクエストを送信するには、次のいずれかのオプションを展開します。

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

その他の言語

C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。

PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。

Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。

データセットをリスト表示する

プロジェクトで使用可能なデータセットを一覧表示します。

ウェブ UI

AutoML Translation コンソールを使用して使用可能なデータセットを一覧表示するには、ナビゲーション パネルで [データセット] をクリックします。

別のプロジェクトのデータセットを表示するには、タイトルバーの右上にあるプルダウン リストからプロジェクトを選択します。

REST

リクエストのデータを使用する前に、次のように置き換えます。

  • PROJECT_ID: Google Cloud プロジェクト ID。
  • LOCATION: 一覧表示するデータセットが配置されているリージョン(us-central1 など)。

HTTP メソッドと URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

リクエストを送信するには、次のいずれかのオプションを展開します。

次のような JSON レスポンスが返されます。

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

その他の言語

C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。

PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。

Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。

データセットの削除

ウェブ UI

  1. AutoML Translation コンソールのナビゲーション パネルで、[データセット] をクリックして、使用可能なデータセットを一覧表示します。

  2. 削除するデータセットで、[その他] > [削除] を選択します。

  3. 確認ダイアログ ボックスで [確認] をクリックします。

REST

リクエストのデータを使用する前に、次のように置き換えます。

  • PROJECT_ID: Google Cloud プロジェクト ID。
  • LOCATION: 一覧表示するデータセットが配置されているリージョン(us-central1 など)。
  • DATASET_ID: 削除するデータセットの ID。

HTTP メソッドと URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

リクエストを送信するには、次のいずれかのオプションを展開します。

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

その他の言語

C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。

PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。

Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。