よくある質問

誰がデータにラベルを付けますか?
プライマリ ベンダーである GlobalLogic Technologies Ltd と Teleperformance Global Services です。この 2 社は、Cloud のデータ処理に関する追加条項(CDPA)の下で正式にオンボーディングされている復処理者です。CDPA に規定されている、すべての該当する標準の復処理者のセキュリティおよびコンプライアンスの義務の対象となります。

データのセキュリティと保護に関する情報を提供していますか?
AI Platform Data Labeling Service で使用され、Google Cloud に保存されるすべてのデータは、デフォルトで暗号化されます。ラベリング担当者は、ラベル付け中のみデータを表示できます。お客様の許可なく、リクエストによるデータのラベル付け以外の目的でお客様のデータを開示または使用することはありません。データのラベル付けサービスのラベルが付いたデータセットを削除すると、24 時間以内にデータのすべてのコピーのシステムからの削除が開始されます。Google では、データの損失、不正なアクセス、データに対するスパムを防ぐためのセキュリティ対策を講じています。

ヘルスケア データにラベルを付けることはできますか?
AI Platform Data Labeling Service は HIPAA を遵守しているため、ヘルスケア データのラベル付けに使用できます。

ラベルの品質を保証するために、どのような品質管理方法を使用できますか?

複数のラベリング担当者に、それぞれのデータにアノテーションを付けるようリクエストできます。ラベル付けが一致しない場合は、合意するか、設定したラベリング担当者数の上限に達するまで他のラベリング担当者の意見を求めます。

たとえば、3 名のラベル付け担当者をリクエストしたとします。

  1. 画像分類タスクでは、3 名のラベル付け担当者すべてが各画像を分類し、多数決によって最終的な結果を決定します。
  2. 画像の境界ボックスタスクでは、最初のラベル付け担当者がボックスを描画し、2 番目のラベル付け担当者がそれらを検証します。2 番目のラベル付け担当者が同意せず、編集を加えた場合は、3 番目のラベル付け担当者が多数派の意見を決定します。
ラベル付け担当者は指示に従ってデータセットをラベル付けするため、ラベル付けではこの指示が重要となります。したがって、最適な指示の作成に関するヒントを参考にすることをおすすめします。指示の不明な点については、ご連絡いたします。
また、データのラベル付けジョブを徐々に増やすことをおすすめします。最初のラベル付けジョブを少量のデータで開始し、結果が期待どおりかどうかを確認します。フィードバックと結果に応じて指示を修正し、後続のジョブを作成します。大量のデータを安心して送信できるようになるまで、これを繰り返します。そうすることで品質の高い結果が得られ、予算を活用できます。

「タスク」と「オペレーション」の違いは何ですか?
タスクとは、データのインポート、データのエクスポート、ラベル付けのリクエストなど、Data Labeling Service を使用するお客様が行う操作です。オペレーションとは、お客様が API 呼び出しを使用してリクエストしたタスクを処理する Google の長時間実行ジョブを意味します。

インポート、エクスポート、ラベル付けのオペレーションが完了したことを知るにはどうすればよいですか?
Data Labeling Service API を使用してインポート、エクスポート、ラベル付けをリクエストすると、返されたレスポンスに、リクエストしたタスクを処理するオペレーションの名前が含まれています。このオペレーション名を使用して、リクエストのステータスを確認できます。
オペレーションの実行中は、進捗状況を示す progressPercent フィールドが表示されます(この項目がない場合、進捗率は 0% です)。オペレーションが完了すると、レスポンスに値 "done": true が含まれます。
また、オペレーションが完了したことを知らせるメールも届きます。

ラベル付けをリクエストした後にアノテーション付きデータセットの ID を取得するにはどうすればよいですか?
ListAnnotatedDatasets は、アノテーション付きデータセットの名前を返します。名前の形式は projects/sample_project_id/datasets/test_dataset_id/annotatedDatasets/sample_id で、annotatedDataSets/ より後の部分が ID です。

HttpError 404 が発生して「The requested resource accesses are not available.This request is rejected because of resource conflict.」というメッセージが表示されました。これはどういう意味ですか?
現在実行中の他のオペレーションでそのリソースが使用されていることを意味します。たとえば、データのインポート オペレーションが完了する前にラベル付けをリクエストした場合、このエラーが発生する可能性があります。

データセット / 指示 / ラベル付けタスクを削除できないのはなぜですか?
おそらく、実行中のオペレーションがそのリソースを使用していて、リソースの競合が発生しています。

ラベルセットを作成する際、すべてのラベルを 1 つずつ手作業で入力しなければなりませんか?
AI Platform Data Labeling Service UI を使用する場合は、1 つずつ手作業で入力する必要があります。API を使用する場合は、プログラム内の引数を使っていくつでもラベルを転送できます。

画像境界ボックスのデータラベル付けリクエストが数分で完了し、アノテーションが付けられていません。これはなぜですか?
おそらく、送信した画像の形式がサポートされていません。

ラベル付けタスクを送信した後、しばらくたっても進捗率がまだゼロのままであるのはなぜですか?
次の 2 つの理由が考えられます。(詳細については、cloudml-data-customer@google.com までお問い合わせください)
  • リクエスト数が多いため、お客様のタスクはまだ開始されていません。タスクはキューに入っており、できるだけ早く開始されます。
  • お客様が複数の担当者によるラベル付けをリクエストし、いずれかの担当者がまだどのデータ項目のラベル付けも行っていません。たとえば、3 人の担当者をリクエストした場合は、3 人全員がラベル付けを完了して初めてそのデータ項目は完了とマークされます。たとえ 1 人または 2 人の担当者がすべてのデータ項目のラベル付けを完了していても、進捗率はゼロのままです。