Der AI Platform Data Labeling Service unterstützt drei Aufgabentypen zur Erstellung von Labels für Text:
- Klassifizierungsaufgaben, bei denen Labelersteller jedem Textsegment ein oder mehrere Labels zuweisen. Sie können die Anzahl der Labelersteller angeben, die jedes Textsegment mit Labels versehen sollen. Es sollten maximal fünf sein. Data Labeling Service bestimmt dann die zu verwendenden Labels nach dem Mehrheitsprinzip.
- Klassifizierungsaufgaben mit Sentimentanalyse, bei denen der Vorgang der Labelerstellung derselbe wie bei Textklassifizierungsaufgaben ist. Diese Art von Labelerstellung wurde in Data Labeling Service eingestellt. Für diese Art von Labelerstellung können Sie zur einheitlichen Cloud AI Platform wechseln.
- Entitätsextraktionsaufgaben, bei denen Labelersteller eine Liste von Labels sowie ein Textsegment mit bis zu 100.000 Zeichen erhalten und für jedes Label die Start- und Endposition der betreffenden Textstelle auswählen. Die Labelersteller können auch "not included" (nicht enthalten) angeben. Der Data Labeling Service erfasst dann für jedes Label die Indexe des ausgewählten Textes.
Die Anfrage zur Labelerstellung ist ein lang andauernder Vorgang. Die Antwort enthält die Vorgangs-ID, mit der Sie den Status der Anfrage prüfen können. Wenn die Labelerstellung abgeschlossen ist, enthält die Antwort den Wert "done": true
.
Beachten Sie, dass bisher nur Text in Englisch unterstützt wird.
Textklassifizierungsaufgaben
Web-UI
Rufen Sie die Data Labeling Service-UI auf.
Wählen Sie im linken Navigationsbereich Datasets aus.
Auf der Seite Datasets wird der Status zuvor erstellter Datasets für das aktuelle Projekt angezeigt.
Klicken Sie auf den Namen des Datasets, das Sie für die Labelerstellung senden möchten.
Es können alle Datasets mit dem Status Import complete (Import abgeschlossen) gesendet werden. In der Spalte Datentyp wird angezeigt, ob das Dataset Bilder, Videos oder Text enthält.
Klicken Sie in der Titelleiste der Seite Dataset-Detail auf die Schaltfläche Labeling-Aufgabe erstellen.
Geben Sie auf der Seite Neue Labeling-Aufgabe einen Namen und eine Beschreibung für das mit Anmerkungen versehene Dataset ein.
annotated dataset
ist die Version des Datasets, das von menschlichen Labelerstellern hinzugefügt wurde.Wählen Sie in der Drop-down-Liste Ziel den gewünschten Typ der Aufgabe zur Labelerstellung aus.
Die Drop-down-Liste enthält nur die Ziele, die für den Datentyp in diesem Dataset verfügbar sind. Wenn Sie das gewünschte Ziel nicht sehen, bedeutet das wahrscheinlich, dass Sie ein Dataset mit einem anderen Datentyp ausgewählt haben. Schließen Sie in diesem Fall die Seite Neue Labeling-Aufgabe und wählen Sie ein anderes Dataset aus.
Wählen Sie in der Drop-down-Liste Label set (Labelsatz) den Labelsatz aus, der von den Labelerstellern auf die Datenelemente in diesem Satz angewendet werden soll.
Die Drop-down-Liste enthält alle Labelsätze, die diesem Projekt zugeordnet sind. Sie müssen einen Satz auswählen.
Wählen Sie in der Drop-down-Liste Instruction (Anleitung) die Anleitung aus, die Sie den Labelerstellern für dieses Dataset zur Verfügung stellen möchten.
Die Drop-down-Liste enthält alle Anleitungen, die diesem Projekt zugeordnet sind. In der Anfrage zur Labelerstellung müssen immer Anweisungen enthalten sein.
Geben Sie in der Drop-down-Liste Labelersteller pro Datenelement an, wie viele Labelersteller die einzelnen Elemente im Dataset jeweils mit Labels versehen sollen.
Die Standardeinstellung ist ein Labelersteller. Sie können aber auch drei oder fünf Labelersteller für jedes Element anfordern.
Klicken Sie auf das Kästchen, um zu bestätigen, dass Sie nachvollziehen können, wie Ihnen die Labelerstellung in Rechnung gestellt wird.
Klicken Sie auf Create (Erstellen).
Befehlszeile
Legen Sie die folgenden Umgebungsvariablen fest:PROJECT_ID
für Ihre Google Cloud-Projekt-ID.-
DATASET_ID
für die ID Ihres Datasets aus der Antwort, die Sie beim Erstellen des Datasets erhalten haben. Die ID wird am Ende des vollständigen Dataset-Namens angezeigt:projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
INSTRUCTION_RESOURCE_NAME
für den Namen Ihrer Anleitungsressource.ANNOTATION_SPEC_SET_RESOURCE_NAME
für den Namen Ihrer Labelsatz-Ressource.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \ -d '{ "basicConfig": { "instruction": "${INSTRUCTION_RESOURCE_NAME}", "annotatedDatasetDisplayName": "curl_testing_annotated_dataset", "labelGroup": "test_label_group", "replica_count": 1 }, "feature": "TEXT_CLASSIFICATION", "textClassificationConfig": { "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}", }, }'
Die Ausgabe sieht in etwa so aus: Sie können den Status der Aufgabe anhand der Vorgangs-ID abrufen. Hier finden Sie ein Beispiel dafür, wie Sie den Status eines Vorgangs abrufen.
{ "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064", "metadata": { "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextClassificationOperationMetadata", "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c" } }
Java
Für dieses Codebeispiel müssen die Java-Clientbibliotheken installiert sein.Entitätsextraktionsaufgaben
Web-UI
Rufen Sie die Data Labeling Service-UI auf.
Wählen Sie im linken Navigationsbereich Datasets aus.
Auf der Seite Datasets wird der Status zuvor erstellter Datasets für das aktuelle Projekt angezeigt.
Klicken Sie auf den Namen des Datasets, das Sie für die Labelerstellung senden möchten.
Es können alle Datasets mit dem Status Import complete (Import abgeschlossen) gesendet werden. In der Spalte Datentyp wird angezeigt, ob das Dataset Bilder, Videos oder Text enthält.
Klicken Sie in der Titelleiste der Seite Dataset-Detail auf die Schaltfläche Labeling-Aufgabe erstellen.
Geben Sie auf der Seite Neue Labeling-Aufgabe einen Namen und eine Beschreibung für das mit Anmerkungen versehene Dataset ein.
annotated dataset
ist die Version des Datasets, das von menschlichen Labelerstellern hinzugefügt wurde.Wählen Sie in der Drop-down-Liste Ziel den gewünschten Typ der Aufgabe zur Labelerstellung aus.
Die Drop-down-Liste enthält nur die Ziele, die für den Datentyp in diesem Dataset verfügbar sind. Wenn Sie das gewünschte Ziel nicht sehen, bedeutet das wahrscheinlich, dass Sie ein Dataset mit einem anderen Datentyp ausgewählt haben. Schließen Sie in diesem Fall die Seite Neue Labeling-Aufgabe und wählen Sie ein anderes Dataset aus.
Wählen Sie in der Drop-down-Liste Label set (Labelsatz) den Labelsatz aus, der von den Labelerstellern auf die Datenelemente in diesem Satz angewendet werden soll.
Die Drop-down-Liste enthält alle Labelsätze, die diesem Projekt zugeordnet sind. Sie müssen einen Satz auswählen.
Wählen Sie in der Drop-down-Liste Instruction (Anleitung) die Anleitung aus, die Sie den Labelerstellern für dieses Dataset zur Verfügung stellen möchten.
Die Drop-down-Liste enthält alle Anleitungen, die diesem Projekt zugeordnet sind. In der Anfrage zur Labelerstellung müssen immer Anweisungen enthalten sein.
Geben Sie in der Drop-down-Liste Labelersteller pro Datenelement an, wie viele Labelersteller die einzelnen Elemente im Dataset jeweils mit Labels versehen sollen.
Die Standardeinstellung ist ein Labelersteller. Sie können aber auch drei oder fünf Labelersteller für jedes Element anfordern.
Klicken Sie auf das Kästchen, um zu bestätigen, dass Sie nachvollziehen können, wie Ihnen die Labelerstellung in Rechnung gestellt wird.
Klicken Sie auf Create (Erstellen).
Befehlszeile
Legen Sie die folgenden Umgebungsvariablen fest:PROJECT_ID
für Ihre Google Cloud-Projekt-ID.-
DATASET_ID
für die ID Ihres Datasets aus der Antwort, die Sie beim Erstellen des Datasets erhalten haben. Die ID wird am Ende des vollständigen Dataset-Namens angezeigt:projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
INSTRUCTION_RESOURCE_NAME
für den Namen Ihrer Anleitungsressource.ANNOTATION_SPEC_SET_RESOURCE_NAME
für den Namen Ihrer Labelsatz-Ressource.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \ -d '{ "basicConfig": { "instruction": "${INSTRUCTION_RESOURCE_NAME}", "annotatedDatasetDisplayName": "curl_testing_annotated_dataset", "labelGroup": "test_label_group", "replica_count": 1 }, "feature": "TEXT_ENTITY_EXTRACTION", "textEntityExtractionConfig": { "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}", }, }'
Die Ausgabe sieht in etwa so aus: Sie können den Status der Aufgabe anhand der Vorgangs-ID abrufen. Hier finden Sie ein Beispiel dafür, wie Sie den Status eines Vorgangs abrufen.
{ "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064", "metadata": { "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextEntityExtractionOperationMetadata", "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c" } }