このページは Cloud Translation API によって翻訳されました。

カスタムスプリッター

カスタムスプリッターは、各論理ドキュメントを識別することで、複合ドキュメント（複数のクラスで構成されるドキュメント）を複数の単一クラスドキュメントに分割する目的で使用するために設計されています。たとえば、住宅ローンパッケージには、申請書、収入証明書、写真付き身分証明書など、複数のクラスが含まれています。カスタムスプリッタープロセッサを使用するには、お客様独自のドキュメントとカスタムクラスを使用してゼロからトレーニングします。

スプリッターの説明と使用方法

お客様のドキュメントに特化し、お使いのデータを使用してトレーニングと評価を行うカスタムスプリッターを作成します。このプロセッサは、一連のユーザー定義のクラスからドキュメントのクラスを識別します。このトレーニング済みプロセッサをプロダクション　ドキュメントに使用できます。通常は、異なるタイプの論理ドキュメントで構成されるファイルに対してカスタムスプリッターツールを使用し、それぞれのクラス ID を使用して適切な抽出プロセッサにドキュメントを渡してエンティティを抽出します。

ML モデルは完璧ではなく、ある程度はエラーが発生します。また、通常、分割時のエラーは大きな問題になります（間違った 2 つのドキュメントを作成し、抽出エラーの原因になります）。そのため、分割予測後、実際のファイル分割前に、必ず人間による確認ステップを実施することをおすすめします。ビジネス要件によっては、常に人間によるレビューに代わる方法もあります。

予測の信頼スコアを使用して、人間によるレビューを行わない（十分に高い場合）かどうかを決定します。この信頼スコアのしきい値は、ある信頼スコアのエラー率に関する履歴データに基づいて決定する必要があります。これは、ビジネスプロセスにおけるエラーの許容範囲と、人間によるレビューを省略する要件に基づくビジネス上の決定であるべきです。
ユースケースによっては、分割されたドキュメントを、予測されたクラスに応じて適切な抽出ツールに直接転送できます。次に、抽出が不完全であるか、信頼スコアが低い場合は、分割ドキュメントを分離し、元の複合ドキュメントをトリガーして分割の決定をレビューします。これは、ワークフローの要件がかなり複雑になります。

Google Cloud コンソールでカスタムスプリッターを作成する

このクイックスタートガイドでは、Document AI で、調達ドキュメントを分割して分類するカスタムスプリッターを作成し、トレーニングする方法について説明します。ドキュメントの準備はほとんど完了しているため、カスタムスプリッターの作成に集中できます。

カスタムスプリッターを作成して使用する一般的なワークフローは次のとおりです。

Document AI でカスタムスプリッターを作成します。
空の Cloud Storage バケットを使用してデータセットを作成します。
プロセッサスキーマを定義して作成します（クラス）。
ドキュメントをインポートします。
トレーニングセットとテストセットにドキュメントを割り当てます。
Document AI またはラベル付けタスクを使用して、ドキュメントに手動でアノテーションを付けます。
プロセッサをトレーニングします。
プロセッサを評価します。
プロセッサをデプロイします。
プロセッサをテストします。
ドキュメントでプロセッサを使用します。

ドキュメントがクラスごとに個別のフォルダに保存されている場合は、インポート時にクラスを指定して、手順 6 をスキップできます。

このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、「ガイドを表示」をクリックしてください。

ガイドを表示

始める前に

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Document AI, Cloud Storage APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Document AI, Cloud Storage APIs.

Enable the APIs

プロセッサの作成

Google Cloud コンソールの Document AI セクションで、[Workbench] ページに移動します。

Workbench
[カスタムドキュメントスプリッター] で、[プロセッサを作成] を選択します。
[プロセッサを作成] メニューで、プロセッサの名前を入力します（例: my-custom-document-splitter）。
最も近いリージョンを選択します。
[作成] を選択します。[プロセッサの詳細] タブが表示されます。

データセットの構成

この新しいプロセッサをトレーニングするには、分割して分類するドキュメントをプロセッサが識別できるように、トレーニングデータとテストデータを含むデータセットを作成する必要があります。

このデータセットには新しいロケーションが必要です。これは空の Cloud Storage バケットまたはフォルダにすることも、Google 管理の（内部）ロケーションを許可することもできます。

Google 管理のストレージを使用する場合は、そのオプションを選択します。
顧客管理の暗号鍵（CMEK）を使用するために独自のストレージを使用する場合は、[独自のストレージロケーションを指定] を選択し、後の手順を行います。

custom-splitter-3

データセット用の Cloud Storage バケットを作成する

プロセッサの [トレーニング] タブに移動します。
[データセットのロケーションを設定] を選択します。空の Cloud Storage バケットまたはフォルダを選択または作成するように求められます。
[参照] を選択して、[フォルダを選択] を開きます。
[新しいバケットを作成] アイコンをクリックし、画面の指示に沿って新しいバケットを作成します。バケットを作成すると、そのバケットの [フォルダの選択] ページが表示されます。Cloud Storage バケットの作成の詳細については、Cloud Storage バケットをご覧ください。

注: バケットはストレージの最上位に位置するもので、フォルダを入れ子にできます。バケットを作成して選択する代わりに、既存のバケット内に空のフォルダを作成して選択することもできます。詳細については、Cloud Storage のシミュレートされたフォルダをご覧ください。
バケットの [フォルダの選択] ページで、ダイアログの下部にある [選択] ボタンを選択します。

[宛先のパス] に選択したバケット名が入力されていることを確認します。[データセットを作成] を選択します。データセットの作成には、数分かかることがあります。

プロセッサスキーマを定義する

プロセッサスキーマは、ドキュメントをデータセットにインポートする前と後のどちらでも作成できます。スキーマには、ドキュメントにアノテーションを付けるために使用するラベルが用意されています。

[トレーニング] タブで、左下の [スキーマを編集] を選択します。[ラベルの管理] ページが開きます。
[ラベルを作成] を選択します。
ラベルの名前を入力します。[作成] を選択します。スキーマの作成と編集の詳細な手順については、プロセッサスキーマを定義するをご覧ください。

注: プロセッサのトレーニングが完了すると、ラベルを削除できなくなるため、使用しないラベルは無効にしてください。
プロセッサスキーマ用に次のラベルをそれぞれ作成します。
- bank_statement
- form_1040
- form_w2
- form_w9
- paystub
ラベルが完成したら、[保存] を選択します。

ラベルなしドキュメントをデータセットにインポートする

次のステップでは、ラベルなしドキュメントをデータセットにインポートしてラベルを付けます。別の方法として、クラスごとにフォルダに整理されたドキュメントをインポートすることをおすすめします（利用可能な場合）。

独自のプロジェクトで作業する場合は、データのラベル付けの方法を決定します。ラベル付けの方法をご確認ください。

Document AI カスタムプロセッサでは、トレーニングセットとテストセットで少なくとも 10 個のドキュメントと、各セットのラベルごとに 10 個のインスタンスが必要です。最適なパフォーマンスを得るには、各セットに 50 個以上のドキュメントと、各ラベルに 50 個のインスタンスを含めることをおすすめします。一般に、トレーニングデータが多くなるほど、精度が高くなります。

[トレーニング] タブで、[ドキュメントのインポート] を選択します。
この例では、このパスを [ソースパス] に入力します。これには 1 つのドキュメント PDF が含まれています。
```
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-Unlabeled
```
[ドキュメントラベル] を [なし] に設定します。
[データセット分割] プルダウンを [未割り当て] に設定します。

このフォルダ内のドキュメントには、デフォルトでラベルが付いていないか、テストセットやトレーニングセットに割り当てられません。
[インポート] を選択します。Document AI により、ドキュメントがバケットからデータセットに読み込まれます。インポートバケットの変更や、インポート完了後のバケットからの読み取りは行われません。

ドキュメントを読み込む際、必要に応じて、インポート時に設定されたトレーニングまたはテストのセットにドキュメントを割り当てたり、後で割り当てを待つこともできます。

ドキュメントまたはインポートしたドキュメントを削除するには、[トレーニング] タブでそれらのドキュメントを選択し、[削除] を選択します。

インポートするデータの準備について詳しくは、データ準備ガイドをご覧ください。

省略可: インポート時にドキュメントに一括ラベルを付ける

インポート時に特定のディレクトリにあるすべてのドキュメントにラベルを付けることで、ラベル付けにかかる時間を節約できます。トレーニングドキュメントがクラスごとにフォルダに整理されている場合は、[ドキュメントラベル] フィールドを使用してドキュメントのクラスを指定できるため、各ドキュメントを手動でラベル付けする必要がなくなります。

custom-splitter-8

この画像では、Bank_statements と Invoice を定義済みのラベル（ドキュメントクラス）として選択できます。または、CREATE LABEL を使用して新しいクラスを定義することもできます。

ドキュメントのインポート をクリックします。
[ソースパス] に次のパスを入力します。このバケットには、ラベル付けされていないドキュメントが PDF 形式で含まれています。

cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
[データ分割] リストから [自動分割] を選択します。これにより、トレーニングセットが 80%、テストセットが 20% になるようにドキュメントが自動的に分割されます。
[ラベルを適用] で、[ラベルを選択] を選択します。
これらのサンプルドキュメントには [その他] を選択します。
[インポート] をクリックして、ドキュメントがインポートされるのを待ちます。このページを離れて、後で戻ってくることもできます。

ドキュメントにラベルを付ける

ドキュメントにラベルを適用するプロセスをアノテーションといいます。

[トレーニング] タブに戻り、[ドキュメント] を選択して [ラベル管理] コンソールを開きます。
このドキュメントには、識別してラベル付けする必要がある複数のページグループが含まれています。まず、分割ポイントを特定する必要があります。画像ビューでページ 1 とページ 2 の間にマウスを移動し、+ 記号を選択します。
次のページ番号の前に分割点を作成します: 2、3、4、5。

完了すると、コンソールは次のようになります。

注: 論理ドキュメントを分割したら、すぐにステップ 4（ドキュメントタイプの設定）を行えます。
[ドキュメントの種類] プルダウンで、各ページグループに適したラベルを選択します。

ページ ドキュメントの種類

1 paystub

2 form_w9

3 bank_statement

4 form_w2

5、6 form_1040

完了後のラベル付きドキュメントは次のようになります。
ドキュメントのアノテーションが完成したら、[ラベル付きとしてマーク] を選択します。

[トレーニング] タブの左側のパネルで、1 つのドキュメントにラベルが付けられています。

ページ	ドキュメントの種類
1	`paystub`
2	`form_w9`
3	`bank_statement`
4	`form_w2`
5、6	`form_1040`

アノテーション付きドキュメントをトレーニングセットに割り当てる

このサンプルドキュメントにラベルを付けるのが完了したので、これをトレーニングセットに割り当てることができます。

[トレーニング] タブで、[すべて選択] チェックボックスをオンにします。
[セットに割り当て] リストから [トレーニング] を選択します。

左側のパネルで、1 つのドキュメントがトレーニングセットに割り当てられていることがわかります。

一括のラベル付けを使用したデータのインポート

次に、ラベルなし PDF ファイルをインポートし、種類ごとに Cloud Storage フォルダに並べ替えます。一括のラベル付けでは、パスに基づいてインポート時にラベルを割り当てることで、ラベル付けの時間を節約できます。

[トレーニング] タブで、[ドキュメントのインポート] を選択します。
[ソースパス] に次のパスを入力します。このフォルダには、銀行取引明細書の PDF が含まれています。
```
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/bank-statement
```
[ドキュメントラベル] を bank_statement に設定します。
[データセット分割] メニューで [自動分割] に設定します。これにより、トレーニングセットが 80%、テストセットが 20% になるようにドキュメントが自動的に分割されます。
[別のフォルダを追加] を選択して、フォルダを追加します。

次のパスとドキュメントラベルを使用して、前述の手順を繰り返します。

バケットのパス	ドキュメントラベル
`cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/1040`	`form_1040`
`cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w2`	`form_w2`
`cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w9`	`form_w9`
`cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/paystub`	`paystub`

完了すると、コンソールは次のようになります。 custom-splitter-12

[インポート] を選択します。インポートには数分かかります。

インポートが終了すると、[Train] タブにドキュメントが表示されます。

事前にラベル付けされたデータをインポートする

このガイドでは、Document 形式のラベル付け済みデータが JSON ファイルとして提供されます。

これは、Document AI がドキュメントの処理、人間参加型によるラベル付け、データセットのエクスポートを行うときに出力するのと同じ形式です。

[トレーニング] タブで、[ドキュメントのインポート] を選択します。

[ソースパス] に次のパスを入力します。

cloud-samples-data/documentai/Custom/Lending-Splitter/JSON-Labeled

[ドキュメントラベル] を [なし] に設定します。
[データセット分割] プルダウンを [自動分割] に設定します。
[インポート] を選択します。

インポートが終了すると、[Train] タブにドキュメントが表示されます。

プロセッサをトレーニングする

トレーニングデータとテストデータがインポートされたので、プロセッサをトレーニングできるようになりました。トレーニングには数時間かかる場合があるため、トレーニングを開始する前に、適切なデータとラベルがプロセッサに設定されていることを確認してください。

[新しいバージョンのトレーニング] を選択します。
[バージョン名] フィールドに、このプロセッサバージョンの名前（my-cds-version-1 など）を入力します。
（省略可）[ラベルの統計データを表示] を選択して、ドキュメントラベルに関する情報を確認します。これにより、対応範囲を判断できます。[閉じる] を選択してトレーニングの設定に戻ります。
[トレーニングを開始] を選択します。ステータスは右側のパネルで確認できます。

プロセッサバージョンをデプロイする

トレーニングが完了したら、[バージョンの管理] タブに移動します。トレーニングしたバージョンの詳細を表示できます。
デプロイするバージョンの右側にある [その他アイコン] を選択し、[バージョンをデプロイ] を選択します。
ポップアップウィンドウで [デプロイ] を選択します。

デプロイが完了するまで数分かかります。

プロセッサの評価とテストを行う

デプロイが完了したら、[評価とテスト] タブに移動します。

このページでは、ドキュメント全体の F1 スコア、ドキュメント全体の適合率と再現率、個々のラベルなどの評価指標を表示できます。評価と統計情報について詳しくは、プロセッサを評価するをご覧ください。
プロセッサのバージョンを評価するために使用できるように、これまでトレーニングやテストに関与していないドキュメントをダウンロードします。独自のデータを使用している場合は、この目的のために用意されたドキュメントを使用します。

PDF をダウンロード
[テストドキュメントをアップロード] を選択し、ダウンロードしたドキュメントを選択します。

[カスタム　スプリッタ　分析] ページが開きます。画面の出力に、ドキュメントがどの程度適切に分割、分類されたかが表示されます。

完了すると、コンソールは次のようになります。

別のテストセットまたは別のプロセッサバージョンに対して評価を再実行することもできます。

（省略可）自動ラベル付けを使用してデータをインポートする

トレーニング済みのプロセッサバージョンをデプロイした後、自動ラベル付けを使用すると、新しいドキュメントをインポートしたときのラベル付けの時間を短縮できます。

[トレーニング] タブで、[ドキュメントのインポート] を選択します。
[ソースパス] に次のパスを入力します。このフォルダには、複数のドキュメントタイプのラベルなし PDF が含まれています。
```
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-AutoLabel
```
[ドキュメントラベル] を [自動ラベル] に設定します。
[データセット分割] プルダウンを [自動分割] に設定します。
[自動ラベル付け] セクションで、[バージョン] を以前にトレーニングしたバージョンに設定します。
- 例: 2af620b2fd4d1fcf
[インポート] をクリックして、ドキュメントがインポートされるのを待ちます。
ラベル付きとマークしないと、トレーニングやテストに自動ラベル付きドキュメントを使用できません。[自動的にラベル付け] セクションに移動して、自動的にラベル付けされたドキュメントを表示します。
最初のドキュメントを選択して、ラベル付けのコンソールを開きます。
ラベルを検証して正しいことを確認します。正しくない場合は調整します。
完了したら、[ラベル付きとしてマーク] を選択します。
自動的にラベル付けされたドキュメントごとにラベルの確認を繰り返します。
[トレーニング] ページに戻り、[新しいバージョンをトレーニング] を選択して、データをトレーニングに使用します。

プロセッサを使用する

カスタムドキュメントスプリッタープロセッサを作成して正常にトレーニングできました。

カスタムトレーニング済みのプロセッサバージョンは、他のプロセッサバージョンと同様に管理できます。詳細については、プロセッサバージョンの管理をご覧ください。

デプロイ後、カスタムプロセッサに処理リクエストを送信すると、レスポンスを他のスプリッタープロセッサと同じように処理できます。

クリーンアップ

このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。

不要な Google Cloud 料金が発生しないようにするには、Google Cloud console を使用して、不要なプロセッサやプロジェクトを削除します。

Document AI の学習用に新しいプロジェクトを作成し、そのプロジェクトが不要になった場合は、プロジェクトを削除します。

既存の Google Cloud プロジェクトを使用した場合は、作成したリソースを削除して、アカウントに課金されないようにします。

Google Cloud コンソールのナビゲーションメニューで [Document AI] を選択し、[マイプロセッサ] を選択します。
削除するプロセッサと同じ行にある [その他の操作] を選択します。
[プロセッサを削除] を選択し、プロセッサ名を入力して、もう一度 [削除] を選択して確定します。

次のステップ

カスタム分類器

ドキュメントスプリッターの動作