ファイルを解析する

このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときにファイルを解析する方法について説明します。Wrangler では、ファイルを Wrangler ワークスペースに読み込む前に解析できます。

Wrangler は、Pipeline Studio のファイルソースプラグインが行うのと同じ方法でデータ型を推測し、各列を推測されたデータ型にマッピングします。
スキーマ推論が不可能な場合は、JSON などのファイル形式のスキーマをインポートできます。
このレシピには解析ディレクティブが含まれていないため、パイプラインの実行中に変換ロジックが削減されます。
Wrangler からパイプラインを作成すると、Wrangler で設定したのと同じ解析プロパティと値がすべてソースプラグインに含まれます。

ファイル接続を作成する

ファイルを Wrangler に読み込む前に解析するには、File、Cloud Storage、Amazon S3 などのファイル接続を使用する必要があります。

Cloud Data Fusion の Wrangler ワークスペースに移動します。
[データを選択] 展開矢印をクリックして、使用可能な接続を表示します。
File、Cloud Storage、または S3 の接続を追加します。詳細については、接続を作成して管理するをご覧ください。
解析オプションダイアログを開くには、[データを選択] パネルに移動して、ファイルの名前をクリックします。
[Parsing options] ダイアログで、次の情報を入力します。
1. [形式] フィールドで、読み取るデータのファイル形式（csv など）を選択します。詳細については、サポートされている形式をご覧ください。
  - 区切り文字形式を選択した場合は、表示された [区切り文字] フィールドに区切り文字情報を入力します。
  - CSV、TSV、区切り文字形式を選択すると、[引用符付きの値を有効にする] フィールドが表示されます。データが引用符で囲まれている場合は、[True] を選択します。この設定により、解析された出力から引用符が削除されます。たとえば、次の入力 1, "a, b, c" は 2 つのフィールドに解析されます。最初のフィールドの値は 1 です。2 番目のフィールドの値は a, b, c です。改行区切り文字を引用符内に配置することはできません。
  - テキスト、CSV、TSV、区切り文字の形式を選択した場合は、[最初の行をヘッダーとして使用] フィールドが表示されます。各ファイルの最初の行を列ヘッダーとして使用する場合は、[True] を選択します。
2. [ファイルのエンコード] フィールドで、ソースファイルのファイルエンコードタイプ（UTF-8 など）を選択します。
3. 省略可: スキーマをインポートするか、ファイルの推論されたスキーマをオーバーライドするには、[スキーマをインポート] をクリックします。スキーマ推論が不可能な形式（JSON や一部の Avro ファイルなど）のスキーマをインポートします。スキーマは Avro 形式にする必要があります。
4. [Confirm] をクリックすると、解析されたファイルが Wrangler ワークスペースに表示されます。

サポートされているファイル形式

ファイル解析でサポートされている形式は次のとおりです。

Avro
Blob（blob 形式には、bytes 型の body というフィールドを含むスキーマが必要です）
CSV
Delimited
JSON
Parquet
Text（テキスト形式には、string 型の body という名前のフィールドを含むスキーマが必要です）
TSV

次のステップ

Wrangler ディレクティブの詳細を確認する。

ファイルを解析する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ファイル接続を作成する

サポートされているファイル形式

次のステップ

ファイルを解析する