このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときにファイルを解析する方法について説明します。Wrangler では、ファイルを Wrangler ワークスペースに読み込む前に解析できます。
- Wrangler は、Pipeline Studio のファイルソース プラグインと同じ方法でデータ型を推測し、各列を推測されたデータ型にマッピングします。
- スキーマ推論が不可能な場合は、JSON などのファイル形式のスキーマをインポートできます。
- このレシピには解析ディレクティブが含まれていないため、パイプラインの実行中に変換ロジックが削減されます。
- Wrangler からパイプラインを作成すると、Wrangler で設定した解析プロパティと値がすべてソース プラグインに含まれます。
ファイル接続を作成する
ファイルを Wrangler に読み込む前に解析するには、ファイル、Cloud Storage、Amazon S3 などのファイル接続を使用する必要があります。
- Cloud Data Fusion の Wrangler ワークスペースに移動します。
- [データを選択] 展開矢印をクリックして、使用可能な接続を表示します。
- File、Cloud Storage、または S3 の接続を追加します。詳細については、接続の作成と管理をご覧ください。
- 解析オプション ダイアログを開くには、[データを選択] パネルに移動して、ファイルの名前をクリックします。
[Parsing options] ダイアログで、次の情報を入力します。
[Format] フィールドで、読み取るデータのファイル形式(csv など)を選択します。詳細については、サポートされている形式をご覧ください。
- 区切り文字形式を選択した場合は、表示された [区切り文字] フィールドに区切り文字情報を入力します。
- CSV、TSV、区切り文字形式を選択すると、[引用符付きの値を有効にする] フィールドが表示されます。データが引用符で囲まれている場合は、[True] を選択します。この設定により、解析された出力から引用符が削除されます。たとえば、次の入力
1, "a, b, c"
は 2 つのフィールドにパースされます。最初のフィールドの値は1
です。2 番目のフィールドの値はa, b, c
です。改行区切り文字を引用符内に含めることはできません。 - テキスト、CSV、TSV、区切り文字の形式を選択した場合は、[最初の行をヘッダーとして使用] フィールドが表示されます。各ファイルの最初の行を列ヘッダーとして使用する場合は、[True] を選択します。
[ファイルのエンコード] フィールドで、ソースファイルのファイル エンコード タイプ(UTF-8 など)を選択します。
省略可: スキーマをインポートするか、ファイルの推論されたスキーマをオーバーライドするには、[スキーマをインポート] をクリックします。スキーマ推論が不可能な形式(JSON や一部の Avro ファイルなど)のスキーマをインポートします。スキーマは Avro 形式にする必要があります。
[Confirm] をクリックすると、解析されたファイルが Wrangler ワークスペースに表示されます。
サポートされているファイル形式
ファイル解析でサポートされている形式は次のとおりです。
- Avro
- Blob(blob 形式には、
bytes
型のbody
というフィールドを含むスキーマが必要です) - CSV
- 区切り付き
- JSON
- Parquet
- Text(テキスト形式には、
string
型のbody
という名前のフィールドを含むスキーマが必要です) - TSV
次のステップ
- Wrangler ディレクティブの詳細を確認する。