ファイルを解析する

このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときにファイルを解析する方法について説明します。Wrangler では、ファイルを Wrangler ワークスペースに読み込む前に解析できます。

  • Wrangler は、Pipeline Studio のファイルソース プラグインと同じ方法でデータ型を推測し、各列を推測されたデータ型にマッピングします。
  • スキーマ推論が不可能な場合は、JSON などのファイル形式のスキーマをインポートできます。
  • このレシピには解析ディレクティブが含まれていないため、パイプラインの実行中に変換ロジックが削減されます。
  • Wrangler からパイプラインを作成すると、Wrangler で設定した解析プロパティと値がすべてソース プラグインに含まれます。

ファイル接続を作成する

ファイルを Wrangler に読み込む前に解析するには、ファイル、Cloud Storage、Amazon S3 などのファイル接続を使用する必要があります。

  1. Cloud Data Fusion の Wrangler ワークスペースに移動します
  2. [データを選択] 展開矢印をクリックして、使用可能な接続を表示します。
  3. File、Cloud Storage、または S3 の接続を追加します。詳細については、接続の作成と管理をご覧ください。
  4. 解析オプション ダイアログを開くには、[データを選択] パネルに移動して、ファイルの名前をクリックします。
  5. [Parsing options] ダイアログで、次の情報を入力します。

    1. [Format] フィールドで、読み取るデータのファイル形式(csv など)を選択します。詳細については、サポートされている形式をご覧ください。

      • 区切り文字形式を選択した場合は、表示された [区切り文字] フィールドに区切り文字情報を入力します。
      • CSV、TSV、区切り文字形式を選択すると、[引用符付きの値を有効にする] フィールドが表示されます。データが引用符で囲まれている場合は、[True] を選択します。この設定により、解析された出力から引用符が削除されます。たとえば、次の入力 1, "a, b, c" は 2 つのフィールドにパースされます。最初のフィールドの値は 1 です。2 番目のフィールドの値は a, b, c です。改行区切り文字を引用符内に含めることはできません。
      • テキスト、CSV、TSV、区切り文字の形式を選択した場合は、[最初の行をヘッダーとして使用] フィールドが表示されます。各ファイルの最初の行を列ヘッダーとして使用する場合は、[True] を選択します。
    2. [ファイルのエンコード] フィールドで、ソースファイルのファイル エンコード タイプ(UTF-8 など)を選択します。

    3. 省略可: スキーマをインポートするか、ファイルの推論されたスキーマをオーバーライドするには、[スキーマをインポート] をクリックします。スキーマ推論が不可能な形式(JSON や一部の Avro ファイルなど)のスキーマをインポートします。スキーマは Avro 形式にする必要があります。

    4. [Confirm] をクリックすると、解析されたファイルが Wrangler ワークスペースに表示されます。

サポートされているファイル形式

ファイル解析でサポートされている形式は次のとおりです。

  • Avro
  • Blob(blob 形式には、bytes 型の body というフィールドを含むスキーマが必要です)
  • CSV
  • 区切り付き
  • JSON
  • Parquet
  • Text(テキスト形式には、string 型の body という名前のフィールドを含むスキーマが必要です)
  • TSV

次のステップ