このページでは、Wrangler で使用できるディレクティブについて説明します。
Wrangler の Power モード(Wrangler CLI)では、ディレクティブと関数をレシピに追加できます。詳細については、Wrangler CLI ディレクティブと Wrangler 関数をご覧ください。
Wrangler は、次のディレクティブをサポートしています。
列の操作
| ディレクティブ | 説明 |
|---|---|
| 列の大文字と小文字を変更する | 列名を小文字または大文字に変換します。 |
| ケースの変更 | 列の値の大文字と小文字を変更します。 |
| 列名をクレンジングする | 特定のルールに従って列名をサニタイズします。 |
| 列の置換 | 列名を一括で変更します。 |
| コピー | ソース列から宛先列に値をコピーします。 |
| 列を破棄する | レコード内の列を破棄します。 |
| null を入力するまたは空にする | 値が null または空の場合は、列の固定値を入力します。 |
| Keep | レコードの指定した列を保持します。 |
| 統合 | 3 つ目の列を挿入して 2 つの列を結合します。 |
| 名前を変更 | レコード内の既存の列の名前を変更します。 |
| ヘッダーを設定する | 指定された順序で列の名前を設定します。 |
| 列に分割する | 区切り文字に基づいて列を複数の列に分割します。 |
| スワップ | 2 つの列の列名を入れ替えます。 |
| セットタイプ | 列のデータ型を変更します。 |
日付変換
| ディレクティブ | 説明 |
|---|---|
| 日付の差分を計算する | 2 つの日付の差を計算します。 |
| 日付をフォーマットする | 日時形式のカスタム パターン。 |
| UNIX タイムスタンプをフォーマットする | UNIX タイムスタンプを日付として書式設定します。 |
日時の変換
| ディレクティブ | 説明 |
|---|---|
| 現在の日時 | 指定されたタイムゾーンで現在の日時を生成します。 |
| 日次からタイムスタンプ | 日時と指定されたタイムゾーンからタイムスタンプを作成します。 |
| 日時をフォーマットする | 日時を指定された形式の文字列にフォーマットします。 |
| タイムスタンプから日時 | タイムスタンプを日時に変換します。 |
エンコーダとデコーダ
| ディレクティブ | 説明 |
|---|---|
| Decode | 列値を base32、base64、hex. のいずれかとしてデコードします。 |
| Encode | 列の値を base32、base64、hex. のいずれかにエンコードします。 |
ハッシュ化とマスキング
| ディレクティブ | 説明 |
|---|---|
| ハッシュ | メッセージのダイジェストを生成します。 |
| マスク番号 | 列値に置換マスクを適用します。 |
| マスク シャッフル | 列の値にシャッフル マスキングを適用します。 |
ルックアップ
| ディレクティブ | 説明 |
|---|---|
| カタログ検索 | ICD-9、ICD-10-2016、ICD-10-2017 コードの静的カタログ検索。 |
| テーブル ルックアップ | テーブル データセットのルックアップを実行します。 |
自然言語処理
| ディレクティブ | 説明 |
|---|---|
| トークン化された単語のステミング | 英語の単語に Porter ステミング アルゴリズムを適用します。 |
出力フォーマッタ
| ディレクティブ | 説明 |
|---|---|
| CSV として書き込む | レコードを CSV 形式に変換します。 |
| JSON マップとして書き込む | レコードを JSON マップに変換します。 |
| JSON オブジェクトを書き込む | 指定されたフィールドに基づいて JSON オブジェクトを作成します。 |
| 表示形式を通貨に設定 | 数値をロケールで指定された通貨として書式設定します。 |
パーサー
| ディレクティブ | 説明 |
|---|---|
| JSON パス | JSON レコードの解析に DSL(JSON Path 式)を使用します。 |
| AVRO ファイルとして解析 | AVRO データファイルを解析します。 |
| CSV として解析 | 入力レコードをカンマ区切り値として解析します。 |
| 通貨として解析 | 現地通貨の文字列表現である通貨値を数値に解析します。 |
| 日時として解析する | 指定された形式の日時データ型として文字列を解析します。 |
| Excel として解析する | Microsoft Excel ファイルに解析します。 |
| 固定長として解析する | 指定された幅の固定長レコードとして解析します。 |
| HL7 として解析する | Health Level 7 バージョン 2(HL7 V2)メッセージを解析します。 |
| JSON として解析する | JSON オブジェクトを解析します。 |
| ログとして解析する | Apache httpd や NGINX サーバーなどのアクセスログ ファイルを解析します。 |
| 単純な日付として解析する | 日付文字列を解析します。 |
| タイムスタンプとして解析する | UNIX タイムスタンプを日付として表す列値を解析します。 |
| XML を JSON に解析する | XML ドキュメントをパースして JSON 構造に変換します。 |
行の操作
| ディレクティブ | 説明 |
|---|---|
| 行をフィルタ処理する | 条件に基づいてレコードをフィルタします。 |
| 一致する場合に行をフィルタする | 列のパターンに一致する行をフィルタします。 |
| Flatten | 繰り返しフィールド内の要素を分離します。 |
| 条件で失敗する | 条件が true と評価された場合に処理が失敗します。 |
| 送信先エラー | エラー コレクタにレコードをフィルタします。 |
| エラーに送信して処理を続行する | レコードをエラー コレクタにフィルタし、処理を続行します。 |
| 行に分割する | 区切り文字に基づいて複数のレコードに分割します。 |
変換
| ディレクティブ | 説明 |
|---|---|
| ケースの変更 | 列の値の大文字と小文字を大文字または小文字に変更します。 |
| レコードを作成する | ソース列から宛先列に値をコピーして、ネストされた値を含むレコード列を作成します。 |
| 文字をカットする | 文字列値の一部を選択します。 |
| 列を設定する | 列の値を式の実行結果に設定します。 |
| 検索と置換 | 「sed」のような式を使用して文字列列の値を変換します。 |
| 量子化 | 列の値に量子化を適用します。 |
| 正規表現グループを抽出する | 正規表現のグループからデータを抽出して、独自の列に格納します。 |
| 文字セットを設定する | エンコードを設定し、データを UTF-8 文字列に変換します。 |
| レコードの区切り文字を設定する | レコードの区切り文字を設定します。 |
| メールを分割する | メール ID をアカウントとそのドメインに分割します。 |
| URL を分割する | URL を構成要素に分割します。 |
| テキスト距離(ファジー文字列一致) | 2 つの文字列の差異を測定します。 |
| テキスト指標(ファジー文字列一致) | 2 つの文字列の差異を測定します。 |
| URL デコード | application/x-www-form-urlencoded MIME 形式からデコードします。 |
| URL エンコード | application/x-www-form-urlencoded MIME 形式にエンコードします。 |
| スペースのトリミング | 文字列データの周囲の空白文字を削除する関数。 |
一時的なアグリゲータとセッター
| ディレクティブ | 説明 |
|---|---|
| 変数をインクリメントする | 処理の記録を使用して、一時変数をインクリメントします。 |
| 変数を設定する | 処理の記録を含む一時変数を設定します。 |
一意の ID
| ディレクティブ | 説明 |
|---|---|
| UUID を生成する | ユニバーサルに一意な識別子(UUID)を生成します。 |
次のステップ
- Wrangler 関数の詳細を確認する。