データ型

は、

このページでは、AutoML Tables のデータセットにインポートできるデータ型と、それらのデータ型が BigQuery や CSV とどう対応するかについて説明します。

はじめに

トレーニング データをインポートすると、AutoML Tables は各列のデータ型を、入力データのネイティブ型とその列の値に基づいて提案します。列のデータ型は、その列がモデルのトレーニングでどう使用されるかに影響するため、重要です。データをインポートしたら、各列を見直して、AutoML Tables が選択したデータ型がデータにとって正しい型であることを確認します。

モデルを作成すると、データセットは、独自のデータ型を持つオブジェクトのリストに変換されます。オンライン予測を使用する場合は、この形式を使用するようデータを変換しなければなりません。

AutoML Tables のデータ型

カテゴリ

カテゴリ値とは、カテゴリ内の値を表す公称レベルです。各値の違いはそれらの名前にのみ基づいており、順序はありません。数字を使ってカテゴリ値を表すことができますが、各値は互いと数値的な関係を持ちません。つまり、カテゴリ 1 はカテゴリ 0 より「大きい」わけではありません。

カテゴリ値の例を示します。

  • ブール値: truefalse
  • 国: "USA""Canada""China" など。
  • HTTP ステータス コード: "200""404""500" など。

カテゴリ値では大文字と小文字が区別されます。スペリングが変わると異なるカテゴリとして扱われます(たとえば、「Color」と「Colour」は結び付けられません)。

テキスト

テキスト値は自由形式テキストを表し、通常はテキスト トークンで構成されます。

テキスト値の例を示します。

  • "The quick brown fox"
  • "This restaurant is the best! The food is delicious"

テキスト フィールドは、空白によってモデル トレーニングのトークンに解析されます。

数値

数値は、序数または量的数を表します。これらの数字は比較ができ、2 つの異なる数は一方が他方より小さいことも大きいこともありえます。

数値は、数字、有効な数を含む文字列、または数値と考えることができます。

数値の例を示します。

  • 0
  • 1.1
  • "-10"

タイムスタンプ

タイムスタンプ値は、タイムゾーンを伴う常用時または UNIX タイムスタンプのいずれかで表されるある時点を示します。タイムスタンプ型の特徴のみ、時間列に使用できます。

タイムゾーンが常用時で指定されていない場合は、UTC がデフォルトになります。AutoML Tables は以下の例のような一般的な各種日時形式をサポートしています(ただし、これらに限定されません)。

  • "2018-01-30"
  • "2018/01/30"
  • "01/30/2018"
  • "30/01/2018"
  • "2018-01-30T23:59:58-0800"
  • "2018-01-30T23:59:58"
  • "2018-01-30T23:59"

AutoML Tables は UNIX タイムスタンプも、UNIX エポック以降の秒数、ミリ秒数、マイクロ秒数、ナノ秒数の形式でサポートします。

配列

配列を使用して値のリストを表すことができます。含まれる値は同じデータ型でなければなりません。

AutoML Tables は、相対的な重みを表すものとして配列を処理します。言い換えると、配列の先頭の方で現れる項目は、配列の後ろの方で現れる項目より大きく重み付けされます。

配列の例を示します。

  • 商品カテゴリ: ["Clothing", "Women", "Dress"]
  • 最近の購入: ["iPhone", "Laptop", "Suitcase"]

配列を表すには BigQuery の ARRAY データ型を使用します。

構造体

構造体を使用して、ラベル付きフィールドのグループを表すことができます。構造体にはフィールド名のリストがあり、各フィールドがデータ型に関連付けられています。フィールドのリストと各フィールドのデータ型は、列内のすべての構造体値で同じでなければなりません。

構造体の例を示します。

  • 血圧: {"timestamp": 1535761416, "systolic": 110, "diastolic": 70}
  • 商品: {"name": "iPhone", price: 1000}

構造体を表すには BigQuery の STRUCT データ型を使用します。

列名の形式

BigQuery 用のスキーマや CSV 用のヘッダー行を作成するときは、トレーニング データの列(特徴)に名前を付けます。列名には、あらゆる英数字やアンダースコア(_)を使用できます。列名の先頭をアンダースコアにすることはできません。

BigQuery テーブル

サポートされるデータ型

BigQuery テーブルを作成する前に、どの BigQuery データ型がサポートされているか、それらが AutoML Tables データ型にどのように対応しているかを知っておく必要があります。

BigQuery のデータ型 インポート対応の可否 AutoML Tables のデータ型
INT64 数値、カテゴリ
NUMERIC 数値、カテゴリ
FLOAT64 数値、カテゴリ
BOOL カテゴリ
STRING テキスト、カテゴリ、数値
BYTES ×
DATE タイムスタンプ、カテゴリ
DATETIME タイムスタンプ、カテゴリ
GEOGRAPHY ×
TIME カテゴリ
TIMESTAMP タイムスタンプ、カテゴリ
ARRAY 配列
STRUCT 構造体

CSV ファイル

サポートされるデータ型

CSV データはすべて文字列としてインポートされます。CSV を使用してインポートするときは、以下の AutoML Tables のデータ型を使用できます。

  • テキスト
  • カテゴリ
  • 数値
  • タイムスタンプ

CSV 形式

AutoML Tables は RFC 4180 CSV 形式を使用します。

行オブジェクトの形式

オンライン予測をリクエストするときは、予測データを JSON 表現の行オブジェクトとして提示しなければなりません。下の表は、すべての AutoML Tables のデータ型に使用できるデータ形式を示しています。最も提供しやすいデータ形式を選んでください。

AutoML Tables のデータ型 Row オブジェクトのデータ型 表示形式
カテゴリ bool_type true、false
string_value "42"
"blue"
"2014-01-31"
"2014-01-31 13:14:15.123456789"
"21:02:42.118039"
"1553040000"(UNIX タイムスタンプ)
number_value 42.3
数値 string_value "42.3"
number_value 42.3
テキスト string_value "The quick brown fox"
タイムスタンプ string_value "2014-01-31"
"2014-01-31 13:14:15.123456789"
"1553040000"(UNIX タイムスタンプ)
配列 list_value ["dog", "cat", "fish"]
構造体 struct_value {"field1": "ABC", "field2": 100}

次のステップ

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

AutoML Tables のドキュメント