コンセプト

この記事では、Timeseries Insights API で扱う一般的なコンセプトについて説明し、それらが直感的に説明できるような仕組みを提供しています。

イベント

イベントはデータポイントであり、Timeseries Insights API が使用できる未加工の入力です。概念的には、一部のエージェント(クライアントによるトランザクションまたはニュース記事の公開)または観測(温度センサーの読み取り、 machine.

イベントに含まれるもの:

  • イベントを表すプロパティ(ラベルや数値の測定など)を表す一連のディメンション
  • イベントが発生した時刻を表すタイムスタンプ。このタイムスタンプは、イベントを時系列に挿入する際に使用されます。
  • グループ ID。

分割項目

ディメンションは、データセット内のイベントのプロパティ タイプと、可能な値のドメインを表します。ディメンションは次のとおりです。

  • カテゴリ。このディメンションのイベント プロパティには、制限付き(有限)値のいずれか(通常は文字列)を含めることができます。たとえば、ニュース記事を含むデータセット内の国やパブリッシャー名、本番環境のモニタリング データで構成されたマシンのマシン名などがこれに該当します。
  • 数値。イベントに関する測定または一般的な数値プロパティです。例: ニュース記事のページビュー数、CPU 使用率、本番環境のモニタリング データのエラーの数

データセット

データセットは、イベントの集合です。

グループ

同じグループ ID を指定すると、イベントをグループにまとめることができます(Event.group_id を参照)。

このグループの目的は、同じグループのイベント間の相関関係を計算することですが、API の現行バージョンではこの機能は公開されていません。たとえば、データセットにモニタリング データ(CPU%、RAM など)を保持している場合、グループは 1 つのプロセスからすべてのモニタリング データを保持できます。その結果、最終的に CPU の増加の増加が別のイベント(バイナリ アップデートの直前の更新など)に関連していることを検出します。

わからない場合や、このような種類の相関の計算に興味がない場合は、各イベントにグローバルに一意のグループ ID を設定する必要があります。

スライス

スライスは、データセットのすべてのイベントのサブセットで、カテゴリ間で同じ値が設定されます。

たとえば、海外小売店で販売されたデータセットがあるとします。各イベントとは、販売が行われた国、商品の名前、{そのプロダクトを作成した会社の名前。この場合のスライスの例としては、ある商品のすべての販売、特定の会社のすべての商品の特定の国からの販売がすべて表示されます。

時系列

時系列は、均等にサイズ分けされたバケットに配置された一連の集計イベントです。次の式を入力として計算されます。

  • スライス(およびそのスライスのすべてのイベント)。
  • 時系列の開始時刻と終了時刻。1 つの QueryDataSetRequest に対する上限は [tested_interval.start_time - forecast_params.forecast_history, tested_interval.start_time + tested_interval.length] です。スライスを作成する際、これらの制限内の Event.event_time 値を持つイベントのみが選択されます。
  • 時系列の各時間バケットの長さ。特定の QueryDataSetRequest に対して、この長さは tested_interval.length と等しくなります。
  • イベントの集計方法。現在サポートされている集計メソッドは 2 つあります。イベントのカウント方法と、すべてのイベントに存在する数値のディメンションの合計(forecast_params.aggregated_dimension で指定された)の合計です。

予測

指定した時系列の将来の値を予測するプロセス。

ホールドアウト

ホールドアウトは、時系列の最後の部分(通常は最後の 5%~ 10%)で、予測モデルのパフォーマンスを評価するために使用されます。保留期間中に予測エラーが発生した場合、予測範囲を広げて予測の信頼度が低下します。

ホライズン

ForecastParams.horizon_time フィールドで指定されたテスト間隔から時系列までの範囲の時系列の値を予測します。

テスト済みの間隔

テスト間隔(QueryDataSetRequest.tested_interval)は、データセットの過去の任意の時点と比較して、(テスト期間中)値が予期しない値を持つスライスを検出する間隔です。 。

異常

スライスが、予測された後にテスト可能な間隔で予測可能な値の範囲外にある場合に、スライスが異常としてマークされる。しきい値。

次のステップ