Pojęcia

W tym artykule omówimy typowe pojęcia, z którymi współpracujemy w interfejsie Timeseries Insights API, i postaramy się wyjaśnić, co one reprezentują.

Zdarzenie

Zdarzenie to punkt danych i nieprzetworzone dane wejściowe, z którymi współpracuje interfejs API statystyk czasu. Jest to po prostu czynność wykonywana przez jakiegoś agenta (np. Transakcja klienta lub publikacja artykułu prasowego) lub obserwacja (np. Odczyt czujnika temperatury lub użycie procesora na komputerze).

Wydarzenie zawiera:

  • Zestaw wartości w różnych wymiarach reprezentujących właściwości opisujące zdarzenie, takie jak etykiety lub pomiary liczbowe.
  • Znacznik czasu reprezentujący czas wystąpienia zdarzenia. Ta sygnatura czasowa będzie używana podczas umieszczania wydarzeń w serii czasowej.
  • Identyfikator grupy.

Wymiar

Wymiar reprezentuje typ usługi dla zdarzeń w zbiorze danych i domenę wartości, które może przyjmować. Wymiar może być:

  • Kategoryzacja. Właściwość zdarzenia w tym wymiarze może zawierać jedną z ograniczonych/skończonych wartości, zwykle ciągi znaków. Przykłady: nazwa kraju lub wydawcy w zbiorze danych z artykułami z wiadomościami, nazwa komputera w zbiorze danych z danymi monitorowania produkcji.
  • Numeryczne. Pomiar lub ogólna właściwość liczbowa zdarzenia. Przykłady: liczba wyświetleń strony z wiadomościami, wykorzystanie procesora lub liczba błędów w danych monitorowania produkcji.

Zbiór danych

Zbiór danych to zbiór zdarzeń.

Grupa

Zdarzenia można grupować, określając ten sam identyfikator grupy (patrz sekcja Event.group_id).

Celem grupy jest obliczenie korelacji między zdarzeniami z tej samej grupy, ale obecna wersja interfejsu API nie ujawnia tej funkcji. Jeśli na przykład zbiór danych zawiera dane monitorowania (np.% Procesora, pamięci RAM itp.), Grupa może przechowywać wszystkie dane monitorowania z jednego procesu. Pozwoli nam to wykryć, że wzrost procentu procesora jest powiązany z innym zdarzeniem, takim jak aktualizacja wersji binarnej w poprzednim momencie.

Jeśli nie masz pewności lub nie chcesz obliczać tego typu korelacji, każde zdarzenie powinno mieć unikalny globalnie identyfikator grupy.

Wycinek

Wycinek to podzbiór wszystkich zdarzeń ze zbioru danych, które mają te same wartości w niektórych kategoriach wymiarów.

Załóżmy na przykład, że mamy zbiór danych ze sprzedażą od międzynarodowego sprzedawcy, a każde zdarzenie to sprzedaż, która ma następujące kategorie: kraj, w którym miała miejsce sprzedaż, nazwa produktu, nazwa firmy, która dokonała produkt. Przykładowe fragmenty w tym przypadku to: cała sprzedaż danego produktu, cała sprzedaż w danym kraju dla wszystkich produktów danej firmy.

Ciąg czasowy

Seria czasowa to sekwencja zagregowanych zdarzeń umieszczona w zasobnikach czasu o jednakowym rozmiarze. Jest on obliczany na podstawie danych wejściowych:

  • Fragment, a tym samym wszystkie zawarte w nim zdarzenia.
  • Przedział czasu, w którym rozpoczyna się seria czasowa i kiedy ma się kończyć. W przypadku QueryDataSetRequest limity te wynoszą [tested_interval.start_time - forecast_params.forecast_history, tested_interval.start_time + tested_interval.length]. Podczas tworzenia serii czasowej wybieramy tylko te zdarzenia, które mają Event.event_time.
  • Długość w czasie dla każdego segmentu czasu w serii czasowej. W przypadku QueryDataSetRequest ta długość jest równa tested_interval.length.
  • Metoda agregacji zdarzeń. Obecnie obsługujemy dwie metody agregacji: zliczanie zdarzeń lub sumowanie wymiarów numerycznych występujących we wszystkich zdarzeniach (określonych przez forecast_params.aggregated_dimension).

Prognozowanie

Proces przewidywania przyszłych wartości dla danej serii czasowej.

Blokada

Wartość wstrzymania to ostatnia część serii czasowej (zwykle ostatnie 5% –10%) używana do oceny skuteczności naszego modelu prognozowania. Jeśli w okresie wstrzymania wystąpią większe błędy prognozy, zmniejszymy ufność naszej prognozy, poszerzając jej granice.

Poziomy

Prognozujemy wartości serii czasowych, począwszy od testowanego interwału aż do poziomu czasowego (podanego w polu ForecastParams.horizon_time).

Przedział testowy

Przedział testowy (QueryDataSetRequest.tested_interval) to przedział czasu, w którym chcemy wykryć wszelkie wycinki w naszym zbiorze danych, które mają nieoczekiwane wartości (w okresie testowania) podczas porównywania ich z historycznymi seriami czasowymi.

Anomaly

Wycinek jest oznaczany jako anomalia, jeśli po prognozowaniu w badanym przedziale czasu pojawi się przewidywana wartość spoza oczekiwanego zakresu.

Co dalej?