Какой алгоритм подходит для моих данных временных рядов?
Я работаю в команде мониторинга, мы отслеживаем нагрузку наших клиентов на наши инструменты. Мы записали задержку с соответствующими временными сериями.
Первоначально я держал статический порог, чтобы повысить обнаружение аномалий. Тем не менее, это не работает, если происходит сезонность. Теперь я планирую применить ML к моим данным.
Мои данные выглядят так:
volume_nfs_ops timestamp mount_point
---------------------------------------------------------
2103 6/28/2018 3:16 /slowfs/us01dwt2p311
12440 6/28/2018 6:03 /slowfs/us01dwt2p311
14501 6/28/2018 14:20 /slowfs/us01dwt2p311
12482 6/28/2018 14:45 /slowfs/us01dwt2p311
10420 6/28/2018 18:09 /slowfs/us01dwt2p311
7203 6/28/2018 18:34 /slowfs/us01dwt2p311
14104 6/28/2018 21:58 /slowfs/us01dwt2p311
6996 6/29/2018 7:35 /slowfs/us01dwt2p311
11282 6/29/2018 8:39 /slowfs/us01dwt2p311
Когда я сделал Google, я пришел к выводу, ARIMA является лучшей моделью для временных рядов. Я отношусь к математике и могу понять, подходит ли соответствующая ARIMA для моего набора данных.
У меня вопрос, какой алгоритм лучше всего реализовать в Python? Какие факторы я должен учитывать, чтобы найти аномалию?
1 ответ
Существует множество методов обнаружения аномалий. Даже для обнаружения аномалий в данных временных рядов не нужно вдаваться в алгоритмы прогнозирования временных рядов.
A) Если вы знали о ненормальности, используйте алгоритм классификации. В вашем случае может быть пороговое значение для ненормальности? -
https://machinelearningstories.blogspot.com/2018/07/anomaly-detection-anomaly-detection-by.html
Б) Если в данных нет известных отклонений. Затем вам нужно обратиться к неконтролируемым алгоритмам обнаружения отклонений. K-средства, LOF, CBF, PCA, угловой и т. Д.
C) неконтролируемые алгоритмы (выбросы кластеризации) никогда не дают аномалий, вместо этого они являются выбросами, поэтому, если вы чувствуете, что ваши выбросы представляют аномалии, используйте этот алгоритм обнаружения отклонений на основе кластеризации (B).
4) Обнаружение аномалий и временные ряды являются общей областью знаний. Не запутайся. Я могу поделиться некоторыми документами, если вы ищете неконтролируемые алгоритмы обнаружения аномалий.