Какой алгоритм кластеризации и инструмент визуализации данных следует использовать для поиска и визуализации географических данных о погоде
Я работаю над поиском статистических выбросов в данных, связанных с погодой. В частности, у меня есть температура и местоположение (долгота и широта) 10000 точек данных, где температура была записана в определенное время. Каков был бы лучший метод для определения местоположения выбросов, связанных с географической погодой, и визуализации данных таким образом, чтобы выбросы стали наиболее заметными? Для части визуализации было бы очень полезно использовать инструмент python, и наиболее полезным было бы обнаружение выпадающих частей алгоритма или техники. (Я думаю о кластере)
1 ответ
Это действительно зависит от того, как вы будете его использовать. Вы упоминаете выбросы, поэтому можно использовать DBSCAN (по сути, он создает кластеры, а точки, не входящие в кластер, считаются выбросом).
Если вас интересует только то, какие точки являются выбросами, а не какие точки сгруппированы, вы можете использовать, например, Isolation Forrest