Подходящий пакет для пространственно-временного прогнозирования с R
Я новичок в R, и он используется для пространственно-временных данных. За последние несколько недель я изучил основы R и попытался найти подходящий пакет / подходящие функции для создания модели пространственно-временного прогнозирования.
Я нашел несколько пакетов для различных пространственно-временных методов анализа (таких как SpatioTemporal, spTimer и т. Д.), Однако я нахожу некоторые из этих функций / пакетов довольно сложными, копание их часто приводило к нахождению проблем, которые могли бы доказать их непригодность для моих данных или цели моего исследования. Поэтому мне трудно с уверенностью определить, какой пакет (ы) и функции подходят для моих данных и цели моего исследования. При поиске по темам SO, кажется, есть довольно много экспертов по (пространственно-временному) анализу с R. Таким образом, я надеюсь, что один из вас мог бы дать мне некоторую определенность в отношении пакетов и функций, которые подходят для мое исследование.
Исследование: Цель моего исследования - создать модель пространственно-временного прогнозирования, которая может предсказать вероятность возникновения насильственных преступлений в городе на основе сообщений в геотегах в Твиттере.
Данные: Есть два основных компонента моих данных: инциденты и твиты
Инциденты: у меня есть два отдельных набора данных об инцидентах в городе (из двух отдельных периодов времени), они включают инциденты с насильственными преступлениями в городе (с каждой строкой в качестве отдельного случая / инцидента). Соответствующие столбцы включают в себя: Datetime
(Y% -m% -d% H%: M%, как POSIXct(на данный момент)), Latitude
а также Longitude
координаты (отдельные переменные). Таким образом, они включают в себя дату и время происшествия и координаты широты / долготы местоположения точки происшествия.
Твиты: Этот набор данных включает в себя твиты (охватывающие вышеупомянутые периоды времени), отправленные из города, которые были объединены с использованием ключевых слов, указывающих определенные действия / состояния настроения. Как и данные об инциденте, этот набор включает в себя: Datetime
(тот же формат, что и выше), Latitude
а также Longitude
координаты. И (среди прочего) дополнительно переменная Keywordcluster
который указывает на кластер, который содержит релевантные ключевые слова, найденные в твитах (с 21 кластером, содержащим ключевые слова, относящиеся к различным типам действий или состояний настроения).
Таким образом, как инциденты, так и твиты содержат столбцы, указывающие точное время и точное местоположение точек (в виде координат широты и долготы). Цель состоит в том, чтобы использовать различные кластеры ключевых слов, которые преобладают в отдельных твитах (например: один кластер содержит ключевые слова, связанные с употреблением алкоголя), чтобы предсказать вероятность возникновения случаев насильственных преступлений в пределах областей.
Поскольку цель состоит в том, чтобы прогнозировать насильственные преступления на основе сообщений в Твиттере, было бы предпочтительно, чтобы модель учитывала только сообщения, отправленные (в течение короткого периода времени) до возникновения инцидента (например, сообщения, отправленные до 24 часов). до инцидента). Цель состоит в том, чтобы предоставить вероятности возникновения насильственных преступлений в определенных областях между определенными короткими временными промежутками (такими как часы или дни максимум, из-за характера данных (т.е. не использовать твиты для прогнозирования возникновения инцидента a Неделю спустя)).
Я надеюсь, что это дает адекватное объяснение моих данных и цели моего исследования. Я был бы чрезвычайно признателен, если бы кто-то из вас мог предоставить некоторую определенность относительно того, какие пакеты и функции должны подходить (и, возможно, некоторые дополнительные советы). Это бы мне очень помогло!
Заранее спасибо, М. Стам