Как работать с данными временных рядов при прогнозировании долгосрочной безработицы?
Так что я очень плохо знаком с R и наукой о данных и погрузился в настоящий проект. Я также никогда не работал с данными временных рядов - но я действительно хотел узнать кое-что, что, я надеюсь, благодаря этому:)
Вопрос о населении и исследованиях. Мое население - это люди, которые получали государственные пособия по безработице в 2010–2015 годах, и я хотел бы предсказать, кто из безработных станет долгосрочным безработным. Таким образом, это касается "если" они станут безработными в течение длительного времени, а не "когда они станут безработными в течение длительного времени". Я планирую использовать логистическую регрессию, классификацию деревьев и случайный лес.
Структура данных Тип пособия, которое они получают, помечается кодом каждую неделю в году, поэтому имеется столбец с 2012 года по неделю 1 по 2016 год по неделе 52. Мне бы хотелось, чтобы бинарно-зависимая переменная была либо длинной, либо безработные (12 месяцев и более) или "не являющиеся долговременными безработными". Я планирую сделать это, создав переменную, которая подсчитывает количество последовательных недель получения пособия в 2012-2016 гг., И если человек получит пособие в этот период, ему будет присвоено значение "1". Если нет - "0".
Моими независимыми переменными являются: отрасль, образование, возраст, пол, статус отношений, доход и страна. Часть этого также может измениться в течение 2010–2015 годов, поэтому на данный момент они представлены столбцом для каждого года, то есть "отрасль2010", "отрасль 2011" и т. Д.
Мои вопросы
- Как рассчитать количество недель получения пособий подряд и сгенерировать код "1" для наблюдения, если он превышает 12? Это Рлен?
- Как связать период безработицы с моими независимыми переменными?
Посмотрите пример структуры данных здесь. Когда в столбцах года указано "Н / Д", это означает, что люди работают, а коды - это различные виды льгот.