Как бороться с регрессией нескольких экземпляров с естественным порядком и разным количеством экземпляров в сумке?
Извините за несколько двусмысленный заголовок, но я не был уверен, как описать проблему в одной строке. У меня возникла следующая проблема:
В условиях контролируемого обучения у меня есть экземпляры, связанные с ними. Однако для некоторых случаев у меня есть несколько наблюдений.
В качестве конкретного примера я мог бы захотеть предсказать будущую производительность сотрудников в компании в соответствии с предыдущими показателями (например, набор измерений, таких как производительность и т. Д.). Таким образом, у меня был бы сотрудник, у которого был только один год данных (скажем, в 2003 году), и еще один сотрудник, у которого было 3 (2001,2002,2003). Характеристики, измеряемые для каждого года, одинаковы, и давайте предположим, что все сотрудники работали в одной компании, поэтому сравнение проще.
Теперь возникает вопрос: как закончить с одной строкой наблюдения на сотрудника. У меня есть несколько идей:
1) Просто используйте данные за последний год, доступные для каждого сотрудника, и отбросьте их ранее, чтобы у меня была ровно одна строка на сотрудника. В качестве дополнительной функции я бы также использовал числовую переменную, указывающую количество лет, в течение которых сотрудник работал в компании. Идея заключается в том, что последний год будет в любом случае наиболее информативным. Однако мне кажется, что я могу выбросить потенциально полезную информацию.
2) Взятие среднего значения (или ядра, означающего вложение, любого рода резюме) за все годы. Тем не менее, это выглядит неправильно для меня, поскольку людей, которые работали в компании в течение различного времени, несправедливо сравнивают. Следует признать, что они будут менее продуктивными в первый год обучения и будут постепенно улучшаться. Это означает, что было бы лучше быть более продуктивным в ваш первый год, чем кто-то, например, на третьем или пятом курсе.
3) Я бы использовал какую-то меру, которая вычисляет степень улучшения для каждой функции с 1-го года до самого последнего года, а также добавила бы количество лет, отработанных в качестве дополнительной функции (как в пункте 1)). Однако мне пришлось бы придумать какие-то поддельные значения для тех, кто работал только на год. Я думал об очень нереальной ценности. Я думаю, что это может работать в древовидном алгоритме, который не умножает объект с параметром, но дал бы серьезно неправильные результаты при использовании нейронных сетей или линейной регрессии и многих других. Что вы думаете о влиянии этого на различные алгоритмы обучения?
4) Ваши предложения?
Любые идеи будут с благодарностью, спасибо за чтение!