Подходит две подгруппы с двумя различными определениями целей в одной модели?
На самом деле я никогда не сталкивался с такой проблемой, но теперь я нахожусь в странной обстановке:
У меня есть популяция ~10 000 человек, наблюдаемая в течение нескольких месяцев подряд в течение 3-летнего периода (некоторые люди приходят вначале, некоторые позже, но все в течение по крайней мере нескольких месяцев).
Примерно через год к концу периода наблюдения происходит значительный сдвиг, затрагивающий всех лиц, входящих в выборку после этой даты.
Этот сдвиг влияет на определение моей целевой переменной (цель - это просто класс 0/1, который я определяю, но переменная, которая вызывает "1", влияет на сдвиг). Чтобы прояснить ситуацию, у меня есть две цели: "1a" против "0a", определенные до смены; и "1b" против "0b", определенных после сдвига. И я хотел бы, чтобы модель обучалась нахождению "1b" (только 1b, так как сдвиг не должен быть полностью изменен в ближайшее время).
Но поскольку моя выборка настолько мала, я бы хотел включить обоих людей до и после смены.
Какие статистические проверки я должен сделать, чтобы убедиться, что это двойное определение цели в обеих подвыборках действительно может быть объединено в одной модели? Я проверил пропорции 0 и 1 в обоих подвыборках, но я не уверен, что добавить к этому...
Одним из способов, которым я впервые подумал об этом, было обучение модели на подвыборке до смены (а) и "проверка" ее на подвыборке после смены (б). Но я не уверен, что это будет хорошей стратегией.
Любые замечания, мнения или ссылки на литературу приветствуются
заранее спасибо