r - выборка из латинского гиперкуба с различным количеством уровней в переменной
Я немного покопался, но я все еще очень плохо знаком с концепцией выборки из латинского гиперкуба. Я нашел этот пример, который использует lhs
Pacakge:
set.seed(1)
randomLHS(5,2)
[,1] [,2]
[1,] 0.84119491 0.89953985
[2,] 0.03531135 0.74352370
[3,] 0.33740457 0.59838122
[4,] 0.47682074 0.07600704
[5,] 0.75396828 0.35548904
Насколько я понимаю, записи в результирующей матрице являются координатами 5 точек, которые будут использоваться для определения комбинаций двух непрерывных переменных.
Я пытаюсь сделать симуляцию с 5 категориальными переменными. Число уровней в переменной варьируется от 2 до 5. В результате получается 2 x 3 x 4 x 2 x 5 = 240 сценариев. Я хотел бы сократить его как можно больше, чтобы подумать об использовании латинского гиперкуба, но я не уверен, что делать дальше. Любые идеи будут высоко ценится!
Кроме того, знаете ли вы какие-либо хорошие ресурсы, которые объясняют, как анализировать результаты выборки из латинского гиперкуба?
1 ответ
Я бы порекомендовал придерживаться полного факториала с 240 расчетными баллами по следующим причинам.
Черт возьми, это то, для чего нужны компьютеры - для автоматизации утомительных вычислительных задач. 240 очков дизайна - ничто, вы делаете это на компьютере! Вы можете легко автоматизировать процесс с помощью вложенных циклов, повторяющихся по уровням, по одному циклу на фактор. Не забудьте про внутренний цикл для репликации. Если каждая симуляция занимает больше минуты или двух, разбейте ее на несколько ядер или несколько машин. Один из моих учеников недавно сделал это для своей магистерской работы и смог провести более миллиона смоделированных экспериментов за выходные.
При использовании непрерывных факторов вы обычно принимаете некоторую степень сглаживания на поверхности отклика и выводите / проецируете отклик между соседними расчетными точками на основе регрессии. С категориальными данными вывод не действителен для исключенных комбинаций факторов, и взаимодействия вполне могут быть доминирующими эффектами. Если вы не сделаете полный факториал, комбинации, которые вы пропустили, могут быть или не быть самыми важными, но дело в том, что вы никогда не узнаете, если не пробовали там.
В общем, вы используете те же инструменты анализа, которые использовали бы, если бы вы делали выборку любого другого типа - регрессию, логистическую регрессию, ANOVA, деревья разделов,... Для категориальных факторов я фанат деревьев разделов.