Как взять выборку вероятности, пропорциональной размеру (PPS) с использованием R?
У меня очень мало опыта программирования, но я работаю над статистическим проектом и хотел бы создать выборку с неравной вероятностью, где вероятность включения единицы основана на ее размере (PPS).
По сути, у меня есть два набора данных:
ds1
списки штатов США и параметр, который я пытаюсь оценитьds2
имеет численность населения каждого государства.
Мои вопросы:
Я хочу использовать R, чтобы выбрать случайную выборку из первого набора данных, используя вероятности включения, основанные на населении каждого состояния (второй набор данных).
Также есть ли способ использовать R для расчета этих формул обобщенной неравной вероятности?
Также просто обратите внимание на формулы: pi_i - это вероятность включения, а pi_ij - вероятность совместного включения.
2 ответа
Да, это называется взвешенная выборка. Просто установите вес в размер государства, строго вам даже не нужно нормализовать их 1/sum(sizes)
хотя это всегда хорошая практика. На SO есть множество дублирующих постов, показывающих, как сделать взвешенную выборку.
Единственное маленькое осложнение заключается в том, что вам нужно сделать join()
из наборов данных ds1, ds2
, Покажите нам, какой код вы пробовали, если он вызывает проблемы. Рекомендую использовать либо dplyr
или же data.table
,
Ваш второй вопрос следует задавать как отдельный вопрос, и он является оффтопом для SO, или, по крайней мере, не получит хорошего ответа - лучше всего задавать статистические вопросы на родственном сайте CrossValidated
В R- pps есть пакет для того же самого, и документация здесь.
Кроме того, есть еще один пакет, который называется опроса, с небольшим количеством документации.
Я не уверен в разнице между этими двумя и не использовал их сам. Надеюсь, это то, что вы ищете.