Как взять выборку вероятности, пропорциональной размеру (PPS) с использованием R?

У меня очень мало опыта программирования, но я работаю над статистическим проектом и хотел бы создать выборку с неравной вероятностью, где вероятность включения единицы основана на ее размере (PPS).

По сути, у меня есть два набора данных:

  • ds1 списки штатов США и параметр, который я пытаюсь оценить
  • ds2 имеет численность населения каждого государства.

Мои вопросы:

  1. Я хочу использовать R, чтобы выбрать случайную выборку из первого набора данных, используя вероятности включения, основанные на населении каждого состояния (второй набор данных).

  2. Также есть ли способ использовать R для расчета этих формул обобщенной неравной вероятности?

Обобщенный неравномерный оценщик вероятности Оценочная дисперсия обобщенного неравного оценщика вероятности

Также просто обратите внимание на формулы: pi_i - это вероятность включения, а pi_ij - вероятность совместного включения.

2 ответа

Да, это называется взвешенная выборка. Просто установите вес в размер государства, строго вам даже не нужно нормализовать их 1/sum(sizes) хотя это всегда хорошая практика. На SO есть множество дублирующих постов, показывающих, как сделать взвешенную выборку.

Единственное маленькое осложнение заключается в том, что вам нужно сделать join() из наборов данных ds1, ds2, Покажите нам, какой код вы пробовали, если он вызывает проблемы. Рекомендую использовать либо dplyr или же data.table,

Ваш второй вопрос следует задавать как отдельный вопрос, и он является оффтопом для SO, или, по крайней мере, не получит хорошего ответа - лучше всего задавать статистические вопросы на родственном сайте CrossValidated

В R- pps есть пакет для того же самого, и документация здесь.

Кроме того, есть еще один пакет, который называется опроса, с небольшим количеством документации.

Я не уверен в разнице между этими двумя и не использовал их сам. Надеюсь, это то, что вы ищете.

Другие вопросы по тегам