Описание тега missing-data

По вопросам, касающимся проблем с отсутствующими данными, которые могут включать в себя специальные структуры данных, алгоритмы, статистические методы, методы моделирования, визуализацию, среди прочего.

При работе с данными в обычных структурах данных (например, таблицах, матрицах, массивах, тензорах) некоторые данные могут не наблюдаться, могут быть повреждены или могут еще не наблюдаться. Обработка таких данных требует дополнительных аннотаций, а также методологических соображений при принятии решения о том, как вменять или использовать такие данные в стандартных контекстах. Это становится проблемой в контекстах с большим объемом данных, например, при большом статистическом анализе баз данных.

Отсутствующие данные встречаются во многих областях, от данных опросов до промышленных данных. Существует множество основных механизмов отсутствия данных (причин, по которым данные отсутствуют). Например, в данных обследования данные могут отсутствовать из-за выбывания. У людей, ответивших на опрос, может не хватить времени.

Рубин разделил недостающие данные на три типа:

  1. отсутствует совершенно случайно;
  2. отсутствует случайно;
  3. пропали не случайно.

Обратите внимание, что некоторый статистический анализ действителен только для определенного класса.