R RecordLinkage package, Понимание альфа- и бета-ошибок
Недавно я научился использовать пакет R RecordLinkage. На очень маленьком примере со связыванием 2 наборов данных, один с 8 строками, а другой с 11, я получаю результаты:
Linkage Data Set
8 records in data set 1
11 records in data set 2
8 record pairs
4 matches
4 non-matches
0 pairs with unknown status
Weight distribution:
[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9] (0.9,1]
2 0 2 0 1 3
3 links detected
0 possible links detected
5 non-links detected
alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000
Classification table:
classification
true status N P L
FALSE 4 0 0
TRUE 1 0 3
Что я не понимаю, так это связь между альфа-ошибкой, бета-ошибкой и точностью с помощью таблицы классификации. Откуда именно исходят приведенные ниже цифры, как они рассчитываются:
alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000
Любая помощь с благодарностью
1 ответ
Альфа и бета ошибка являются статистическими показателями, более известными как ошибки типа I и типа II, соответственно. В статистических терминах альфа-ошибка - это вероятность отклонения нулевой гипотезы, если она верна; бета-ошибка - это вероятность утверждения нулевой гипотезы, учитывая, что она не соответствует действительности (сравните, например, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/).
В случае связывания записей нулевая гипотеза состоит в том, что пара записей является совпадением, то есть две записи представляют одну и ту же сущность. Таким образом, альфа-ошибка - это вероятность пометить пару как несоответствующую, учитывая, что это действительно совпадение (ложное отрицание). Эта ошибка рассчитывается следующим образом: (количество совпадений, классифицированных как "не связанных") / (количество совпадений).[1] В приведенном выше примере имеется 4 совпадения, из которых 1 не распознано, поэтому альфа-ошибка составляет 1 / 4 = 0,25.
Точно так же, бета-ошибка - это вероятность классификации пары как совпадения, учитывая, что она действительно не совпадает (ложное срабатывание). Он рассчитывается как (количество несоответствий, классифицированных как "ссылка") / (количество несоответствий). В приведенном выше примере нет ложной положительной классификации, поэтому бета-ошибка равна 0. Давайте предположим, что другая таблица классификации:
classification
true status N P L
FALSE 2 0 2
TRUE 1 0 3
В этом случае существует 4 несоответствия, из которых 2 ошибочно классифицируются как ссылки, поэтому бета-ошибка составляет 2 / 4 = 0,5.
Наконец, точность - это всего лишь доля правильных классификаций среди всех пар (см. https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers). В таблице классификации из вопроса есть 7 правильных классификаций (4 несоответствия, 3 совпадения), поэтому точность равна 7/8 = 0,875.
[1] Я использую "(не) связь" вместо "(не) совпадение", когда я имею в виду результат алгоритма классификации в отличие от реального статуса.