R RecordLinkage package, Понимание альфа- и бета-ошибок

Недавно я научился использовать пакет R RecordLinkage. На очень маленьком примере со связыванием 2 наборов данных, один с 8 строками, а другой с 11, я получаю результаты:

Linkage Data Set

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches
4 non-matches
0 pairs with unknown status


Weight distribution:

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9]   (0.9,1] 
        2         0         2         0         1         3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000


Classification table:

           classification
true status N P L
      FALSE 4 0 0
      TRUE  1 0 3

Что я не понимаю, так это связь между альфа-ошибкой, бета-ошибкой и точностью с помощью таблицы классификации. Откуда именно исходят приведенные ниже цифры, как они рассчитываются:

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000

Любая помощь с благодарностью

1 ответ

Решение

Альфа и бета ошибка являются статистическими показателями, более известными как ошибки типа I и типа II, соответственно. В статистических терминах альфа-ошибка - это вероятность отклонения нулевой гипотезы, если она верна; бета-ошибка - это вероятность утверждения нулевой гипотезы, учитывая, что она не соответствует действительности (сравните, например, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/).

В случае связывания записей нулевая гипотеза состоит в том, что пара записей является совпадением, то есть две записи представляют одну и ту же сущность. Таким образом, альфа-ошибка - это вероятность пометить пару как несоответствующую, учитывая, что это действительно совпадение (ложное отрицание). Эта ошибка рассчитывается следующим образом: (количество совпадений, классифицированных как "не связанных") / (количество совпадений).[1] В приведенном выше примере имеется 4 совпадения, из которых 1 не распознано, поэтому альфа-ошибка составляет 1 / 4 = 0,25.

Точно так же, бета-ошибка - это вероятность классификации пары как совпадения, учитывая, что она действительно не совпадает (ложное срабатывание). Он рассчитывается как (количество несоответствий, классифицированных как "ссылка") / (количество несоответствий). В приведенном выше примере нет ложной положительной классификации, поэтому бета-ошибка равна 0. Давайте предположим, что другая таблица классификации:

           classification
true status N P L
      FALSE 2 0 2
      TRUE  1 0 3

В этом случае существует 4 несоответствия, из которых 2 ошибочно классифицируются как ссылки, поэтому бета-ошибка составляет 2 / 4 = 0,5.

Наконец, точность - это всего лишь доля правильных классификаций среди всех пар (см. https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers). В таблице классификации из вопроса есть 7 правильных классификаций (4 несоответствия, 3 совпадения), поэтому точность равна 7/8 = 0,875.

[1] Я использую "(не) связь" вместо "(не) совпадение", когда я имею в виду результат алгоритма классификации в отличие от реального статуса.

Другие вопросы по тегам