Несбалансированные данные и размер выборки для большой мультиклассовой классификации НЛП

Я работаю над проектом НЛП, где я надеюсь использовать MaxEnt для классификации текста в один из 20 различных классов. Я создаю наборы для обучения, проверки и тестирования вручную из административных данных, которые написаны от руки.

Я хотел бы определить размер выборки, требуемый для классов в учебном наборе, и соответствующий размер набора для проверки / тестирования.

В реальном мире 20 результатов несбалансированы. Но я собираюсь создать сбалансированный тренировочный набор, чтобы помочь построить модель.

Итак, у меня есть два вопроса:

Как мне определить подходящий размер выборки для каждой категории в обучающем наборе?

Должны ли наборы валидации / тестирования быть несбалансированными для отражения условий, с которыми может столкнуться модель, столкнувшись с данными реального мира?

1 ответ

Чтобы определить размер выборки вашего тестового набора, вы можете использовать неравенство Хоффдинга.

Пусть E будет положительным значением допуска, а N - размером выборки набора данных.

Тогда мы можем вычислить неравенство Хеффдинга, p = 1 - (2 * EXP (-2 * (E^ 2) * N)).

Пусть E = 0,05 (±5%) и N = 750, тогда p = 0,9530. Это означает, что с точностью 95,3% ваша (в выборке) ошибка теста не будет отклоняться более чем на 5% от выборки.

Что касается размера выборки из набора для обучения и валидации, существует установленное соглашение о разделении данных следующим образом: 50% для обучения и 25% для каждой проверки и тестирования. Оптимальный размер этих наборов во многом зависит от обучающего набора и количества шума в данных. Для получения дополнительной информации ознакомьтесь с разделом "Оценка и отбор моделей" в разделе "Элементы статистического обучения".

Что касается вашего другого вопроса, касающегося несбалансированных наборов данных, взгляните на эту тему: https://stats.stackexchange.com/questions/6254/balanced-sampling-for-network-training

Другие вопросы по тегам