TensorFlow: точность двоичной классификации

В контексте бинарной классификации я использую нейронную сеть с 1 скрытым слоем, используя функцию активации tanh. Ввод поступает из модели word2vect и нормализуется.

Точность классификатора составляет 49-54%.

Я использовал матрицу путаницы, чтобы лучше понять, что происходит. Я изучаю влияние номера объекта во входном слое и количества нейронов в скрытом слое на точность.

Что я могу наблюдать из матрицы путаницы, так это тот факт, что модель предсказывает на основе параметров иногда большинство линий как положительные, а иногда большую часть как отрицательные.

Любое предложение, почему эта проблема происходит? И какие другие точки (кроме входного размера и размера скрытого слоя) могут повлиять на точность классификации?

Спасибо

2 ответа

Сложно догадаться, учитывая информацию, которую вы предоставляете. Сбалансированы ли этикетки (50% положительных, 50% отрицательных)? Таким образом, это будет означать, что ваша сеть не тренируется вообще, поскольку ваша производительность примерно равна случайной производительности. Может быть, ошибка в предварительной обработке? Или задача слишком сложная? Каков размер тренировочного набора?

Я не верю, что количество нейронов является проблемой, если это разумно, то есть сотни или несколько тысяч.

Кроме того, вы можете попробовать другую функцию потерь, а именно кросс-энтропию, которая является стандартной для многоклассовой классификации и может также использоваться для двоичной классификации: https://www.tensorflow.org/api_docs/python/nn/classification

Надеюсь это поможет.

Набор данных хорошо сбалансирован, 50% положительный и отрицательный.

Форма тренировочного комплекта (411426,X)

Форма тренировочного комплекта (68572, X)

X - это номер функции, взятой из word2vec, и я пытаюсь использовать значения между [100,300]

У меня есть 1 скрытый слой, и число нейронов, которые я тестирую, варьируется между [100,300]

Я также тестирую с меньшими размерами объектов / нейронов: 2-20 объектов и 10 нейронов на скрытом слое. Я использую также перекрестную энтропию как стоимостную зависимость.

Другие вопросы по тегам