Текстовое представление для нейронной обучающей сети

Question

Текстовое представление для нейронной обучающей сети

Я разрабатываю обучающую сеть Neural с помощью nntool в Matlab, и у меня есть 11250 текстовых файлов различной длины (от 10 до 500 слов или, скажем, от 10 до 200 слов, если я исключу лишние слова), я не нашел хороший способ представить этот входной текст в виде цифровых данных, чтобы запустить мой алгоритм обучения. Я думал о создании словарного запаса слов, но обнаружил, что словарь содержит 16000 различных слов, что огромно. Есть несколько общих слов между некоторыми текстовыми файлами.

1

matlab neural-network nntool

Источник

user4601311 03 май '16 в 20:19

1 ответ

Другие вопросы по тегам matlab neural-network nntool

user1615070 04 май '16 в 07:34 2016-05-04 07:34 · Answer 1 · 2016-05-04 07:34

Для быстрого решения вы должны искать "мешок слов" или "tfidf". Если вы не знаете, что это такое, вам следует начать здесь: https://en.wikipedia.org/wiki/Vector_space_model или https://en.wikipedia.org/wiki/Document_classification.

Вы читали какую-нибудь книгу о НЛП? Может быть, этот может быть ценным: http://www.nltk.org/book/ в самом начале.