Текстовое представление для нейронной обучающей сети
Я разрабатываю обучающую сеть Neural с помощью nntool в Matlab, и у меня есть 11250 текстовых файлов различной длины (от 10 до 500 слов или, скажем, от 10 до 200 слов, если я исключу лишние слова), я не нашел хороший способ представить этот входной текст в виде цифровых данных, чтобы запустить мой алгоритм обучения. Я думал о создании словарного запаса слов, но обнаружил, что словарь содержит 16000 различных слов, что огромно. Есть несколько общих слов между некоторыми текстовыми файлами.
1 ответ
Для быстрого решения вы должны искать "мешок слов" или "tfidf". Если вы не знаете, что это такое, вам следует начать здесь: https://en.wikipedia.org/wiki/Vector_space_model или https://en.wikipedia.org/wiki/Document_classification.
Вы читали какую-нибудь книгу о НЛП? Может быть, этот может быть ценным: http://www.nltk.org/book/ в самом начале.