В чем разница между keras.tokenize.text_to_sequence и встраиванием слов
Разница между tokenize.fit_on_text
, tokenize.text_to_sequence
а также word embeddings
?
Пробовал искать на разных платформах, но не получил подходящего ответа.
1 ответ
Вложения слов - это способ представления слов таким образом, чтобы слова с одинаковым / похожим значением имели аналогичное представление. Два широко используемых алгоритма, которые изучают встраивание слов, - это Word2Vec и GloVe.
Обратите внимание, что вложения слов также можно изучить с нуля во время обучения нейронной сети для обработки текста по вашей конкретной задаче НЛП. Вы также можете использовать трансферное обучение; в этом случае это будет означать передачу выученного представления слов из огромных наборов данных по вашей проблеме.
Что касается токенизатора (я предполагаю, что речь идет о Keras), взяв из документации:
tokenize.fit_on_text()
-> Создает словарный указатель на основе частоты слов. Например, если у вас была фраза "Моя собака отличается от вашей, моя собака красивее", word_index["dog"] = 0, word_index["is"] = 1 (собака появляется 3 раза, is 2 раза)tokenize.text_to_sequence()
-> Преобразует каждый текст в последовательность целых чисел. Обычно, если у вас есть предложение, оно присваивает целое число каждому слову из вашего предложения. Вы можете получить доступtokenizer.word_index()
(возвращает словарь), чтобы проверить присвоенное вашему слову целое число.