В чем разница между keras.tokenize.text_to_sequence и встраиванием слов

Разница между tokenize.fit_on_text, tokenize.text_to_sequence а также word embeddings?

Пробовал искать на разных платформах, но не получил подходящего ответа.

1 ответ

Вложения слов - это способ представления слов таким образом, чтобы слова с одинаковым / похожим значением имели аналогичное представление. Два широко используемых алгоритма, которые изучают встраивание слов, - это Word2Vec и GloVe.

Обратите внимание, что вложения слов также можно изучить с нуля во время обучения нейронной сети для обработки текста по вашей конкретной задаче НЛП. Вы также можете использовать трансферное обучение; в этом случае это будет означать передачу выученного представления слов из огромных наборов данных по вашей проблеме.

Что касается токенизатора (я предполагаю, что речь идет о Keras), взяв из документации:

  1. tokenize.fit_on_text()-> Создает словарный указатель на основе частоты слов. Например, если у вас была фраза "Моя собака отличается от вашей, моя собака красивее", word_index["dog"] = 0, word_index["is"] = 1 (собака появляется 3 раза, is 2 раза)

  2. tokenize.text_to_sequence()-> Преобразует каждый текст в последовательность целых чисел. Обычно, если у вас есть предложение, оно присваивает целое число каждому слову из вашего предложения. Вы можете получить доступtokenizer.word_index() (возвращает словарь), чтобы проверить присвоенное вашему слову целое число.

Другие вопросы по тегам