Разница между tf.nn.embedding_lookup и предварительно обученной матрицей встраивания doc2vec для тестовых данных

Question

Разница между tf.nn.embedding_lookup и предварительно обученной матрицей встраивания doc2vec для тестовых данных

В машинном обучении мы разделяем данные, чтобы обучать данные и тестировать данные (например, данные имеют только один столбец - список приложений, который представляет собой список установленных пользователем приложений, например com.aaa,com.bb,com.cc).

Если я использую модель DNN, сначала я конвертирую столбец списка приложений во встраивание.

Но я запутался, если я использую tf.nn.embedding_lookup для встраивания данных поезда, а затем запускаю модель. Когда я прогнозирую тестовые данные, я снова использую tf.nn.embedding_lookup. Как я могу узнать, что внедрение этапов поезда и внедрение этапа тестирования происходят из одного и того же распределения внедрения?

Может быть, train и test также имеет одну строку - "com.aaa,com.bb,com.cc", но вложение Train - A, вложение test - B, матрицы A и B не совпадают.

Итак, сначала я использую fastText или gensim для обучения модели doc2vec? а затем преобразовать данные поезда в матрицу встраивания по модели doc2vec, тестовые данные также?

0

tensorflow embedding doc2vec train-test-split

Источник

user9751101 07 май '18 в 06:25

0 ответов

Другие вопросы по тегам tensorflow embedding doc2vec train-test-split