Разница между tf.nn.embedding_lookup и предварительно обученной матрицей встраивания doc2vec для тестовых данных
В машинном обучении мы разделяем данные, чтобы обучать данные и тестировать данные (например, данные имеют только один столбец - список приложений, который представляет собой список установленных пользователем приложений, например com.aaa,com.bb,com.cc).
Если я использую модель DNN, сначала я конвертирую столбец списка приложений во встраивание.
Но я запутался, если я использую tf.nn.embedding_lookup для встраивания данных поезда, а затем запускаю модель. Когда я прогнозирую тестовые данные, я снова использую tf.nn.embedding_lookup. Как я могу узнать, что внедрение этапов поезда и внедрение этапа тестирования происходят из одного и того же распределения внедрения?
Может быть, train и test также имеет одну строку - "com.aaa,com.bb,com.cc", но вложение Train - A, вложение test - B, матрицы A и B не совпадают.
Итак, сначала я использую fastText или gensim для обучения модели doc2vec? а затем преобразовать данные поезда в матрицу встраивания по модели doc2vec, тестовые данные также?