Добавьте векторы слов для каждой фразы, чтобы получить вектор фразы

Мой корпус состоит из фраз. У меня есть токенизированный корпус, и у меня есть векторы слов для каждого слова в моем корпусе. Теперь я хотел бы получить векторы для каждой фразы. Разные фразы имеют разное количество слов.

В идеале я хотел бы создать вектор для каждой фразы, рассчитав средневзвешенное значение векторов слов в этой фразе. Веса будут предоставлены из TF-IDF токенизированного корпуса.

Варианты этого вопроса задавались несколько раз в течение ряда лет. Я изучил дискуссии, но в качестве руководства обычно приводится мало кода. (Я не хочу делать doc2vec или parast2vec и т. Д.)

Есть ли у кого-нибудь простой код на Python, который а) вычислит простое среднее векторов слов для всех слов в каждой фразе и б) вычислит средневзвешенное значение векторов слов, используя элементы tf-idf для каждого слова в качестве весов?

0 ответов

Другие вопросы по тегам