Добавьте векторы слов для каждой фразы, чтобы получить вектор фразы
Мой корпус состоит из фраз. У меня есть токенизированный корпус, и у меня есть векторы слов для каждого слова в моем корпусе. Теперь я хотел бы получить векторы для каждой фразы. Разные фразы имеют разное количество слов.
В идеале я хотел бы создать вектор для каждой фразы, рассчитав средневзвешенное значение векторов слов в этой фразе. Веса будут предоставлены из TF-IDF токенизированного корпуса.
Варианты этого вопроса задавались несколько раз в течение ряда лет. Я изучил дискуссии, но в качестве руководства обычно приводится мало кода. (Я не хочу делать doc2vec или parast2vec и т. Д.)
Есть ли у кого-нибудь простой код на Python, который а) вычислит простое среднее векторов слов для всех слов в каждой фразе и б) вычислит средневзвешенное значение векторов слов, используя элементы tf-idf для каждого слова в качестве весов?