Как сформировать вложения предложений из вложения слов, используя перчатку на обученных тензорах данных?
Я работаю с набором данных, содержащим фрагменты информации о событиях. Мой фрейм данных выглядит примерно так:
index| event_description
----------------------
1 | concert with thousands of people
2 | people gathering
3 | there was an event in the city and it was so much fun
...
8000 | very boring gathering
Моя работа - кластеризовать эти события, основываясь на их значениях. Я не знаю, сколько событий должно быть, это работа обучения без присмотра.
Чтобы продолжить кластеризацию DBSCAN, я встроил все слова в моем фрейме данных в векторы, используя GloVe (скорее doc2Vec и т. Д.).
Как преобразовать векторы слов в векторы предложений, чтобы перейти к кластеризации?
Я читал эту статью, а также некоторые другие посты и статьи, в которых используются другие алгоритмы встраивания предложений, а не вложение слов в GloVe. Кроме того, некоторые репозитории, такие как InferSent и универсальный кодировщик предложений Google, довольно хороши, однако они используют предварительно обученные тензоры.
Учитывая эти ограничения, я должен использовать обученные тензоры GloVe и dataframe, а не предварительно обученные, как я могу формировать векторы предложений из векторов слов?