Персонализированные или предварительно обученные векторы слов в Glove при наличии слов на нескольких языках?
Я пытаюсь кластеризовать короткие описания событий в одном предложении из базы данных длиной 3 млн. Строк. Каждая строка имеет около одного предложения. Одним из важных аспектов является то, что мои данные содержат слова из других языков, используемые в английских предложениях, такие как "Привет, как дела?". Я пытаюсь решить, должен ли я использовать предварительно обученные векторы или пользовательские векторы слов. Я знаю, что, как правило, при работе с небольшими данными рекомендуется использовать предварительно обученные векторы, поэтому я не уверен, достаточно ли велики мои данные для использования пользовательских векторов. С другой стороны, поскольку мои данные содержат слова на многих других языках, у меня возникает соблазн использовать предварительно обученные векторы, так как иностранные слова получат лучшее из контекста использования. Поэтому мой вопрос заключается в том, что при работе с набором данных, содержащим предложения, которые имеют логический смысл, но содержат смешанные иностранные слова, следует ли мне использовать предварительно обученные или пользовательские векторы слов?