Загрузка фастекста предварительно выученного немецкого встраивания слова.vec файл выбрасывает из памяти ошибку
Я использую gensim для загрузки предварительно обученного встраивания слов в фасттексте
de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec')
Но это дает мне ошибку памяти.
Можно ли как-нибудь загрузить его?
1 ответ
Решение
Помимо работы на машине с большим объемом памяти, gensim
load_word2vec_format()
методы имеют limit
опция, которой можно дать количество n прочитанных векторов. Будут загружены только первые n векторов файла.
Например, чтобы загрузить только первые 10000 слов:
de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec', limit=100000)
Поскольку в таких файлах обычно сначала сортируются наиболее часто встречающиеся слова, а "длинный хвост" более редких слов, как правило, является более слабым вектором, многие приложения не теряют слишком много энергии, отбрасывая более редкие слова.