Загрузка фастекста предварительно выученного немецкого встраивания слова.vec файл выбрасывает из памяти ошибку

Я использую gensim для загрузки предварительно обученного встраивания слов в фасттексте

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec')

Но это дает мне ошибку памяти.

Можно ли как-нибудь загрузить его?

1 ответ

Решение

Помимо работы на машине с большим объемом памяти, gensimload_word2vec_format() методы имеют limit опция, которой можно дать количество n прочитанных векторов. Будут загружены только первые n векторов файла.

Например, чтобы загрузить только первые 10000 слов:

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec', limit=100000)

Поскольку в таких файлах обычно сначала сортируются наиболее часто встречающиеся слова, а "длинный хвост" более редких слов, как правило, является более слабым вектором, многие приложения не теряют слишком много энергии, отбрасывая более редкие слова.

Другие вопросы по тегам