Обучите Fastext на неанглийском наборе данных
Я нахожусь в новом проекте, который я хочу представлять словами как векторы, я прочитал о библиотеке Fasttext и увидел, что у них есть предварительно обученные модели для языка, который не является английским. Цель состоит в том, чтобы предсказать близость между разными словами
я хочу узнать, могу ли я обучить модель Fasttext на неанглийских данных и, например, статьям новостных сайтов, чтобы добиться лучших результатов для конкретных жанров, таких как политика и современные темы, и так далее.
- Могу ли я обучить его на неанглийских наборах данных?
- Сколько времени занимает подготовка модели для 10 ГБ текста? это достаточно большой?
- Есть ли лучшие решения?
Заранее спасибо!
1 ответ
Могу ли я обучить его на неанглийских наборах данных?
Конечно вы можете. Fasttext предоставляет список доступных предварительно обученных моделей на 157 различных языках на их веб-сайте, вы также можете скачать их.
Сколько времени занимает подготовка модели для 10 ГБ текста?
Это зависит от вашей системы и реализации. например, на Mac-pro с 16-Гбайт оперативной памятью с реализацией в Facebook это занимает около 8-10 часов.
это достаточно большой?
Если размер файла после очистки и предварительной обработки равен 10 ГБ, то это достаточно справедливо.
Есть ли лучшие решения?
Что означают лучшие решения? Если бы я был на вашем месте, я бы сначала попробовал предварительно подготовленные модели.