Обучите Fastext на неанглийском наборе данных

Я нахожусь в новом проекте, который я хочу представлять словами как векторы, я прочитал о библиотеке Fasttext и увидел, что у них есть предварительно обученные модели для языка, который не является английским. Цель состоит в том, чтобы предсказать близость между разными словами

https://fasttext.cc/docs/en/crawl-vectors.html

я хочу узнать, могу ли я обучить модель Fasttext на неанглийских данных и, например, статьям новостных сайтов, чтобы добиться лучших результатов для конкретных жанров, таких как политика и современные темы, и так далее.

  1. Могу ли я обучить его на неанглийских наборах данных?
  2. Сколько времени занимает подготовка модели для 10 ГБ текста? это достаточно большой?
  3. Есть ли лучшие решения?

Заранее спасибо!

1 ответ

Решение

Могу ли я обучить его на неанглийских наборах данных?

Конечно вы можете. Fasttext предоставляет список доступных предварительно обученных моделей на 157 различных языках на их веб-сайте, вы также можете скачать их.

Сколько времени занимает подготовка модели для 10 ГБ текста?

Это зависит от вашей системы и реализации. например, на Mac-pro с 16-Гбайт оперативной памятью с реализацией в Facebook это занимает около 8-10 часов.

это достаточно большой?

Если размер файла после очистки и предварительной обработки равен 10 ГБ, то это достаточно справедливо.

Есть ли лучшие решения?

Что означают лучшие решения? Если бы я был на вашем месте, я бы сначала попробовал предварительно подготовленные модели.

Другие вопросы по тегам