Обучите Fastext на неанглийском наборе данных

Question

Обучите Fastext на неанглийском наборе данных

Я нахожусь в новом проекте, который я хочу представлять словами как векторы, я прочитал о библиотеке Fasttext и увидел, что у них есть предварительно обученные модели для языка, который не является английским. Цель состоит в том, чтобы предсказать близость между разными словами

https://fasttext.cc/docs/en/crawl-vectors.html

я хочу узнать, могу ли я обучить модель Fasttext на неанглийских данных и, например, статьям новостных сайтов, чтобы добиться лучших результатов для конкретных жанров, таких как политика и современные темы, и так далее.

Могу ли я обучить его на неанглийских наборах данных?
Сколько времени занимает подготовка модели для 10 ГБ текста? это достаточно большой?
Есть ли лучшие решения?

Заранее спасибо!

0

nlp fasttext

Источник

user6737659 25 янв '19 в 18:11

1 ответ

Решение

Другие вопросы по тегам nlp fasttext

user1462770 25 янв '19 в 19:13 2019-01-25 19:13 · Accepted Answer · 2019-01-25 19:13

Могу ли я обучить его на неанглийских наборах данных?

Конечно вы можете. Fasttext предоставляет список доступных предварительно обученных моделей на 157 различных языках на их веб-сайте, вы также можете скачать их.

Сколько времени занимает подготовка модели для 10 ГБ текста?

Это зависит от вашей системы и реализации. например, на Mac-pro с 16-Гбайт оперативной памятью с реализацией в Facebook это занимает около 8-10 часов.

это достаточно большой?

Если размер файла после очистки и предварительной обработки равен 10 ГБ, то это достаточно справедливо.

Есть ли лучшие решения?

Что означают лучшие решения? Если бы я был на вашем месте, я бы сначала попробовал предварительно подготовленные модели.