Не английское вложение слова из английского вложения слова

Как я могу генерировать неанглийское (французское, испанское, итальянское) вложение слов из вложения английских слов?

Каковы наилучшие способы создания высококачественного встраивания слов для неанглийских слов.

Слова могут включать (samsung-galaxy-s9)

2 ответа

Решение

Для неанглоязычных слов вы можете попытаться использовать двуязычный словарь для перевода английских слов с встраиваемыми векторами.

Вам нужен большой корпус для создания качественных вложений слов. Для неанглоязычных вам нужно добавить двуязычные ограничения в исходную потерю w2v с вводом двуязычных корпусов.

Вы можете рассматривать составное слово как целое слово или разбивать его в соответствии с вашими приложениями.

Как я могу генерировать неанглийское (французское, испанское, итальянское) вложение слов из вложения английских слов?

Вы не можете на самом деле. Если у вас нет слов, которые означают точно то же самое. Если вы знаете французское слово "король", "королева", "женщина" и "мужчина", вы можете ввести в эти слова одно и то же слово на английском языке. Они будут показывать те же синтаксические и семантические свойства, что и английские слова. Но вы не можете использовать английские встраивания, чтобы создавать вложения для разных языков.

Каковы наилучшие способы создания высококачественного встраивания слов для неанглийских слов

Английские слова и неанглийские слова могут рассматриваться одинаково. Представьте свои неанглийские слова в виде строк / токенов и обучите модель w2v. Для этого используйте gensim. Вам нужно будет найти огромный корпус для языка, который вы хотите. Тогда вам придется тренировать свою модель с этим огромным корпусом в течение нескольких эпох. Готово. В качестве альтернативы ищите уже существующие модели на нужном вам языке.

Слова могут включать (samsung-galaxy-s9)

Если в вашем корпусе нет слов вроде "samsung-galaxy-s9", ваша модель не будет знать, что это значит. Используйте корпус, в котором может быть больше слов в домене, для которого вы надеетесь использовать вложения.

Другие вопросы по тегам