Использование BERT для определения языка данного слова

У меня есть слова на иврите. Часть из них изначально на английском языке, а часть - "иврит-английский", что означает, что это слова, которые изначально были из английского, но написаны на иврите. Например: "инсулин" на иврите это "אינסולין" (тот же фонетический звук).

У меня есть простой набор двоичных данных. X: слова (написанные ивритом) y: метка 1, если слово изначально на английском и написано ивритом, в противном случае 0

Я попытался использовать классификатор, но ввод для него - полный текст, а мой ввод - просто слова.

Я не хочу, чтобы происходило МАСКИРОВАНИЕ, я просто хочу простую классификацию.

Можно ли использовать BERT для этой миссии? Спасибо

1 ответ

Решение

BERT предназначен для работы со словами в контексте. Без контекста BERT-подобная модель эквивалентна простому поиску word2vec (есть причудливый токенизация, но я не знаю, как она работает с ивритом - возможно, не очень эффективно). Поэтому, если вы действительно хотите использовать функции распределения в своем классификаторе, вы можете вместо этого взять предварительно обученную модель word2vec - она ​​проще, чем BERT, и не менее мощна.

Но я не уверен, что это все равно будет работать. Word2vec и его эквиваленты (например, BERT без контекста) мало знают о внутренней структуре слова - только о контекстах, в которых оно используется. Однако в вашей задаче структура слова важнее возможных контекстов. Например, слова בלוטת (железа) или דם (кровь) или סוכר (сахар) часто встречаются в том же контексте, что и инсулин, но בלוטת и דם - это иврит, тогда как סוכר - это английский (хорошо, первоначально по-арабски, но мы, вероятно, не заинтересованы в слишком древнем происхождении). Вы просто не можете предсказать это только из контекста.

Так почему бы не начать с какой-то простой модели (например, логистической регрессии или даже наивного байесовского алгоритма) поверх простых функций (например, n-грамм символов)? Также могут быть добавлены дистрибутивные функции (я имею в виду w2v), потому что они говорят о теме, а темы могут быть информативными (например, в медицине и технологии в целом, английских слов, вероятно, относительно больше, чем в других областях).

Другие вопросы по тегам