Почему модель Kenlm lm продолжает давать одинаковые оценки для разных слов?

Question

Почему модель Kenlm lm продолжает давать одинаковые оценки для разных слов?

Почему модель Kenlm возвращает одни и те же значения? Я также пробовал это с 4-граммовым файлом arpa. та же проблема.

      import kenlm
model = kenlm.mode('lm/test.arpa') # unigram model. 

print( [f'{x[0]:.2f}, {x[1]}, {x[2]}' for x in model.full_scores('this is a sentence', bos=False, eos=False)])
print( [f'{x[0]:.2f}, {x[1]}, {x[2]}' for x in model.full_scores('this is a sentence1', bos=False, eos=False)])
print( [f'{x[0]:.2f}, {x[1]}, {x[2]}' for x in model.full_scores('this is a devil', bos=False, eos=False)])

Результат:

['-2.00, 1, True', '-21.69, 1, False', '-1.59, 1, False', '-2.69, 1, True']

0

lm kenlm

Источник

user1591392 08 сен '21 в 22:42

1 ответ

Другие вопросы по тегам lm kenlm

user1591392 10 сен '21 в 02:12 2021-09-10 02:12 · Answer 1 · 2021-09-10 02:12

Разобрался сам.

Значение True/False в выходных данных указывает, является ли слово OOV (вне словарного запаса) или нет. Модель KenLM присваивает этим словам фиксированную вероятность. В примерах в вопросах все последние слова - это OOV.

1

Источник

user1591392 10 сен '21 в 02:12